การถดถอยเชิงเส้นหรือการถดถอยโลจิสติกอันดับเพื่อทำนายการจัดอันดับไวน์ (จาก 0 และ 10)


18

ฉันมีข้อมูลไวน์จากที่นี่ซึ่งประกอบด้วยตัวแปรอิสระ 11 ตัวเลขที่มีการจัดอันดับที่สัมพันธ์กับแต่ละรายการที่มีค่าระหว่าง 0 ถึง 10 ทำให้ชุดข้อมูลที่ยอดเยี่ยมในการใช้แบบจำลองการถดถอยเพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปรและที่เกี่ยวข้อง อันดับ อย่างไรก็ตามการถดถอยเชิงเส้นจะเหมาะสมหรือดีกว่าที่จะใช้การถดถอยโลจิสติกแบบหลายชื่อ / สั่ง

การถดถอยแบบลอจิสติกดูเหมือนจะดีกว่าในหมวดหมู่ที่เฉพาะเจาะจงนั่นคือไม่ใช่ตัวแปรที่ขึ้นอยู่กับแบบต่อเนื่อง แต่ (1) มี 11 หมวดหมู่ (มากไปหน่อย?) และ (2) เมื่อตรวจสอบมีข้อมูลเพียง 6-7 ประเภทเท่านั้น 5-4 หมวดหมู่ไม่มีตัวอย่างในชุดข้อมูล

ในทางกลับกันการถดถอยเชิงเส้นควรประเมินเชิงเส้นตรงระหว่างระดับ 0-10 ซึ่งดูใกล้เคียงกับสิ่งที่ฉันกำลังพยายามหา แต่ตัวแปรที่ขึ้นต่อกันไม่ได้ต่อเนื่องในชุดข้อมูล

วิธีใดดีกว่ากัน หมายเหตุ: ฉันกำลังใช้ R สำหรับการวิเคราะห์

แก้ไขโดยพูดถึงประเด็นที่กล่าวถึงในคำตอบ:

  • ไม่มีเป้าหมายทางธุรกิจเนื่องจากเป็นหลักสูตรของมหาวิทยาลัย ภารกิจคือการวิเคราะห์ชุดข้อมูลที่เลือกได้ตามที่ฉันเห็นว่าเหมาะสม
  • การแจกแจงเรตติ้งนั้นดูปกติ (ฮิสโตแกรม / qq-plot) ค่าจริงในชุดข้อมูลอยู่ระหว่าง 3-8 (แม้ว่าทางเทคนิคจะมีค่า 0-10)

คำตอบ:


9

โมเดล logit ที่สั่งซื้อนั้นเหมาะสมกว่าเนื่องจากคุณมีตัวแปรตามซึ่งเป็นอันดับ 7 ดีกว่า 4 เช่น ดังนั้นจึงมีคำสั่งที่ชัดเจน

สิ่งนี้จะช่วยให้คุณได้รับความน่าจะเป็นสำหรับแต่ละถัง มีสมมติฐานบางอย่างที่คุณต้องคำนึงถึง คุณสามารถดูได้ที่นี่

หนึ่งในข้อสมมติฐานที่เกี่ยวกับการถดถอยแบบลอจิสติกอันดับที่ (และลำดับที่นิยม) คือความสัมพันธ์ระหว่างกลุ่มผลลัพธ์แต่ละคู่จะเหมือนกัน กล่าวอีกนัยหนึ่งการถดถอยโลจิสติกอันดับที่สมมติว่าค่าสัมประสิทธิ์ที่อธิบายความสัมพันธ์ระหว่างพูดต่ำสุดเมื่อเทียบกับหมวดหมู่ที่สูงขึ้นทั้งหมดของตัวแปรตอบสนองจะเหมือนกันกับที่อธิบายความสัมพันธ์ระหว่างหมวดต่ำสุดถัดไปและหมวดที่สูงขึ้นทั้งหมด ฯลฯ สิ่งนี้เรียกว่าสมมติฐานอัตราต่อรองแบบสัดส่วนหรือสมมติฐานการถดถอยแบบขนาน

บางรหัส:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

คุณสามารถมีคำอธิบายเพิ่มเติมที่นี่ , ที่นี่ , ที่นี่หรือที่นี่

โปรดทราบว่าคุณจะต้องแปลงค่าสัมประสิทธิ์ของคุณเป็นอัตราต่อรองแล้วเป็นความน่าจะเป็นที่จะมีการตีความที่ชัดเจนในแง่ของความน่าจะเป็น

ในแบบตรงไปตรงมา (และแบบง่าย) คุณสามารถคำนวณเหล่านี้โดย:

exp(βi)=OddsRatio

exp(β1)exp(βi)=Probability

(ไม่ต้องการเป็นเทคนิคเกินไป)


4

ผมอยากจะให้อีกมุมมองหนึ่งในการแก้ไขปัญหา: ในโลกแห่งความจริงก็มีโอกาสน้อยที่จะได้พบกับคำถามนี้เพราะสิ่งที่ต้องทำคือขึ้นอยู่กับความต้องการทางธุรกิจ

คำถามสำคัญในโลกแห่งความจริงคือจะทำอย่างไรหลังจากได้รับการทำนาย?

  • สมมติว่าธุรกิจต้องการทิ้งไวน์ "คุณภาพต่ำ" จากนั้นเราต้องการคำจำกัดความของ "ความเลวร้าย" (พูดคุณภาพต่ำกว่า ) ด้วยคำจำกัดความการถดถอยโลจิสติกแบบไบนารีควรใช้เพราะการตัดสินใจเป็นแบบไบนารี่ (ถังขยะหรือเก็บไม่มีอะไรอยู่ตรงกลาง)2

  • สมมติว่าธุรกิจต้องการเลือกไวน์ชั้นดีเพื่อส่งไปยังร้านอาหารสามประเภท จากนั้นจะต้องจัดหมวดหมู่หลายชั้น

โดยรวมแล้วฉันต้องการที่จะยืนยันว่าสิ่งที่ต้องทำจริงๆขึ้นอยู่กับความต้องการหลังจากได้รับการทำนายแทนที่จะมองแค่คุณสมบัติของตัวแปรตอบกลับ


1

แม้ว่าแบบจำลอง logit ที่สั่งซื้อ (ตามรายละเอียดโดย @ adrian1121) จะเหมาะสมที่สุดในแง่ของสมมติฐานแบบจำลอง แต่ฉันคิดว่าการถดถอยเชิงเส้นแบบหลายครั้งมีข้อดีเช่นกัน

  1. ตีความง่าย ตัวแบบเชิงเส้นตีความได้ง่ายกว่าแบบจำลอง logit ที่สั่ง
  2. ความสะดวกสบายของผู้มีส่วนได้ส่วนเสีย ผู้ใช้โมเดลอาจพอใจกับการถดถอยเชิงเส้นมากกว่าเพราะพวกเขามีแนวโน้มที่จะรู้ว่ามันคืออะไร
  3. ประหยัดมากขึ้น (เรียบง่าย) รูปแบบที่เรียบง่ายอาจดำเนินการเช่นเดียวกับดีให้ดูที่หัวข้อที่เกี่ยวข้อง

ความจริงที่ว่าคำตอบส่วนใหญ่อยู่ระหว่าง 3-8 แสดงให้ฉันเห็นว่าแบบจำลองเชิงเส้นอาจทำงานได้อย่างเหมาะสมกับความต้องการของคุณ ฉันไม่ได้บอกว่ามัน "ดีกว่า" แต่มันอาจเป็นวิธีปฏิบัติที่ดีกว่า


0

ตามหลักการแล้วแบบจำลองlogit นั้นดูเหมาะสม แต่หมวด 10 (หรือ 7) นั้นค่อนข้างมาก

1 /ในที่สุดมันสมเหตุสมผลไหมที่จะทำการเข้ารหัสใหม่ (เช่นเรตติ้ง 1-4 จะถูกรวมเข้าเป็น 1 modality เดียวพูดว่า "low rating")?

2 /การกระจายของการจัดอันดับคืออะไร? หากกระจายได้ดีโดยทั่วไปการถดถอยเชิงเส้นจะทำได้ดี (ดูตัวแบบความน่าจะเป็นเชิงเส้น )

3 /มิฉะนั้นฉันจะไปหาบางอย่างที่แตกต่างอย่างสิ้นเชิงที่เรียกว่า " การถดถอยเบต้า " - มาตราส่วนการจัดอันดับ 11 จุดเป็นสิ่งที่มีรายละเอียดค่อนข้างสวยเมื่อเทียบกับมาตราส่วน 5 จุดแบบคลาสสิก - ฉันคิดว่ามันจะเป็นที่ยอมรับได้ สเกลที่ 0 = Null และ 1 = เต็ม / สมบูรณ์แบบ - โดยการทำเช่นนี้คุณจะสมมติว่าสเกลของคุณเป็นประเภทช่วงเวลา (แทนที่จะเป็นเลขลำดับหนึ่ง) แต่สำหรับฉันแล้วมันฟังดูเป็นที่ยอมรับ


3
ทำไมหมวด 10 (หรือ 7) ถึงเยอะมาก? มีเหตุผลทางเทคนิคบางประการหรือไม่ทำไม 10 หมวดหมู่จะไม่ทำงานอย่างถูกต้องในแบบจำลอง logit ที่สั่งหรือคุณกำลังพูดจากมุมมองที่เป็นประโยชน์จริง ๆ หรือไม่? (เช่นการพิจารณาที่คล้ายกันกับคำตอบ hxd1011 ที่ให้ไว้)
RM

ไม่มีเหตุผลทางเทคนิคตราบใดที่ข้อมูลอนุญาตให้ประเมิน logit (OL) ที่สั่งซื้อด้วยหมวดหมู่ "มากมาย" อย่างไรก็ตามการระบุรุ่น OL ที่มี 11 หมวดหมายถึงการประมาณ 10 "ค่าคงที่" เงื่อนไข (เช่นพารามิเตอร์พารามิเตอร์) - มันฟังดูมากสำหรับฉันโดยเฉพาะอย่างยิ่งถ้าบางหมวดหมู่ไม่ได้เป็นตัวแทนที่ดีในฐานข้อมูล - ความรู้สึกของฉันคือแบบจำลอง OL สำหรับ มี 11 หมวดหมู่ที่ถูกฆ่าตายมากเกินไปฉันจะถือว่าการให้คะแนนเป็นตัวแปรต่อเนื่องหรือยุบ modalities บางอย่างเพื่อระบุแบบจำลอง OL ที่น่าจดจำมากขึ้น (และอาจมีความหมายมากกว่า)
Umka

-1

ฉันไม่ได้เป็นผู้เชี่ยวชาญในการถดถอยโลจิสติก แต่ฉันจะบอกว่าคุณต้องการใช้ Multinomial เพราะตัวแปรที่ไม่ต่อเนื่องของคุณ

การถดถอยเชิงเส้นสามารถส่งออกสัมประสิทธิ์ที่สามารถอนุมานได้จากขอบเขตที่เป็นไปได้ของตัวแปรตามของคุณ (เช่นการเพิ่มขึ้นของตัวแปรอิสระจะนำไปสู่ตัวแปรขึ้นอยู่นอกขอบเขตของคุณสำหรับค่าสัมประสิทธิ์การถดถอยที่กำหนด)

การถดถอยแบบพหุนามจะให้ความน่าจะเป็นที่แตกต่างกันสำหรับผลลัพธ์ที่ต่างกันของตัวแปรตาม (เช่นสัมประสิทธิ์การถดถอยของคุณจะให้วิธีที่พวกเขาเพิ่มความน่าจะเป็นที่จะให้คะแนนที่ดีขึ้น


3
Multinomial ดีสำหรับหมวดหมู่ที่ไม่มีการเรียงลำดับหลายหมวด ระบบลอจิสติกสามัญ (สิ่งที่ OP เสนอในคำถาม) นั้นดีสำหรับหมวดหมู่ที่สั่งหลายรายการ
Gregor

-1

ความเป็นไปได้อีกอย่างคือใช้ป่าสุ่ม มีสองวิธีในการวัด "ความสำคัญ" ของตัวแปรภายใต้ฟอเรสต์แบบสุ่ม:

  1. XjXjXjYX
  2. XjXJ

ป่าสุ่มยังคล้อยตามประเภทของการสร้างภาพข้อมูลที่เรียกว่า "พล็อตพึ่งพาบางส่วน" ดูบทช่วยสอนเชิงลึกสำหรับรายละเอียดเพิ่มเติม

การพึ่งพาอาศัยกันเพียงบางส่วนและความสำคัญด้านการเปลี่ยนแปลงนั้นไม่ได้มีเฉพาะในแบบจำลองป่าสุ่ม แต่ความนิยมของพวกเขาเพิ่มขึ้นพร้อมกับความนิยมของป่าสุ่ม


1
ฉันรู้ว่ามันเป็นคำตอบที่ค่อนข้างจะเป็นวง แต่ฉันอยากจะรู้ว่าทำไมมันถึงถูกลดทอนลง มันไม่ถูกต้องหรือ
shadowtalker
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.