overdispersion ในการถดถอยโลจิสติก


14

ฉันพยายามจัดการกับแนวคิดของการกระจายเกินเหตุในการถดถอยโลจิสติก ฉันได้อ่านว่าการกระจายข้อความเกินขนาดนั้นเกิดขึ้นเมื่อความแปรปรวนที่สังเกตได้ของตัวแปรตอบกลับสูงกว่าที่คาดไว้จากการแจกแจงทวินาม

แต่หากตัวแปรทวินามมีได้เพียงสองค่า (1/0) จะมีค่าเฉลี่ยและความแปรปรวนได้อย่างไร

ฉันสบายดีกับการคำนวณค่าเฉลี่ยและความแปรปรวนของความสำเร็จจากการทดลองหมายเลข Bernoulli แต่ฉันไม่สามารถคาดเดาแนวคิดเรื่องค่าเฉลี่ยและความแปรปรวนของตัวแปรที่มีค่าได้สองค่าเท่านั้น

ทุกคนสามารถให้ภาพรวมที่ใช้งานง่ายของ:

  1. แนวคิดของค่าเฉลี่ยและความแปรปรวนในตัวแปรที่สามารถมีได้สองค่าเท่านั้น
  2. แนวคิดของการกระจายเกินเหตุในตัวแปรที่มีได้เพียงสองค่า

1
เพิ่มคุณค่าของ 20ที่ 10 เป็นและ 10 มี1คุณหารหารด้วย 20 ได้ไหม? คุณสามารถคำนวณ sdไหม? y01y
Sycorax พูดว่า Reinstate Monica

ใส่ไว้อย่างดีดังนั้นฉันเชื่อว่านั่นหมายถึง = 0.5 ส่วนเบี่ยงเบนมาตรฐาน = 0.11
luciano

พูดว่าตัวแปรตอบกลับของฉันมี 100 สำเร็จและ 5 ล้มเหลว มีแนวโน้มที่จะถูกใช้งานเกินขนาดหรือไม่
luciano

แน่นอน, คุณต้องมีการทดลองมากกว่าหนึ่งการทดสอบเพื่อดูว่ามีการใช้งานเกินขนาดหรือไม่
Underminer

คำตอบ:


10

ตัวแปรสุ่มแบบทวินามที่มีการทดลองและความน่าจะเป็นของความสำเร็จสามารถใช้ค่ามากกว่าสองค่า ตัวแปรสุ่มทวินามแสดงจำนวนของความสำเร็จในการทดลองเหล่านั้นและในความเป็นจริงสามารถรับค่าที่แตกต่าง ( ) ดังนั้นหากความแปรปรวนของการแจกแจงนั้นยิ่งใหญ่เกินคาดภายใต้สมมติฐานทวินาม (บางทีอาจมีค่าศูนย์ส่วนเกินเช่น) นั่นเป็นกรณีของการกระจายเกินจริง P N N + 1 0 , 1 , 2 , 3 , . . , NNpNN+10,1,2,3,...,N

การกระจายมากเกินไปไม่สมเหตุสมผลสำหรับตัวแปรสุ่มของ Bernoulli ( )N=1

ในบริบทของเส้นโค้งการถดถอยโลจิสติกคุณสามารถพิจารณา "ชิ้นเล็ก ๆ " หรือการจัดกลุ่มผ่านค่าตัวทำนายช่วงแคบ ๆ เพื่อให้เกิดการทดลองแบบทวินาม (บางทีเราอาจมี 10 คะแนนในชิ้นด้วยจำนวนที่แน่นอน ความสำเร็จและความล้มเหลว) แม้ว่าเราจะไม่ได้มีการทดลองหลายครั้งในแต่ละค่าของตัวทำนายและเรากำลังดูสัดส่วนแทนจำนวนดิบเรายังคงคาดหวังสัดส่วนของ "ชิ้นส่วน" เหล่านี้แต่ละตัวให้ใกล้เคียงกับเส้นโค้ง หาก "ชิ้นส่วน" เหล่านี้มีแนวโน้มที่จะอยู่ห่างจากเส้นโค้งแสดงว่ามีความแปรปรวนมากเกินไปในการแจกแจง ดังนั้นโดยการจัดกลุ่มการสังเกตคุณสร้างการรับรู้ของตัวแปรสุ่มแบบทวินามมากกว่าที่จะดูข้อมูล 0/1 แยกกัน

ตัวอย่างด้านล่างมาจากคำถามอื่นในไซต์นี้ ให้บอกว่าเส้นสีน้ำเงินแสดงถึงสัดส่วนที่คาดหวังในช่วงของตัวแปรทำนาย เซลล์สีฟ้าหมายถึงกรณีที่สังเกตได้ (ในกรณีนี้คือโรงเรียน) นี้จะมีการแสดงกราฟิกของวิธี overdispersion อาจมอง โปรดทราบว่ามีข้อบกพร่องในการตีความเซลล์ของกราฟด้านล่าง แต่ให้แนวคิดว่าการแสดงการกระจายเกินขนาดสามารถแสดงตัวเองได้อย่างไร

มากกว่าตัวอย่างการกระจาย


1
แต่ฉันสนใจที่จะพูดเกินจริงในบริบทของการถดถอยโลจิสติก สำหรับแต่ละค่าของตัวแปรตัวทำนายในการถดถอยโลจิสติกไม่มีการทดลอง n มีการทดลองเพียงครั้งเดียวเท่านั้น และผลของการทดลองครั้งหนึ่งนั้นประสบความสำเร็จหรือล้มเหลว
ลูเซียโน

ฉันเพิ่งเพิ่มย่อหน้าเพื่อจัดการกับสัญชาตญาณที่อยู่เบื้องหลัง overdispersion ในบริบทของการถดถอยเชิงเส้น
Underminer

1
อันเดอร์มิเนอร์ฉันพยายามจินตนาการว่าคุณหมายถึงประโยคนี้อย่างไร: "ถ้า" ชิ้นส่วน "เหล่านี้มีแนวโน้มที่จะอยู่ห่างจากเส้นโค้งการกระจายตัวนั้นมีความแปรปรวนมากเกินไป" นี่คือสิ่งที่ฉันคิดว่าคุณหมายถึง: ที่ชิ้นบนเส้นโค้งที่มีความน่าจะเป็นของความสำเร็จ 0.1-0.3 มีความสำเร็จมากมายและที่ชิ้นบนเส้นโค้งที่มีความน่าจะเป็น 0.7-0.9 ของความสำเร็จที่มีจำนวนมาก ของล้มเหลว นี่คือสิ่งที่คุณหมายถึงและสิ่งนี้จะแสดงให้เห็นถึงการ overdispersion?
luciano

1
@luciano นั่นเป็นความคิดที่ถูกต้อง แต่โปรดจำไว้ว่าจะต้องมีความสมดุลของ "สไลซ์" ที่อยู่ไกลเกินกว่าและต่ำกว่าโค้งมากเกินไปเพื่อให้พอดีกับที่เกิดขึ้นตั้งแต่แรก ดังนั้นอาจเป็นไปได้ที่จะพูดว่าชิ้นรอบ 0.7 มีความสำเร็จมากเกินไป (อาจจะ 100%) และชิ้นถัดไปที่ประมาณ 0.75 มีน้อยเกินไป (50%) จากนั้น 0.80 มีมากเกินไป (100%) เป็นต้นดังนั้นจึงมี สังเกตความแปรปรวนได้มากกว่าที่คาดไว้
Underminer

ฉันได้รับยาอธิบายอย่างดี
luciano

7

ดังที่ผู้อื่นได้กล่าวไว้แล้วการกระจายเกินขนาดไม่ได้ใช้ในกรณีของตัวแปร Bernoulli (0/1) เนื่องจากในกรณีดังกล่าวค่าเฉลี่ยจำเป็นต้องกำหนดความแปรปรวน ในบริบทของการถดถอยโลจิสติกซึ่งหมายความว่าหากผลลัพธ์ของคุณเป็นไบนารีคุณจะไม่สามารถประมาณพารามิเตอร์การกระจาย (NB นี้ไม่ได้หมายความว่าคุณสามารถละเว้นความสัมพันธ์ที่อาจเกิดขึ้นระหว่างการสังเกตเพียงเพราะผลของคุณเป็นแบบไบนารี!)

หากในทางกลับกันผลลัพธ์ของคุณคือชุดของสัดส่วนคุณสามารถประมาณพารามิเตอร์การกระจายตัว (ซึ่งแม้ว่าบ่อยกว่าหนึ่งอาจน้อยกว่าหนึ่ง) โดยการหารสถิติเพียร์สันไค - สแควร์ (หรือความเบี่ยงเบน ) โดยองศาอิสระที่เหลือ

โปรดจำไว้ว่าการถดถอยโลจิสติกที่มีผลลัพธ์ไบนารีล้วนเป็นเพียงกรณีพิเศษของแบบจำลองการถดถอยโลจิสติกทั่วไปที่มีดัชนีทวินามมากกว่าหนึ่ง (และอาจแตกต่างกันไปตามการสังเกต) ดังนั้นคำถามที่ว่าคุณเหมาะสมกับรูปแบบการถดถอยโลจิสติกส์หรือไม่นั้นไม่เกี่ยวข้องกับคำถามที่ว่าข้อมูลของคุณถูกใช้เกินขนาดหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.