สมมติฐานของโมเดลเชิงเส้นทั่วไป


9

ในหน้า 232 ของ "คู่หู R เพื่อนำไปใช้การถดถอย" โน้ต Fox และ Weisberg

มีเพียงตระกูลเกาส์เซียนเท่านั้นที่มีความแปรปรวนคงที่และใน GLM อื่น ๆ ทั้งหมดความแปรปรวนแบบมีเงื่อนไขของ y ที่ขึ้นอยู่กับxμ(x)

ก่อนหน้านี้พวกเขาทราบว่าเงื่อนไขความแปรปรวนของ Poisson เป็นและที่ของทวินามคือ{N}μμ(1μ)N

สำหรับเกาส์เซียนนี่เป็นข้อสันนิษฐานที่คุ้นเคยและตรวจสอบบ่อยครั้ง (homoscedasticity) ในทำนองเดียวกันฉันมักจะเห็นความแปรปรวนแบบมีเงื่อนไขของปัวซองที่กล่าวถึงเป็นข้อสันนิษฐานของการถดถอยปัวซองพร้อมกับการเยียวยาสำหรับกรณีที่มีการละเมิด (เช่นลบทวินามลบศูนย์ศูนย์ ฯลฯ ) แต่ฉันไม่เคยเห็นความแปรปรวนแบบมีเงื่อนไขสำหรับทวินามที่กล่าวถึงเป็นข้อสันนิษฐานในการถดถอยโลจิสติก Googling เล็กน้อยไม่พบสิ่งที่กล่าวถึง

ฉันหายไปนี่อะไร

แก้ไขตามความคิดเห็นของ @whuber:

ตามที่แนะนำฉันกำลังดู Hosmer & Lemeshow มันน่าสนใจและฉันคิดว่ามันแสดงให้เห็นว่าทำไมฉัน (และบางทีคนอื่น ๆ ) สับสน ตัวอย่างเช่นคำว่า "สมมติฐาน" ไม่ได้อยู่ในดัชนีของหนังสือ นอกจากนี้เรามีสิ่งนี้ (หน้า 175)

ในการถดถอยโลจิสติกเราจะต้องพึ่งพาการประเมินภาพเป็นหลักเนื่องจากการกระจายของการวินิจฉัยภายใต้สมมติฐานที่ว่ารูปแบบที่เหมาะเป็นที่รู้จักกันเฉพาะในการตั้งค่า จำกัด บางอย่าง

พวกมันแสดงแผนการค่อนข้างน้อย แต่ให้ความสนใจกับการกระจายของเศษซากต่าง ๆ เทียบกับความน่าจะเป็นโดยประมาณ แปลงเหล่านี้ (แม้เป็นแบบอย่างที่ดีไม่มีลักษณะรูปแบบ "blobby" ของแปลงที่คล้ายกันในการถดถอย OLS และดังนั้นจึงยากต่อการตัดสิน

ใน R, plot.lm เสนอชุดเริ่มต้นที่ดีของแปลงเพื่อประเมินโมเดล ฉันไม่ทราบว่าเทียบเท่ากับการถดถอยโลจิสติกแม้ว่ามันอาจจะอยู่ในแพคเกจบาง อาจเป็นเพราะต้องการแปลงที่แตกต่างกันสำหรับแต่ละรุ่น SAS เสนอแปลงบางส่วนใน PROC LOGISTIC

สิ่งนี้ดูเหมือนจะเป็นพื้นที่ของความสับสนที่อาจเกิดขึ้น!


3
หากคุณมีสำเนาของ Hosmer & Lemeshow, Logistic Regressionแล้วให้ตรวจสอบบทที่ "การประเมินความเหมาะสมของแบบจำลอง": ความแปรปรวนแบบมีเงื่อนไขของ Binomial ปรากฏขึ้นทุกหนทุกแห่งและมีการพิจารณาอย่างชัดเจนในการทดสอบ GoF เกือบทั้งหมด
whuber

1
ฉันคิดว่าสมมติฐานทวินามถูกกำหนดโดยการทดลองจริง: การตอบสนองเป็นอิสระ 0/1 ดังนั้นการแจกแจงทวินามจึงเป็นสิ่งเดียวเท่านั้นที่เป็นแบบจำลองการทดลองจริง ตรงกันข้ามสมมติฐานของการแจกแจงปัวซองสำหรับการนับนั้นไม่เป็นจริง
Stéphane Laurent

1
ขอบคุณ @whuber ฉันมีหนังสือเล่มนั้นและจะตรวจสอบมัน
Peter Flom

... แต่ฟังก์ชั่นลิงค์ไม่เป็นธรรมชาติและเป็นตัวกำหนดความแปรปรวนแบบมีเงื่อนไข ... ดังนั้นความคิดเห็นด้านบนของฉันจึงไม่สมเหตุสมผล
Stéphane Laurent

คำตอบ:


3

แปลงเหล่านี้ (แม้เป็นแบบอย่างที่ดีไม่มีลักษณะรูปแบบ "blobby" ของแปลงที่คล้ายกันในการถดถอย OLS และดังนั้นจึงยากต่อการตัดสิน

ธรรมะ R แพคเกจแก้ปัญหานี้โดยการจำลองจากรูปแบบการติดตั้งที่จะเปลี่ยนสิ่งตกค้างใด ๆ GL (M) M เข้าไปในพื้นที่ที่ได้มาตรฐาน เมื่อทำเช่นนี้แล้วจะสามารถใช้วิธีการปกติทั้งหมดสำหรับการประเมินปัญหาทางสายตาและอย่างเป็นทางการ (เช่นแปลง qq, การกระจายเกินเหตุ, heteroskedasticity, autocorrelation) ดูบทความบทความสำหรับตัวอย่างการทำงานผ่าน

เกี่ยวกับความคิดเห็นของ @Otto_K: หากการเกินพิกัดแบบเอกพันธ์เป็นปัญหาเพียงอย่างเดียวอาจเป็นเรื่องง่ายกว่าที่จะใช้เอฟเฟกต์แบบสังเกตการณ์ระดับสังเกตซึ่งสามารถนำมาใช้กับมาตรฐานทวินาม GLMM อย่างไรก็ตามฉันคิดว่า @PeterFlom เป็นห่วงเกี่ยวกับ heteroskedasticity เช่นการเปลี่ยนแปลงของพารามิเตอร์การกระจายตัวด้วยการทำนายหรือแบบจำลองการทำนาย สิ่งนี้จะไม่ถูกหยิบขึ้นมา / แก้ไขโดยการตรวจสอบ / แก้ไขฐานเกินมาตรฐาน แต่คุณสามารถดูได้ในแปลงที่เหลือของ DHARMa สำหรับการแก้ไขการจำลองแบบการกระจายตัวเป็นฟังก์ชันอย่างอื่นใน JAGS หรือ STAN อาจเป็นวิธีเดียวในขณะนี้


1

หัวข้อที่คุณอธิบายมักถูกเรียกว่าoverdispersion ในงานของฉันฉันเห็นวิธีแก้ปัญหาที่เป็นไปได้สำหรับหัวข้อดังกล่าว:

ใช้วิธีแบบเบย์และประเมินการกระจายแบบเบต้า - ทวินาม สิ่งนี้มีความได้เปรียบอย่างมากต่อการแจกแจงแบบอื่น

อ้างอิง:

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.