GLM: การตรวจสอบตัวเลือกการกระจายและฟังก์ชันลิงก์


14

ฉันมีโมเดลเชิงเส้นทั่วไปที่ใช้ฟังก์ชันการแจกแจงแบบเกาส์และล็อกลิงก์ หลังจากติดตั้งแบบจำลองแล้วฉันจะตรวจสอบส่วนที่เหลือ: พล็อต QQ, ส่วนที่เหลือเทียบกับค่าที่คาดการณ์ไว้, ฮิสโตแกรมของส่วนที่เหลือ (ยอมรับว่าจำเป็นต้องใช้ความระมัดระวังเนื่องจาก) ทุกอย่างดูดี สิ่งนี้ดูเหมือนจะแนะนำ (สำหรับฉัน) ว่าทางเลือกของการแจกแจงแบบเกาส์นั้นค่อนข้างสมเหตุสมผล หรืออย่างน้อยที่สุดสิ่งที่เหลืออยู่สอดคล้องกับการกระจายตัวที่ฉันใช้ในแบบจำลองของฉัน

Q1 : มันจะไปไกลเกินกว่าที่จะยืนยันว่าเป็นตัวเลือกการกระจายตัวของฉันหรือไม่?

ฉันเลือกฟังก์ชั่นบันทึกการเชื่อมโยงเพราะตัวแปรตอบกลับของฉันเป็นค่าบวกเสมอ แต่ฉันต้องการการยืนยันว่าเป็นทางเลือกที่ดี

Q2 : มีการทดสอบใด ๆ เช่นการตรวจสอบสิ่งที่เหลืออยู่สำหรับการเลือกการแจกแจงที่สามารถรองรับฟังก์ชั่นลิงค์ของฉันได้หรือไม่? (การเลือกฟังก์ชั่นลิงค์ดูเหมือนจะเป็นเรื่องที่ไม่ชอบใจฉันเนื่องจากแนวทางเดียวที่ฉันสามารถค้นหาได้นั้นค่อนข้างคลุมเครือและมีคลื่นมือซึ่งน่าจะเป็นเหตุผลที่ดี)


2
ไตรมาสที่ 1 คุณสามารถลองการกระจายแบบอื่น ๆ และดูว่ามันทำงานได้ดีขึ้นหรือไม่ ไตรมาสที่ 2 การเลือกลิงค์บันทึกเพื่อให้แน่ใจว่าการคาดการณ์ในเชิงบวกดูเหมือนจะไม่เป็นความผิดของฉัน มันเป็นเหตุผล แต่ไม่ว่าคุณจะได้รับการคาดการณ์เชิงลบพร้อมลิงก์ตัวตนและข้อมูลที่คุณมีสามารถตรวจสอบได้ บรรทัดล่าง: คุณไม่สามารถชัดเจนได้ว่ารุ่นอื่นจะไม่ดีกว่าจนกว่าคุณจะลอง
Nick Cox

1
Yexp(η)R2

2
R2

คำตอบ:


13
  1. นี่เป็นคำถามที่พบบ่อยเกี่ยวกับว่าคุณสามารถยืนยันสมมติฐานว่างได้หรือไม่ ในกรณีของคุณโมฆะก็คือส่วนที่เหลือเป็นเกาส์นและการตรวจสอบภาพของคุณ (qq-plots, histograms, ฯลฯ ) ที่มองเห็นได้นั้นถือเป็นการ 'ทดสอบ' (สำหรับภาพรวมทั่วไปของปัญหาของการยืนยันโมฆะมันอาจช่วยให้อ่านคำตอบของฉันที่นี่: ทำไมนักสถิติพูดว่าผลลัพธ์ที่ไม่สำคัญหมายความว่า "คุณไม่สามารถปฏิเสธโมฆะ" เมื่อเทียบกับการยอมรับสมมติฐานว่าง? ) ในกรณีเฉพาะของคุณคุณสามารถพูดได้ว่าแผนการแสดงของคุณมีความสอดคล้องกับข้อสมมติของคุณเกี่ยวกับภาวะปกติ แต่พวกเขาไม่ได้ "ตรวจสอบ" สมมติฐาน

  2. คุณสามารถเหมาะสมกับรูปแบบของคุณโดยใช้ฟังก์ชั่นการเชื่อมโยงที่แตกต่างกันและเปรียบเทียบพวกเขาแต่ไม่มีการทดสอบฟังก์ชั่นการเชื่อมโยงเดียวในการแยก (นี้ไม่ถูกต้องอย่างเห็นได้ชัดดู @ Glen_b ของคำตอบ ) ในคำตอบของฉันถึงความแตกต่างระหว่างรุ่น logit และ probit (ซึ่งอาจคุ้มค่ากับการอ่านแม้ว่ามันจะไม่เหมือนกันก็ตาม) ฉันยืนยันว่าควรเลือกฟังก์ชั่นลิงก์ตาม:

    1. ความรู้เกี่ยวกับการกระจายการตอบสนอง
    2. การพิจารณาเชิงทฤษฎีและ
    3. เชิงประจักษ์พอดีกับข้อมูล

    YYจากการเป็นเชิงลบมันยังก่อให้เกิดรูปร่างที่เฉพาะเจาะจงกับความสัมพันธ์ของเส้นโค้ง พล็อตมาตรฐานของค่าใช้จ่ายเทียบกับค่าติดตั้ง (อาจมีการซ้อนทับพอดี) จะช่วยให้คุณระบุว่าความโค้งภายในของข้อมูลของคุณเป็นการจับคู่ที่เหมาะสมสำหรับความโค้งเฉพาะที่กำหนดโดยลิงก์บันทึกที่กำหนด ดังที่ได้กล่าวไปแล้วคุณสามารถลองการเปลี่ยนแปลงอื่น ๆ ที่ตรงตามเกณฑ์ทางทฤษฎีของคุณที่คุณต้องการและเปรียบเทียบทั้งสองแบบได้โดยตรง


16

มันจะไปไกลเกินกว่าที่จะระบุว่ามันตรวจสอบตัวเลือกการกระจายของฉันหรือไม่?

มันขึ้นอยู่กับสิ่งที่คุณหมายถึงโดย 'ตรวจสอบความถูกต้อง' แต่ฉันจะบอกว่า 'ใช่แล้วมันไปไกลเกินไป' ในแบบเดียวกับที่คุณไม่สามารถพูดได้จริง ๆ มีคะแนนเป็นโมฆะ แต่อย่างน้อยก็มีความหมายมากกว่า) คุณสามารถพูดได้ว่า "เอ่อเราไม่มีหลักฐานแน่ชัดว่าผิด" แต่ในกรณีใด ๆ ที่เราไม่ได้คาดหวังแบบจำลองของเราที่จะสมบูรณ์แบบที่พวกเขากำลังรุ่น ดังที่ Box & Draper กล่าวไว้ว่า " พวกเขาจะต้องทำตัวอย่างไรให้ไม่เป็นประโยชน์? "

หนึ่งในสองประโยคก่อนหน้านี้:

สิ่งนี้ดูเหมือนจะแนะนำ (สำหรับฉัน) ว่าทางเลือกของการแจกแจงแบบเกาส์นั้นค่อนข้างสมเหตุสมผล หรืออย่างน้อยที่สุดสิ่งที่เหลืออยู่สอดคล้องกับการกระจายตัวที่ฉันใช้ในแบบจำลองของฉัน

อธิบายสิ่งที่การวินิจฉัยของคุณระบุได้อย่างแม่นยำมากขึ้น - ไม่ใช่ว่าแบบเกาส์เซียนพร้อมลิงค์บันทึกถูกต้อง - แต่มันก็สมเหตุสมผลหรือสอดคล้องกับข้อมูล

ฉันเลือกฟังก์ชั่นบันทึกการเชื่อมโยงเพราะตัวแปรตอบกลับของฉันเป็นค่าบวกเสมอ แต่ฉันต้องการการยืนยันว่าเป็นทางเลือกที่ดี

หากคุณรู้ว่ามันต้องเป็นค่าบวกค่าเฉลี่ยของมันจะต้องเป็นค่าบวก มันสมเหตุสมผลที่จะเลือกรุ่นที่มีความสอดคล้องอย่างน้อยที่สุด ฉันไม่รู้ว่ามันเป็นทางเลือกที่ดีหรือไม่ (อาจมีทางเลือกที่ดีกว่า) แต่มันก็สมเหตุสมผลที่จะทำ มันอาจเป็นจุดเริ่มต้นของฉัน [อย่างไรก็ตามหากตัวแปรนั้นจำเป็นต้องเป็นค่าบวกความคิดแรกของฉันก็น่าจะเป็นแกมม่าที่มีล็อกลิงค์แทนที่จะเป็นเกาส์เซียน "บวกจำเป็น" แนะนำทั้งความเบ้และความแปรปรวนที่เปลี่ยนแปลงด้วยค่าเฉลี่ย]

Q2: มีการทดสอบใด ๆ เช่นการตรวจสอบสิ่งที่เหลืออยู่สำหรับการเลือกการแจกแจงที่สามารถรองรับฟังก์ชั่นลิงค์ที่ฉันเลือกได้หรือไม่?

ดูเหมือนว่าคุณไม่ได้หมายถึง 'ทดสอบ' เช่นเดียวกับใน "การทดสอบสมมติฐานอย่างเป็นทางการ" แต่แทนที่จะเป็น 'ตรวจสอบวินิจฉัย'

ไม่ว่าในกรณีใดคำตอบคือใช่มี

หนึ่งทดสอบสมมติฐานอย่างเป็นทางการ Pregibon ของคุณงามความดีของการทดสอบการเชื่อมโยง [1]

สิ่งนี้มีพื้นฐานมาจากการฝังฟังก์ชันลิงก์ในตระกูล Box-Cox เพื่อทำการทดสอบสมมติฐานของพารามิเตอร์ Box-Cox

ดูการอภิปรายสั้น ๆ เกี่ยวกับการทดสอบของ Pregibon ใน Breslow (1996) [2] ( ดูหน้า 14 )

อย่างไรก็ตามฉันขอแนะนำอย่างยิ่งให้เกาะติดกับเส้นทางการวินิจฉัย หากคุณต้องการตรวจสอบฟังก์ชั่นลิงค์คุณจะยืนยันในระดับลิงค์η=ก.(μ) เป็นเส้นตรงใน xของที่อยู่ในรูปแบบดังนั้นการประเมินขั้นพื้นฐานอย่างหนึ่งอาจดูโครงเรื่องของส่วนที่เหลือต่อตัวทำนาย ตัวอย่างเช่น,

การทำงานเหลือ RผมW=(Yผม-μ^ผม)(ημ)

(ซึ่งฉันจะเอนไปหาการประเมินนี้) หรืออาจดูความเบี่ยงเบนจากความเป็นเส้นตรงในส่วนที่เหลือบางส่วนโดยมีหนึ่งพล็อตสำหรับตัวทำนายแต่ละตัว (ดูตัวอย่าง Hardin และ Hilbe แบบจำลองเชิงเส้นและส่วนขยายทั่วไปรุ่นที่ 2 .4 p54 สำหรับคำจำกัดความ)

RkผมT=(Yผม-μ^ผม)(ημ)+xผมkβ^k

=RผมW+xผมkβ^k

ในกรณีที่ข้อมูลยอมรับการแปลงโดยฟังก์ชั่นลิงก์คุณสามารถมองหาเส้นตรงในลักษณะเดียวกับการถดถอยเชิงเส้น (แม้ว่าฉันจะเหลือความเบ้

ในกรณีของตัวพยากรณ์เชิงหมวดหมู่การเลือกฟังก์ชั่นลิงค์เป็นเรื่องของความสะดวกสบายหรือความสามารถในการตีความมากกว่าความพอดีควรจะเหมือนกัน (ไม่จำเป็นต้องประเมินสำหรับพวกเขา)

คุณสามารถใช้วิธีการวินิจฉัยของ Pregibon

สิ่งเหล่านี้ไม่ได้สร้างรายการที่ครบถ้วนสมบูรณ์ คุณสามารถค้นหาการวินิจฉัยอื่น ๆ ที่กล่าวถึง

[ที่กล่าวว่าฉันเห็นด้วยกับการประเมินของ gung ว่าการเลือกฟังก์ชั่นลิงค์ควรเริ่มจากสิ่งต่าง ๆ เช่นการพิจารณาทางทฤษฎีหากเป็นไปได้]

ดูการอภิปรายบางส่วนในโพสต์นี้ซึ่งเกี่ยวข้องอย่างน้อยบางส่วน

[1]: Pregibon, D. (1980),
"Goodness of Link Test สำหรับโมเดลเชิงเส้นทั่วไป"
วารสารของสมาคมสถิติแห่ง Royal Series C (สถิติประยุกต์) ,
ฉบับที่ 29, ลำดับที่ 1, หน้า 15-23

[2]: Breslow NE (1996),
"โมเดลเชิงเส้นทั่วไป: การตรวจสอบสมมติฐานและเสริมสร้างข้อสรุป"
Statistica Applicata 8 , 23-41
ไฟล์ PDF

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.