การวินิจฉัยใดที่สามารถตรวจสอบการใช้งานตระกูล GLM หนึ่ง ๆ ได้


19

ดูเหมือนว่าจะเป็นประถม แต่ฉันมักจะติดอยู่ที่จุดนี้ ...

ข้อมูลส่วนใหญ่ที่ฉันจัดการด้วยนั้นไม่ปกติและการวิเคราะห์ส่วนใหญ่อ้างอิงจากโครงสร้าง GLM สำหรับการวิเคราะห์ปัจจุบันของฉันฉันมีตัวแปรตอบสนองที่ "ความเร็วเดิน" (เมตร / นาที) เป็นเรื่องง่ายสำหรับฉันที่จะระบุว่าฉันไม่สามารถใช้ OLS ได้ แต่จากนั้นฉันมีความไม่แน่นอนอย่างมากในการตัดสินใจว่าครอบครัวใด (Gamma, Weibull และอื่น ๆ ) มีความเหมาะสม!

ฉันใช้ Stata และดูการวินิจฉัยเช่นส่วนที่เหลือและความแตกต่างแบบเฮเทอโรซิสติซิตีค่าส่วนที่เหลือเทียบกับค่าติดตั้ง ฯลฯ

ฉันทราบว่าการนับข้อมูลสามารถอยู่ในรูปแบบของอัตรา (เช่นอัตราอุบัติการณ์) และใช้แกมม่า (อะนาล็อกไปยังโมเดลลบลบทวินามแบบแยกขั้วแบบ overdispersed) แต่ต้องการ "ปืนสูบบุหรี่" เพื่อบอกว่าใช่คุณมีสิทธิ ครอบครัว. การดูค่าสารตกค้างมาตรฐานกับค่าติดตั้งเป็นวิธีเดียวและดีที่สุดในการทำเช่นนี้หรือไม่? ฉันต้องการใช้ตัวแบบผสมเพื่ออธิบายลำดับชั้นของข้อมูลด้วยเช่นกัน แต่ก่อนอื่นต้องแยกแยะว่าครอบครัวใดที่อธิบายตัวแปรตอบสนองของฉันได้ดีที่สุด

ความช่วยเหลือใด ๆ ชื่นชม ภาษา Stata ชื่นชมโดยเฉพาะอย่างยิ่ง!


4
" ฉันต้องการ" ปืนสูบบุหรี่ "ที่จะพูดว่าใช่คุณมีครอบครัวที่ถูกต้อง " - ไม่มีอะไรจะบอกคุณได้ สิ่งที่ดีที่สุดที่คุณสามารถหวังได้คือครอบครัวที่ไม่ผิดอย่างชัดเจน มีหลายวิธีที่คุณสามารถเลือกตระกูลการกระจายได้ แต่โดยทั่วไปแล้วมันมีแนวโน้มที่จะเกี่ยวข้องกับการรวมกันของการพิจารณาเบื้องต้นหรือเชิงทฤษฎีและการบ่งชี้จากข้อมูลเอง
Glen_b -Reinstate Monica

คำตอบ:


14

ฉันมีเคล็ดลับ:

(1) วิธีการเปรียบเทียบความพอดีกับสิ่งที่เหลืออยู่นั้นไม่ได้เป็นสิ่งที่ชัดเจนเสมอไปดังนั้นจึงเป็นการดีที่คุณจะคุ้นเคยกับการวินิจฉัยสำหรับรุ่นเฉพาะ ในโมเดลการถดถอยโลจิสติกเช่นสถิติ Hosmer-Lemeshow ใช้เพื่อประเมินความดีของความพอดี ค่าเรเวอเรจมักจะมีขนาดเล็กโดยที่อัตราเดิมพันโดยประมาณมีขนาดใหญ่มากเล็กมากหรือเท่ากัน และอื่น ๆ

(2) บางครั้งตระกูลรุ่นหนึ่งอาจถูกมองว่าเป็นกรณีพิเศษของอีกโมเดลดังนั้นคุณสามารถใช้การทดสอบสมมติฐานกับพารามิเตอร์เพื่อช่วยคุณเลือก ยกตัวอย่างเช่น vs Weibull

(3) เกณฑ์ข้อมูลของ Akaike มีประโยชน์ในการเลือกระหว่างรุ่นที่แตกต่างกันซึ่งรวมถึงการเลือกระหว่างตระกูลที่แตกต่างกัน

(4) ความรู้เชิงทฤษฎี / เชิงประจักษ์เกี่ยวกับสิ่งที่คุณกำลังสร้างแบบจำลองจะ จำกัด ขอบเขตของแบบจำลองที่น่าเชื่อถือ

แต่ไม่มีวิธีอัตโนมัติในการค้นหาครอบครัวที่ 'ถูกต้อง'; ข้อมูลในชีวิตจริงอาจมาจากการแจกแจงที่ซับซ้อนตามที่คุณต้องการและความซับซ้อนของแบบจำลองที่คุ้มค่าที่จะพยายามเพิ่มให้พอดีกับจำนวนข้อมูลที่คุณมี นี่เป็นส่วนหนึ่งของการบอกเล่าของ Box ว่าไม่มีรุ่นใดเป็นของจริง แต่บางรุ่นก็มีประโยชน์

ความคิดเห็นของ Re @ gung: ดูเหมือนว่าการทดสอบ Hosmer-Lemeshow ที่ใช้กันทั่วไปคือ (a) มีความไวต่อการเลือกถังขยะ & (b) โดยทั่วไปมีประสิทธิภาพน้อยกว่าการทดสอบอื่น ๆ ที่เกี่ยวข้องกับสมมติฐานทางเลือกบางประเภทที่เกี่ยวข้อง แต่นั่นไม่ได้เบี่ยงเบนจากจุด (1): มันก็ยังดีที่จะทันสมัย


ขอบคุณ! คำแนะนำของคุณสั้นกระชับและแม่นยำ ฉันถูก จำกัด ในครอบครัวที่ฉันสามารถใช้ได้เนื่องจากโครงสร้างของตัวแปรตอบสนองของฉัน (บวกต่อเนื่อง แต่เอียงสูง) ในบรรดาตระกูลเอ็กซ์โปเนนเชียลดูเหมือนว่าแกมม่าเป็นตัวเลือกเดียวเท่านั้น ในระหว่างนี้ฉันได้พบเครื่องมือที่มีประโยชน์โดย NJ Cox ตามที่ปรากฏใน Stata Jounal 5 (2): 259-273 - gammafit (รูปร่างและขนาดมาตราส่วนโดยประมาณ) และ dpplot อนุญาตให้วางโครงร่างความน่าจะเป็นของความหนาแน่นสูงและตัวแปรตอบสนองของฉัน เสร็จสิ้นด้วยการแจกแจงมากมายและให้ฉันจับคู่ครอบครัวที่ดีที่สุดกับข้อมูลของฉัน) ขอขอบคุณสำหรับข้อเสนอแนะอื่น ๆ
RLang

1
โปรดทราบว่าการทดสอบ Hosmer-Lemeshow GoF นั้นแสดงให้เห็นว่าขึ้นอยู่กับการใช้ binning / ไม่น่าเชื่อถือ
gung - Reinstate Monica

@Gung มันชัดเจนขึ้นอยู่กับการใช้ binning - ไม่เหมาะ แต่ไม่แน่ใจว่าเป็นปัญหาใหญ่เว้นแต่คุณจะเริ่มเล่นซอกับ binnings เพื่อลองผลลัพธ์ที่คุณต้องการ มันไม่น่าเชื่อถือและการทดสอบอื่น ๆ ดีกว่าอย่างไร?
Scortchi - Reinstate Monica


1
คุณพูดถูกว่า "ไม่ถูกต้อง" นั้นแรงเกินไป ฉันแค่พูดว่า "ไม่น่าเชื่อถือ" และ Harrell ใช้ "ล้าสมัย" แต่
gung - Reinstate Monica

8

คุณอาจจะพบว่ามันน่าสนใจที่จะอ่านบทความสั้น (เบื้องต้นด้วยตนเอง) fitdistrplusสำหรับแพคเกจการ ฉันรู้ว่าคุณชอบทำงานใน Stata แต่ฉันคิดว่าบทความสั้น ๆ จะอธิบายตัวเองได้อย่างเพียงพอที่คุณสามารถรับข้อมูลเชิงลึกเกี่ยวกับกระบวนการอนุมานครอบครัวจากการกระจายข้อมูล คุณอาจจะสามารถใช้ความคิดบางอย่างใน Stata ผ่านรหัสของคุณเอง โดยเฉพาะอย่างยิ่งฉันคิดว่ากราฟ Cullen และ Frey หากเป็น / สามารถนำไปใช้ใน Stata ได้อาจเป็นประโยชน์สำหรับคุณ


ฉันกลับมาทบทวนปัญหานี้อีกครั้งและเปลี่ยนไปใช้ R และฉันใช้ Zuur และ Ieno เป็นแนวทาง ยังมีอีกหลายประเด็น แต่โดยทั่วไปฉันคิดว่าการใช้ varIdent การวิเคราะห์แบบจำลองของฉันดูเหมือนว่าพวกเขามี 'ความแตกต่างเล็กน้อย' การพล็อตสิ่งที่เหลือต่อสิ่งที่ติดตั้งดูดีการอยู่กับ covariate แต่ละตัวจะให้ผลลัพธ์ที่ขี้ขลาดสำหรับหนึ่งในตัวแปรแบบจำลองของฉัน (ระดับความสูง) - ส่วนใหญ่เป็นฟังก์ชันของขนาดตัวอย่างขนาดเล็กที่ระดับความสูง ขอบคุณสำหรับความคิดเห็นของคุณใน fitdistrplus ตอนนี้ฉันใช้ R และ Rstudio (ชอบเลย!) สิ่งนี้จะเป็นประโยชน์!
RLang

1
ลิงก์เสีย นี่เป็นคู่มือแนะนำที่คุณพูดถึงใช่ไหม cran.r-project.org/doc/contrib/Ricci-distribution-en.pdfหรือเป็นคนนี้: cran.r-project.org/web/packages/fitdistrplus/vignettes/ …
emschorsch

ลิงค์หลังดูเหมือนจะเป็นบทความแตกต่างจากบทความที่ฉันอ้างถึง
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.