การตีความแปลงการวินิจฉัยที่เหลือสำหรับรุ่น GLM?


33

ฉันกำลังมองหาแนวทางในการตีความพล็อตที่เหลือของแบบจำลอง GLM โดยเฉพาะปัวซอง, ทวินามลบ, โมเดลทวินาม เราคาดหวังอะไรจากแปลงเหล่านี้เมื่อแบบจำลองนั้น "ถูกต้อง"? (ตัวอย่างเช่นเราคาดว่าความแปรปรวนจะเพิ่มขึ้นเมื่อค่าที่คาดการณ์เพิ่มขึ้นเมื่อใช้กับแบบจำลองปัวซอง)

ฉันรู้ว่าคำตอบนั้นขึ้นอยู่กับรุ่น การอ้างอิงใด ๆ (หรือประเด็นทั่วไปที่ควรพิจารณา) จะเป็นประโยชน์ / ได้รับการชื่นชม

คำตอบ:


16

ฉันคิดว่านี่เป็นหนึ่งในส่วนที่ท้าทายที่สุดเมื่อทำการวิเคราะห์การถดถอย ฉันยังต่อสู้กับการตีความส่วนใหญ่ (โดยเฉพาะอย่างยิ่งการวินิจฉัยทวินามที่บ้ามาก!)

ฉันเพียงแค่สะดุดในโพสต์นี้ http://www.r-bloggers.com/model-validation-interpreting-residual-plots/ ที่ยังเชื่อมโยง http://statmaster.sdu.dk/courses/st111/module04/index.html # SECTION00020000000000000000

สิ่งที่ช่วยฉันได้มากที่สุดคือการพล็อตค่าคงที่เมื่อเทียบกับพารามิเตอร์ทำนายผลรวมและไม่รวมอยู่ในโมเดล นี่หมายถึงคนที่ถูกทิ้งไว้ล่วงหน้าด้วยเหตุผลหลายประการ สำหรับแผนการนี้การกระจายแบบมีเงื่อนไขและการกระจายแบบปกตินั้นยอดเยี่ยม สิ่งนี้จะช่วยให้เห็นข้อผิดพลาดที่เป็นไปได้

ใน "Forest Analytics with R" (UseR Series) เป็นคำอธิบายที่ดีเกี่ยวกับวิธีการตีความสิ่งตกค้างสำหรับโมเดลเอฟเฟกต์แบบผสม (และ glms เช่นกัน) อ่านดี! http://www.springer.com/statistics/life+sciences,+medicine+%26+health/book/978-1-4419-7761-8

เมื่อวันก่อนฉันคิดถึงเว็บไซต์ที่สามารถรวบรวมรูปแบบที่เหลือซึ่งผู้ใช้สามารถลงคะแนนให้เป็น "ตกลง" และเป็น "ไม่ตกลง" แต่ฉันไม่เคยพบเว็บไซต์นั้น)


8

ฉันขอแนะนำวิธีการที่อธิบายไว้ใน:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

มีแนวคิดแตกต่างกันเล็กน้อย แต่ส่วนใหญ่จะมาจากการจำลองข้อมูลที่คุณรู้ว่าความสัมพันธ์ที่แท้จริงคืออะไรและความสัมพันธ์นั้นขึ้นอยู่กับการวิเคราะห์ข้อมูลจริงของคุณ จากนั้นคุณเปรียบเทียบการวินิจฉัยจากข้อมูลจริงของคุณกับการวินิจฉัยของชุดข้อมูลจำลอง vis.testฟังก์ชั่นในแพคเกจสำหรับ TeachingDemos R ดำเนินการรูปแบบของ 1 ของข้อเสนอแนะในกระดาษ อ่านบทความทั้งหมด (ไม่ใช่แค่การสรุปสั้น ๆ ของฉัน) เพื่อความเข้าใจที่ดีขึ้น


ฉันคิดว่านั่นเป็นข้อเสนอแนะที่ดีในการดูรูปแบบที่เบี่ยงเบนจากการสุ่มในการกระจายหรือแปลงอื่น ๆ แต่นั่นไม่ใช่เป้าหมายเดียวเมื่อดูสิ่งที่เหลืออยู่ บ่อยครั้งที่เราสนใจโดยเฉพาะการเบี่ยงเบนจากการสุ่ม (เช่น hetereoscedasticity, misspecified ไม่ใช่เชิงเส้นในโมเดล, ตัวแปรที่ละเว้น, ค่าผิดปกติหรือค่าเรเวอเรจสูง ฯลฯ ) การเปรียบเทียบกับข้อมูลที่สร้างแบบสุ่มไม่ได้ช่วยใด ๆ ในการระบุสาเหตุที่เหลือไม่สุ่มหรือวิธีการรักษา
Andy W

@ Andy ฉันคิดว่าเราตีความคำถามต้นฉบับต่างไป คำตอบของฉันทำให้นักวิจัยเริ่มโดยบอกให้พวกเขารู้ว่ามีอะไรมากกว่าที่พวกเขาต้องมองหาหรือถ้าพล็อตที่เหลือมีเหตุผล จะทำอย่างไรถ้ามันดูไม่สมเหตุสมผลเป็นขั้นตอนต่อไปและเกินคำตอบของฉัน (แม้ว่าจะมีการเปรียบเทียบสมมติฐานเพิ่มเติมบางอย่างโดยใช้ชุดจำลองใหม่)
เกร็กสโนว์

5

คำถามนี้ค่อนข้างเก่า แต่ฉันคิดว่ามันจะมีประโยชน์ในการเพิ่มสิ่งนั้นตั้งแต่เมื่อเร็ว ๆ นี้คุณสามารถใช้แพ็กเกจ DHARMa Rเพื่อแปลงค่าส่วนที่เหลือของ GL (M) M ให้เป็นพื้นที่มาตรฐาน เมื่อทำสิ่งนี้เสร็จแล้วคุณสามารถประเมิน / ทดสอบปัญหาที่เหลือเช่นการเบี่ยงเบนจากการแจกแจงการพึ่งพาส่วนที่เหลือของเครื่องทำนาย heteroskedasticity หรือ autocorrelation ตามปกติ ดูบทความแพคเกจสำหรับการทำงานผ่านตัวอย่างยังคำถามอื่น ๆ ใน CV ของที่นี่และที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.