ข้อมูลจากเมทริกซ์ของหมวกสำหรับการถดถอยโลจิสติก


12

เป็นที่ชัดเจนสำหรับฉันและอธิบายได้ดีในหลาย ๆ ไซต์ข้อมูลที่มีค่าในแนวทแยงของเมทริกซ์หมวกให้การถดถอยเชิงเส้น

หมวกเมทริกซ์ของโมเดลการถดถอยแบบโลจิสติกส์นั้นชัดเจนน้อยกว่าสำหรับฉัน มันเหมือนกับข้อมูลที่คุณได้รับจากหมวกเมทริกซ์ที่ใช้การถดถอยเชิงเส้นหรือไม่? นี่คือคำจำกัดความของ hat matrix ที่ฉันพบในหัวข้ออื่นของ CV (ที่มา 1):

H=VX(XVX)1XV

กับ X เวกเตอร์ของตัวแปรและวีเป็นเส้นทแยงมุมกับเมทริกซ์(π(1π))(1-π))}

มันคือความจริงที่ว่าค่าเฉพาะของเมทริกซ์หมวกของการสังเกตนั้นยังแสดงถึงตำแหน่งของโควาเรียร์ในอวกาศ covariate และไม่มีอะไรเกี่ยวข้องกับค่าผลลัพธ์ของการสังเกตนั้นหรือไม่?

นี่เขียนไว้ในหนังสือ "การวิเคราะห์ข้อมูลหมวดหมู่" ของ Agresti:

ความสามารถในการสังเกตก็จะยิ่งเพิ่มมากขึ้นเท่านั้น เช่นเดียวกับในการถดถอยสามัญเลเวอเรจจะอยู่ระหว่าง 0 และ 1 และรวมกับจำนวนพารามิเตอร์โมเดล ซึ่งแตกต่างจากการถดถอยทั่วไปค่าหมวกขึ้นอยู่กับความพอดีเช่นเดียวกับแบบจำลองเมทริกซ์และจุดที่มีค่าตัวทำนายที่รุนแรงนั้นไม่จำเป็นต้องใช้ประโยชน์สูง

ดังนั้นจากคำจำกัดความนี้ดูเหมือนว่าเราไม่สามารถใช้งานได้เหมือนที่เราใช้ในการถดถอยเชิงเส้นปกติ

ที่มา 1: วิธีการคำนวณเมทริกซ์หมวกสำหรับการถดถอยโลจิสติกใน R?

คำตอบ:


13

ขอเปลี่ยนสัญกรณ์สักหน่อยแล้วเขียนเมทริกซ์ของหมวกเป็น ที่เป็นเมทริกซ์สมมาตรเส้นทแยงมุมกับองค์ประกอบทั่วไปขวา] แสดงว่าเป็นกลุ่มบุคคลที่มีค่าตัวแปรร่วมเดียวกันx_j คุณสามารถรับองค์ประกอบเส้นทแยงมุม ( ) ของเมทริกซ์ของหมวกเป็น จากนั้นผลรวมของให้จำนวนพารามิเตอร์ในการถดถอยเชิงเส้น ตอนนี้คำถามของคุณ:

H=V12X(XVX)1XV12
Vvj=mjπ(xj)[1π(xj)]mjx=xjjthhj
hj=mjπ(xj)[1π(xj)]xj(XVX)1xj
hj

ในความหมายของค่าใช้ประโยชน์ในเมทริกซ์หมวกขึ้นอยู่กับความน่าจะเป็นประมาณ\ ถ้าคุณสามารถตีความค่าเลเวอเรจในแบบที่คล้ายกับในกรณีการถดถอยเชิงเส้นนั่นคือการอยู่ห่างจากค่าเฉลี่ยจะให้ค่าที่สูงกว่า หากคุณอยู่ในส่วนท้ายสุดของการกระจายความน่าจะเป็นค่าการงัดเหล่านี้อาจไม่วัดระยะทางอีกต่อไปในแง่เดียวกัน ดังแสดงในภาพด้านล่างจาก Hosmer และ Lemeshow (2000):π0.1<π<0.9

ป้อนคำอธิบายรูปภาพที่นี่

ในกรณีนี้ค่ามากที่สุดในพื้นที่ covariate สามารถให้คุณใช้ประโยชน์น้อยที่สุดซึ่งตรงข้ามกับกรณีการถดถอยเชิงเส้น เหตุผลก็คือการยกระดับในการถดถอยเชิงเส้นเป็นฟังก์ชั่นแบบโมโนโทนิกซึ่งไม่เป็นความจริงสำหรับการถดถอยโลจิสติกที่ไม่ใช่เชิงเส้น มีส่วนที่เพิ่มขึ้นแบบ monotonically ในสูตรด้านบนขององค์ประกอบในแนวทแยงของเมทริกซ์หมวกซึ่งแสดงระยะทางจากค่าเฉลี่ยคือ นั่นคือส่วนหนึ่งซึ่งคุณอาจมองว่าคุณสนใจระยะทางเท่านั้น สถิติการวินิจฉัยส่วนใหญ่สำหรับการถดถอยแบบลอจิสติกใช้ประโยชน์จากดังนั้นส่วนที่แยกออกจากกันนี้จึงไม่ค่อยได้รับการพิจารณาเพียงลำพังxj(XVX)1xjhj

หากคุณต้องการอ่านลึกลงไปในหัวข้อนี้ให้ดูที่กระดาษโดย Pregibon (1981) ที่ได้รับเมทริกซ์หมวกโลจิสติกและหนังสือโดย Hosmer และ Lemeshow (2000)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.