การประเมินรูปแบบการถดถอยโลจิสติก


13

ฉันกำลังทำงานกับโมเดลโลจิสติกส์และฉันมีปัญหาในการประเมินผลลัพธ์ โมเดลของฉันเป็น logom ทวินาม ตัวแปรอธิบายของฉันคือ: ตัวแปรเด็ดขาดที่มี 15 ระดับตัวแปร dichotomous และ 2 ตัวแปรต่อเนื่อง My N มีขนาดใหญ่> 8000

ฉันพยายามจำลองการตัดสินใจของ บริษัท ที่จะลงทุน ตัวแปรตามคือการลงทุน (ใช่ / ไม่ใช่) ตัวแปรระดับ 15 เป็นอุปสรรคที่แตกต่างกันสำหรับการลงทุนที่รายงานโดยผู้จัดการ ตัวแปรที่เหลือคือการควบคุมการขายเครดิตและกำลังการผลิตที่ใช้

ด้านล่างคือผลลัพธ์ของฉันโดยใช้rmsแพ็คเกจใน R

  Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
Obs          8035    LR chi2     399.83    R2       0.067    C       0.632    
 1           5306    d.f.            17    g        0.544    Dxy     0.264    
 2           2729    Pr(> chi2) <0.0001    gr       1.723    gamma   0.266    
max |deriv| 6e-09                          gp       0.119    tau-a   0.118    
                                           Brier    0.213                     

          Coef    S.E.   Wald Z Pr(>|Z|)
Intercept -0.9501 0.1141 -8.33  <0.0001 
x1=10     -0.4929 0.1000 -4.93  <0.0001 
x1=11     -0.5735 0.1057 -5.43  <0.0001 
x1=12     -0.0748 0.0806 -0.93  0.3536  
x1=13     -0.3894 0.1318 -2.96  0.0031  
x1=14     -0.2788 0.0953 -2.92  0.0035  
x1=15     -0.7672 0.2302 -3.33  0.0009  
x1=2      -0.5360 0.2668 -2.01  0.0446  
x1=3      -0.3258 0.1548 -2.10  0.0353  
x1=4      -0.4092 0.1319 -3.10  0.0019  
x1=5      -0.5152 0.2304 -2.24  0.0254  
x1=6      -0.2897 0.1538 -1.88  0.0596  
x1=7      -0.6216 0.1768 -3.52  0.0004  
x1=8      -0.5861 0.1202 -4.88  <0.0001 
x1=9      -0.5522 0.1078 -5.13  <0.0001 
d2         0.0000 0.0000 -0.64  0.5206  
f1        -0.0088 0.0011 -8.19  <0.0001 
k8         0.7348 0.0499 14.74  <0.0001 

โดยทั่วไปฉันต้องการประเมินการถดถอยสองวิธี a) แบบจำลองที่เหมาะสมกับข้อมูลและ b) แบบจำลองนั้นทำนายผลได้ดีเพียงใด เพื่อประเมินความดีของความพอดี (a) ฉันคิดว่าการทดสอบความเบี่ยงเบนตามไคสแควร์นั้นไม่เหมาะสมในกรณีนี้เนื่องจากจำนวนโควาเรียที่ไม่ซ้ำกันมีค่าใกล้เคียงกับ N ดังนั้นเราจึงไม่สามารถทำการแจกแจง X2 ได้ การตีความนี้ถูกต้องหรือไม่

ฉันเห็นผู้ร่วมงานใช้epiRแพ็คเกจนี้

require(epiR)
logit.cp <- epi.cp(logit.df[-1]))

    id n x1   d2 f1 k8
     1 1 13 2030 56  1
     2 1 14  445 51  0
     3 1 12 1359 51  1
     4 1  1 1163 39  0
     5 1  7  547 62  0
     6 1  5 3721 62  1
    ...
    7446

ฉันได้อ่านด้วยว่าการทดสอบ Hosmer-Lemeshow GoF นั้นล้าสมัยแล้วเนื่องจากมันแบ่งข้อมูลเป็น 10 เพื่อให้การทดสอบดำเนินการซึ่งค่อนข้างสุ่ม

แต่ฉันใช้การทดสอบ Le Cessie – van Houwelingen – Copas – Hosmer ซึ่งนำไปใช้ในrmsแพ็คเกจ ฉันไม่แน่ใจว่าวิธีการทดสอบนี้ดำเนินการอย่างไรฉันยังไม่ได้อ่านเอกสารเกี่ยวกับเรื่องนี้ ไม่ว่าในกรณีใดผลลัพธ์คือ:

Sum of squared errors    Expected value|H0           SD             Z            P
         1711.6449914         1712.2031888    0.5670868    -0.9843245    0.3249560

P มีขนาดใหญ่ดังนั้นจึงไม่มีหลักฐานเพียงพอที่จะบอกว่าแบบจำลองของฉันไม่พอดี ที่ดี! แต่ ....

เมื่อตรวจสอบความสามารถในการคาดการณ์ของรูปแบบ (ข) ผมวาดเส้นโค้ง ROC และพบว่า AUC 0.6320586คือ นั่นไม่ได้ดูดีมาก

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นเพื่อสรุปคำถามของฉัน:

  1. การทดสอบที่ฉันทำนั้นเหมาะสมที่จะตรวจสอบแบบจำลองของฉันหรือไม่? การทดสอบอื่น ๆ ที่ฉันสามารถพิจารณาได้?

  2. คุณคิดว่าแบบจำลองมีประโยชน์หรือไม่หรือคุณจะยกเลิกแบบจำลองโดยดูจากผลการวิเคราะห์ ROC ที่ค่อนข้างแย่


คุณแน่ใจหรือว่าคุณx1ควรจะเป็นตัวแปรเด็ดขาดเดียว? นั่นคือทุกกรณีต้องมี 1 และเพียง 1 'อุปสรรค' ในการลงทุนหรือไม่ ฉันคิดว่าบางกรณีอาจต้องเผชิญกับสิ่งกีดขวาง 2 ครั้งขึ้นไป & บางกรณีไม่มีเลย
gung - Reinstate Monica

คำตอบ:


6

มีการทดสอบหลายพันครั้งที่เราสามารถนำไปใช้ในการตรวจสอบรูปแบบการถดถอยโลจิสติกและสิ่งนี้ขึ้นอยู่กับว่าเป้าหมายของเราคือการทำนายการจัดประเภทการเลือกตัวแปรการอนุมานแบบจำลองเชิงสาเหตุเป็นต้นการทดสอบ Hosmer-Lemeshow เป็นต้น การสอบเทียบโมเดลและค่าที่คาดการณ์มีแนวโน้มว่าจะตรงกับความถี่ที่คาดการณ์หรือไม่เมื่อแบ่งตาม deciles ความเสี่ยง แม้ว่าการเลือก 10 ข้อใดก็ได้การทดสอบมีผลเชิงซีมโทติคและสามารถปรับเปลี่ยนได้อย่างง่ายดาย การทดสอบ HL รวมถึง AUC มีผลลัพธ์ที่ไม่น่าสนใจอย่างมากเมื่อคำนวณจากข้อมูลเดียวกันกับที่ใช้ในการประเมินรูปแบบการถดถอยโลจิสติกส์ มันเป็นโปรแกรมที่น่าแปลกใจเช่น SAS และ SPSS ทำรายงานบ่อยของสถิติการวิเคราะห์ที่แตกต่างกันลำพองพฤตินัยวิธีการนำเสนอผลการถดถอยโลจิสติก การทดสอบความแม่นยำในการทำนาย (เช่น HL และ AUC) นั้นใช้งานได้ดีกว่ากับชุดข้อมูลอิสระหรือ (ดียิ่งขึ้น) เก็บข้อมูลในช่วงเวลาต่าง ๆ เพื่อประเมินความสามารถในการทำนายของแบบจำลอง

อีกประเด็นที่ต้องทำคือการคาดการณ์และการอนุมานเป็นสิ่งที่แตกต่างกันมาก ไม่มีวิธีที่เป็นกลางในการประเมินการคาดการณ์ AUC 0.65 นั้นดีมากสำหรับการทำนายเหตุการณ์ที่หายากและซับซ้อนเช่นความเสี่ยงมะเร็งเต้านม 1 ปี ในทำนองเดียวกันการอนุมานสามารถถูกกล่าวหาว่าเป็นเรื่องที่ไม่มีเหตุผลเพราะอัตราการบวกที่ผิดพลาดแบบดั้งเดิมที่ 0.05 ถูกโยนทิ้งไป

ถ้าฉันเป็นคุณคำอธิบายปัญหาของคุณดูเหมือนจะสนใจในการสร้างแบบจำลองผลกระทบของผู้จัดการรายงาน "อุปสรรค" ในการลงทุนดังนั้นให้เน้นที่การนำเสนอสมาคมที่ปรับโมเดล นำเสนอการประมาณจุดและช่วงความเชื่อมั่น 95% สำหรับอัตราส่วนอัตราต่อรองของแบบจำลองและเตรียมพร้อมที่จะหารือเกี่ยวกับความหมายการตีความและความถูกต้องกับผู้อื่น พล็อตฟอเรสต์เป็นเครื่องมือกราฟิกที่มีประสิทธิภาพ คุณต้องแสดงความถี่ของสิ่งกีดขวางเหล่านี้ในข้อมูลเช่นกันและนำเสนอการไกล่เกลี่ยของพวกเขาโดยตัวแปรการปรับอื่น ๆ เพื่อแสดงให้เห็นว่าความเป็นไปได้ของการรบกวนมีขนาดเล็กหรือใหญ่ในผลลัพธ์ที่ยังไม่ได้ทำการปรับ ฉันจะไปต่อและสำรวจปัจจัยต่าง ๆ เช่นอัลฟาของครอนบาคเพื่อความมั่นคงในหมู่ผู้จัดการรายงานอุปสรรคเพื่อตัดสินว่าผู้จัดการมีแนวโน้มที่จะรายงานปัญหาที่คล้ายกันหรือ

ฉันคิดว่าคุณให้ความสำคัญกับตัวเลขมากเกินไปและไม่ใช่คำถามในมือ 90% ของการนำเสนอสถิติที่ดีเกิดขึ้นก่อนที่จะมีการนำเสนอผลลัพธ์


ขอบคุณ Adam สำหรับคำตอบของคุณ! ฉันยึดการวิเคราะห์ส่วนใหญ่ของการตีความอัตราต่อรองและความน่าจะเป็นที่คาดการณ์ไว้ แต่เนื่องจากฉันยังไม่สะดวกสบายเกินไปกับการถดถอยโลจิสติกฉันกลัวว่าการวิเคราะห์ของฉันจะถูกไล่ออกเพราะฉันขาดการทดสอบแบบทั่วไปบางอย่าง แต่อย่างที่คุณพูดฉันก็เชื่อว่าฉันควรให้ความสำคัญกับการตีความแบบจำลองทางการเงินมากกว่า ฉันจะพิจารณาข้อเสนอแนะของคุณอีกครั้งสำหรับแปลงป่าและ Cronbach's Alpha เช่นกัน ขอบคุณอีกครั้ง!
Federico C

การละเมิดข้อสมมติฐานที่เป็นไปได้เท่านั้นที่ถูกต้องตามกฎหมายอาจเป็นข้อมูลที่มีความสัมพันธ์กันตามคำอธิบายปัญหา โดยคำนึงถึงว่าคุณสามารถทำการทดสอบการกระจายตัวด้วยแบบจำลองการถดถอยแบบ quasibinomialหรือคุณสามารถลองทำการวิเคราะห์กลุ่มย่อยตามประเภทอุตสาหกรรม (สำหรับ บริษัท ต่าง ๆ ที่คุณกล่าวถึง) หรือลองการวิเคราะห์คลัสเตอร์อีกครั้ง
AdamO
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.