การเปรียบเทียบแบบจำลองการถดถอยแบบโลจิสติกไบนารีที่ซ้อนกันเมื่อมีขนาดใหญ่

ที่ดีกว่าการถามคำถามของฉันฉันได้ให้บางส่วนของเอาท์พุทจากทั้งรุ่น 16 ตัวแปร ( fit) และรุ่น 17 ตัวแปร ( fit2) ด้านล่าง (ทุกตัวแปรในรูปแบบเหล่านี้เป็นอย่างต่อเนื่องที่แตกต่างระหว่างรุ่นเหล่านี้ก็คือfitไม่ได้ มีตัวแปร 17 (var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190

ฉันใช้rmsแพ็คเกจของ Frank Harrell เพื่อสร้างlrmแบบจำลองเหล่านี้ อย่างที่คุณเห็นแบบจำลองเหล่านี้จะไม่แตกต่างกันมากนักในกรณีของดัชนีการเลือกปฏิบัติและการเลือกอันดับ ดัชนี ; อย่างไรก็ตามเมื่อใช้lrtest(fit,fit2)งานฉันได้รับผลลัพธ์ต่อไปนี้:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09

ดังนั้นเราจะปฏิเสธสมมติฐานว่างของการทดสอบอัตราส่วนความน่าจะเป็นนี้ อย่างไรก็ตามฉันคิดว่านี่น่าจะเป็นเพราะกลุ่มตัวอย่างมีขนาดใหญ่ ( n = 102849) เนื่องจากโมเดลเหล่านี้ดูเหมือนจะทำงานในแบบเดียวกัน นอกจากนี้ฉันสนใจที่จะหาวิธีที่ดีกว่าในการเปรียบเทียบแบบจำลองการถดถอยแบบโลจิสติกแบบไบนารีที่ซ้อนกันเมื่อnมีขนาดใหญ่

ฉันขอขอบคุณข้อเสนอแนะสคริปต์ R หรือเอกสารที่สามารถคัดท้ายฉันไปในทิศทางที่ถูกต้องในแง่ของการเปรียบเทียบรุ่นที่ซ้อนกันเหล่านี้! ขอบคุณ!

— Matt Reichenbach
แหล่งที่มา

วัตถุประสงค์ของการลบตัวแปร 17 คืออะไร?

— Michael M

นี่คือตัวอย่างของเล่น อย่างไรก็ตามโดยทั่วไปฉันถูกขอให้สร้างแบบจำลองที่มีตัวแปร 8-12 ตัวและการลบตัวแปรที่ไม่ได้มีส่วนร่วมกับแบบจำลองนั้นเป็นสิ่งที่ฉันสนใจเป็นอันดับแรก ตัวแปร 17 เพียงแค่ดูเหมือนจะหมายถึงน้อยมากกับรูปแบบโดยรวม (ในแง่ของการคาดเดา) แต่การทดสอบอัตราส่วนความน่าจะบอกเรามีความแตกต่างอย่างมีนัยสำคัญระหว่างสองรุ่น (น่าจะเกิดจากที่มีขนาดใหญ่nมากกว่าความแตกต่างที่เกิดขึ้นจริงในสิ่งเหล่านี้ สองรุ่น) เช่นนี้ฉันหวังว่าจะหาวิธีเปรียบเทียบทั้งสองรุ่นนี้ (การค้นหาวิธีที่ไม่ได้ระบุความแตกต่างระหว่างสองรุ่นนี้)

— Matt Reichenbach

(1) ไม่แน่ใจว่าฉันค่อนข้างเข้าใจสิ่งที่คุณกำลังมองหา แต่ในทางการแพทย์ปัญหาเกี่ยวกับการใช้การเลือกปฏิบัติเช่น c-statistic ได้รับการยอมรับเป็นอย่างดี c-statics สามารถเปลี่ยนแปลงได้แม้ว่าจะมีการเพิ่มตัวแปรที่สำคัญและนำไปสู่การพัฒนาดัชนีการจัดประเภทใหม่ ( circ.ahajournals.org/content/121/15/ 1768.full ) (2) AIC / BIC คล้ายกันหรือไม่ เกณฑ์การรับข้อมูลผันแปรจำนวนหนึ่งอาจมีประโยชน์มากกว่าเกณฑ์การเลือกปฏิบัติ

— charles

ฉันคิดว่ามีการพิมพ์ผิดในย่อหน้าที่ 1 ของคุณ มันถูกระบุว่าfit2เป็นรุ่นที่ 17 ตัวแปร V17แต่ก็ยังเป็นรูปแบบที่ละเว้น คุณอาจต้องการแก้ไขสิ่งนี้

— tomka

@tomka ผมเปลี่ยนfit2ไปfitในตัวอย่างข้างต้นเป็นไปตามการแก้ไขของคุณ ขอบคุณ!

— Matt Reichenbach

คำตอบ:

(1) มีวรรณกรรมมากมายที่อธิบายว่าทำไมคนเราถึงชอบแบบเต็มรูปแบบถึงแบบ จำกัด / แบบคัดค้าน ความเข้าใจของฉันมีเหตุผลเล็กน้อยที่จะชอบแบบจำลองทางศีลธรรม อย่างไรก็ตามแบบจำลองขนาดใหญ่อาจไม่สามารถใช้ได้กับการใช้งานทางคลินิกหลายอย่าง

(2) เท่าที่ฉันรู้ดัชนีการเลือกปฏิบัติ / การแบ่งแยกไม่ได้ใช้ (ไม่ควร) เป็นพารามิเตอร์การเลือกรุ่น / ตัวแปร พวกเขาไม่ได้มีไว้สำหรับการใช้งานนี้และเนื่องจากอาจมีวรรณกรรมไม่มากเกี่ยวกับเหตุผลที่พวกเขาไม่ควรใช้สำหรับการสร้างแบบจำลอง

(3) แบบจำลองทางการเงินอาจมีข้อ จำกัด ที่ไม่ชัดเจน พวกเขาอาจจะสอบเทียบน้อยกว่ารุ่นใหญ่กว่าความถูกต้องภายนอก / ภายในอาจลดลง

(4) สถิติ c อาจไม่เหมาะสมในการประเมินแบบจำลองที่ทำนายความเสี่ยงในอนาคตหรือแบ่งกลุ่มบุคคลเป็นหมวดความเสี่ยง ในการตั้งค่านี้การสอบเทียบมีความสำคัญต่อการประเมินความเสี่ยงอย่างแม่นยำ ยกตัวอย่างเช่นตัวบ่งชี้ทางชีวภาพที่มีอัตราต่อรองที่ 3 อาจมีผลเพียงเล็กน้อยต่อ cstatistic แต่ระดับที่เพิ่มขึ้นอาจเปลี่ยนความเสี่ยงโรคหลอดเลือดหัวใจ 10 ปีสำหรับผู้ป่วยแต่ละรายจาก 8% เป็น 24%

คุก NR; การใช้และการใช้ ROC โค้งในเอกสารทางการแพทย์ การไหลเวียน 115 2007: 928-935

(5) AUC / c-statistic / discrimination เป็นที่รู้กันว่าไม่สำคัญต่อตัวแปรทำนายที่สำคัญ สิ่งนี้ถูกกล่าวถึงในเอกสารอ้างอิง Cook ด้านบนและแรงจูงใจเบื้องหลังการพัฒนาดัชนีการจัดประเภทใหม่สุทธิ ยังกล่าวถึงใน Cook ข้างต้น

(6) ชุดข้อมูลขนาดใหญ่ยังคงสามารถนำไปสู่รูปแบบที่ใหญ่กว่าที่ต้องการหากใช้วิธีการเลือกตัวแปรมาตรฐาน ในขั้นตอนการเลือกแบบขั้นตอนมักใช้การตัดค่า p เป็น 0.05 แต่ไม่มีอะไรที่เป็นจริงเกี่ยวกับค่านี้ซึ่งหมายความว่าคุณควรเลือกค่านี้ ด้วยชุดข้อมูลขนาดเล็กค่า p ที่ใหญ่กว่า (0.2) อาจเหมาะสมกว่าในชุดข้อมูลที่มีขนาดใหญ่กว่าค่า p ที่เล็กกว่าอาจเหมาะสม (0.01 ใช้สำหรับชุดข้อมูล GUSTO I ด้วยเหตุผลนี้)

(7) ในขณะที่ AIC มักจะใช้สำหรับการเลือกรูปแบบและได้รับการสนับสนุนที่ดีขึ้นจากวรรณกรรม BIC อาจเป็นทางเลือกที่ถูกต้องในชุดข้อมูลขนาดใหญ่ สำหรับการเลือกรูปแบบ BIC ไคสแควร์จะต้องเกิน log (n) ดังนั้นมันจะส่งผลให้โมเดลที่มีขนาดเล็กลงในชุดข้อมูลขนาดใหญ่ (เมลโลว์อาจมีลักษณะคล้ายกัน)

(8) แต่ถ้าคุณต้องการตัวแปรสูงสุด 10 หรือ 12 ตัววิธีแก้ปัญหาที่ง่ายกว่าคืออะไรที่คล้าย ๆ กันbestglmหรือleapsแพคเกจที่คุณเพิ่งตั้งค่าจำนวนตัวแปรสูงสุดที่คุณต้องการพิจารณา

(9) หากคุณต้องการทดสอบที่จะทำให้ทั้งสองรุ่นมีลักษณะเหมือนกันและไม่กังวลกับรายละเอียดมากนักคุณสามารถเปรียบเทียบ AUC ของทั้งสองรุ่นได้ บางแพ็กเกจจะให้ค่า p สำหรับการเปรียบเทียบ ดูเหมือนจะไม่แนะนำให้เลือก

Ambler G (2002) ลดความซับซ้อนของรูปแบบการพยากรณ์โรค: การศึกษาแบบจำลองบนพื้นฐานของข้อมูลทางคลินิก
Cook NR; การใช้และการใช้ ROC โค้งในเอกสารทางการแพทย์ การไหลเวียน 115 2007: 928-935
เกล MH, ไฟเฟอร์เฟอร์ RM; บนเกณฑ์สำหรับการประเมินรูปแบบของความเสี่ยงที่แน่นอน BioStat 6 2005: 227-239

(10) เมื่อแบบจำลองได้ถูกสร้างขึ้นดัชนี c-Statistics / Decimation อาจไม่ใช่วิธีที่ดีที่สุดในการเปรียบเทียบแบบจำลองและมีข้อ จำกัด ด้านเอกสารที่ดี การเปรียบเทียบควรมีอย่างน้อยก็รวมถึงการสอบเทียบดัชนีการจัดประเภทใหม่

Steyerber (2010) การประเมินประสิทธิภาพของแบบจำลองการทำนาย: กรอบการทำงานสำหรับมาตรการแบบดั้งเดิมและแบบใหม่

(11) อาจเป็นความคิดที่ดีที่จะก้าวไปข้างหน้าและใช้มาตรการวิเคราะห์การตัดสินใจ

วิคเกอร์ AJ, Elkin EB การวิเคราะห์เส้นโค้งการตัดสินใจ: วิธีการใหม่ในการประเมินแบบจำลองการทำนาย Med Decis Making 2006 26: 565-74
Baker SG, Cook NR, Vickers A, Kramer BS การใช้ยูทิลิตี้โค้งเพื่อประเมินความเสี่ยง JR Stat Soc A. 2009; 172: 729-48
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW การประเมินเครื่องหมายและแบบจำลองการทำนายความเสี่ยง: ภาพรวมของความสัมพันธ์ระหว่าง NRI และมาตรการตัดสินใจ Med Decis Making 2013; 33: 490-501

--- อัปเดต --- ฉันพบบทความวิคเกอร์ที่น่าสนใจที่สุด แต่สิ่งนี้ยังไม่ได้รับการยอมรับอย่างกว้างขวางแม้จะมีบทบรรณาธิการมากมาย ดังนั้นอาจไม่มีประโยชน์ในทางปฏิบัติมากนัก บทความ Cook และ Steyerberg นั้นมีประโยชน์มากกว่า

ไม่มีใครชอบการเลือกแบบขั้นตอน แน่นอนฉันจะไม่สนับสนุนมัน ฉันอาจเน้นว่าการวิพากษ์วิจารณ์ส่วนใหญ่ของ stepwise ถือว่า EPV <50 และตัวเลือกระหว่างโมเดลเต็มหรือโมเดลที่ระบุล่วงหน้าและโมเดลที่ลดลง หาก EPV> 50 และมีความมุ่งมั่นที่จะลดรูปแบบการวิเคราะห์ผลประโยชน์ต้นทุนอาจแตกต่างกัน

ความคิดที่อ่อนแอที่อยู่เบื้องหลังการเปรียบเทียบสถิติ c คือพวกเขาอาจไม่แตกต่างกันและฉันดูเหมือนจะจำการทดสอบนี้กำลัง underpowered อย่างมีนัยสำคัญ แต่ตอนนี้ฉันไม่พบข้อมูลอ้างอิงดังนั้นอาจเป็นไปได้ว่าฐานนั้น

— ชาร์ลส์
แหล่งที่มา

(1) ฉันรู้ว่ารุ่นเต็มเป็นที่ต้องการ แต่ฉันมี vars มากกว่า 1k ให้เลือกและฉันจำเป็นต้องสร้างแบบจำลองขนาดเล็กเหล่านี้เนื่องจากข้อกำหนดเฉพาะของอุตสาหกรรม (2) นั่นสมเหตุสมผล! (3) เห็นด้วย! (4) จริง (5) น่าสนใจ

— Matt Reichenbach

(6) เห็นด้วย; อย่างไรก็ตามโพรซีเดอร์แบบขั้นตอนนั้นน่าสงสัยอย่างมากและยิ่งลดค่าpลงมากเท่าใดแบบจำลองเหล่านี้จะมีอคติมากขึ้นโดยไม่คำนึงถึงขนาดตัวอย่าง (7)“ สำหรับการเลือกรูปแบบ BIC ไคสแควร์จะต้องมีค่าเกินล็อก (n)” ซึ่งดูเหมือนว่ามีประโยชน์มาก ขอบคุณ! (8) bestglmและleapsแพ็คเกจมีราคาแพงมากและใช้เวลาในการรันกับชุดข้อมูลเช่นเดียวกับที่ฉันทำงานด้วย แต่ขอบคุณสำหรับความคิดที่เป็นไปได้

— Matt Reichenbach

(9) ค่าpเหล่านี้จะมีนัยสำคัญแม้ว่าแบบจำลองเกือบจะเหมือนกันทุกครั้งเนื่องจากขนาดตัวอย่างขนาดใหญ่เพียงอย่างเดียว (10) ฉันต้องการวิจัยการปรับเทียบและดัชนีการจัดประเภทใหม่มากขึ้นขอบคุณ! (11) ฉันสนใจที่จะอ่านบทความเหล่านี้คุณจะแนะนำให้ฉันเริ่มต้นด้วย Vickers หรือไม่? ขอบคุณ!

— Matt Reichenbach

ทางเลือกหนึ่งคือการใช้มาตรการหลอก R-Square สำหรับทั้งสองรุ่น ความแตกต่างที่แข็งแกร่งในหลอก R-Square จะแนะนำว่าแบบจำลองลดลงอย่างมากโดยไม่ต้องใส่ V17

Pseudo R-squares มีหลายแบบให้เลือก ภาพรวมสามารถพบได้ที่นี่ตัวอย่างเช่น:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

วัดที่เป็นที่นิยมคือ Nagelkerke R-square มันแตกต่างกันระหว่าง 0 และ 1 และด้วยความระมัดระวังสามารถตีความได้เช่น R-squared จากรูปแบบการถดถอยเชิงเส้นอย่างง่าย มันขึ้นอยู่กับอัตราส่วนการแปลงของความน่าจะเป็นโดยประมาณของโมเดลเต็มรูปแบบกับโมเดลสกัดกั้นเท่านั้น

คุณสามารถประมาณค่าสำหรับfitและfit2ตามลำดับและเปรียบเทียบขนาดสัมพัทธ์เพื่อรับข้อบ่งชี้ปัญหาของคุณ Nagelkerke R-square ที่สูงขึ้นอย่างมีนัยสำคัญfitจะแนะนำว่าให้fit2สูญเสียพลังการทำนายจำนวนมากโดยการละเลย V17

ในค่าให้ Nagelkerke ของ R-squared ดังนั้นการให้ควรให้คุณประมาณ ดูเพิ่มเติมlrmstatsfit$stats?lrm

— Tomka
แหล่งที่มา

ฉันคุ้นเคยกับ R-square ของ Nagelkerke แต่คำถามของฉันอยู่ที่ "Nagelkerke R-Square ที่สูงขึ้นอย่างมากสำหรับfit" ในตัวอย่างด้านบนมีความแตกต่าง 0.001 เนื่องจากเรามี R-square ของ Nagelkerke ที่ 0.173 และ 0.174 สำหรับfitและfit2ตามลำดับ คุณมีการอ้างอิงใด ๆ เกี่ยวกับสิ่งที่ "Nagelkerke R-Square ที่สูงขึ้นอย่างมีนัยสำคัญ" คืออะไร? ขอบคุณ!

— Matt Reichenbach

@ Matt: ฉันคิดว่าไม่มีหลักเกณฑ์ทั่วไปในการตีความR²ของ Nagelkerke หรือการหลอกR²อื่น ๆ อย่างไรก็ตามโปรดทราบว่ามันเป็นการวัดการเปลี่ยนแปลงของ 'การลดความน่าจะเป็น' โดยการรวม covariates กับรูปแบบการสกัดกั้นเท่านั้นซึ่งทำให้คล้ายกับ 'อธิบายความแปรปรวน' ที่ระบุโดยมาตรฐานR²ในการถดถอยเชิงเส้น ในแง่นั้นฉันจะตีความความแตกต่าง. .173 / .174 ที่มีขนาดเล็กมาก ความแตกต่างที่แข็งแกร่งจะเป็น sth การเชื่อมโยง deciles อย่างไรก็ตามฉันขอแนะนำให้ประเมินการหลอกR²อื่น ๆ เช่น McFadden หรือ Cox / Snell เพื่อตรวจสอบความทนทานของข้อสรุปนี้

— tomka

ฉันเห็นด้วยว่าความแตกต่างนั้นเล็กมาก แต่ฉันหวังว่าฉันจะสามารถหาข้อมูลอ้างอิงที่ระบุว่าความแตกต่าง "เล็ก" คืออะไรฉันขอขอบคุณที่คุณคิด ขอบคุณอีกครั้ง!

— Matt Reichenbach

ไม่มีปัญหา! ขออภัยที่ไม่ถอนรากถอนโคนคุณเร็ว ๆ นี้! ฉันจะโพสต์อีกครั้งถ้าฉันพบคำตอบว่าความแตกต่าง "เล็ก" คืออะไรในแง่ของ pseduo R-squared! ขอบคุณ!

— Matt Reichenbach

-1

ฉันเพิ่งอ่านเกี่ยวกับเรื่องนี้ วิธีที่เหมาะสมในการทำเช่นนี้คือใช้ผลลัพธ์สุดท้ายของ glm ของ Rm แล้วมองหา "Residual deviance:" และหา delta ระหว่างทั้งสองรุ่นและใช้ค่านี้ในการทดสอบ chi-squared โดยใช้ df เท่ากับ # ของเงื่อนไขที่ทำนายไว้ และนั่นคือค่า p ของคุณ

การประยุกต์ใช้แบบจำลองการถดถอย Iaian Pardoe 2nd edition 2012 pg 270

— thistleknot
แหล่งที่มา