Pseudo-ใดที่ใช้ในการรายงานการถดถอยโลจิสติก (Cox & Snell หรือ Nagelkerke)


55

ฉันมีSPSSเอาต์พุตสำหรับโมเดลการถดถอยโลจิสติก การส่งออกรายงานสองมาตรการสำหรับรูปแบบพอดีและCox & SnellNagelkerke

ดังนั้นตามกฎของหัวแม่มือคุณจะรายงานการวัดR²ใดในรูปแบบที่เหมาะสม?

หรือดัชนีใดที่เหมาะสมเหล่านี้เป็นสิ่งที่มักจะรายงานในวารสาร?


พื้นหลังบางส่วน: การถดถอยพยายามทำนายว่ามีหรือไม่มีนก (capercaillie) จากตัวแปรสภาพแวดล้อมบางอย่าง (เช่นความชันความครอบคลุมของพืชพรรณ ... ) น่าเสียดายที่นกไม่ปรากฏบ่อยนัก (35 ครั้งถึง 468 คิดถึง) ดังนั้นการถดถอยจึงทำได้ไม่ดีนัก Cox & Snell คือ. 09, Nagelkerke, .23

หัวเรื่องคือวิทยาศาสตร์สิ่งแวดล้อมหรือนิเวศวิทยา


3
ดียูซีแอลสถิติเว็บไซต์ความช่วยเหลือมีหน้ายอดเยี่ยมอธิบายต่างๆหลอก 's และวิธีที่พวกเขามีความสัมพันธ์ซึ่งกันและกัน R2
gung - Reinstate Monica

ต่อไปนี้เป็นลิงก์สองลิงก์ที่พูดถึงอัลกอริธึมที่ไม่ใช่พารามิเตอร์ที่แน่นอนซึ่งเพิ่มความแม่นยำของโมเดลการถดถอยโลจิสติก ถ้าคุณใช้วิธีนี้กับข้อมูลของคุณมันจะเพิ่มประสิทธิภาพการจัดหมวดหมู่ของแบบจำลองการถดถอยโลจิสติกของคุณเมื่อนำไปใช้กับตัวอย่าง ตัวอย่างที่ 1: onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/…ตัวอย่างที่ 2: epm.sagepub.com/content/54/1/73.abstract
user31256

คำตอบ:


74

ปกติฉันจะไม่รายงานเลย Hosmer และ Lemeshow ในหนังสือเรียนApplied Logistic Regression (2nd Ed.) อธิบายว่าทำไม:R2

โดยทั่วไปการวัด [ ] จะขึ้นอยู่กับการเปรียบเทียบค่าต่างๆที่คาดการณ์จากแบบจำลองที่พอดีกับแบบจาก [แบบจำลองพื้นฐาน] ไม่มีข้อมูลหรือรูปแบบการสกัดกั้นเท่านั้นและเป็นผลให้ไม่ประเมินความดีของ -FIT เราคิดว่าการวัดความพอดีที่แท้จริงนั้นขึ้นอยู่กับการเปรียบเทียบการสังเกตกับค่าที่ทำนายไว้จากแบบจำลองที่ติดตั้งไว้อย่างเคร่งครัดR2

[ที่หน้า 164]

เกี่ยวกับ ML รุ่นต่างๆของสถิติ"หลอก " พวกเขาพูดถึงว่ามันไม่ใช่ "แนะนำสำหรับการใช้งานประจำเพราะมันไม่ง่ายที่จะอธิบายอย่างสังหรณ์ใจ" แต่พวกเขารู้สึกจำเป็นต้องอธิบายเพราะ ชุดซอฟต์แวร์รายงานR2R2

พวกเขาสรุปการอภิปรายนี้โดยการเขียน

... ค่าต่ำในการถดถอยโลจิสติกเป็นบรรทัดฐานและสิ่งนี้นำเสนอปัญหาเมื่อรายงานค่าของพวกเขาไปยังผู้ชมที่คุ้นเคยกับการเห็นค่าการถดถอยเชิงเส้น ... ดังนั้น [การพิจารณาโดยการอ้างอิงถึงตัวอย่างการรันในข้อความ] เราไม่แนะนำให้เผยแพร่ค่าตามปกติพร้อมกับผลลัพธ์จากโมเดลโลจิสติกที่ติดตั้ง อย่างไรก็ตามอาจมีประโยชน์ในการสร้างแบบจำลองเพื่อใช้เป็นสถิติในการประเมินรูปแบบการแข่งขันR2R2

[ที่หน้า 167]

ประสบการณ์ของฉันกับโมเดลโลจิสติกขนาดใหญ่ (บันทึก 100k ถึง 300k, 100 - 300 ตัวแปรอธิบาย) เป็นสิ่งที่ H & L อธิบาย ฉันสามารถบรรลุค่อนข้างสูงด้วยข้อมูลของฉันสูงถึงประมาณ 0.40 สิ่งเหล่านี้สอดคล้องกับอัตราข้อผิดพลาดการจำแนกระหว่าง 3% ถึง 15% (เชิงลบเท็จและผลบวกปลอมสมดุลตามที่ได้รับการยืนยันโดยใช้ชุดข้อมูล 50% ที่เก็บไว้) ตามที่ H & L บอกไว้ฉันต้องใช้เวลาจำนวนมากในการทำให้ลูกค้าไม่พอใจ (ที่ปรึกษาที่มีความซับซ้อนซึ่งคุ้นเคยกับ ) เกี่ยวกับและทำให้เขาให้ความสำคัญกับสิ่งที่สำคัญในการวิเคราะห์ ราคา). ฉันสามารถแนะนำอย่างอบอุ่นถึงการอธิบายผลลัพธ์ของการวิเคราะห์ของคุณโดยไม่ต้องอ้างอิงถึงซึ่งมีแนวโน้มที่จะทำให้เข้าใจผิดมากกว่าที่เป็นอยู่R2R2R2R2


1
(+1) ตอนแรกฉันคิดว่าจะขยายการตอบกลับของฉัน (ซึ่งมาหลังจากคุณ) แต่คำตอบของคุณคือแบบพอเพียง
chl

ขอบคุณสำหรับสิ่งนี้มีประโยชน์สำหรับโครงการที่ฉันกำลังดำเนินการอยู่ในปัจจุบันเช่นกัน - และสมเหตุสมผลทั้งหมด
Brandon Bertelsen

1
@whuber: ฉันยังมีแนวโน้มที่จะไปสู่ ​​classif ที่ถูกต้อง อัตรา แต่ฉันได้เห็นการอ้างอิงจำนวนมากในตำราเรียนและเว็บไซต์เตือนนักวิเคราะห์ที่จะไม่ไว้วางใจพวกเขาและเน้นว่าหลอก -sq แม้จะมีข้อ จำกัด ของมันเป็นตัวชี้วัดที่ยุติธรรม ฉันมักจะอ่านอะไรบางอย่างที่ดูเหมือนว่าจะเกิดขึ้นในระดับหนึ่งในการวิเคราะห์ของตัวเอง: ด้วยการเพิ่มตัวทำนายหลอกหลอกที่อาจเพิ่มขึ้น (และตัวชี้วัดอื่น ๆ จะบ่งบอกถึงผลประโยชน์จากการเพิ่ม) ในขณะที่อัตราการจำแนกที่ถูกต้องล้มเหลว ที่ไม่ควรเชื่อถือหลัง คุณเคยคิดเรื่องนี้บ้างไหม?
rolando2

4
@ rolando2 ใช่ฉันมี สิ่งนี้ทำให้เกิดคำถามที่ว่าค่า pseudo-ควรขึ้นไปเพื่อปรับการรวมตัวแปร ฉันสงสัยว่า "อัตราการจำแนกที่ถูกต้อง" ของคุณอาจอ้างถึงอัตราในตัวอย่างซึ่งแน่นอนว่ามีความเอนเอียง หากถูกต้องแล้วสิ่งที่คุณอ่านจะเปรียบเทียบเพียงสถิติที่ด้อยกว่าสองอย่าง จากตัวอย่างอัตราการอยู่ไกลมีประโยชน์มากขึ้นเป็นตัวบ่งชี้กว่าหลอก 2 R2R2
whuber

1
+1 นอกจากนี้จะขยายในส่วนที่ลึกซึ้งของคำตอบของคุณที่คุณกล่าวถึงอัตราความผิดพลาดการจัดหมวดหมู่ซึ่งเป็นพหูพจน์และไม่ควรจะสับสนกับความถูกต้อง - มีหลายชนิดที่แตกต่างกันของการคำนวณที่สามารถออกมาจากความสับสนเมทริกซ์มีความถูกต้อง , อัตราบวกปลอม , ความแม่นยำฯลฯ - และเป็นที่หนึ่งที่เราดูแลเกี่ยวกับการขึ้นอยู่กับการใช้งาน นอกจากนี้คุณสร้างความแตกต่างของตัวอย่างนอกซึ่งแตกต่างจากการตรวจสอบข้ามแต่บางครั้งก็สับสนกับมัน
Wayne

27

ดัชนีทั้งสองเป็นตัวชี้วัดความแข็งแกร่งของการเชื่อมโยง (เช่นตัวทำนายใด ๆ ที่เกี่ยวข้องกับผลลัพธ์เช่นเดียวกับการทดสอบ LR) และสามารถใช้เพื่อวัดความสามารถในการทำนายหรือแบบจำลองประสิทธิภาพ ตัวทำนายเดี่ยวอาจมีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ แต่อาจไม่จำเป็นต้องเป็นประโยชน์ในการทำนายการตอบสนองของแต่ละบุคคลดังนั้นจึงจำเป็นต้องประเมินประสิทธิภาพของแบบจำลองโดยรวม (wrt. the null model) Nagelkerkeนั้นมีประโยชน์เพราะมันมีค่าสูงสุด 1.0 ตามที่ Srikant กล่าว นี่เป็นเพียงเวอร์ชันปกติของคำนวณจากอัตราส่วนความน่าจะเป็นR2R2RLR2=1exp(LR/n)ซึ่งเชื่อมโยงกับสถิติ Wald สำหรับการเชื่อมโยงโดยรวมตามที่เสนอโดย Cox และ Snell ดัชนีความสามารถในการทำนายอื่น ๆ คือคะแนน Brier, ดัชนี C (ความน่าจะเป็นที่สอดคล้องกันหรือพื้นที่ ROC) หรือซอมเมอร์ 'ดีสองหลังที่ให้การวัดการแบ่งแยกที่ดีกว่า

สมมติฐานเพียงทำในการถดถอยโลจิสติกที่ของเส้นตรงและadditivity (+ อิสระ) แม้ว่าจะมีการเสนอการทดสอบความเหมาะสมระดับโลกหลายประการ (เช่นการทดสอบ Hosmer & Lemeshowแต่ดูความคิดเห็นของฉันที่ @onestop) ได้รับการเสนอพวกเขามักไม่มีอำนาจ สำหรับการประเมินความเหมาะสมกับรูปแบบมันจะดีกว่าที่จะพึ่งพาเกณฑ์ภาพ (ประมาณการแซดอิงพารามิเตอร์เรียบ) ที่ช่วยในการมองเห็นในการออกจากประเทศหรือทั่วโลกระหว่างผลลัพธ์ที่คาดการณ์ไว้และสังเกต (เช่นไม่ใช่เชิงเส้นหรือการโต้ตอบ) และนี่คือรายละเอียดส่วนใหญ่อยู่ใน Harrell ของRMS ข่าวแถลง ในเรื่องที่เกี่ยวข้อง (การทดสอบการสอบเทียบ), Steyerberg ( แบบจำลองการทำนายทางคลินิกχ2, 2009) ชี้ไปที่แนวทางเดียวกันสำหรับการประเมินข้อตกลงระหว่างผลลัพธ์ที่สังเกตและความน่าจะเป็นที่คาดการณ์:

การสอบเทียบนั้นเกี่ยวข้องกับคุณงามความดีซึ่งเกี่ยวข้องกับความสามารถของแบบจำลองเพื่อให้พอดีกับชุดข้อมูลที่กำหนด โดยทั่วไปแล้วจะไม่มีการทดสอบความเหมาะสมแบบเดียวที่มีพลังดีต่อการขาดแบบจำลองการทำนายทุกชนิด ตัวอย่างของการขาดความพอดีเป็นสิ่งที่ไม่เป็นเส้นตรงการโต้ตอบหรือฟังก์ชันลิงก์ที่ไม่เหมาะสมระหว่างตัวทำนายเชิงเส้นและผลลัพธ์ สามารถทดสอบความดีของความพอดีได้ด้วย สถิติ(หน้า 274)χ2

นอกจากนี้เขายังแนะนำให้ใช้ความแตกต่างระหว่างผลลัพธ์ที่สังเกตได้อย่างราบรื่นและความน่าจะเป็นที่คาดการณ์ไว้ไม่ว่าจะเป็นภาพหรือด้วยสถิติ E ของ Harrell

รายละเอียดเพิ่มเติมสามารถอ่านได้ในหนังสือของ Harrell กลยุทธ์การสร้างแบบจำลองการถดถอย (หน้า 203-205, 230-244, 247-249) สำหรับการสนทนาล่าสุดดูเพิ่มเติม

Steyerberg, EW, Vickers, AJ, แม่ครัว, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ, และ Kattan, MW (2010) การประเมินผลการปฏิบัติงานของการทำนายรุ่นที่กรอบสำหรับมาตรการแบบดั้งเดิมและนวนิยาย ระบาดวิทยา , 21 (1) , 128-138


คุณสามารถอธิบายความแตกต่างระหว่าง "ความดีของความพอดี" และความแข็งแกร่งของความสัมพันธ์หรือความสามารถในการทำนายได้หรือไม่?
Andy W

@ Andy ขอบคุณสำหรับการชี้ให้เห็นว่า หลังจากนั้นฉันก็รู้ว่าประโยคแรกของฉันไม่ออกมาดีนัก ฉันจะอัปเดตคำตอบของฉันโปรดแจ้งให้เราทราบหากสิ่งนี้ใช้ได้กับคุณ
chl

ขอขอบคุณสำหรับการอัปเดตและจะชี้แจงความแตกต่าง
Andy W

21

ฉันคิดว่าปัญหาหลัก ๆ ของการวัดสำหรับการถดถอยโลจิสติกส์คือคุณกำลังเผชิญกับตัวแบบที่มีค่าเสียงที่รู้จัก สิ่งนี้แตกต่างจากการถดถอยเชิงเส้นมาตรฐานซึ่งระดับเสียงมักจะถูกปฏิบัติเหมือนไม่ทราบ สำหรับเราสามารถเขียนฟังก์ชันความหนาแน่นของความน่าจะเป็น GLM ได้ดังนี้:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

โดยที่เป็นฟังก์ชันที่รู้จักและสำหรับฟังก์ชันลิงก์ผกผัน(.) หากเรากำหนดค่าเบี่ยงเบนมาตรฐาน GLM ตามปกติเป็นb(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
พวกเรามี (ผ่านอัตราส่วนความน่าจะเป็นไคสแควร์, )χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

ที่ไหนเป็นมิติของ\สำหรับการถดถอยโลจิสติกเรามีซึ่งเป็นที่รู้จัก ดังนั้นเราสามารถใช้สิ่งนี้ในการตัดสินใจในระดับที่แน่นอนของสารตกค้างที่ "ยอมรับได้" หรือ "สมเหตุสมผล" ซึ่งมักจะไม่สามารถทำได้สำหรับการถดถอย OLS (ยกเว้นว่าคุณมีข้อมูลก่อนหน้าเกี่ยวกับเสียงรบกวน) คือเราคาดว่าแต่ละอันซ์ที่เหลือจะเกี่ยวกับ1มีจำนวนมากเกินไปและเป็นไปได้ว่าเอฟเฟ็กต์ที่สำคัญหายไปจากรุ่น (under-fitting) มีจำนวนมากเกินไปและเป็นไปได้ว่าจะมีเอฟเฟกต์ซ้ำซ้อนหรือเสแสร้งในโมเดล (สิ่งเหล่านี้อาจหมายถึงการระบุผิดรูปแบบด้วย)pβϕ=11di21di21

ตอนนี้สิ่งนี้หมายความว่าปัญหาสำหรับหลอก -คือว่ามันล้มเหลวในการพิจารณาว่าระดับของการเปลี่ยนแปลงแบบทวินามสามารถคาดการณ์ได้ (หากโครงสร้างข้อผิดพลาดทวินามไม่ได้ถูกถาม) ดังนั้นแม้ว่า Nagelkerke จะอยู่ในช่วงตั้งแต่ถึงแต่ก็ยังไม่ได้ปรับขนาดอย่างเหมาะสม นอกจากนี้ฉันไม่สามารถเห็นได้ว่าทำไมสิ่งเหล่านี้เรียกว่าหลอกหากพวกเขาไม่เท่ากับปกติเมื่อคุณใส่ "GLM" ด้วยลิงก์ประจำตัวและข้อผิดพลาดปกติ ตัวอย่างเช่น cox-snell เทียบเท่า R-squared สำหรับข้อผิดพลาดปกติ (ใช้การประมาณค่าความแปรปรวน REML) โดย:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

ซึ่งดูแปลก ๆ อย่างแน่นอน

ฉันคิดว่าดีกว่า "ความดีของ Fit" มาตรการคือผลรวมของเหลืออันซ์ที่ 2 นี่เป็นเพราะเรามีเป้าหมายที่จะตั้งเป้าหมายไว้χ2


1 การแสดงออกที่ดีของปัญหาที่เป็นนัยในการแสดงความคิดเห็นต่อไปนี้คำตอบของ Srikant
whuber

เนื่องจากว่า binomial GLM จะเหมาะสมโดยใช้ reweighted อย่างน้อยกำลังสองสี่เหลี่ยมทำไมหนึ่งสามารถวัดคุณภาพของพอดีไม่รายงาน R2 ของสี่เหลี่ยมถ่วงน้ำหนักน้อยที่สุดของการทำซ้ำ IRLS ล่าสุดที่ GLM เหมาะสม? เช่นเดียวกับในstats.stackexchange.com/questions/412580/… ?
Tom Wenseleers

16

ฉันพบกระดาษสั้นของ Tue Tjur "ค่าสัมประสิทธิ์การตัดสินใจใน Logistic Regression Model - ข้อเสนอใหม่: ค่าสัมประสิทธิ์การแบ่งแยก" (2009, American Statisticsian )เกี่ยวกับข้อเสนอต่าง ๆ สำหรับค่าสัมประสิทธิ์ของการตัดสินใจในรูปแบบการขนส่งค่อนข้างแจ่มใส เขาทำงานได้ดีในการเน้นข้อดีและข้อเสีย - และแน่นอนมีคำจำกัดความใหม่ แนะนำมาก (แม้ว่าฉันจะไม่ได้เป็นที่ชื่นชอบตัวเอง)


1
ขอบคุณที่ชี้กระดาษนั้น อย่างใดฉันก็พลาดมัน (และมันปรากฏขึ้นเมื่อฉันอยู่ในช่วงกลางของโครงการถดถอยโลจิสติกขนาดใหญ่!)
whuber

3
สำหรับเร็กคอร์ดนิยามใหม่นี้คือซึ่งเป็นค่าเฉลี่ยที่คาดการณ์สำหรับการตอบสนองลบค่าที่คาดการณ์เฉลี่ยสำหรับการตอบสนองมันสามารถช่วงจากที่จะ1Tjur ไม่ยกเลิก Nagelkerke หลอกแต่แสดงให้เห็นมันขาด "อุทธรณ์ที่ใช้งานง่าย" ความสุขโดยDD=π^¯1π^¯01001R2D
whuber

8

ฉันก็จะพูดว่า 'ไม่ของพวกเขา' ดังนั้นฉันจึง upvoted คำตอบของ whuber

Hosmer & Lemeshow ได้เสนอการวัดทางเลือกที่ดีสำหรับการถดถอยโลจิสติกซึ่งบางครั้งก็มีประโยชน์เช่นเดียวกับการวิพากษ์วิจารณ์ R ^ 2 สิ่งนี้ขึ้นอยู่กับการแบ่งข้อมูลออกเป็นกลุ่มที่มีขนาดเท่ากัน 10 กลุ่ม (หรือใกล้เคียงที่สุดเท่าที่จะทำได้) โดยเรียงลำดับความน่าจะเป็นที่คาดการณ์ (หรือเท่ากันคือตัวทำนายเชิงเส้น) จากนั้นเปรียบเทียบจำนวนที่คาดการณ์ไว้ และทำการทดสอบไคสแควร์ 'การทดสอบความดีของพอดี Hosmer-Lemeshow' นี้มีการใช้งานในแพ็คเกจซอฟต์แวร์ทางสถิติส่วนใหญ่


3
การทดสอบ HL GoF ดั้งเดิมนั้นไม่ได้มีประสิทธิภาพมากนักขึ้นอยู่กับการจัดหมวดหมู่สเกลของตัวทำนายต่อเนื่องเป็นจำนวนกลุ่มโดยพลการ H & L เสนอให้พิจารณาช่วงชั้น แต่เห็นได้ชัดว่ามันขึ้นอยู่กับขนาดของกลุ่มตัวอย่างและภายใต้สถานการณ์บางอย่าง (เช่นโมเดล IRT) คุณมักจะมีคนน้อยมากที่ปลายด้านหนึ่งหรือทั้งสองด้าน ดูการเปรียบเทียบการทดสอบความดีพอดีสำหรับแบบจำลองการถดถอยโลจิสติก Stat Med 1997 16 (9): 965, j.mp/aV2W6Iχ2
chl

ขอบคุณไคนั่นคือการอ้างอิงที่มีประโยชน์แม้ว่าลิงก์ j.mp ของคุณจะพาฉันไปยังพรอมต์การเข้าสู่ระบบ BiblioInserm นี่คือลิงค์ของ doi-based: dx.doi.org/10.1002/…
onestop

ขออภัยสำหรับลิงก์ที่ไม่ถูกต้อง ... ฉันดูเหมือนจะจำได้ว่าDesignแพคเกจของ Frank Harrell มีการทดสอบ H&L 1 df ทางเลือก
chl

3

ฉันชอบ Nagelkerke มากพอ ๆ กับรุ่นนี้เมื่อได้แบบที่พอดีทำให้ผู้อ่านรู้สึกได้ว่าแบบของคุณนั้นสมบูรณ์แบบแค่ไหน Cox & Shell ไม่สามารถบรรลุ 1 สำหรับแบบจำลองที่สมบูรณ์แบบดังนั้นการตีความค่า 0.09 จึงยากขึ้นเล็กน้อย ดู URL นี้สำหรับข้อมูลเพิ่มเติมเกี่ยวกับPseudo RSquaredสำหรับคำอธิบายประเภทที่เหมาะสม


8
"ความสมบูรณ์แบบ" ยังห่างไกลจากความสำเร็จในการถดถอยโลจิสติกที่สมจริงซึ่งดูเหมือนว่าไม่ยุติธรรมที่จะใช้เป็นข้อมูลอ้างอิงหรือมาตรฐาน
whuber

1
@whuber True แต่คุณสามารถใช้มาตรฐานเพื่อเปรียบเทียบประสิทธิภาพที่สัมพันธ์กันของโมเดลคู่แข่งสองรุ่น คะแนนต่ำของคุณ R ^ 2 ในคำตอบของคุณและความหมายของคะแนนนั้นเป็นคะแนนที่ดี แต่ถ้าคุณมี (เช่นผู้ตรวจสอบเรียกร้อง ฯลฯ ) ให้ใช้รูปแบบของ R ^ 2 Nagelkerke จะดีกว่า

1
@Skridant ใช่ยังคงเป็นปัญหาของผู้แสดงความคิดเห็นว่าต้องการที่จะเห็นและ Bonferroni แก้ไขทุกที่ ...R2
CHL

@Srikant, @chl: การอ่านที่เหยียดหยามของกระทู้นี้จะแนะนำให้เลือก R ^ 2 ที่ใหญ่ที่สุดในบรรดารายงานซอฟต์แวร์ทั้งหมด ;-)
whuber

2
@chl การนำเสนอการผลักดันกลับไปยังผู้ตรวจสอบ / ลูกค้าเป็นสิ่งที่จำเป็น แต่บางครั้งเราก็ต้องมีการปฏิบัติเช่นกัน หากผู้อ่านไม่ได้ตีความผิดพลาดในระดับต่ำ R ^ 2 เนื่องจากการขาดประสิทธิภาพของโมเดลที่เพียงพอปัญหาที่เกิดขึ้นจาก @whuber จะลดลงในระดับหนึ่ง

3

แม้จะมีข้อโต้แย้งในการใช้หลอกหลอกบางคนจะด้วยเหตุผลต่าง ๆ ต้องการที่จะใช้พวกเขาอย่างน้อยในบางช่วงเวลา สิ่งที่ฉันได้ทำให้เป็นภายในจากการอ่านของฉัน (และฉันขอโทษที่ฉันไม่สามารถให้การอ้างอิงในขณะนี้) คือ

  • ถ้าทั้ง C&S และ Nag ต่ำกว่า. 5, C&S จะเป็นมาตรวัดที่ดีกว่า
    ถ้าพวกเขาทั้งคู่เหนือ. 5, นาค จะ; และ
    ถ้าพวกเขาเดิน 0.5, ถ่อ

นอกจากนี้สูตรที่ผลลัพธ์มักตกอยู่ระหว่างสองสิ่งนี้ที่ Scott Menard กล่าวถึงในการวิเคราะห์การถดถอยโลจิสติกประยุกต์ (Sage) คือ

[-2LL0 - (-2LL1)]/-2LL0.

นี่แสดงว่าเป็น "L" ในแผนภูมิด้านล่าง

ป้อนคำอธิบายรูปภาพที่นี่


ภาพนี้แสดงให้เห็นอะไร (แกนนอนแนวตั้ง) นอกจากนี้สูตรสุดท้าย (ซึ่งดูเหมือนสถิติอัตราส่วนความน่าจะปรับสัดส่วน) แตกต่างจาก Nagelkerkeอย่างไร? R2
chl

การวิเคราะห์ #: ฉันลองวิเคราะห์ด้วยชุดข้อมูลที่แตกต่างกัน ไม่มีสูตร Nagelkerke ที่มีประโยชน์ แต่ฉันคิดว่ามันพร้อมใช้งาน
rolando2

พอลอัลลิสันครอบคลุมสูตร Nagelkerke ซึ่งเป็นที่ปรับตัวสูงขึ้นค็อกซ์และปราดเปรื่องสูตรที่statisticalhorizons.com/2013/02 หลังจากอ่านบล็อกนั้นและโดยทั่วไปในช่วง 2-3 ปีที่ผ่านมาเนื่องจากการสนทนาส่วนใหญ่เกิดขึ้นฉันเชื่อมั่นมากขึ้นว่าการประเมินต่ำกว่าของ Cox & Snell อธิบายความแปรปรวนและฉันดีกว่าค่าเฉลี่ย C & S และ Nagelkerke
rolando2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.