การทดสอบความเหมาะสมในการถดถอยโลจิสติก เราต้องการทดสอบแบบใด


12

ฉันหมายถึงคำถามและคำตอบ: วิธีการเปรียบเทียบ (ความน่าจะเป็น) ความสามารถในการทำนายของแบบจำลองที่พัฒนาจากการถดถอยโลจิสติก? โดย @Clark Chong และคำตอบ / ความคิดเห็นโดย @Frank Harrell และคำถามองศาความเป็นอิสระของในการทดสอบ Hosmer-Lemeshowχ2และความคิดเห็น

ฉันได้อ่านเอกสารDW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "การเปรียบเทียบการทดสอบความดีพอดีสำหรับรูปแบบการถดถอยโลจิสติก", สถิติการแพทย์, ฉบับที่ 16, 965-980 (1997)

หลังจากอ่านฉันสับสนเพราะคำถามที่ฉันอ้างถึงขอให้ชัดเจนสำหรับ "(ความน่าจะเป็น) ความสามารถในการทำนาย" ซึ่งในความคิดของฉันไม่เหมือนกับสิ่งที่ดี - ของ - พอดี - แบบทดสอบในกระดาษ supra มุ่ง:

ดังที่พวกเราส่วนใหญ่ทราบกันว่าการถดถอยแบบลอจิสติกถือว่าการเชื่อมโยงรูปตัว S ระหว่างตัวแปรอธิบายและความน่าจะเป็นของความสำเร็จรูปแบบการทำงานของรูปตัว S คือ

P(y=1|xi)=11+e(β0+iβixi)

โดยไม่ต้องแสร้งว่าไม่มีข้อบกพร่องในการทดสอบ Hosmer – Lemeshow ฉันคิดว่าเราต้องแยกแยะระหว่างการทดสอบสำหรับความสามารถในการคาดการณ์ (a) '(ความน่าจะเป็น) ' และ (b) ' ความดี - พอดี '

เป้าหมายของอดีตคือการทดสอบว่าความน่าจะเป็นที่คาดการณ์ได้ดีหรือไม่ในขณะที่การทดสอบความดีของความพอดีนั้นทดสอบว่าฟังก์ชันรูปตัว S ข้างต้นเป็นฟังก์ชัน 'ถูกต้อง' หรือไม่ เป็นทางการมากขึ้น:

  1. การทดสอบสำหรับ 'การทดสอบความสามารถในการคาดการณ์ความน่าจะเป็น' มีระบุว่าความน่าจะเป็นที่จะประสบความสำเร็จนั้นได้รับการทำนายโดยแบบจำลองH0
  2. ในขณะที่การทดสอบความดีพอดีคือ (ดู Hosmer et. al.) ว่ารูปแบบการใช้งานรูปตัว S เป็นแบบที่ถูกต้อง Hosmer และคณะ ทำแบบจำลองที่พวกเขาพบว่าพลังในการตรวจจับการเบี่ยงเบนสองประเภทจากโมฆะนั่นคือฟังก์ชั่นลิงค์ผิดหรือเลขชี้กำลังในตัวส่วนนั้นไม่ใช่แบบเชิงเส้นH0

เห็นได้ชัดว่าหากฟังก์ชั่นด้านบนมีรูปแบบการทำงานที่ 'ถูกต้อง' (ดังนั้นหากการทดสอบสรุปว่าเราสามารถยอมรับสำหรับการทดสอบความดีพอดี), ดังนั้นความน่าจะเป็นที่คาดการณ์จะดีขึ้น ...H0

คำพูดแรก

... อย่างไรก็ตามการยอมรับเป็นข้อสรุปที่อ่อนแอตามที่อธิบายไว้ในสิ่งต่อไปนี้ถ้าเราล้มเหลวในการปฏิเสธสมมติฐานว่าง .H0

คำถามแรก

คำถาม / ข้อสังเกตที่สำคัญที่สุดที่ฉันมีคือหากความดีงามของความพอดีถูกปฏิเสธดังนั้นบทสรุปของการทดสอบก็คือรูปแบบการทำงานไม่ใช่แบบ 'ถูกต้อง' อย่างไรก็ตามสิ่งนี้แสดงถึงความน่าจะเป็น ทำนายไม่ดีเหรอ?H0

คำถามที่สอง

นอกจากนี้ฉันต้องการชี้ไปที่บทสรุปของ Hosmer และ อัล; (ฉันอ้างจากนามธรรม):

'' การตรวจสอบประสิทธิภาพของการทดสอบเมื่อแบบจำลองที่ถูกต้องมีคำว่ากำลังสอง แต่แบบจำลองที่มีเฉพาะคำเชิงเส้นตรงพอดีแสดงว่าเพียร์สันไคสแควร์เพียร์สันไคส์สแควร์ที่ไม่มีน้ำหนัก ของความเสี่ยงผลรวมของสแควร์สเรียบและการทดสอบคะแนนของ Stukel มีอำนาจเกินกว่า 50 เปอร์เซ็นต์ในการตรวจสอบขาออกระดับปานกลางจากเส้นตรงเมื่อขนาดตัวอย่าง 100 และมีอำนาจมากกว่า 90 เปอร์เซ็นต์สำหรับทางเลือกเดียวกันเหล่านี้สำหรับตัวอย่างขนาด 500 การทดสอบทั้งหมดไม่มีอำนาจเมื่อแบบจำลองที่ถูกต้องมีปฏิสัมพันธ์ระหว่างโควาริเตตแบบแบ่งขั้วและแบบต่อเนื่อง แต่แบบจำลองโควาเรียตต่อเนื่องนั้นพอดี อำนาจในการตรวจสอบลิงก์ที่ระบุอย่างไม่ถูกต้องนั้นไม่ดีสำหรับตัวอย่างขนาด 100 สำหรับตัวอย่างขนาด 500 Stukel ' การทดสอบคะแนนมีพลังดีที่สุด แต่เกิน 50 เปอร์เซ็นต์ในการตรวจสอบฟังก์ชันลิงค์อสมมาตร พลังของการทดสอบ sum-of-squares ที่ไม่ถ่วงเพื่อตรวจสอบฟังก์ชันลิงก์ที่ระบุอย่างไม่ถูกต้องนั้นน้อยกว่าการทดสอบคะแนนของ Stukel เล็กน้อย ''

ฉันสามารถสรุปได้จากการทดสอบนี้ที่มีพลังมากขึ้นหรือ Hosmer – Lemeshow มีพลังน้อยกว่า (เพื่อตรวจสอบความผิดปกติเฉพาะเหล่านี้)

คำพูดที่สอง

กระดาษโดย Hosmer et อัล ที่ฉันเรียกว่า supra, คำนวณ (จำลอง) พลังในการตรวจจับความผิดปกติเฉพาะ (พลังสามารถคำนวณได้เฉพาะเมื่อมีการระบุ ) ตามความเห็นของฉันฉันไม่ได้บอกเป็นนัยว่าผลลัพธ์เหล่านี้สามารถสรุปเป็น '' ทางเลือกที่เป็นไปได้ทั้งหมด ''H1H1

คำตอบ:


5

"Goodness of fit" บางครั้งใช้ในแง่หนึ่งว่าเป็นสิ่งที่ขัดกับรูปแบบที่ไม่ถูกต้องตามข้อกำหนด "ขาดความพอดี"; & บางครั้งก็เป็นอีกแง่มุมหนึ่งในฐานะที่เป็นแบบจำลองการทำนายผลการทำนายที่ตรงกับการสังเกตได้ดีเพียงใด การทดสอบ Hosmer – Lemeshow นั้นเหมาะสมสำหรับความรู้สึกที่เหมาะสมในแง่แรกและถึงแม้ว่าหลักฐานการขาดความพอดีชี้ให้เห็นถึงประสิทธิภาพในการทำนาย (GoF ในแง่ที่สองโดยวัดได้จากคะแนน Nagelkerke ของหรือ Brier) ที่สามารถปรับปรุงได้ ไม่มีใครฉลาดเท่าไหร่หรือมากแค่ไหนจนกว่าคุณจะลองปรับปรุงเฉพาะ (โดยทั่วไปรวมถึงเงื่อนไขการทำงานร่วมกันหรือพื้นฐาน spline หรือพหุนามสำหรับตัวแทนทำนายอย่างต่อเนื่องเพื่อให้ความสัมพันธ์ curvilinear กับ logit; บางครั้งโดยการเปลี่ยนลิงค์)R2

การทดสอบแบบ Goodness-of-fit นั้นมีวัตถุประสงค์เพื่อให้มีกำลังที่สมเหตุสมผลต่อทางเลือกที่หลากหลายแทนที่จะใช้กำลังสูงต่อทางเลือกเฉพาะ ดังนั้นผู้คนที่เปรียบเทียบพลังของการทดสอบที่แตกต่างกันมีแนวโน้มที่จะใช้แนวทางปฏิบัติในการเลือกทางเลือกบางอย่างที่คิดว่าน่าสนใจเป็นพิเศษสำหรับผู้ใช้ที่มีศักยภาพ (ดูตัวอย่างที่สตีเฟนส์อ้างบ่อย ๆ(1974) & การเปรียบเทียบบางอย่าง ", JASA, 69 , 347 ) คุณไม่สามารถสรุปได้ว่าการทดสอบหนึ่งแบบนั้นมีประสิทธิภาพมากกว่าแบบทดสอบแบบอื่น ๆ ที่เป็นไปได้ทั้งหมดเพราะแบบทดสอบอันทรงพลังกว่าบางแบบ


1
ในบางกรณีก็สามารถแสดงให้เห็นว่าการทดสอบคือ 'มีประสิทธิภาพมากขึ้นอย่างสม่ำเสมอ' ซึ่งหมายความว่ามันมีประสิทธิภาพมากขึ้นสำหรับทางเลือกที่เป็นไปได้ทั้งหมด (cfr Karlin / ทฤษฎีบทรูบิน) แต่คุณถูกต้องว่านี่เป็นเพียงกรณีพิเศษและไม่แน่นอนในการทดสอบ Hosmer-Lemeshow

4
โดยทั่วไป "ความดีที่เหมาะสม" ได้รับการเน้นมากเกินไป IMHO ทางเลือกที่ดีกว่าคือการทำให้แบบเข้าด้านหน้าพอดี สิ่งนี้ทำได้โดยใช้เส้นโค้งการถดถอยเพื่อผ่อนคลายสมมติฐานเชิงเส้นตรงและรวมถึงการโต้ตอบที่สมเหตุสมผล
Frank Harrell

2
@fcoppens: จุดดี! คุณจะได้รับการทดสอบ UMP โดยการ จำกัด ทางเลือกอย่างรุนแรงภายใต้การพิจารณาถึงค่าของพารามิเตอร์สเกลาร์และแม้ไม่เสมอไป แม้ว่าการพิจารณาว่าการทดสอบที่ยอมรับไม่ได้ - มีการทดสอบอย่างน้อยหนึ่งครั้งที่มีพลังมากกว่าในทุกทางเลือก - จะต้อง จำกัด การเลือกมากเกินไปสำหรับการทดสอบ GOF ที่ใช้งานทั่วไป
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.