เหตุใดการพิสูจน์ของวิลก์ในปี 1938 จึงไม่ทำงานกับแบบจำลองที่ผิดพลาด


23

ใน 1,938 กระดาษที่มีชื่อเสียง (" การกระจายตัวอย่างขนาดใหญ่ของอัตราส่วนความน่าจะเป็นสำหรับการทดสอบสมมติฐานประกอบ ", พงศาวดารของคณิตศาสตร์สถิติ, 9: 60-62), ซามูเอล Wilks มากระจาย asymptotic (อัตราส่วนความน่าจะเป็นบันทึก ) สำหรับสมมติฐานที่ซ้อนกันภายใต้สมมติฐานว่ามีการระบุสมมติฐานที่ใหญ่กว่าอย่างถูกต้อง การ จำกัด การแจกแจงคือχ 2 (ไค - สแควร์) ที่มีองศาอิสระh - mโดยที่hคือจำนวนพารามิเตอร์ในสมมติฐานขนาดใหญ่และm2×LLRχ2hmhmคือจำนวนของพารามิเตอร์อิสระในสมมติฐานที่ซ้อนกัน อย่างไรก็ตามเป็นที่ทราบกันดีว่าผลลัพธ์นี้ไม่ได้เก็บไว้เมื่อสมมติฐานถูกสะกดผิด (กล่าวคือเมื่อสมมติฐานที่ใหญ่กว่านั้นไม่ใช่การแจกแจงที่แท้จริงสำหรับข้อมูลตัวอย่าง)

มีใครอธิบายได้บ้างไหม สำหรับฉันแล้วดูเหมือนว่าการพิสูจน์ของวิลก์สควรจะทำงานกับการดัดแปลงเล็กน้อย มันขึ้นอยู่กับมาตรฐานเชิงเส้นกำกับของการประมาณความน่าจะเป็นสูงสุด (MLE) ซึ่งยังคงมีรูปแบบที่ผิดพลาด ความแตกต่างเพียงอย่างเดียวคือเมทริกซ์ความแปรปรวนของการ จำกัด หลายตัวแปรปกติ: สำหรับรุ่นที่ระบุไว้อย่างถูกต้องเราสามารถใกล้เคียงกับเมทริกซ์ความแปรปรวนร่วมกับผกผันฟิชเชอร์ข้อมูลเมทริกซ์กับ misspecification เราสามารถใช้การประมาณการแซนวิชของเมทริกซ์ความแปรปรวนร่วม ( J - 1 K J - 1 ) ส่วนหลังจะลดค่าผกผันของเมทริกซ์ข้อมูลฟิชเชอร์เมื่อโมเดลถูกระบุอย่างถูกต้อง (ตั้งแต่J = KJ1J1KJ1J=K) AFAICT หลักฐาน Wilks ไม่สนใจว่าการประมาณของเมทริกซ์ความแปรปรวนร่วมนั้นมาจากตราบใดที่เรามีเมทริกซ์ความแปรปรวนร่วมแบบไม่มีการแปรกลับของเมทริกซ์หลายตัวแปรปกติสำหรับ MLEs ( ในกระดาษ Wilks) c1


เมื่อรูปแบบที่มีขนาดใหญ่เป็นความจริง แต่เท็จรุ่นย่อยที่กระจาย asymptotic ไม่อีกต่อไป (ในรูปแบบเชิงเส้นที่มีข้อผิดพลาดเสียน, ตัวอย่างเช่นเราได้รับสิ่งที่ต้องการกระจายแน่นอน noncentral-F เพื่อให้การกระจาย asymptotic ควรจะเป็นสิ่งที่ชอบ NC- χ 2ฉันเดา) แล้วทำไมเราถึงคาดหวังให้มันเป็นχ 2เมื่อทั้งตัวใหญ่และตัวเล็กกว่านั้นผิดทั้งคู่? สมมุติฐานว่างเริ่มแรกตรงนี้คืออะไร? χ2χ2χ2
ผู้ชาย

ในสมมติฐานว่างที่ระบุไว้อย่างถูกต้องทั้งสองโมเดลเป็น "จริง" แต่หนึ่งซ้อนอยู่มีพารามิเตอร์คงที่ค่าที่แท้จริง ใน misspecified null-hypothesis ทั้งสองโมเดลเป็น "false" แต่หนึ่งซ้อนมีพารามิเตอร์m ที่คงที่ค่า pseudotrue ("Pseudotrue value" เป็นค่า asymptotic ของพารามิเตอร์ที่ลดระยะทาง Kullback-Liebler ระหว่างตัวแบบ misspecified และตัวแบบจริง) ดังนั้นตัวอย่างของ noncentral-F ของคุณจึงไม่เกี่ยวข้องเนื่องจากนั่นคือการแจกแจงเมื่อสมมติฐานว่างที่นี่เป็นเท็จ mm
ratsalad

ขออภัยฉันควรจะกล่าวว่าสมมติฐานที่ซ้อนกันมีพารามิเตอร์ค่าคงที่จริง hm
ratsalad

มันเป็นความเข้าใจของฉันว่าแบบจำลองโมฆะที่ไม่มีการระบุนั้นสามารถสะกดผิดได้หลายวิธี ตัวอย่างเช่น: การแจกแจงส่วนที่ไม่ถูกต้องของข้อมูลมีความแตกต่างกันอย่างมากผลกระทบไม่ได้เป็นสารเติมแต่ง ฯลฯ อย่างไรก็ตามฉันยอมรับว่าถ้าอย่างน้อยหนึ่งพารามิเตอร์ "ทดสอบ" ถูกแก้ไขด้วยค่าเท็จ (ตัวอย่างเช่นค่า pseudotrue) นั่นคือตัวอย่างหนึ่งของโมเดล null ที่ระบุไม่ถูกต้อง hm
rcorty

คำตอบ:


19

RV Foutz และ RC Srivastava ตรวจสอบปัญหาโดยละเอียด 1977 กระดาษของพวกเขา"ประสิทธิภาพของการทดสอบอัตราส่วนเมื่อรูปแบบไม่ถูกต้อง"มีคำสั่งของผลการกระจายในกรณีของ misspecification ควบคู่ไปกับร่างที่สั้นมากของการพิสูจน์ในขณะที่ 1978 กระดาษของพวกเขา"การกระจาย asymptotic อัตราส่วนความเป็นไปได้เมื่อ แบบจำลองไม่ถูกต้อง "มีการพิสูจน์ - แต่หลังถูกพิมพ์ในตัวเขียนแบบโบราณ (ทั้งเอกสารใช้สัญกรณ์เดียวกันแม้ว่าดังนั้นเพื่อให้คุณสามารถรวมพวกเขาในการอ่าน) นอกจากนี้สำหรับบางขั้นตอนของการพิสูจน์พวกเขาอ้างถึงกระดาษโดย KP Roy "บันทึกเกี่ยวกับการแจกแจงแบบไม่มีอาการของอัตราส่วนความน่าจะเป็น" จากปี 1957 ซึ่งไม่ปรากฏว่ามีอยู่ในบรรทัดแม้แต่ประตูรั้ว

ในกรณีที่มีการแจกแจงการสะกดผิดถ้า MLE ยังคงสอดคล้องและเป็นปกติ (ซึ่งไม่ใช่กรณี) asymptotically, LR สถิติดังนี้ asymptotically เชิงเส้นรวมกันเป็นอิสระของไคสแควร์ - asymptotically (แต่ละระดับอิสระ)

2lnλdi=1rciχi2

ที่เมตร เราสามารถเห็น "ความคล้ายคลึงกัน": แทนที่จะเป็นไคสแควร์ที่มีอิสระในระดับh - mเราจะมีไค - สแควร์h - mแต่ละอันที่มีอิสระในระดับหนึ่ง แต่ "การเปรียบเทียบ" หยุดอยู่ที่นั่นเพราะการรวมกันเชิงเส้นของไคสแควร์ไม่มีความหนาแน่นของรูปแบบปิด chi-square ที่ปรับสเกลแต่ละตัวเป็นแกมม่า แต่ด้วยพารามิเตอร์c i ที่แตกต่างกันซึ่งนำไปสู่พารามิเตอร์สเกลที่แตกต่างกันสำหรับแกมม่า - และผลรวมของ gammas ดังกล่าวไม่ได้เป็นแบบปิดแม้ว่าจะสามารถคำนวณค่าได้r=hmhmhmci

สำหรับคงที่เรามี12 . . c r0 , และพวกมันคือค่าลักษณะเฉพาะของเมทริกซ์ ... เมทริกซ์ตัวไหน? การใช้สัญกรณ์ของผู้แต่งตั้งค่าΛให้เป็น Hessian ของบันทึกความน่าจะเป็นและCเป็นผลิตภัณฑ์ชั้นนอกของการไล่ระดับสีของความน่าจะเป็นบันทึก (ในแง่ที่คาดหวัง) ดังนั้นV = Λ - 1 C ( Λ ) - 1คือเมทริกซ์ความแปรปรวนเชิงซ้อน - ความแปรปรวนร่วมของ MLEcic1c2...cr0ΛCV=Λ1C(Λ)1

จากนั้นตั้งค่าจะเป็นR × rบล็อกเส้นทแยงมุมบนของVMr×rV.

Also write Λ in block form

Λ=[Λr×rΛ2Λ2Λ3]

W=Λr×r+Λ2Λ31Λ2 (W is the negative of the Schur Complement of Λ).

ciMW


[9], the proof can move forward even if we assume that we have a distributional misspecification: as the OP notes, the terms of the variance covariance matrix will be different in the misspecification scenario, but all Wilks does is take derivatives, and identify asymptotically negligible terms. And so he arrives at eq. [9] where we see that the likelihood ratio statistic, if the specification is correct, is just the sum of hm squared standard normal random variables, and so they are distributed as one chi-square with hm degrees of freedom: (generic notation)

2lnλ=i=1hm(nθ^iθiσi)2dχhm2

But if we have misspecification, then the terms that are used in order to scale the centered and magnified MLE n(θ^θ) are no longer the terms that will make the variances of each element equal to unity, and so transform each term into a standard normal r.v and the sum into a chi-square.
And they are not, because these terms involve the expected values of the second derivatives of the log-likelihood... but the expected value can only be taken with respect to the true distribution, since the MLE is a function of the data and the data follows the true distribution, while the second derivatives of the log-likelihood are calculated based on the wrong density assumption.

So under misspecification we have something like

2lnλ=i=1hm(nθ^iθiai)2
and the best we can do is to manipulate it into

2lnλ=i=1hmσi2ai2(nθ^iθiσi)2=i=1hmσi2ai2χ12

which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. with hm degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.


1
So, this is just a restatement of the standard result when the model is misspecified. This result has been derived and re-derived many times. The clearest and most illuminating derivation I have seen is from Kent 1982 "Robust Properties of Likelihood Ratio Tests" (Biometrika 69:19). However, you did not answer my question. My question was specifically about Wilks 1938 proof, and why it fails.
ratsalad

2

Wilks' 1938 proof doesn't work because Wilks used J1 As the asymptotic covariance matrix in his proof. J1 is the inverse of the Hessian of the negative log likelihood rather than the sandwich estimator J1KJ1. Wilks references the ijth element of J as cij in his proof. By making the assumption that J1KJ1=J1 Wilks (1938) is assuming that K=J holds which is the Fisher Information Matrix equality. If the probability model is correctly specified then K=J. So one interpretation of the assumption by Wilks is that he is assuming the stronger assumption that the probability model is correctly specified.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.