เหตุใดการทดสอบอัตราส่วนความน่าจะเป็นกระจายแบบไคสแควร์


34

ทำไมสถิติการทดสอบของการทดสอบอัตราส่วนความน่าจะเป็นแบบกระจายไคสแควร์

2(ln Lalt modelln Lnull model)χdfaltdfnull2



14
ขอบคุณสำหรับการอ้างอิง นี่คือหนึ่งจากฉัน: stats.stackexchange.com/faq#etiquette
Dr. Beeblebrox

5
สังเกตุ "นำอารมณ์ขันของคุณ" ที่นั่น ฉันไม่ได้ตั้งใจที่จะหยาบคาย แต่คำตอบสำหรับคำถามนี้จะค่อนข้างน่าเบื่อและประกอบด้วยเนื้อหาเนื้อหาของบทความนั้น (หรือตำราตำราสถิติที่ดีกว่า) หากคุณระบุปัญหาที่แน่นอนของคุณพร้อมคำอธิบายในสิ่งเหล่านี้ฉันยินดีที่จะช่วยเหลือคุณ
Nick Sabbe

2
เชื่อมโยงโดยตรงกับกระดาษต้นฉบับของ Wilks โดยไม่มีค่าใช้จ่าย
ayorgo

คำตอบ:


23

ดังกล่าวโดย @ Nick นี้เป็นผลมาจากทฤษฎีบท Wilks' แต่โปรดทราบว่าสถิติการทดสอบนั้นเป็นแบบไม่แสดง กระจายไม่ใช่กระจายχ2χ2

ฉันประทับใจในทฤษฎีบทนี้มากเพราะมันเป็นบริบทที่กว้างมาก พิจารณาแบบจำลองทางสถิติที่มีความเป็นไปได้โดยที่คือการสังเกตเวกเตอร์ของ การสังเกตแบบจำลองอิสระจากการแจกแจงพร้อมพารามิเตอร์ซึ่งเป็นของ submanifoldของพร้อมมิติ s ให้เป็น submanifold กับมิติ m ลองนึกภาพคุณมีความสนใจในการทดสอบ\}Y n θ B 1 R dสลัว( B 1 ) = s B 0B 1มซำ( B 0 ) = H 0 : { θ B 0 }l(θy)ynθB1Rddim(B1)=sB0B1dim(B0)=mH0:{θB0}

อัตราส่วนเป็น กําหนดการเบี่ยงเบนใหญ่) จากนั้นทฤษฎีบทของวิลก์ส์บอกว่าภายใต้สมมติฐานปกติปกติคือ asymptoticallyกระจายกับเอสองศาอิสระเมื่อถือเป็นจริง d(y)=2บันทึก(lr(y))d(y)χ2s-mH0

lr(y)=supθB1l(θy)supθB0l(θy).
d(y)=2log(lr(y))d(y)χ2smH0

ได้รับการพิสูจน์ในเอกสารต้นฉบับของ Wilk ที่ @Nick พูดถึง ฉันคิดว่าบทความนี้อ่านไม่ง่าย วิลก์สตีพิมพ์หนังสือเล่มหนึ่งในภายหลังบางทีด้วยการนำเสนอที่ง่ายที่สุดของทฤษฎีบทของเขา หลักฐานการแก้ปัญหาในระยะสั้นจะได้รับในหนังสือที่ดีวิลเลียมส์


3
น่าเศร้าที่ทฤษฎีบทนี้ไม่ได้กล่าวถึงในหน้าวิกิพีเดียที่อุทิศให้กับซามูเอลเอส. วิลก์ส
Stéphane Laurent

5
โอ้มาสเตฟาน นี่คือ Wikipedia คุณสามารถแก้ไขและปรับปรุงได้!
StasK

1
@ ขั้นตอนฉันรู้ว่า แต่ฉันไม่เคยลอง และฉันใช้เวลามากเกินไปในชีวิตของฉันกับสถิติ & คณิตศาสตร์;)
Stéphane Laurent

มีสัญชาตญาณว่าทำไมทั้ง 2 อยู่หน้าบันทึกในนิยามของการเบี่ยงเบนหรือไม่?
user56834

@ Programmer2134 มันได้มาจากการขยายตัวของเทย์เลอร์ลำดับที่สอง
Frank Vel

25

ความคิดเห็นที่รุนแรงผมสองนิค Sabbe และคำตอบสั้น ๆ ของฉันคือมันไม่ได้เป็น ฉันหมายถึงมันมีเฉพาะในโมเดลเชิงเส้นปกติเท่านั้น สำหรับอย่างอื่น ๆ เรียงลำดับของสถานการณ์การกระจายที่แน่นอนไม่ได้เป็น 2 ในหลาย ๆ สถานการณ์ที่คุณสามารถหวังว่า Wilks' เงื่อนไขทฤษฎีบทมีความพึงพอใจและจากนั้นasymptoticallyลู่สถิติการเข้าสู่ระบบโอกาสทดสอบอัตราส่วนในการกระจายไปยัง 2 ข้อ จำกัด และการละเมิดเงื่อนไขของทฤษฎีบทของวิลก์ส์มีมากมายเกินกว่าที่จะมองข้ามχ 2χ2χ2

  1. ทฤษฎีนี้สันนิษฐานว่า iid dataคาดว่าปัญหาเกี่ยวกับข้อมูลที่ต้องพึ่งพาเช่นอนุกรมเวลาหรือตัวอย่างการสำรวจความน่าจะเป็นที่ไม่เท่าเทียมกัน (ซึ่งมีการกำหนดความน่าจะเป็นที่ไม่ดีอยู่ดี; การทดสอบ "ปกติ"เช่นการทดสอบอิสระในตารางฉุกเฉิน เริ่มต้นพฤติกรรมตามจำนวนเงินที่ ( ราวและสกอตต์ ). สำหรับข้อมูล IID,และผลรวมจะกลายเป็น . แต่ไม่ใช่ - ข้อมูลอิสระนี่ไม่ใช่กรณีอีกต่อไปχ 2 Σ k k วีk , วีk ~ IID χ 2 1 k = 1 χ 2χ2kakvk,vki.i.d.χ12ak=1χ2
  2. ทฤษฎีบทสมมติว่าพารามิเตอร์ที่แท้จริงจะอยู่ในการตกแต่งภายในของพื้นที่พารามิเตอร์ หากคุณมีพื้นที่แบบยุคลิดเพื่อทำงานด้วยนั่นไม่ใช่ปัญหา อย่างไรก็ตามในปัญหาบางอย่างข้อ จำกัด ตามธรรมชาติอาจเกิดขึ้นเช่นความแปรปรวน 0 หรือความสัมพันธ์ระหว่าง -1 และ 1 หากพารามิเตอร์ที่แท้จริงคือขอบเขตหนึ่งจากนั้นการกระจายซีมโทติคคือส่วนผสมของมีองศาที่แตกต่างกัน ในแง่ที่ว่า cdf ของการทดสอบคือผลรวมของ cdfs ( Andrews 2001 , บวกสองหรือสามของเอกสารของเขามากกว่าในช่วงเวลาเดียวกันโดยมีประวัติย้อนกลับไปที่Chernoff 1954 )ไค2χ2
  3. ทฤษฎีบทสันนิษฐานว่าอนุพันธ์ที่เกี่ยวข้องทั้งหมดไม่เป็นศูนย์ สิ่งนี้สามารถท้าทายกับปัญหาที่ไม่เป็นเชิงเส้นและ / หรือการกำหนดพารามิเตอร์และ / หรือสถานการณ์เมื่อไม่ได้ระบุพารามิเตอร์ภายใต้ค่า null สมมติว่าคุณมีรูปแบบการผสมแบบเกาส์และโมฆะของคุณคือหนึ่งองค์ประกอบกับทางเลือกของส่วนประกอบที่แตกต่างกันสองตัวมีการผสมส่วนฉเห็นได้ชัดว่าเป็นโมฆะซ้อนกันในทางเลือก แต่สิ่งนี้สามารถแสดงออกได้หลายวิธี: เมื่อ (ซึ่งในกรณีนี้พารามิเตอร์ไม่ได้ระบุ), (ในกรณีที่f N (N(μ0,σ02)f f = 0 μ 1 , σ 2 1 f = 1 μ 2 , σ 2 2 μ 1 = μ 2 , σ 1fN(μ1,σ12)+(1f)N(μ2,σ22)ff=0μ1,σ12f=1μ2,σ22ไม่ได้ระบุไว้) หรือ (ในกรณีที่ไม่ได้ระบุ ) ที่นี่คุณไม่สามารถบอกได้ว่าคุณควรมีอิสระในการทดสอบกี่องศาเนื่องจากคุณมีข้อ จำกัด ที่แตกต่างกันขึ้นอยู่กับว่าคุณกำหนดพารามิเตอร์การซ้อน ดูการทำงานของ Jiahua เฉินเกี่ยวกับเรื่องนี้เช่นCJS 2001 fμ1=μ2,σ1=σ2f
  4. อาจทำงานได้ตกลงถ้าการจัดจำหน่ายที่ได้รับการระบุไว้อย่างถูกต้อง แต่ถ้าไม่ใช่การทดสอบจะหยุดลงอีกครั้ง ใน (โดยส่วนใหญ่ถูกละเลยโดยนักสถิติ) subarea ของการวิเคราะห์หลายตัวแปรที่รู้จักกันในชื่อการสร้างแบบจำลองความแปรปรวนร่วมสมการโครงสร้างการกระจายปกติหลายตัวแปรมักจะสันนิษฐาน แต่ถึงแม้ว่าโครงสร้างที่ถูกต้องการทดสอบจะทำงานผิดถ้าการกระจายแตกต่างกัน Satorra และ Bentler 1995แสดงให้เห็นว่าการแจกแจงจะกลายเป็นเรื่องราวเดียวกันกับที่ไม่ใช่ข้อมูลอิสระในจุดที่ 1 ของฉัน แต่พวกเขาได้แสดงให้เห็นว่า s ขึ้นอยู่กับโครงสร้างของโมเดลและช่วงเวลาที่สี่ของการแจกแจงk a k v k , v kiid χ 2 1 a kχ2kakvk,vki.i.d.χ12ak
  5. สำหรับตัวอย่างที่ จำกัด ในสถานการณ์ที่มีความเป็นไปได้สูงที่อัตราส่วนของบาร์ตเลตต์จะถูกต้อง : ในขณะที่สำหรับตัวอย่างที่มีขนาดและเป็นฟังก์ชั่นการกระจายของกระจายสำหรับปัญหาที่เกิดขึ้นน่าจะเป็นปกติคุณสามารถหาได้คงที่ดังกล่าวว่าคือลำดับที่สูงขึ้นของ ความถูกต้อง ดังนั้นการประมาณสำหรับตัวอย่าง จำกัด สามารถปรับปรุงได้ (และควรปรับปรุงถ้าคุณรู้วิธี) ค่าคงที่n F ( x ; χ 2 d ) χ 2 d b P r o b [ d ( y ) / ( 1 + b / n )Prob[d(y)x]=F(x;χd2)[1+O(n1)]nF(x;χd2)χd2bχ 2 bProb[d(y)/(1+b/n)x]=F(x;χd2)[1+O(n2)]χ2b ขึ้นอยู่กับโครงสร้างของแบบจำลองและบางครั้งก็ขึ้นอยู่กับพารามิเตอร์เสริม แต่ถ้าสามารถประมาณได้อย่างสม่ำเสมอก็จะได้ผลเช่นเดียวกันในการปรับปรุงลำดับความครอบคลุม

สำหรับความคิดเห็นของปัญหาเหล่านี้และความลับที่คล้ายกันในโอกาสอนุมานดูสมิ ธ 1989


1
ขอบคุณ! คำแนะนำมาก คุณหมายถึงอะไรโดย"มันอยู่ในรูปแบบเชิงเส้นปกติ" เท่านั้น ? สำหรับการทดสอบฟิชเชอร์เมื่อและมี subspaces เชิงเส้นแล้วเบี่ยงเบนเป็นฟังก์ชั่นเดียวของสถิติฟิชเชอร์และมันเป็นเพียงasymptotically 2 B 1 χ 2B0B1 χ2
Stéphane Laurent

ด้วยความแปรปรวนที่รู้จักกันฉันควรเพิ่ม
StasK
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.