การหาจำนวนของ gaussians ในส่วนผสม จำกัด กับทฤษฎีบทของ Wilks?


11

สมมติว่าผมมีชุดของอิสระสังเกต univariate กันกระจายและสองสมมติฐานเกี่ยวกับวิธีการถูกสร้าง:xx

H0 : มาจากการแจกแจงแบบเกาส์เดียวโดยไม่ทราบค่าเฉลี่ยและความแปรปรวนx

HA : มาจากการผสมผสานของสอง Gaussians ที่ไม่ทราบค่าเฉลี่ยความแปรปรวนและสัมประสิทธิ์การผสมx

หากฉันเข้าใจอย่างถูกต้องนี่เป็นแบบจำลองที่ซ้อนกันเนื่องจากแบบจำลองที่หมายถึงสามารถอธิบายได้ในแง่ของหากคุณ จำกัด พารามิเตอร์ของ Gaussians ทั้งสองให้เหมือนกันหรือ จำกัด สัมประสิทธิ์การผสมให้เป็นศูนย์สำหรับหนึ่งในสอง Gaussians H0HA

ดังนั้นดูเหมือนว่าคุณจะสามารถใช้อัลกอริทึม EM เพื่อประเมินพารามิเตอร์ของแล้วใช้ทฤษฎีบทของวิลก์สเพื่อพิจารณาว่าโอกาสของข้อมูลภายใต้นั้นสูงกว่าของอย่างมีนัยสำคัญไม่ มีความเชื่อเล็กน้อยในข้อสันนิษฐานว่าอัลกอริทึม EM จะมาบรรจบกันกับความเป็นไปได้สูงสุดที่นี่ แต่เป็นสิ่งที่ฉันยินดีทำHAHAH0

ฉันลองสิ่งนี้ในการจำลอง monte carlo โดยสมมติว่ามีอิสระมากกว่า 3 องศา H 0 (ค่าเฉลี่ยและความแปรปรวนสำหรับ Gaussian ที่สองและพารามิเตอร์การผสม) เมื่อฉันจำลองข้อมูลจาก H 0ฉันได้รับการแจกแจงแบบ P-value ที่ไม่สม่ำเสมอและได้รับการเสริมคุณค่าสำหรับค่า P ขนาดเล็ก (หาก EM ไม่ได้มาบรรจบกันกับความเป็นไปได้สูงสุดที่แท้จริงจะมีสิ่งตรงกันข้ามเกิดขึ้นแน่นอน) เกิดอะไรขึ้นกับการประยุกต์ใช้ทฤษฎีบทของวิลก์สที่สร้างอคตินี้HAH0H0

คำตอบ:


8

μ1,μ2,σ1,σ2,ρ

H0:(μ1=μ2 and σ1=σ2) or ρ{0,1}.
ρρ

สมมติฐานว่างเป็นส่วนย่อยที่ซับซ้อนของพื้นที่พารามิเตอร์เต็มและภายใต้ null พารามิเตอร์จะไม่สามารถระบุได้ ข้อสันนิษฐานทั่วไปจำเป็นต้องทำให้ทฤษฎีบทของวิลค์สลายลงโดยเฉพาะอย่างยิ่งที่เป็นไปไม่ได้ที่จะสร้างการขยายตัวของเทย์เลอร์ที่เหมาะสมของความน่าจะเป็นบันทึก

ฉันไม่มีประสบการณ์ส่วนตัวกับปัญหานี้ แต่ฉันรู้กรณีอื่น ๆ ที่พารามิเตอร์ "หายไป" ภายใต้ค่า null ซึ่งน่าจะเป็นกรณีที่นี่เช่นกันและในกรณีเหล่านี้บทสรุปของทฤษฎีบทของ Wilk ก็พังทลายลงเช่นกัน . การค้นหาอย่างรวดเร็วทำให้เอกสารนี้ดูมีความเกี่ยวข้องและในที่ที่คุณอาจค้นหาข้อมูลอ้างอิงเพิ่มเติมเกี่ยวกับการใช้การทดสอบอัตราส่วนความน่าจะเป็นที่สัมพันธ์กับแบบจำลองการผสม


ขอบคุณ ฉันคิดว่าสิ่งนี้อาจเป็นปัญหา แต่ฉันไม่แน่ใจ ฉันสับสนเล็กน้อยเกี่ยวกับคะแนนปลีกย่อยของสิ่งที่ถือเป็นแบบจำลองที่ซ้อนกันเพื่อจุดประสงค์ของทฤษฎีบทของ Wilks จุดที่ดีเกี่ยวกับการระบุตัวตนภายใต้ null
dsimcha

4

ρอยู่ในขอบเขตของพื้นที่พารามิเตอร์และ (b) การตั้งค่าพารามิเตอร์ไม่สามารถพิสูจน์ได้ภายใต้ null สิ่งนี้ไม่ได้บอกว่าการกระจายตัวของอัตราส่วนความน่าจะเป็นแบบทั่วไปนั้นไม่เป็นที่รู้จัก! หากไม่รู้จักพารามิเตอร์ทั้ง 5 ในการตั้งค่าของคุณและที่สำคัญกว่านั้นคือการกระจายของสถิติ LR ไม่ได้มาบรรจบกัน หากพารามิเตอร์ที่ไม่สามารถระบุได้ทั้งหมดนั้นถูก จำกัด ขอบเขตแล้วสถิติ LR เป็นเสียงโมโนโทนใน supremum ของกระบวนการ Gaussian ที่ถูกตัดทอน ความแปรปรวนร่วมซึ่งไม่ใช่เรื่องง่ายในการคำนวณในกรณีทั่วไป (5 พารามิเตอร์) และแม้ว่าคุณจะมีการกระจาย supremum ของกระบวนการดังกล่าวจะไม่ง่าย สำหรับผลการปฏิบัติบางประการเกี่ยวกับส่วนผสมสององค์ประกอบดูที่นี่. ที่น่าสนใจคือกระดาษแสดงให้เห็นว่าในการตั้งค่าที่ค่อนข้างง่ายสถิติ LR มีประสิทธิภาพน้อยกว่าสถิติที่ง่ายกว่า สำหรับกระดาษน้ำเชื้อใน deriving การกระจาย asymptotic ในปัญหาดังกล่าวดูที่นี่ สำหรับการใช้งานจริงทั้งหมดคุณสามารถใส่ส่วนผสมโดยใช้ EM จากนั้น Bootstrap การกระจายของสถิติ LR อาจใช้เวลาสักครู่เนื่องจาก EM ทราบว่าช้าและคุณต้องการการจำลองแบบจำนวนมากเพื่อจับภาพผลกระทบของขนาดตัวอย่าง ดูรายละเอียดที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.