ระยะห่างระหว่างส่วนผสม Gaussian จำกัด และ Gaussian จำกัด คืออะไร


12

สมมติว่าฉันมีส่วนผสมของ Gaussians จำนวนมากที่มีน้ำหนัก, ค่าเฉลี่ย, และค่าเบี่ยงเบนมาตรฐาน วิธีการไม่เท่ากัน แน่นอนว่าค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของการผสมสามารถคำนวณได้เนื่องจากช่วงเวลานั้นมีค่าเฉลี่ยถ่วงน้ำหนักของช่วงเวลาของส่วนประกอบ ส่วนผสมไม่ได้เป็นการกระจายตัวแบบธรรมดา แต่ไกลแค่ไหนจากปกติ?

ส่วนผสมของ Gaussians คั่นด้วย 2 ส่วนเบี่ยงเบนมาตรฐานเทียบกับ Gaussian ด้วยค่าเฉลี่ยและความแปรปรวนเดียวกัน

ภาพด้านบนแสดงความหนาแน่นของความน่าจะเป็นที่เป็นไปได้สำหรับส่วนผสมแบบเกาส์พร้อมส่วนประกอบหมายถึงคั่นด้วยส่วนเบี่ยงเบนมาตรฐาน (ของส่วนประกอบ) และแบบเกาส์เดียวที่มีค่าเฉลี่ยและความแปรปรวนเหมือนกัน2

ส่วนผสมของ Gaussians คั่นด้วย 1 ส่วนเบี่ยงเบนมาตรฐานเทียบกับ Gaussian ด้วยค่าเฉลี่ยและความแปรปรวนเดียวกัน

1


แรงจูงใจ:ฉันไม่เห็นด้วยกับคนขี้เกียจบางคนเกี่ยวกับการแจกแจงจริงบางอย่างที่พวกเขาไม่ได้วัดซึ่งพวกเขาคิดว่าใกล้เคียงกับปกติเพราะจะดี ฉันก็ขี้เกียจเหมือนกัน ฉันไม่ต้องการวัดการกระจายตัวเช่นกัน ฉันต้องการที่จะบอกว่าสมมติฐานของพวกเขานั้นไม่สอดคล้องกันเพราะพวกเขาบอกว่าการผสมผสานอัน จำกัด ของ Gaussians ด้วยวิธีการที่แตกต่างกันคือ Gaussian ซึ่งไม่ถูกต้อง ฉันไม่อยากจะบอกว่ารูปร่างของหางนั้นผิดเพราะสิ่งเหล่านี้เป็นเพียงการประมาณซึ่งควรจะมีความแม่นยำพอสมควรภายในค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ย ฉันอยากจะบอกว่าถ้าส่วนประกอบมีการประมาณค่าปกติจากการแจกแจงปกติแล้วส่วนผสมไม่ได้และฉันต้องการที่จะหาปริมาณนี้


L121/4


2
หากส่วนผสมอยู่ใกล้กับ nrmal มากการใช้การประมาณแบบปกติไม่ใช่ความเกียจคร้านมันเป็นการทำให้เข้าใจง่ายและอาจเป็นสิ่งที่ดี แต่ในตัวอย่างของคุณคุณแสดงส่วนผสมที่ประจบกว่า nromal ที่กึ่งกลางแพร่กระจายมากขึ้นในช่วงกลางและสั้นกว่าในหางเมื่อเทียบกับปกติที่ดีที่สุดประมาณ ฉันคิดว่าคุณต้องการดูความแตกต่างแบบบูรณาการบางอย่างระหว่างสอง cdf ไม่ใช่มาตรการของแคนซัสเพราะความคลาดเคลื่อนสูงสุดอาจไม่ใหญ่มาก แต่ความคลาดเคลื่อนเฉลี่ยในภูมิภาคอาจค่อนข้างใหญ่
Michael R. Chernick

เราสามารถสมมติได้หรือไม่ว่ามีหลักฐานที่มีนัยสำคัญทางสถิติสำหรับการผสมของเกาส์เหนือการประมาณแบบปกติ? เราเพียงแค่ต้องกังวลว่าความแตกต่างนั้นมีความสำคัญในทางปฏิบัติหรือไม่หากความแตกต่างนั้นมีนัยสำคัญทางสถิติ คำแนะนำของมิคาเอลเกี่ยวกับสถิติแอนเดอร์สัน - ดาร์ลิ่งจะเป็นจุดเริ่มต้นที่เหมาะสม
Dikran Marsupial

1/22

3
ดูเหมือนว่าคุณกำลังถามคำถามเกี่ยวกับการเลือกแบบจำลอง: ให้ข้อมูลบางอย่างกับแบบจำลองเมื่อใดที่เราต้องการการกระจายแบบปกติเมื่อเทียบกับการผสม (หรือโดยทั่วไปแล้วเราจะเลือกจำนวนของส่วนประกอบการผสมได้อย่างไร) การ Reframing คำถามเช่นนี้จะทำให้คุณสามารถเข้าถึงคำถามที่เกี่ยวข้องสองสามร้อยข้อในเว็บไซต์นี้ :-)
whuber

@ โฮเบอร์: ระยะทางสู่ปกติสามารถแสดงเป็นกำลัง (ค่าเฉลี่ย) ของการทดสอบโดยมีเป้าหมายเพื่อแยกส่วนผสมจากเกาส์แบบเดี่ยว
ซีอาน

คำตอบ:


9

การกระจาย KL จะเป็นไปตามธรรมชาติเพราะคุณมีการกระจายฐานที่เป็นธรรมชาติคือ Gaussian เดียวซึ่งการผสมของคุณแตกต่างกัน ในทางกลับกัน KL divergence (หรือรูปแบบ 'ระยะทาง' แบบสมมาตร) ระหว่างสองแบบเกาส์เซียนซึ่งปัญหาของคุณเป็นกรณีพิเศษดูเหมือนว่าโดยทั่วไปจะไม่ยอมแพ้ เฮอร์ชีย์และโอลสัน (2007)ดูเหมือนจะเป็นบทสรุปที่สมเหตุสมผลของการประมาณที่มีอยู่รวมถึงวิธีการแปรปรวนที่อาจเสนอขอบเขตที่ง่ายขึ้น

อย่างไรก็ตามหากคุณต้องการโต้แย้งเกี่ยวกับผลเสียของการสมมติว่ามีบางสิ่งบางอย่างเป็นเกาส์เมื่อเป็นส่วนผสมจริง ๆ แล้วก็ควรมีความคิดที่ดีเกี่ยวกับผลที่ตามมาที่คุณสนใจจริง ๆ '(นี่คือประเด็นของ @ Michael-Chernick) ตัวอย่างเช่นผลที่ตามมาสำหรับการทดสอบหรือช่วงเวลาหรือ somesuch ผลกระทบที่เห็นได้ชัดเจนของส่วนผสมนี้คือการกระจายตัวมากเกินไปซึ่งรับประกันได้ค่อนข้างมากและ multimodality ซึ่งจะสร้างความสับสนให้กับ maximizers


1

ให้ฉันติดตามการพิจารณาผลที่ตามมาของข้อกำหนดการกระจายที่ไม่ถูกต้อง แทนที่จะใช้การวัดระยะทางทั่วไปเช่น KL Divergence คุณสามารถประเมินการวัดแบบกำหนดเองของ "ความแตกต่าง" ซึ่งมีผลต่อผลลัพธ์ในมือ

ตัวอย่างเช่นหากการแจกแจงจะถูกใช้สำหรับการคำนวณความเสี่ยงตัวอย่างเช่นการพิจารณาว่าความน่าจะเป็นของความล้มเหลวนั้นต่ำพอเพียงสิ่งเดียวที่มีความสำคัญในแบบพอดีคือการคำนวณความน่าจะเป็นในหางที่รุนแรง สิ่งนี้อาจเกี่ยวข้องกับการตัดสินใจเกี่ยวกับโครงการมูลค่าหลายพันล้านดอลลาร์และเกี่ยวข้องกับชีวิตและความตาย

สมมติฐานปกติมีแนวโน้มที่จะไม่ถูกต้องมากที่สุดที่ไหน ในหลายกรณีในส่วนท้ายสุดขีดสถานที่เดียวที่สำคัญสำหรับการคำนวณความเสี่ยงที่สำคัญเหล่านี้ ตัวอย่างเช่นการกระจายที่แท้จริงของคุณคือการผสมผสานของ Normals ที่มีค่าเฉลี่ยเท่ากัน แต่ส่วนเบี่ยงเบนมาตรฐานที่แตกต่างกันดังนั้นก้อยของการกระจายการผสมจะอ้วนกว่าหางของการแจกแจงปกติที่มีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเดียวกัน สิ่งนี้สามารถส่งผลให้เกิดความแตกต่างของขนาด (การประเมินความเสี่ยงต่ำ) สำหรับความน่าจะเป็นที่หางที่รุนแรง

UP(XMixture>U)P(XNormal>U)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.