ทำไมมันมักจะสันนิษฐานว่าการกระจายแบบเสียน


14

การอ้างอิงจากบทความ Wikipedia เกี่ยวกับการประมาณค่าพารามิเตอร์สำหรับลักษณนามไร้เดียงสา Bayes : "ข้อสันนิษฐานทั่วไปคือค่าต่อเนื่องที่เกี่ยวข้องกับแต่ละคลาสนั้นถูกแจกจ่ายตามการแจกแจงแบบเกาส์"

ฉันเข้าใจว่าการแจกแจงแบบเกาส์นั้นสะดวกสำหรับเหตุผลในการวิเคราะห์ อย่างไรก็ตามมีเหตุผลอื่นใดในโลกแห่งความจริงที่จะทำการคาดคะเนนี้? ถ้าประชากรประกอบด้วยประชากรย่อยสองคน (คนฉลาด / โง่แอปเปิ้ลใหญ่ / เล็ก)


5
บางทีอาจเป็นเพราะทฤษฎีบทขีด จำกัด กลางการแจกแจงแบบเกาส์มีหลายอย่าง แต่ไม่เคยมีการวัดปรากฏการณ์ทางกายภาพเลย? ด้วยประชากรย่อยหนึ่งอาจได้รับการแจกแจงแบบเกาส์ผสม
Dilip Sarwate

1
ส่วนเดียวกัน (ฉันสมมติว่าคุณกำลังดูบทความ Naive Bayes) ชี้ให้เห็นว่าการ binning น่าจะเป็นความคิดที่ดีกว่าถ้าคุณไม่รู้จักการแจกจ่าย บางคนอาจแก้ไขบทความวิกิพีเดียเพื่อให้ชัดเจนยิ่งขึ้นว่าควรถือว่า Gaussian เท่านั้นหากเขาสามารถโต้แย้งได้ว่าทำไมมันถึงเป็น Gaussian (เช่นพล็อตข้อมูลหรือเป็นไปตามรูปแบบการเติมของ CLT)
rm999

คำตอบ:


6

อย่างน้อยสำหรับฉันข้อสันนิษฐานของภาวะปกติเกิดขึ้นจากสองเหตุผล (ที่มีประสิทธิภาพมาก):

  1. ทฤษฎีขีด จำกัด กลาง

  2. การแจกแจงแบบเกาส์เป็นเอนโทรปีสูงสุด (ด้วยความเคารพต่อการกระจายเอนโทรปีของแชนนอนอย่างต่อเนื่อง)

ฉันคิดว่าคุณรู้จุดแรก: ถ้าตัวอย่างของคุณเป็นผลรวมของหลาย procceses แล้วตราบใดที่เงื่อนไขบางอย่างไม่พอใจการกระจายค่อนข้าง gaussian สวย (มีลักษณะทั่วไปของ CLT ที่คุณจริง ๆ แล้วไม่ ต้องสมมติว่า rvs ของผลรวมนั้นมีการแจกแจงแบบเดียวกันดูเช่น Lyapunov CLT)

จุดที่สองคือสิ่งที่สำหรับบางคน (นักฟิสิกส์พิเศษ) เข้าท่า: ในช่วงเวลาที่หนึ่งและสองของการแจกแจงการกระจายซึ่งข้อมูลน้อยกว่าจะถือว่า (เช่นหัวโบราณมากที่สุด) ด้วยความเคารพต่อมาตรการเอนโทรปี ค่อนข้างเป็นกรณีโดยพลการในกรณีอย่างต่อเนื่อง แต่อย่างน้อยสำหรับฉันโดยสิ้นเชิงในกรณีที่ไม่ต่อเนื่อง แต่นั่นเป็นเรื่องอื่น) คือการแจกแจงแบบเกาส์ นี่เป็นรูปแบบหนึ่งของ "หลักการเอนโทรปีสูงสุด" ซึ่งไม่ได้เป็นที่แพร่หลายนักเนื่องจากการใช้งานจริงของรูปแบบของเอนโทรปีนั้นค่อนข้างโดยพลการ (ดูบทความ Wikipedia สำหรับข้อมูลเพิ่มเติมเกี่ยวกับมาตรการนี้ )

แน่นอนคำสั่งสุดท้ายนี้เป็นจริงเช่นกันสำหรับกรณีที่มีหลายตัวแปรคือการกระจายเอนโทรปีสูงสุด (อีกครั้งด้วยความเคารพต่อรุ่นเอนโทรปีของแชนนอนอย่างต่อเนื่อง) ให้เป็นครั้งแรก ( ) และข้อมูลลำดับที่สอง คือความแปรปรวนของเมทริกซ์ ) สามารถแสดงให้เห็นว่าเป็นตัวแปรแบบเกาส์หลายตัวแปร ΣμΣ

PD: ฉันต้องเพิ่มหลักการเอนโทรปีสูงสุดที่ตามบทความนี้หากคุณทราบช่วงของการแปรผันของตัวแปรคุณต้องทำการปรับเปลี่ยนการกระจายที่คุณได้รับจากหลักการเอนโทรปีสูงสุด


3

คำตอบของฉันเห็นด้วยกับการตอบกลับครั้งแรก ทฤษฎีขีด จำกัด กลางจะบอกคุณว่าหากสถิติของคุณเป็นผลรวมหรือค่าเฉลี่ยมันจะเป็นเรื่องปกติโดยประมาณภายใต้เงื่อนไขทางเทคนิคบางประการโดยไม่คำนึงถึงการกระจายตัวของแต่ละตัวอย่าง แต่คุณพูดถูกที่บางครั้งผู้คนพกพาสิ่งนี้ไปไกลเกินไป หากสถิติของคุณเป็นอัตราส่วนและตัวส่วนอาจเป็นศูนย์หรือใกล้กับอัตราส่วนนั้นจะถูกตัดทอนหนักเกินไปสำหรับปกติ Gosset พบว่าแม้เมื่อคุณสุ่มตัวอย่างจากการแจกแจงแบบปกติค่าเฉลี่ยปกติที่ค่าเบี่ยงเบนมาตรฐานตัวอย่างสำหรับค่าคงที่การทำให้เป็นมาตรฐานการกระจายคือการแจกแจงแบบ t กับ n-1 องศาอิสระเมื่อ n คือขนาดตัวอย่าง ในการทดลองภาคสนามที่ Guiness Brewery เขามีขนาดตัวอย่างที่อาจอยู่ในช่วง 5-10 ในกรณีดังกล่าวการแจกแจงแบบ t จะคล้ายกับการแจกแจงแบบปกติมาตรฐานซึ่งมีความสมมาตรประมาณ 0 แต่มันมีหางที่หนักกว่ามาก โปรดสังเกตว่าการแจกแจง t จะรวมเข้ากับมาตรฐานปกติเมื่อ n มีขนาดใหญ่ ในหลายกรณีการกระจายคุณอาจมี bimodal เนื่องจากเป็นส่วนผสมของสองประชากร บางครั้งการแจกแจงเหล่านี้สามารถรวมกันเป็นส่วนผสมของการแจกแจงแบบปกติ แต่พวกเขาบางอย่างดูเหมือนจะไม่กระจายตามปกติ หากคุณดูหนังสือเรียนสถิติพื้นฐานคุณจะพบกับการแจกแจงพารามิเตอร์แบบต่อเนื่องและแบบแยกซึ่งมักเกิดขึ้นกับปัญหาการอนุมาน สำหรับข้อมูลที่ไม่ต่อเนื่องเรามีทวินามปัวซองเรขาคณิตไฮเพอร์เมตริกซ์และทวินามลบ ตัวอย่างต่อเนื่อง ได้แก่ ไคสแควร์, lognormal, Cauchy, เลขชี้กำลังลบ, Weibull และ Gumbel


2

การใช้ CLT เพื่อแสดงให้เห็นถึงการใช้การกระจายแบบเสียนเป็นข้อผิดพลาดทั่วไปเนื่องจาก CLT ถูกนำไปใช้กับค่าเฉลี่ยตัวอย่างไม่ใช่การสังเกตการณ์ส่วนบุคคล ดังนั้นการเพิ่มขนาดตัวอย่างของคุณไม่ได้หมายความว่าตัวอย่างนั้นใกล้เคียงกับ normallity มากขึ้น

การกระจายแบบเกาส์นั้นใช้กันโดยทั่วไปเพราะ:

  1. การประมาณโอกาสสูงสุดนั้นตรงไปตรงมา
  2. การอนุมานแบบเบย์นั้นง่าย (โดยใช้ conjugate Priors หรือ Prire ประเภท Jeffreys)
  3. มันถูกนำมาใช้ในแพ็คเกจตัวเลขเป็นส่วนใหญ่
  4. มีทฤษฎีมากมายเกี่ยวกับการแจกแจงนี้ในแง่ของการทดสอบสมมติฐาน
  5. การขาดความรู้เกี่ยวกับตัวเลือกอื่น ๆ (ยืดหยุ่นมากขึ้น) ...

แน่นอนตัวเลือกที่ดีที่สุดคือการใช้การกระจายที่คำนึงถึงลักษณะของบริบทของคุณ แต่สิ่งนี้อาจเป็นเรื่องที่ท้าทาย อย่างไรก็ตามเป็นสิ่งที่ผู้คนควรทำ

"ทุกสิ่งควรทำอย่างง่ายที่สุด แต่ไม่ง่ายกว่า" (Albert Einstein)

ฉันหวังว่านี่จะช่วยได้.

ด้วยความปรารถนาดี


ทำไมต้องลงคะแนน? คำโต้แย้งนี้สำหรับคำอธิบายนี้คืออะไร
lmsasu

4
ความเชื่อที่ว่า "การใช้ CLT ในการพิสูจน์การใช้การแจกแจงแบบเกาส์เป็นสิ่งที่เข้าใจผิดกันทั่วไปเพราะ CLT ถูกนำไปใช้กับค่าเฉลี่ยตัวอย่าง" นั้นเป็นความเข้าใจผิด ตัวอย่างเช่นอิเล็กตรอนในตัวนำกำลังเคลื่อนที่แบบสุ่ม ขนาดเล็กค่าใช้จ่ายในแต่ละก่ออิเล็กตรอนสุทธิเสียงแรงดันไฟฟ้า (เรียกเสียงความร้อน) ที่สามารถวัดได้ในอาคารผู้โดยสารของตัวนำ ผลงานแต่ละชิ้นมีขนาดเล็กมีอิเล็กตรอนจำนวนมากดังนั้นผ่าน CLT เสียงจะถูกจำลองเป็นกระบวนการสุ่มแบบเกาส์เซียน โมเดลนี้ผ่านการตรวจสอบข้ามในการศึกษาทดลองจำนวนมาก
Dilip Sarwate

1
ย่อหน้าแรกนี้ทำให้เกิดความสับสนและดูเหมือนว่าไม่เกี่ยวข้อง เมื่อใช้ CLT เรามักจะบอกว่าการแจกแจงเป็นแบบเกาส์เนื่องจากการสังเกตแต่ละครั้งเป็นผลรวม / ค่าเฉลี่ยของกระบวนการจำนวนมาก หากลบย่อหน้าแรกออกฉันคิดว่านี่จะเป็นคำตอบที่ดี
rm999

1
@ rm999 "ถ้าลบย่อหน้าแรกฉันคิดว่านี่จะเป็นคำตอบที่ดี" อันที่จริงย่อหน้าแรกเป็นจุดเริ่มต้นของคำตอบเนื่องจากส่วนที่เหลือเพียงชี้ให้เห็นว่าแบบจำลองเกาส์เซียนนั้นมีประโยชน์ในการวิเคราะห์ - ซึ่ง OP เข้าใจแล้ว - และไม่ตอบสนองต่อคำถามที่ถาม
Dilip Sarwate

1
@Dilip: (+1) เคอร์เนลของคำตอบที่ดีมากมีอยู่ในความคิดเห็นแรกของคุณ โปรดพิจารณาขยายในโพสต์แยก
พระคาร์ดินัล
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.