การเปรียบเทียบก้อยของการแจกแจงตัวอย่างสองแบบ


13

ฉันมีชุดข้อมูลสองชุดที่มีศูนย์กลางอยู่ที่ประมาณศูนย์โดยประมาณ แต่ฉันสงสัยว่ามันมีก้อยต่างกัน ฉันรู้ว่าการทดสอบสองสามข้อเพื่อเปรียบเทียบการกระจายตัวกับการแจกแจงแบบปกติ แต่ฉันต้องการเปรียบเทียบการกระจายสองแบบโดยตรง

มีการทดสอบอย่างง่าย ๆ เพื่อเปรียบเทียบความอุดมสมบูรณ์ของหางของการแจกแจง 2 แบบหรือไม่?

ขอบคุณ
fRed


แท็ก "fat-tails" มีความหมายจริงๆ (สำหรับคำถามในอนาคต) หรือไม่
chl

@chl คุณบอกฉันว่าฉันไม่ได้มีประสบการณ์เท่าที่คุณในสถิติ แต่ IMO มันเป็นอคติแบบคลาสสิกที่ดูเบาความสำคัญของหาง คุณอ่านงานของ Mandelbrot หรือไม่? Fat tails มีความสำคัญอย่างมากในการประยุกต์ใช้สถิติทางการเงินและวิกฤตสินเชื่อในปี 2008 มาจากรูปแบบการกำหนดราคาบางส่วนซึ่งสันนิษฐานว่าเป็นเรื่องปกติและการประเมินค่าต่ำสุดของการกระจายความสัมพันธ์บางส่วน เราสามารถพูดคุยกันในหัวข้ออื่น :)
RockScience

1
คำถามนี้น่าสนใจ แต่อาจมีการชี้แจงให้ทราบ คุณกังวลเกี่ยวกับหนึ่งหางหรือทั้งสองอย่าง? คุณวัด "ความอ้วน" ได้อย่างไร (คุณยินดีที่จะเปลี่ยนและขายการแจกแจงสองอย่างเพื่อทำการเปรียบเทียบหรือไม่) คุณวัดความเบี่ยงเบนใน "ความอ้วน" ได้อย่างไร หากคุณพิจารณาการทดสอบสมมติฐานแล้วสมมติฐานทางเลือกจะเป็นเช่นไร?
whuber

@ RockScience ฉันมีสองดิสทริบิวชันและต้องการเปรียบเทียบเฉพาะก้อยคุณจัดการวิธีการใช้งานหรือไม่? ฉันรู้ว่าคุณสามารถคำนวณ kurtosis ได้ แต่คุณทดสอบได้อย่างไรว่าก้อยทั้งสองนั้นแตกต่างกันอย่างไร
user2380782

คำตอบ:


6

คำถามนี้ดูเหมือนว่าจะเป็นครอบครัวเดียวกันเป็นหนึ่งก่อนหน้านี้เกี่ยวกับการทดสอบว่าตัวอย่างสองกลุ่มมีเหมือนกันเอียงดังนั้นคุณอาจชอบที่จะอ่านคำตอบของฉันว่า ผมเชื่อว่าL-ช่วงเวลาที่จะมีประโยชน์ที่นี่มากเกินไปด้วยเหตุผลเดียวกัน (เฉพาะL- เบ้โด่งในกรณีนี้)


2

การสร้างธรณีประตูพูดแลมบ์ดาเราสามารถทดสอบความเท่าเทียมกันของสองวิธีหรือความแปรปรวนของการแจกแจงสองแบบที่ จำกัด ไว้ที่บริเวณท้าย (\ lambda, อินฟินิตี้) ตามชุดข้อมูลการสังเกตสองชุดที่ตกลงมาในบริเวณท้ายสุดนี้ แน่นอนว่าทั้งสองตัวอย่าง t-test หรือ F-test อาจจะโอเค แต่ก็ไม่เป็นที่น่ารำคาญเนื่องจากตัวแปรสุ่มที่ จำกัด ในบริเวณส่วนท้ายนี้ไม่ปกติแม้จะเป็นแบบดั้งเดิมก็ตาม


ค่าสุดขีดศึกษาทฤษฎีการกระจายที่ถูกตัดทอนเช่น: asymptotically การกระจายของหางมักจะเป็นของทั่วไป Paretoครอบครัว เราสามารถลองปรับข้อมูลให้เหมาะกับการแจกแจงตระกูลนี้และเปรียบเทียบพารามิเตอร์
Vincent Zoonekynd

@Vincent หางอาจมีการกระจายใด ๆ ในทางปฏิบัติ ทฤษฎีค่าสุดขีดพูดถึงหางเล็กน้อย: มันมุ่งเน้นไปที่การกระจายตัวของ maxima (หรือ minima) ของตัวอย่าง iid ซึ่งค่อนข้างแตกต่างออกไป
whuber

1

ลองปรับการกระจายแลมบ์ดาทั่วไปและช่วงความเชื่อมั่นในการบู๊ตพารามิเตอร์ที่ 3 และ 4 ดีกว่ากันไหม?


2
เหตุใดการแจกแจงตระกูลนี้จึงดีเป็นพิเศษสำหรับปัญหานี้และไม่ใช่ครอบครัวอื่น ๆ เช่นการแจกแจงแบบเพียร์สัน
whuber

1

การทดสอบไคสแควร์ (การทดสอบความพอดี - ดี) จะดีมากเมื่อเปรียบเทียบหางของการแจกแจงสองแบบเนื่องจากมีโครงสร้างเพื่อเปรียบเทียบการแจกแจงสองแบบด้วยที่เก็บข้อมูลถัง (กราฟแสดงโดยฮิสโตแกรม) และหางจะรวมอยู่ในถังส่วนใหญ่ไกล

แม้ว่าการทดสอบนี้จะเน้นไปที่การแจกแจงทั้งหมดไม่ใช่แค่หางที่คุณสามารถสังเกตได้อย่างชัดเจนว่าค่า Chi Square หรือความแตกต่างนั้นมาจากความแตกต่างของความอ้วนของหาง

ดูว่าฮิสโตแกรมที่ได้รับอาจให้ข้อมูลเพิ่มเติมเกี่ยวกับความอ้วนของหางที่มองเห็นได้มากกว่าการทดสอบใด ๆ ที่มีนัยสำคัญทางสถิติ มันเป็นสิ่งหนึ่งที่ต้องระบุว่าความอ้วนมีความแตกต่างทางสถิติ เป็นอีกหนึ่งการสังเกตด้วยสายตา พวกเขาบอกว่ารูปภาพมีค่าหนึ่งพันคำ บางครั้งมันก็คุ้มค่าตัวเลขหนึ่งพัน (มันทำให้รู้สึกว่ากราฟแค็ปซูลตัวเลขทั้งหมด)


3
สำหรับฉันแล้วดูเหมือนว่าการทดสอบ Chi Square จะแย่เป็นพิเศษเมื่อจำแนกความแตกต่างของก้อย หากก้อยถูกปกคลุมด้วยถังขยะจำนวนมากดังนั้น - เพราะเป็นก้อย! - อาจมีข้อมูลน้อยในถังขยะใด ๆ ทำให้การประมาณค่าไคสแควร์เป็นโมฆะ หากก้อยถูกปกคลุมด้วยถังขยะเพียงเล็กน้อยคุณก็สูญเสียพลังเกือบทั้งหมดในการแยกแยะรูปร่างของพวกเขาและสิ่งที่คุณจัดการเพื่อแยกแยะอาจไม่เกี่ยวข้องหรือมีประโยชน์มากนัก (ปัญหาหนึ่งที่เราพบเจอคือ "ความอ้วน" ไม่ได้กำหนดไว้ดังนั้นคำถามที่คลุมเครือเกินกว่าจะตอบได้ดีจริงๆ)
whuber

@whuber ฉันไม่สามารถพูดได้ว่าฉันเห็นด้วยกับความคิดเห็นของคุณเพราะฉันไม่เข้าใจหนึ่งในประเด็นของคุณ คุณหมายถึงอะไรอย่างแน่นอนโดย "ทำให้การประมาณค่าไคสแควร์เป็นโมฆะ"
Sympa

การทดสอบไคสแควร์ขึ้นอยู่กับการประมาณตามทฤษฎีปกติกับการแจกแจงที่แท้จริงของสถิติไคสแควร์ โดยทั่วไปการประมาณนี้จะไม่ดีเมื่อจำนวนประชากรของ Bin ลดลงต่ำกว่า 5
whuber

@whuber ขอบคุณสำหรับคำอธิบาย ในมุมมองของฉันฉันรู้สึกว่าวลีแรกของความคิดเห็นเริ่มต้นของคุณอาจไม่เหมาะสมเท่าที่คุณอาจสนใจ ("การทดสอบ Chi Square จะยากจนโดยเฉพาะอย่างยิ่งที่ระบุความแตกต่างในก้อย") บางทีคำแถลงที่เหมาะสมน่าจะเป็น "มันขึ้นอยู่กับ ... " การทดสอบนี้มีข้อดีหลายประการรวมถึงบังคับให้คุณกำหนดถังขยะที่เกี่ยวข้อง และที่สำคัญยังช่วยในการสร้างฮิสโตแกรม ได้รับหากคุณมีการสังเกตน้อยกว่า 5 ครั้งในถังขยะคุณจะสูญเสียความแม่นยำตามที่อธิบายไว้อย่างดี
Sympa

@Getan ฉันขอขอบคุณที่ให้ความสนใจกับความแตกต่างกันนิดหน่อย แต่ในกรณีนี้การตัดสินดูเหมือนว่าเป็นธรรม เมื่อเปรียบเทียบกับวิธีการอื่น ๆ ที่มีให้เปรียบเทียบการกระจายแบบทดสอบไคสแควร์นั้นไม่ค่อยดีนัก หากคุณ "กำหนดถังขยะที่เกี่ยวข้อง" โดยพิจารณาจากข้อมูลการทดสอบนั้นไม่ถูกต้อง นอกจากนี้ฮิสโตแกรมมักไม่ใช่วิธีที่มีประโยชน์ในการดูส่วนหางของการแจกแจง อย่างไรก็ตามฉันลังเลที่จะเสนอทางเลือกอื่นเนื่องจากปัญหานั้นไม่ชัดเจน: มันมีความหมายแค่ไหนสำหรับการแจกแจงสองครั้งที่จะมี "ความสมบูรณ์ของหาง" แบบเดียวกัน? Kurtosis เป็นความเป็นไปได้เพียงอย่างเดียว แต่มันเป็นการวัดที่หยาบ
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.