การประเมินความสำคัญของความแตกต่างในการแจกแจง


21

ฉันมีข้อมูลสองกลุ่ม แต่ละตัวมีการกระจายตัวแปรหลายตัวแตกต่างกัน ฉันพยายามที่จะพิจารณาว่าการแจกแจงของสองกลุ่มนี้แตกต่างกันอย่างมีนัยสำคัญทางสถิติหรือไม่ ฉันมีข้อมูลทั้งในรูปแบบ raw และ binned ในง่ายต่อการจัดการกับหมวดหมู่แยกที่มีการนับความถี่ในแต่ละ

ฉันควรใช้การทดสอบ / ขั้นตอน / วิธีการใดเพื่อตรวจสอบว่าทั้งสองกลุ่มมีความแตกต่างอย่างมีนัยสำคัญหรือไม่และฉันจะทำเช่นนั้นใน SAS หรือ R (หรือ Orange) ได้อย่างไร


2
คุณสนใจหรือไม่ว่าการแจกแจงนั้นมีรูปแบบแตกต่างกัน (เช่นปกติปัวซอง ฯลฯ ) หรือว่าพารามิเตอร์นั้นแตกต่างกัน (เช่นค่าเฉลี่ยหรือค่า sd ของการแจกแจงแบบปกติ) หรือทั้งสองอย่าง?
Jeromy Anglim

คำถามที่เกี่ยวข้อง: stats.stackexchange.com/questions/9311/…
GaBorgulya

คำตอบ:


15

ฉันเชื่อว่าสิ่งนี้เรียกร้องให้มีการทดสอบ Kolmogorov – Smirnov สองตัวอย่างหรือสิ่งที่คล้ายกัน การทดสอบ Kolmogorov – Smirnov สองตัวอย่างนั้นมาจากการเปรียบเทียบความแตกต่างในฟังก์ชันการแจกแจงเชิงประจักษ์ (ECDF) ของสองตัวอย่างซึ่งหมายความว่ามันไวต่อทั้งตำแหน่งและรูปร่างของตัวอย่างทั้งสอง นอกจากนี้ยังสรุปรูปแบบหลายตัวแปร

การทดสอบนี้พบได้ในหลายรูปแบบในแพ็คเกจที่แตกต่างกันใน R ดังนั้นหากคุณมีความเชี่ยวชาญโดยทั่วไปสิ่งที่คุณต้องทำคือติดตั้งหนึ่งในนั้น (เช่นfBasics ) และรันบนข้อมูลตัวอย่างของคุณ


5
สำหรับการทดสอบ ks.test ในแพคเกจ "สถิติ" เริ่มต้นสามารถทำการทดสอบ KS ได้โดยไม่ต้องติดตั้งแพคเกจเพิ่มเติม
russellpierce

ใน SAS ทดสอบ KS proc npar1wayมีอยู่ใน ใน R นอกจากนี้ยังks.test()มีnortestแพ็คเกจที่ให้การทดสอบการปรับอื่น ๆ อีกหลายอย่าง
chl

8

ฉันจะถามคำถามโง่ ๆ ของที่ปรึกษา ทำไมคุณต้องการที่จะรู้ว่าการกระจายเหล่านี้แตกต่างกันอย่างมีนัยสำคัญทางสถิติ?

ข้อมูลที่คุณใช้เป็นตัวอย่างตัวแทนจากประชากรหรือกระบวนการและคุณต้องการประเมินหลักฐานที่แสดงว่าประชากรหรือกระบวนการเหล่านั้นแตกต่างกันหรือไม่ ถ้าเป็นเช่นนั้นการทดสอบทางสถิติเหมาะสำหรับคุณ แต่นี่เป็นคำถามที่แปลกสำหรับฉัน

หรือคุณสนใจว่าคุณจำเป็นต้องประพฤติตนอย่างไรราวกับว่าประชากรหรือกระบวนการเหล่านั้นแตกต่างกันโดยไม่คำนึงถึงความจริงหรือไม่? จากนั้นคุณจะดีกว่าที่จะพิจารณาฟังก์ชั่นการสูญเสียโดยเฉพาะอย่างยิ่งหน่วยที่ส่งคืนหน่วยที่มีความหมายกับคุณและทำนายการสูญเสียที่คาดหวังเมื่อคุณ (ก) ปฏิบัติต่อประชากรแตกต่างกันและ (b) ปฏิบัติต่อพวกมันเหมือนกัน หรือคุณสามารถเลือกการกระจายการสูญเสียเป็นบางส่วนถ้าคุณต้องการที่จะใช้ตำแหน่งอนุรักษ์นิยมมากขึ้นหรือน้อยลง


น้ำเสียงของคุณนั้นค่อนข้างน่าสะอิดสะเอียนและวางตัว ... แต่คุณพูดถูกฉันคิดว่าสิ่งที่ฉันเป็นจริงหลังจากนั้นคือหรือไม่ฉันสามารถสันนิษฐานได้ว่าการแจกแจงสองแบบนั้นเหมือนกันหรือไม่
Jay Stevens

3
ขออภัยที่คุณไม่ชอบน้ำเสียงของฉัน หากคุณต้องการทราบว่าคุณสามารถสันนิษฐานได้อย่างสมเหตุสมผลว่าการแจกแจงสองแบบนั้นเหมือนกันหรือไม่แล้ว KS จะทำให้คุณเข้าใจผิดเพราะมันเป็นการทดสอบสมมติฐานว่างว่าการแจกแจงสองแบบนั้นเหมือนกันหรือไม่
แอนดรูโรบินสัน

5

คุณอาจสนใจใช้วิธีการแจกแจงแบบสัมพัทธ์ เรียกกลุ่มอ้างอิงกลุ่มหนึ่งและอีกกลุ่มเปรียบเทียบ ในวิธีที่คล้ายกับการสร้างพล็อตความน่าจะเป็นน่าจะเป็นคุณสามารถสร้าง CDF / PDF ที่สัมพันธ์กันซึ่งเป็นอัตราส่วนของความหนาแน่น ความหนาแน่นสัมพัทธ์นี้สามารถใช้สำหรับการอนุมาน ถ้าการแจกแจงเหมือนกันคุณคาดหวังการแจกแจงแบบสม่ำเสมอ มีเครื่องมือกราฟิกและสถิติเพื่อสำรวจและตรวจสอบขาออกจากความสม่ำเสมอ

ดีจุดเริ่มต้นที่จะได้รับความรู้สึกที่ดีกว่าคือการใช้วิธีการ distrbution ญาติในการวิจัยและreldistแพคเกจในอาร์สำหรับรายละเอียดที่คุณจะต้องอ้างถึงหนังสือวิธีการกระจายสัมพัทธ์ในสังคมศาสตร์โดย Handcock และมอร์ริส นอกจากนี้ยังมีกระดาษโดยผู้เขียนครอบคลุมเทคนิคที่เกี่ยวข้อง


2

การวัดหนึ่งของความแตกต่างระหว่างการแจกแจงสองแบบคือเกณฑ์ "ความคลาดเคลื่อนเฉลี่ยสูงสุด" ซึ่งโดยทั่วไปจะวัดความแตกต่างระหว่างวิธีการทดลองของตัวอย่างจากการแจกแจงสองแบบใน Reproducing Kernel Hilbert Space (RKHS) ดูกระดาษนี้"วิธีการเคอร์เนลสำหรับสองตัวอย่างปัญหา"


วิธีนี้มีประสิทธิภาพมากที่สุดในความคิดของฉัน แต่ไม่เป็นที่รู้จักกันดีเพราะมันใช้งานได้ดีอย่างเท่าเทียมกันถ้าคุณมีตัวอย่างที่ จำกัด สำหรับการแจกแจงของคุณ นอกจากนี้ยังใช้งานได้กับการแจกแจงพหุนามซึ่งสำหรับการทดสอบ KS ยังคงมีการวิจัยอย่างต่อเนื่องเท่าที่ฉันทราบ
www3

-1

ฉันไม่รู้วิธีใช้ SAS / R / Orange แต่ดูเหมือนว่าการทดสอบที่คุณต้องการคือการทดสอบไคสแควร์


ฉันคิดว่า Chi-Sq นั้นเป็นข้อมูลหลัก ๆ (ตารางที่อาจเกิดขึ้น) เทียบกับต่อเนื่องเป็นหลัก?
Jay Stevens

1
อืมฉันชอบคำตอบการทดสอบ KS ดีกว่าของฉันจริง ๆ !
Suresh Venkatasubramanian

1
ไม่ไม่ถูกต้อง
SmallChess
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.