การทดสอบทางสถิติเพื่อบอกว่าสองตัวอย่างถูกดึงจากประชากรเดียวกันหรือไม่


30

สมมุติว่าฉันมีสองตัวอย่าง ถ้าฉันต้องการที่จะบอกว่าพวกเขาถูกดึงมาจากประชากรที่แตกต่างกันฉันสามารถเรียกใช้การทดสอบ แต่สมมุติว่าฉันต้องการทดสอบว่ากลุ่มตัวอย่างมาจากประชากรเดียวกันหรือไม่ คนเราจะทำสิ่งนี้ได้อย่างไร นั่นคือฉันจะคำนวณความน่าจะเป็นทางสถิติที่ทั้งสองตัวอย่างถูกดึงจากประชากรเดียวกันได้อย่างไร


1
โปรดอธิบาย - ในเชิงปริมาณมากที่สุด - สิ่งที่คุณหมายถึง "เหมือนกัน" มันจะช่วยอธิบายสิ่งที่คุณหมายถึงโดย "เงื่อนไข" เช่นกัน
whuber

การทดสอบอย่าง Kolmogorov-Smirnov สองตัวอย่าง (ไม่ใช่ความเป็นไปได้เพียงอย่างเดียวด้วยสมมติฐานปกติการทดสอบ t-test กำลังทดสอบสิ่งเดียวกันตามที่คุณทราบ) สามารถทดสอบว่าการกระจายตัวของประชากรนั้นแตกต่างกันหรือไม่ ฉันหมายความว่าพวกเขาเหมือนกันจริง ๆ ) อย่างไรก็ตามไม่มีการทดสอบใด ๆ ที่สามารถบอกคุณได้ว่าการแจกแจงสองแบบที่ไม่แตกต่างกันจริง ๆ นั้นมาจากประชากรเดียวกันหรือไม่มากกว่าสองประชากรที่มีการแจกแจงแบบเดียวกัน ที่จะต้องมาจากสมมติฐานหรือการสอบสวนอื่น ๆ ... ctd
Glen_b -Reinstate Monica

3
ctd ... ในทำนองเดียวกันการทดสอบก็ไม่สามารถบอกคุณได้ว่าการแจกแจงนั้นเหมือนกันเนื่องจากมันอาจแตกต่างกันเล็กน้อย คุณอาจต้องการค้นหา 'การทดสอบความเท่าเทียม' หรือ 'การทดสอบความเท่าเทียม' ซึ่งคุณควรได้รับความนิยมไม่กี่ครั้งที่นี่หรือบน Google
Glen_b -Reinstate Monica

คำตอบ:


20

การทดสอบที่เปรียบเทียบการแจกแจงคือการทดสอบตามกฎ พวกเขาเริ่มต้นด้วยสมมติฐานว่างว่าประชากร 2 คนนั้นเหมือนกันจากนั้นลองปฏิเสธสมมติฐานนั้น เราไม่สามารถพิสูจน์ว่าโมฆะเป็นจริงเพียงแค่ปฏิเสธดังนั้นการทดสอบเหล่านี้ไม่สามารถนำมาใช้เพื่อแสดงให้เห็นว่าตัวอย่าง 2 ตัวอย่างมาจากประชากรเดียวกัน (หรือประชากรที่เหมือนกัน)

นี่เป็นเพราะอาจมีความแตกต่างเล็กน้อยในการแจกแจง (หมายถึงพวกเขาไม่เหมือนกัน) แต่มีขนาดเล็กมากที่การทดสอบไม่สามารถค้นหาความแตกต่างได้

พิจารณาการแจกแจง 2 แบบตัวแรกคือชุดจาก 0 ถึง 1 ส่วนที่สองคือการผสมกันของเครื่องแบบ 2 ชุดดังนั้นจึงเป็น 1 ระหว่าง 0 ถึง 0.999 และ 1 ระหว่าง 9.999 ถึง 10 (0 ที่อื่น) ชัดเจนว่าการกระจายเหล่านี้จะแตกต่างกัน (ไม่ว่าจะเป็นความแตกต่างที่มีความหมายเป็นคำถามอื่น) แต่ถ้าคุณใช้ขนาดตัวอย่าง 50 จากแต่ละ (รวม 100) มีโอกาส 90% ที่คุณจะเห็นค่าระหว่าง 0 ถึง 0.999 และ ไม่สามารถเห็นความแตกต่างที่แท้จริงได้

มีวิธีการทำสิ่งที่เรียกว่าการทดสอบความเท่ากันซึ่งคุณถามว่า 2 ดิสทริบิวชั่น / ประชากรนั้นเท่ากันหรือไม่ แต่คุณต้องกำหนดสิ่งที่คุณคิดว่าจะเทียบเท่า โดยทั่วไปแล้วการวัดความแตกต่างบางอย่างอยู่ในช่วงที่กำหนดนั่นคือความแตกต่างใน 2 วิธีนั้นน้อยกว่า 5% ของค่าเฉลี่ยของ 2 หมายถึงหรือสถิติ KS ต่ำกว่าค่าตัดที่กำหนดเป็นต้นหากคุณ จากนั้นสามารถคำนวณช่วงความเชื่อมั่นสำหรับสถิติที่แตกต่างกัน (ความแตกต่างของค่าเฉลี่ยอาจเป็นช่วงความเชื่อมั่น t, bootstrapping, การจำลองหรือวิธีการอื่นอาจจำเป็นสำหรับสถิติอื่น ๆ ) หากช่วงความเชื่อมั่นทั้งหมดตกอยู่ใน "ภูมิภาคความเท่าเทียม" เราจะพิจารณาประชากร 2 คน / การแจกแจงว่า "เทียบเท่า"

ส่วนที่ยากคือการหาว่าขอบเขตความเท่าเทียมควรเป็นเท่าไหร่


2
การทดสอบสมมติฐานว่างไม่สามารถแสดงหลักฐานสำหรับสมมติฐานว่างได้จริง การเลือกแบบจำลองทั้งแบบเบย์หรือตาม "เกณฑ์" (AIC, BIC) บางอย่างสามารถระบุได้ว่าแบบจำลองแบบโมฆะ (การแจกแจงแบบเดียวกัน) เป็นคำอธิบายที่ดีกว่าข้อมูลแบบอื่น (การกระจายแบบต่าง ๆ ) ทั้งหมดที่อยู่ภายใต้ข้อสมมติฐานที่แน่นอน
A. Donda

6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

สมมติว่าค่าตัวอย่างของคุณมาจากการแจกแจงแบบต่อเนื่องฉันขอแนะนำการทดสอบ Kolmogorov-Smirnov สามารถใช้เพื่อทดสอบว่าตัวอย่างสองตัวอย่างมาจากการแจกแจงที่แตกต่างกันหรือไม่ (นี่คือวิธีที่ฉันตีความการใช้งานประชากรของคุณ) ตามการแจกแจงเชิงประจักษ์ที่เกี่ยวข้อง

โดยตรงจาก Wikipedia:

การแจกแจงโมฆะของสถิตินี้ถูกคำนวณภายใต้สมมติฐานว่างที่ตัวอย่างถูกดึงจากการแจกแจงแบบเดียวกัน (ในกรณีตัวอย่างสองกรณี)

สามารถใช้ฟังก์ชัน ks.test ใน R สำหรับการทดสอบนี้ได้

ในขณะที่มันเป็นความจริงที่ kstest ไม่ได้ทดสอบความเป็นเนื้อเดียวกันฉันจะยืนยันว่าถ้าคุณปฏิเสธที่จะปฏิเสธด้วยขนาดตัวอย่างที่มากพอ (การทดสอบที่มีกำลังสูง) คุณสามารถอ้างความแตกต่างนั้นไม่สำคัญ คุณสามารถอนุมานได้ว่าหากมีความแตกต่างอยู่พวกเขาอาจไม่มีความหมาย (อีกครั้งสมมติว่ามีกลุ่มตัวอย่างขนาดใหญ่) คุณไม่สามารถสรุปได้ว่าพวกเขามาจากประชากรเดียวกันกับคนอื่น ๆ ได้ระบุไว้อย่างถูกต้อง ทั้งหมดนี้ถูกกล่าวว่าโดยทั่วไปแล้วฉันแค่จะตรวจสอบกราฟิกทั้งสองตัวอย่างเพื่อความคล้ายคลึงกัน


6
ฉันสงสัยว่าสามารถใช้การทดสอบ KS เพื่อแสดงความเท่าเทียมกันแบบกระจายได้
Michael M

@MichaelMayer ถูกต้องแล้ว OP มีความสนใจในการทดสอบความเป็นเนื้อเดียวกัน ... ซึ่งมีปัญหาด้านระเบียบวิธีพื้นฐานมากมาย แคนซัสสำหรับความแตกต่างยังมีปัญหา: ในทางปฏิบัติมันจะปฏิเสธในกลุ่มตัวอย่างขนาดใหญ่ไม่ว่าประชากรจะเหมือนกันในทางปฏิบัติในทุกด้านหรือไม่ มันเพิ่งจะแสดงให้เห็นว่าการทดสอบและดังนั้นค่า p จะรู้สึกได้ว่าเป็นการวัดขนาดตัวอย่างได้ดีกว่านัยสำคัญทางสถิติ
AdamO

@AdamO ใช่ แต่ถ้าคุณมีกลุ่มตัวอย่างจำนวนมากและคุณไม่สามารถปฏิเสธได้ฉันมั่นใจว่าประชากรจะเหมือนกันทุกประการ เท่าที่ฉันรู้ไม่มีทฤษฎีในการสำรองสิ่งนี้ แต่จากประสบการณ์การรู้ว่า KS สำหรับความหลากหลายสามารถตรวจจับความแตกต่างของนาทีด้วยขนาดตัวอย่างขนาดใหญ่สามารถให้คุณใช้การทดสอบตัวอย่างขนาดใหญ่ที่ล้มเหลวเป็นคำสั่งของจริง ประชากรที่เหมือนกัน คำตอบของฉันตอบคำถามที่ว่า "คำนวณความน่าจะเป็นเชิงสถิติที่กลุ่มตัวอย่างทั้งสองถูกดึงจากประชากรเดียวกันหรือไม่" ไม่แน่นอน
Underminer

สิ่งที่ฉันจะทำอย่างไรหากจุดของฉันมีสองมิติ ? นั่นคือฉันมีสองตัวอย่างของจุดสองมิติและฉันต้องการทราบว่าพวกเขามาจากการแจกแจงที่แตกต่างกันหรือไม่
becko

การทดสอบ KS ใช้งานได้เฉพาะกับการแจกจ่ายที่กำหนดไว้ล่วงหน้าเท่านั้นไม่ใช่จากการแจกจ่ายที่มีพารามิเตอร์ที่ประเมินจากข้อมูล
qwr

2

คุณสามารถใช้ 'ฟังก์ชัน shift' ซึ่งตรวจสอบว่าการแจกแจง 2 แบบนั้นแตกต่างกันในแต่ละช่วงหรือไม่ ในขณะที่ในทางเทคนิคเป็นการทดสอบว่าพวกเขามาจากประชากรที่แตกต่างกันมากกว่าที่เหมือนกันถ้าการแจกแจงไม่แตกต่างกันใน deciles ใด ๆ แล้วคุณสามารถมั่นใจได้ว่าพวกเขามาจากประชากรเดียวกันโดยเฉพาะอย่างยิ่งถ้าขนาดกลุ่มมีขนาดใหญ่

ฉันจะเห็นภาพทั้งสองกลุ่ม: วางซ้อนการกระจายของพวกเขาและดูว่าพวกเขามีลักษณะคล้ายกันหรือดีกว่ายังวาดสองสามตัวอย่าง bootstrap จากแต่ละกลุ่มและพล็อตพวกนี้จะทำให้คุณมีความคิดว่าพวกเขามาจากที่เดียวกัน ประชากรโดยเฉพาะอย่างยิ่งถ้าประชากรที่มีปัญหาไม่ได้กระจายตามปกติสำหรับคุณได้รับตัวแปร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.