“ จุดข้อมูลทั้งหมดเหล่านี้มาจากการกระจายตัวแบบเดียวกัน” จะทดสอบอย่างไร?


16

ฉันรู้สึกว่าฉันเคยเห็นหัวข้อนี้ที่กล่าวถึงที่นี่มาก่อน แต่ฉันไม่สามารถหาสิ่งที่เฉพาะเจาะจง จากนั้นอีกครั้งฉันไม่แน่ใจจริงๆว่าจะค้นหาอะไร

ฉันมีชุดข้อมูลที่สั่งหนึ่งมิติ ฉันตั้งสมมติฐานว่าทุกจุดในเซตนั้นมาจากการกระจายตัวแบบเดียวกัน

ฉันจะทดสอบสมมติฐานนี้ได้อย่างไร มันสมเหตุสมผลหรือไม่ที่จะทดสอบกับทางเลือกทั่วไปของ "การสังเกตในชุดข้อมูลนี้มาจากการแจกแจงสองแบบที่แตกต่างกัน"?

เป็นการดีที่ฉันต้องการระบุว่าคะแนนใดมาจากการกระจาย "อื่น ๆ " เนื่องจากข้อมูลของฉันถูกสั่งซื้อฉันจะสามารถระบุจุดตัดหลังจากทำการทดสอบว่า "ถูกต้อง" เพื่อตัดข้อมูลหรือไม่

แก้ไข: ตามคำตอบของ Glen_b ฉันจะสนใจเรื่องการแจกแจงเชิงบวกและแบบอิสระที่เคร่งครัด ฉันยังมีความสนใจในกรณีพิเศษของสมมติกระจายแล้วการทดสอบที่แตกต่างกันสำหรับพารามิเตอร์


คุณหมายถึงอะไรโดย "การกระจายตัวแบบเดียวกัน"? การสำรวจแกมมาถูกพิจารณาว่ามาจากการกระจายตัวเดียวกันหรือถือเป็นการรวมกันของการแจกแจงแบบเอ็กซ์โปเนนเชียลหรือไม่?
Metariat

+1 นี่เป็นคำถามที่ดีมากสำหรับคุณที่จะถามตัวเอง
user541686

@Metallica ตราบใดที่การสังเกตแต่ละครั้งเป็นผลรวมเลขชี้กำลังฉันจะบอกว่ามันมาจากการแจกแจงแบบเดียวกัน
shadowtalker

@ Mehrdad ฉันไม่มีสถิติการฝึกอบรมอย่างเป็นทางการเกินระดับปริญญาตรีของฉันและชั้นเรียนเบ็ดเตล็ดในเจ้านายของฉัน หากคุณดูประวัติคำตอบของฉันมันชัดเจนว่าฉันรู้มากเกี่ยวกับการถดถอยเชิงเส้นและไม่มากเกี่ยวกับสิ่งอื่น🤐
shadowtalker

2
วิธีหนึ่งที่เป็นไปได้ในการเข้าถึงคำถามนี้คือพิจารณาส่วนผสมที่มีค่า จำกัด เช่นการแจกแจงบางคลาสและดูว่าคุณต้องการส่วนประกอบผสมมากกว่า 1 อย่างเพื่ออธิบายข้อมูลของคุณได้ดีหรือไม่ อย่างไรก็ตามคำถามคือว่ามีคลาสของการแจกแจงที่มีความยืดหยุ่นเพียงพอที่จะอธิบาย "สมมติฐานว่าง" ของคุณโดยองค์ประกอบการผสมเดียว (เช่นถ้าคุณใช้การผสมแบบ จำกัด ของการแจกแจงแกมม่าสิ่งเหล่านี้อาจไม่ยืดหยุ่นในแง่ของความเบ้ พฤติกรรมขึ้นอยู่กับสิ่งที่คุณพยายามจะทำ) ในขณะที่มีทางเลือกที่อาจเกิดขึ้นเป็นส่วนผสมหลายองค์ประกอบ
Björn

คำตอบ:


29

ลองนึกภาพสองสถานการณ์:

  1. จุดข้อมูลทั้งหมดมาจากการแจกแจงแบบเดียวกัน - อันที่เป็นแบบเดียวกันใน (16,36)

  2. จุดข้อมูลถูกดึงมาจากการผสมระหว่างสองประชากร 50-50:

    ประชากร A ซึ่งมีรูปร่างดังนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ข ประชากร B, รูปร่างคล้ายสิ่งนี้:

ป้อนคำอธิบายรูปภาพที่นี่

... เช่นว่าส่วนผสมของทั้งสองดูเหมือนกับกรณีใน 1

พวกเขาจะบอกได้อย่างไรกัน?

ไม่ว่ารูปร่างใดที่คุณเลือกสำหรับประชากรสองกลุ่มจะมีการกระจายตัวของประชากรเดี่ยวที่มีรูปร่างเหมือนกันเสมอ อาร์กิวเมนต์นี้แสดงให้เห็นอย่างชัดเจนว่าสำหรับกรณีทั่วไปคุณไม่สามารถทำได้ ไม่มีวิธีที่เป็นไปได้ที่จะแยกความแตกต่าง

หากคุณแนะนำข้อมูลเกี่ยวกับประชากร (สมมติฐานอย่างมีประสิทธิภาพ) ดังนั้นอาจมีวิธีดำเนินการต่อ * แต่กรณีทั่วไปจะตาย

* เช่นถ้าคุณสมมติว่าประชากรนั้นไม่เหมือนกันและมีวิธีการที่แตกต่างกันอย่างเพียงพอคุณสามารถหาที่อื่นได้

[มีข้อ จำกัด ที่เพิ่มเข้าไปในคำถามนั้นไม่เพียงพอที่จะหลีกเลี่ยงปัญหาที่ฉันอธิบายด้านบนเวอร์ชั่นที่แตกต่าง - เรายังสามารถเขียนโมฆะ unimodal บนครึ่งทางบวกเป็น 50-50 ของการกระจายแบบ unimodal สองแบบ บนครึ่งเส้นบวก แน่นอนถ้าคุณมีโมฆะที่เฉพาะเจาะจงมากขึ้นมันจะกลายเป็นปัญหาน้อยลง อีกทางหนึ่งก็ควรที่จะ จำกัด คลาสของทางเลือกต่อไปจนกว่าเราจะสามารถทดสอบกับทางเลือกผสมบางอย่างได้ หรือข้อ จำกัด เพิ่มเติมบางอย่างอาจถูกนำไปใช้กับทั้งโมฆะและทางเลือกที่จะทำให้พวกเขาแยกแยะได้]


1
ขอขอบคุณตัวอย่างที่ดี ดังนั้นการ จำกัด สมมติฐานทางเลือกอย่างถูกต้องถูกต้องหรือไม่
shadowtalker

@ssdecontrol ใช่ในสาระสำคัญ; หาก (ให้สมมติฐาน) ทางเลือกนั้นสามารถแยกได้จากค่าว่างคุณมีความหวังในการทดสอบที่มีกำลังสูงกว่าระดับนัยสำคัญของคุณ
Glen_b -Reinstate Monica

0

เห็นได้ชัดว่าคุณต้องมีทฤษฎีบางอย่างเพื่อพูดคุยเกี่ยวกับการแจกแจง (s) และสมมติฐานของรัฐที่จะทดสอบ สิ่งที่กลุ่มวิชาในกลุ่มหนึ่งหรือมากกว่าและสิ่งที่ทำให้การวัดที่จะแยกออกจากกัน

คุณจะไปที่นั่นได้อย่างไร ฉันเห็นสามตัวเลือก:

  • หากคุณรู้อยู่แล้วว่าจากหัวข้อของคุณคุณต้องแปลมันเป็นภาษาของสมมติฐานทางสถิติ
  • พล็อตแผนภูมิและจดจำรูปแบบเพื่อให้เป็นสมมติฐานในการทดสอบ
  • ค้นหารายการการแจกแจงที่คุณสามารถทำได้และทำการทดลองทางคณิตศาสตร์ การเขียนโปรแกรมน่าจะเป็นคำหลักที่นี่

แบบฝึกหัดจะช่วยให้คุณสรุปได้ว่ามีกลุ่มหนึ่งกลุ่มหรือมากกว่านั้นแสดงในตัวอย่างของคุณหรือกลุ่มเดียว หรือไม่มีกลุ่มเลย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.