ถ้าไม่ใช่ปัวซองแล้วการกระจายตัวนี้คืออะไร?


11

ฉันมีชุดข้อมูลที่มีจำนวนการกระทำที่ดำเนินการโดยบุคคลในระยะเวลา 7 วัน การกระทำที่เฉพาะเจาะจงไม่ควรเกี่ยวข้องกับคำถามนี้ นี่คือสถิติเชิงพรรณนาสำหรับชุดข้อมูล:

Range0772Mean18.2Variance2791Number of observations696

นี่คือฮิสโตแกรมของข้อมูล: ฮิสโตแกรมการกระทำ

เมื่อพิจารณาจากแหล่งข้อมูลฉันคิดว่ามันจะพอดีกับการแจกแจงปัวซอง อย่างไรก็ตามความแปรปรวนเฉลี่ยและฮิสโตแกรมนั้นมีน้ำหนักทางด้านซ้ายอย่างมาก นอกจากนี้ฉันgoodfitทำการทดสอบใน R และได้รับ:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

วิธีความน่าจะเป็นสูงสุดให้ผล p-value = 0 สมมติว่าสมมติฐานว่างคือ: ข้อมูลตรงกับการแจกแจงแบบปัวซง (เอกสารไม่ได้ระบุสิ่งนี้) จากนั้นการgoodfitทดสอบบอกว่าเราควรปฏิเสธสมมติฐานว่างดังนั้นข้อมูลไม่ จับคู่การแจกแจงแบบปัวซอง

การวิเคราะห์นั้นถูกต้องหรือไม่ ถ้าเป็นเช่นนั้นคุณคิดว่าการแจกจ่ายแบบใดที่จะเหมาะสมกับข้อมูลนี้?

χ2


คุณเคยลองแบบทวินามลบแล้วใช่ไหม สิ่งนี้ช่วยได้ไหม?
Ric

@ ริชาร์ดฉันลองใช้ทวินามลบและนั่นก็ไม่พอดี ขอบคุณสำหรับคำแนะนำว่า เนื่องจากฉันไม่สามารถระบุได้ว่าการกระจายแบบนี้เป็นอย่างไรฉันตัดสินใจเพิกเฉยต่อการกระจายและไปกับการทดสอบแบบไม่มีพารามิเตอร์การทดสอบ Mann-Whitney U
Dcook

mean/variance=1pp

ฉันไม่คิดว่าแนวคิดของการทดลองใช้ Bernoulli นำไปใช้ในกรณีของฉัน ไม่มีแนวคิดของความสำเร็จหรือความล้มเหลว; วิชาใดดำเนินการกระทำที่น่าสนใจหรือไม่ พวกเขาไม่ลองและล้มเหลว ดังนั้นความคิดของโอกาสในการประสบความสำเร็จจึงไม่สมเหตุสมผล นอกเสียจากการทดลองเป็นหน่วยของเวลา แต่ก็ไม่มีอะไรที่จะป้องกันไม่ให้ผู้เข้าร่วมการดำเนินการหลายการกระทำในช่วงเวลานั้น
Dcook

lmabda

คำตอบ:


8

หากความแปรปรวนมากกว่าค่าเฉลี่ยจะเรียกว่าการกระจายตัวเกิน แบบจำลองธรรมชาติสำหรับสิ่งนี้คือการกระจายตัวแบบทวินามลบ สิ่งนี้สามารถถูกมองเป็นการกระจายของปัวซองซึ่งแลมบ์ดาพารามิเตอร์ตามการแจกแจงแกมม่า ขั้นตอนแรกและง่าย ๆ อาจจะพอดีกับการแจกแจงแบบทวินามลบ


5

หากข้อมูลการนับสดของคุณไม่เหมือนการแจกแจงปัวซองคุณก็ขาดอะไรไป บางทีจำนวนการกระทำอาจขึ้นอยู่กับอุณหภูมิดังนั้นในวันที่อากาศร้อนผู้คนทำสิ่งต่าง ๆ น้อยลง จากนั้นความแปรปรวนของอุณหภูมิตลอดระยะเวลาการศึกษาของคุณจะส่งผลต่อการกระจายตัวและทำให้ไม่เป็นปัวซอง

อย่างไรก็ตามจำนวนการกระทำในแต่ละวันอาจยังคงเป็นปัวซองด้วยค่าเฉลี่ยขึ้นอยู่กับอุณหภูมิ หากคุณมีอุณหภูมิในแต่ละวันคุณสามารถทำ GLM โดยลดจำนวนการกระทำเป็นตัวแปรปัวซองขึ้นอยู่กับอุณหภูมิ ถ้ามันเหมาะกับงานที่ทำ

หากคุณไม่มีตัวแปรอธิบายที่เป็นไปได้ทั้งหมดที่คุณสามารถพูดได้ก็คือ "สิ่งอื่นที่เกิดขึ้น - จำนวนการกระทำนั้นไม่ได้มาจากตัวอย่างปัวซองอิสระ" - กล่าวคือปฏิเสธสมมติฐานว่างของคุณ

มีการทดสอบแบบกระจายฟรีที่สามารถเปรียบเทียบการสังเกตแบบจับคู่โดยใช้การจัดอันดับและอื่น ๆ โดยทั่วไปแล้วพวกเขาทำพีชคณิตจำนวนมากและคำนวณสถิติการทดสอบ ...


4

อีกอย่างหนึ่ง: คุณควรตรวจสอบค่าผิดปกติในการนับข้อมูลด้วย คุณมีหนึ่งการนับที่ 400-ish และไม่มีอะไรจนถึง 800-ish ไม่น่าจะเหมาะกับรุ่นทั่วไปใด ๆ


1

คุณดูเหมือนจะนับจำนวนเหตุการณ์เป็นศูนย์ - ถ้าเป็นเช่นนั้นคุณอาจพิจารณารูปแบบ ZIP (หรือ Hurdle) - อ้างอิงตัวแบบการถดถอยสำหรับนับข้อมูลใน Rโดย Zeileis และคณะเพื่อดูภาพรวม

เพื่อสรุปคร่าวๆวิธีการเหล่านี้จะนับจำนวนศูนย์แยกจากส่วนที่เหลือซึ่งอาจเป็นประโยชน์ในกรณีของคุณ

อ้างถึงpsclแพคเกจและzeroinfl()และhurdle()ฟังก์ชั่น


1

ฉันสงสัยว่าฮิสโตแกรมของคุณถูกหลอกลวง หากคุณมีการสังเกตน้อยกว่า 300 ครั้งกระจายทั่วทั้งช่วง 0-50 ประมาณ 320 เท่า ๆ กันทั่วช่วง 50-100 และ 50 หรือสูงกว่า 100 ค่าเฉลี่ยของคุณควรมากกว่า 18.2

หากข้อมูลในช่วง 0-50 ไม่ได้กระจายอย่างทั่วถึง แต่กระจุกตัวอยู่ใกล้กับศูนย์ดังนั้นการเห็นข้อมูลในช่วง 50-100 มากกว่าในช่วง 0-50 นั้นน่าแปลกใจ

บางทีคุณอาจมีส่วนผสมของการแจกแจง ฉันสงสัยว่าทุกคนสามารถทำสิ่งนี้ได้มากโดยไม่ต้องมีการสังเกต 696 จริงและโดยเฉพาะอย่างยิ่งโดยไม่ต้องรู้เพิ่มเติมเกี่ยวกับบริบท การสังเกตการณ์แต่ละครั้งมี 696 ข้อเป็นรายบุคคลหรือไม่และเป็นการตอบสนองต่อจำนวนการกระทำของแต่ละคนหรือไม่ ถ้าเป็นเช่นนั้นมีข้อมูลประเภทต่าง ๆ ของบุคคลหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.