แบบจำลองที่เหมาะสมสำหรับข้อมูลการนับที่น้อยเกินไปคืออะไร?


24

ฉันพยายามที่จะสร้างแบบจำลองข้อมูลนับใน R ที่เห็นได้ชัดว่าด้อยค่า (พารามิเตอร์การกระจายตัว ~ .40) นี่อาจเป็นสาเหตุที่รูปแบบแบบglmมีfamily = poissonหรือเชิงลบglm.nbมีความหมายไม่สำคัญ เมื่อฉันดูคำอธิบายข้อมูลของฉันฉันไม่มีข้อมูลการนับทั่วไปและส่วนที่เหลือในเงื่อนไขการทดลองทั้งสองของฉันก็เหมือนกันเช่นกัน

ดังนั้นคำถามของฉันคือ:

  1. ฉันต้องใช้การวิเคราะห์การถดถอยแบบพิเศษสำหรับข้อมูลการนับของฉันหรือไม่หากข้อมูลการนับของฉันไม่ทำงานเหมือนข้อมูลการนับ บางครั้งฉันต้องเผชิญกับภาวะไม่ปกติ (โดยปกติจะเป็นเพราะความทรมาน) แต่ฉันใช้วิธีบูตสแตรปเปอร์เซ็นไทล์สำหรับการเปรียบเทียบวิธีการที่ถูกตัด (Wilcox, 2012) เพื่ออธิบายถึงความไม่เป็นมาตรฐาน วิธีการสำหรับการนับข้อมูลสามารถทดแทนด้วยวิธีการที่แข็งแกร่งใด ๆ ที่แนะนำโดย Wilcox และรับรู้ในแพ็คเกจ WRS หรือไม่

  2. หากฉันต้องใช้การวิเคราะห์การถดถอยสำหรับข้อมูลนับฉันจะบัญชีสำหรับการกระจายต่ำกว่าได้อย่างไร ปัวซองและการกระจายตัวแบบลบลบถือว่าการกระจายตัวที่สูงขึ้นดังนั้นจึงไม่เหมาะสมใช่ไหม ฉันคิดว่าจะใช้การกระจายแบบกึ่ง - ปัวซองแต่โดยทั่วไปจะแนะนำให้กระจายตัวมากเกินไป ฉันอ่านเกี่ยวกับตัวแบบเบต้า - ทวินามซึ่งดูเหมือนว่าจะสามารถอธิบายได้มากกว่า - รวมถึงการด้อยค่าลงในVGAMชุดของ R ผู้เขียนดูเหมือนจะแนะนำการกระจาย Poisson tildedแต่ฉันไม่สามารถหาได้ในแพ็คเกจ .

ใครบ้างที่สามารถแนะนำขั้นตอนการประมวลผลข้อมูลที่ด้อยคุณภาพและอาจมีตัวอย่างรหัส R ให้หรือไม่


1
คุณจะรู้ได้อย่างไรว่าข้อมูลของคุณมีการด้อยค่า? คุณคำนวณพารามิเตอร์การกระจายอย่างไร
Hong Ooi

1
นอกจากนี้ยังช่วยบอกเราเพิ่มเติมเกี่ยวกับสิ่งที่คุณสนใจสำหรับการคาดคะเนจุดเชิงเส้นตรงและการทำนายค่าการด้อยค่าแทบจะไม่เป็นปัญหา แต่การทดสอบและช่วงเวลาอาจเป็นแบบอนุรักษ์นิยมโดยไม่จำเป็น ที่กล่าวว่าสำหรับวิธีการโอกาส "ปกติ" ตรวจสอบ COM Poisson และรุ่น Poisson ทั่วไปอื่น ๆ
Momo

@ Hung Ooi: ฉันทดสอบการกระจายตัวด้วยการทดสอบการกระจายตัว (Poissonmodel, Alternative = c ("น้อยกว่า")) และการทดสอบกลับกลายเป็นสิ่งสำคัญ
Sil

1
@ Momo: ฉันต้องการทดสอบว่าการเจรจาต่อรองสีย้อมในสองเงื่อนไขการทดลองแตกต่างกันไปตามข้อเสนอที่ถูกต้องหรือไม่ ข้อเสนอที่ถูกต้องหมายถึงว่า dyads เรียกร้องปัญหาที่มากขึ้นซึ่งสอดคล้องกับความสนใจของแต่ละทีมแทนการอ้างว่ามีคุณค่ามากกว่าสำหรับอีกฝ่าย ก่อนอื่นฉันไม่ทราบด้วยซ้ำว่านี่คือข้อมูลนับ คุณหมายถึงการกระจายของ Conway-Maxwell-Poisson โดย COM Poisson หรือไม่ ขอบคุณมากแล้ว!
Sil

3
ขอบคุณสำหรับข้อมูลเพิ่มเติม ใช่ฉันหมายถึงปัวซอง conway-maxwell Shmueli & co พัฒนาแบบจำลองเชิงเส้นแบบเชิงทั่วไปสำหรับมันและยังมีแพ็คเกจ R หากคุณต้องการลอง
Momo

คำตอบ:


9

วิธี --- และมาตรฐานที่ดีที่สุดในการจัดการข้อมูลปัวซองที่มีค่าต่ำกว่าคือการใช้ปัวซองแบบทั่วไปหรือบางทีอาจเป็นแบบอุปสรรค์ นอกจากนี้ยังสามารถใช้โมเดลการนับพารามิเตอร์สามแบบสำหรับข้อมูลที่ด้อยค่า เช่น Faddy-Smith, Waring, Famoye, Conway-Maxwell และรุ่นนับทั่วไปอื่น ๆ ข้อเสียเปรียบเพียงอย่างเดียวคือการตีความ แต่สำหรับข้อมูลที่มีการด้อยค่าทั่วไปควรใช้ปัวซองแบบทั่วไป มันเป็นเหมือนทวินามลบสำหรับข้อมูลที่มีการกระจายเกิน ฉันพูดถึงเรื่องนี้ในรายละเอียดบางอย่างในหนังสือสองเล่มของฉันแบบจำลองการนับข้อมูล (2014) และการถดถอยเชิงลบแบบสองฉบับที่ (2011) ทั้งคู่โดยสำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ ใน R แพ็คเกจ VGAM ช่วยให้การถดถอยแบบปัวซอง (GP) เป็นการทั่วไป ค่าลบของพารามิเตอร์การกระจายระบุการปรับปรุงสำหรับการด้อยค่า คุณสามารถใช้โมเดล GP สำหรับข้อมูลที่มีการกระจายข้อมูลเกินได้เช่นกัน แต่โดยทั่วไปแล้วรุ่น NB จะดีกว่า เมื่อมันลงมาให้ดีที่สุดในการหาสาเหตุของการ underdispersion แล้วเลือกรูปแบบที่เหมาะสมที่สุดที่จะจัดการกับมัน


ยินดีต้อนรับกลับ! โปรดลงทะเบียน & / หรือรวมบัญชีของคุณ (คุณสามารถหาข้อมูลเกี่ยวกับวิธีการทำสิ่งนี้ได้ในส่วนบัญชีของฉันในศูนย์ช่วยเหลือของเรา) จากนั้นคุณจะสามารถแก้ไขและแสดงความคิดเห็นในคำถามของคุณเอง (บัญชีเดิมของคุณอยู่ที่นี่ )
gung - Reinstate Monica

คุณสามารถทำการวิเคราะห์ Poisson แบบทั่วไปบน SPSS ได้หรือไม่?
Grace Carroll

3

ฉันพบปัวซองที่กระจัดกระจายอยู่ภายใต้ความถี่ที่ผู้คนจะเล่นเกมโซเชียล มันกลับกลายเป็นว่านี่เป็นเพราะความไม่สม่ำเสมอที่ผู้คนจะเล่นในวันศุกร์ การลบข้อมูลวันศุกร์ทำให้ปัวซองมีค่าใช้จ่ายมากเกินไป บางทีคุณอาจมีตัวเลือกในการแก้ไขข้อมูลของคุณในทำนองเดียวกัน


1

มีสถานการณ์ที่ underdispersion รวมกับศูนย์อัตราเงินเฟ้อซึ่งเป็นเรื่องปกติสำหรับเด็กที่ต้องการนับโดยบุคคลของทั้งสองเพศ ฉันไม่พบวิธีการจับภาพสิ่งนี้จนถึงปัจจุบัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.