วิธีสร้างแบบจำลองข้อมูลต่อเนื่องที่ไม่เป็นศูนย์ที่ไม่ทำให้เกิดค่าลบ?


16

ตอนนี้ฉันกำลังพยายามใช้ตัวแบบเชิงเส้น ( family = gaussian) กับตัวบ่งชี้ความหลากหลายทางชีวภาพที่ไม่สามารถรับค่าที่ต่ำกว่าศูนย์ได้นั้นจะสูงเกินศูนย์และต่อเนื่อง ค่าตั้งแต่ 0 ถึงน้อยกว่า 0.25 ด้วยเหตุนี้จึงมีรูปแบบที่ชัดเจนในส่วนที่เหลือของแบบจำลองที่ฉันไม่ได้จัดการเพื่อกำจัด: ป้อนคำอธิบายรูปภาพที่นี่

ใครบ้างมีความคิดเกี่ยวกับวิธีการแก้ปัญหานี้?


1
ยินดีต้อนรับสู่ CV! โปรดทราบว่าชื่อผู้ใช้ตัวระบุ & ลิงก์ไปยังหน้าผู้ใช้ของคุณจะถูกเพิ่มในทุกโพสต์ที่คุณทำโดยอัตโนมัติดังนั้นไม่จำเป็นต้องลงชื่อโพสต์ของคุณ ในความเป็นจริงเราไม่ต้องการให้คุณทำ
Silverfish

3
หากค่าที่สูงเกินจริงจะไม่สามารถต่อเนื่องได้เนื่องจากตัวแปรต่อเนื่องจะไม่สามารถกระโดดได้ใน cdf (และมีอย่างชัดเจนที่ 0) มันอาจจะต่อเนื่องนอกเหนือจาก 0
Glen_b -Reinstate Monica

คำตอบ:


32

มีความหลากหลายของการแก้ปัญหาในกรณีของการกระจายอย่างต่อเนื่องเป็นศูนย์ (กึ่ง -):

  • การถดถอยของ Tobit : สมมติว่าข้อมูลมาจากการแจกแจงแบบปกติพื้นฐานเดียว แต่ค่าลบนั้นถูกเซ็นเซอร์และซ้อนกันบนศูนย์ (เช่นแพคเกจ censReg )
  • แบบจำลองอุปสรรค์หรือ "สองขั้นตอน": ใช้แบบจำลองทวินามเพื่อทำนายว่าค่าเป็น 0 หรือ> 0 จากนั้นใช้แบบจำลองเชิงเส้น (หรือแกมม่าหรือตัดทอนปกติหรือบันทึกปกติ) เพื่อสร้างแบบจำลองค่าที่ไม่ใช่ศูนย์
  • 1<พี<2x>0

หรือถ้าโครงสร้างข้อมูลของคุณง่ายพอคุณสามารถใช้ตัวแบบเชิงเส้นและใช้การทดสอบการเปลี่ยนแปลงหรือวิธีการที่มีประสิทธิภาพอื่น ๆ เพื่อให้แน่ใจว่าการอนุมานของคุณจะไม่ถูกทำให้ยุ่งเหยิงโดยการกระจายข้อมูลที่น่าสนใจ

มีแพ็คเกจ / โซลูชั่น R สำหรับกรณีเหล่านี้ส่วนใหญ่

มีคำถามอื่น ๆ เกี่ยวกับ SE เกี่ยวกับศูนย์ที่สูงขึ้น (กึ่ง) ข้อมูลอย่างต่อเนื่อง (เช่นมีที่นี่ , ที่นี่และที่นี่ ) แต่พวกเขาดูเหมือนจะไม่ให้คำตอบที่ชัดเจน ... ทั่วไป

ดูเพิ่มเติมที่Min & Agresti, 2002, การสร้างแบบจำลองข้อมูลเชิงลบด้วยการรวมกลุ่มที่ Zero: การสำรวจเพื่อดูภาพรวม


@Ben Bolker คุณจะ "ใช้แบบจำลองเชิงเส้น (หรือแกมม่าหรือตัดทอนปกติหรือบันทึกปกติ) เพื่อสร้างแบบจำลอง" ค่าที่คาดการณ์หรือไม่ใช่ค่าจริงหรือไม่?
rolando2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.