เพื่อนร่วมงานกำลังวิเคราะห์ข้อมูลทางชีววิทยาบางอย่างเพื่อทำวิทยานิพนธ์ของเธอด้วย Heteroscedasticity ที่น่ารังเกียจ (ดังรูปด้านล่าง) เธอวิเคราะห์ด้วยโมเดลผสม แต่ยังคงมีปัญหากับส่วนที่เหลือ
การเปลี่ยนบันทึกการตอบสนองตัวแปรการทำความสะอาดสิ่งต่าง ๆ ขึ้นอยู่กับความคิดเห็นของคำถามนี้ดูเหมือนจะเป็นวิธีการที่เหมาะสม อย่างไรก็ตามในขั้นต้นเราคิดว่ามีปัญหาในการใช้ตัวแปรที่แปลงแล้วกับตัวแบบผสม ปรากฎว่าเราตีความคำแถลงผิด ๆ ในSASของ Littell & Milliken (2006) สำหรับแบบจำลองผสมซึ่งชี้ให้เห็นว่าเหตุใดจึงไม่เหมาะสมในการแปลงข้อมูลการนับและวิเคราะห์ด้วยแบบจำลองเชิงเส้นเชิงเส้นปกติ(ใบเสนอราคาเต็มด้านล่าง) .
วิธีการที่ปรับปรุงส่วนที่เหลือคือการใช้โมเดลเชิงเส้นทั่วไปกับการแจกแจงปัวซอง ฉันได้อ่านแล้วว่าการแจกแจงปัวซงสามารถใช้สำหรับการสร้างแบบจำลองข้อมูลต่อเนื่อง (เช่นที่กล่าวถึงในโพสต์นี้) และแพคเกจสถิติอนุญาต แต่ฉันไม่เข้าใจว่าเกิดอะไรขึ้นเมื่อแบบจำลองนั้นพอดี
เพื่อจุดประสงค์ในการทำความเข้าใจวิธีการคำนวณที่แฝงอยู่คำถามของฉันคือ: เมื่อคุณใส่การแจกแจงแบบปัวซงเป็นข้อมูลแบบต่อเนื่อง1)ข้อมูลจะถูกปัดเศษเป็นจำนวนเต็มที่ใกล้ที่สุด2) หรือไม่3)เมื่อใดควรใช้แบบจำลองปัวซองสำหรับข้อมูลต่อเนื่องหรือไม่
Littel & Milliken 2006, pg 529 "การแปลงข้อมูล [count] อาจเป็นการต่อต้านตัวอย่างเช่นการแปลงสามารถบิดเบือนการแจกแจงของเอฟเฟกต์แบบสุ่มหรือความเป็นเชิงเส้นของโมเดลที่สำคัญกว่าการแปลงข้อมูลยังคงเปิดโอกาส ของจำนวนที่คาดการณ์เชิงลบดังนั้นการอนุมานจากตัวแบบผสมที่ใช้ข้อมูลที่แปลงแล้วเป็นที่น่าสงสัยอย่างมาก "