การกระจายสำหรับข้อมูลร้อยละ


11

ฉันมีคำถามเกี่ยวกับการแจกจ่ายที่ถูกต้องเพื่อใช้สำหรับการสร้างแบบจำลองด้วยข้อมูลของฉัน ฉันจัดทำรายการป่าไม้ที่มี 50 แปลงแต่ละแปลงมีขนาด 20 ม. x 50 ม. ในแต่ละแปลงนั้นฉันประมาณเปอร์เซ็นต์ของต้นไม้ที่บังแสง แต่ละพล็อตมีหนึ่งค่าเป็นเปอร์เซ็นต์สำหรับฝาครอบหลังคา เปอร์เซ็นต์มีตั้งแต่ 0 ถึง 0.95 ฉันกำลังสร้างแบบจำลองของร้อยละต้นไม้ปกคลุมหลังคา ( ตัวแปรY ) ด้วยเมทริกซ์ของตัวแปรXอิสระจากภาพถ่ายดาวเทียมและข้อมูลด้านสิ่งแวดล้อม

ฉันไม่แน่ใจว่าฉันควรใช้การแจกแจงทวินามหรือไม่เนื่องจากตัวแปรสุ่มแบบทวินามคือผลรวมของการทดลองอิสระn ครั้ง (เช่นตัวแปรสุ่มของเบอร์นูลลี) ค่าเปอร์เซ็นต์ไม่ใช่ผลรวมของการทดลอง เป็นเปอร์เซ็นต์ที่แท้จริง ฉันควรใช้แกมมาแม้ว่าจะไม่มีขีด จำกัด บน ฉันควรแปลงเปอร์เซ็นต์เป็นจำนวนเต็มและใช้ปัวซองเป็นค่าหรือไม่ ฉันควรจะอยู่กับเกาส์เซียนหรือไม่ ฉันไม่พบตัวอย่างมากมายในวรรณคดีหรือในตำราที่พยายามจำลองเปอร์เซ็นต์ด้วยวิธีนี้ คำแนะนำหรือข้อมูลเชิงลึกใด ๆ ที่ชื่นชม


ขอบคุณสำหรับคำตอบ ในความเป็นจริงการกระจายเบต้าเป็นสิ่งที่ฉันต้องการและมีการพูดคุยอย่างละเอียดในบทความนี้:

บทความต่อไปนี้กล่าวถึงวิธีที่ดีในการแปลงตัวแปรการตอบสนองแบบกระจายเบต้าเมื่อรวมค่าจริง 0 และ / หรือ 1 ในช่วงเปอร์เซ็นต์:



2
ขอบคุณสำหรับคำตอบ ในความเป็นจริงการกระจายเบต้าเป็นสิ่งที่ฉันต้องการและมีการพูดคุยอย่างละเอียดในบทความนี้: Eskelson, BN, Madsen, L. , Hagar, JC และ Temesgen, H. (2011) การประมาณพืชพรรณที่เข้าใจได้ของชายฝั่ง Riparian ด้วยแบบจำลองการถดถอยแบบเบตาและโคคูล่า วิทยาศาสตร์ป่าไม้, 57 (3), 212-221 ผู้เขียนเหล่านี้ใช้แพ็คเกจ betareg ใน R โดย Cribari-Neto และ Zeileis บทความต่อไปนี้กล่าวถึงวิธีที่ดีที่จะเปลี่ยนตัวแปรตอบสนองเบต้ากระจายเมื่อมันมีจริง 0 และ / หรือ 1 ในช่วงร้อยละ: สมิท, เอ็มและเจ Verkuilen 2006 ดีกว่ามะนาวตาราง

คำตอบ:


7

คุณมีสิทธิ์ที่การแจกแจงทวินามนั้นใช้สำหรับสัดส่วนที่ไม่ต่อเนื่องที่เกิดขึ้นจากจำนวน 'ความสำเร็จ' จากจำนวนการทดลอง Bernoulli ที่ จำกัด และทำให้การแจกแจงไม่เหมาะสมสำหรับข้อมูลของคุณ คุณควรใช้การกระจายแกมม่าหารด้วยผลรวมของแกมม่านั้นบวกแกมม่าอื่น นั่นคือคุณควรใช้การแจกแจงแบบเบต้าเพื่อกำหนดสัดส่วนแบบต่อเนื่อง

ผมมีตัวอย่างของการถดถอยเบต้าในคำตอบของฉันที่นี่: ผลลบของปัจจัยกับข้อมูลสัดส่วนอย่างต่อเนื่องโดยใช้การถดถอยใน R

ปรับปรุง:
@ DimitriyV.Masterov ยกจุดที่ดีที่คุณพูดถึงข้อมูลของคุณมี 's แต่การกระจายเบต้าได้รับการสนับสนุนเฉพาะใน1) สิ่งนี้จะถามคำถามว่าควรทำอย่างไรกับค่าดังกล่าว แนวคิดบางอย่างสามารถรวบรวมได้จากเธรด CV ที่ยอดเยี่ยมนี้: ปริมาณที่ควรเพิ่มใน x เพื่อหลีกเลี่ยงการบันทึก 0 มีขนาดเล็กเพียงใด?0(0, 1)


3
การแจกแจงแบบเบต้าสามารถจัดการกับศูนย์ได้หรือไม่?
Dimitriy V. Masterov

1

ค่าร้อยละเป็นตัวแทนของอัตราที่เป็นอิสระจากจำนวนตัวอย่าง คุณต้องการใช้เปอร์เซ็นต์เหล่านี้เป็นตัวแปรตามและภาพจากดาวเทียมเป็นตัวแปรอธิบาย อย่างไรก็ตามฉันเดาว่าทั้งหมด 50 แปลงในสินค้าคงคลังมีจำนวนตัวอย่างที่ใกล้เคียงกัน แบบจำลองที่เหมาะสมที่เกี่ยวข้องกับค่าร้อยละเหล่านี้กับตัวแปรอื่น ๆ ควรคำนึงถึงความไม่แน่นอนในการวัดทำให้น้ำหนักเพิ่มขึ้นในแปลงที่มีตัวอย่างสูง

นอกจากนี้การกระจายข้อผิดพลาดในกรณีของข้อมูลของคุณเป็นแบบทวินามอย่างชัดเจน ความแปรปรวนของข้อผิดพลาดน้อยที่สุดที่ขอบเขตนี่จะถูกบันทึกโดยการแจกแจงทวินาม

ทั้งหมดนี้ดูเหมือนว่าฉันเป็นตัวอย่างตามแบบฉบับของการใช้ GLM กับแบบจำลองข้อผิดพลาดทวินาม

"สถิติ: บทนำโดยใช้ R" บทที่ 14 โดย Crawley กล่าวถึงหัวข้อนี้อย่างแน่นอนและวิธีวิเคราะห์ด้วย R


4
การแจกแจงทวินามเป็นการแจกแจงของจำนวนความสำเร็จจากการทดลองเบอร์นูลี่ที่เป็นที่รู้จัก ความคิดเห็นของคุณที่ "ความจริงที่ว่าการทดลองของ Bernoulli นั้นถูกอธิบายโดยการแจกแจงแบบทวินามไม่ได้หมายความว่าทุกอย่างที่การแจกแจงแบบทวินามนั้นต้องสอดคล้องกับโครงสร้างของเบอร์นูลี" ไม่ถูกต้อง การแจกแจงทวินามไม่เหมาะสมสำหรับสัดส่วนต่อเนื่อง นอกจากนี้ฉันไม่ได้แนะนำการกระจายแกมมา แต่เป็นการกระจายเบต้า
gung - Reinstate Monica

1
ใช่คุณพูดถูก
bonobo
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.