สร้างแบบจำลองเชิงเส้นสำหรับอัตราส่วนเทียบกับอัตราร้อยละ?


20

สมมติว่าฉันต้องการสร้างแบบจำลองเพื่อทำนายอัตราส่วนหรือเปอร์เซ็นต์บางอย่าง ตัวอย่างเช่นสมมติว่าฉันต้องการทำนายจำนวนเด็กผู้ชายกับผู้หญิงที่จะเข้าร่วมปาร์ตี้และคุณสมบัติของบุคคลที่ฉันสามารถใช้ในโมเดลคือสิ่งต่าง ๆ เช่นจำนวนโฆษณาสำหรับงานปาร์ตี้ขนาดของสถานที่หรือไม่ จะเป็นแอลกอฮอล์ในงานปาร์ตี้ ฯลฯ (นี่เป็นเพียงตัวอย่างที่ทำขึ้นคุณสมบัติที่ไม่สำคัญจริงๆ)

คำถามของฉันคืออะไรความแตกต่างระหว่างการทำนายอัตราส่วนกับเปอร์เซ็นต์และแบบจำลองของฉันจะเปลี่ยนไปตามที่ฉันเลือกได้อย่างไร ดีกว่าอีกไหม? ฟังก์ชั่นอื่น ๆ ดีกว่าฟังก์ชั่นใดฟังก์ชันหนึ่งหรือไม่? (ฉันไม่สนใจจริง ๆ เกี่ยวกับจำนวนอัตราส่วนเทียบกับอัตราร้อยละที่เฉพาะเจาะจงฉันแค่ต้องการที่จะระบุว่าฝ่ายใดมีแนวโน้มที่จะเป็น "ฝ่ายเด็กชาย" กับ "ฝ่ายสาว") ตัวอย่างเช่นฉัน ความคิด:

  • ถ้าฉันต้องการทำนายเปอร์เซ็นต์ (พูด# boys / (# boys + # girls)แล้วเนื่องจากคุณสมบัติที่ขึ้นต่อกันของฉันมีขอบเขตระหว่าง 0 ถึง 1 ฉันอาจใช้บางอย่างเช่นการถดถอยโลจิสติกแทนการถดถอยเชิงเส้น
  • หากฉันต้องการทำนายอัตราส่วน (พูด# boys / # girlsหรือ# boys / (1 + # girls)เพื่อหลีกเลี่ยงข้อผิดพลาดการหารด้วยศูนย์) คุณลักษณะที่ต้องพึ่งพาของฉันจะเป็นค่าบวกดังนั้นฉันจึงควรใช้การแปลง (log?) บางชนิดก่อนใช้การถดถอยเชิงเส้น (หรือโมเดลอื่น ๆ แบบจำลองการถดถอยชนิดใดที่ใช้สำหรับข้อมูลที่เป็นค่าบวกและไม่นับ)
  • โดยทั่วไปแล้วจะดีกว่าที่จะทำนาย (พูด) เปอร์เซ็นต์แทนที่จะเป็นอัตราส่วนและถ้าใช่ทำไม?

ขึ้นอยู่กับแอปพลิเคชันเฉพาะของคุณและสิ่งที่คุณพยายามทำแบบจำลองคุณควรพิจารณาใช้การวิเคราะห์ข้อมูลแบบ Compositional ( en.wikipedia.org/wiki/Compositional_data ); มีบางสิ่งที่ควรพิจารณาเมื่อคุณสมบัติ (ตัวแปรอิสระ) รวมกับความสามัคคี โปรดดูผลงานของ John Aitchison
ctbrown

คำตอบ:



15

สะท้อนคำตอบแรก ไม่ต้องกังวลกับการแปลง - เพียงทำโมเดลการนับและโควาเรียต์โดยตรง

ถ้าคุณทำอย่างนั้นและพอดีกับรูปแบบการถดถอยแบบทวินาม (หรือเท่ากันโลจิสติก) กับเด็กผู้หญิงจะนับถ้าคุณเลือกฟังก์ชั่นลิงค์ปกติสำหรับโมเดลดังกล่าวโดยปริยายแล้วจะปรับอัตราส่วน (โคโลเรียแบบเรียบบันทึก) สำหรับเด็กชาย นั่นคือตัวทำนายเชิงเส้น

เหตุผลหลักในการนับแบบจำลองโดยตรงมากกว่าสัดส่วนหรืออัตราส่วนคือคุณไม่สูญเสียข้อมูล คุณจะมีความมั่นใจมากขึ้นเกี่ยวกับการอนุมานจากอัตราส่วนที่สังเกตได้ของ 1 (ชายกับหญิง) ถ้ามันมาจากการเห็น 100 เด็กชายและ 100 สาวกว่าที่จะเห็น 2 และ 2 ดังนั้นถ้าคุณมีโควาเรียคุณจะมีมากขึ้น ข้อมูลเกี่ยวกับผลกระทบและรูปแบบการทำนายที่ดีกว่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.