สมมติว่าฉันต้องการสร้างแบบจำลองเพื่อทำนายอัตราส่วนหรือเปอร์เซ็นต์บางอย่าง ตัวอย่างเช่นสมมติว่าฉันต้องการทำนายจำนวนเด็กผู้ชายกับผู้หญิงที่จะเข้าร่วมปาร์ตี้และคุณสมบัติของบุคคลที่ฉันสามารถใช้ในโมเดลคือสิ่งต่าง ๆ เช่นจำนวนโฆษณาสำหรับงานปาร์ตี้ขนาดของสถานที่หรือไม่ จะเป็นแอลกอฮอล์ในงานปาร์ตี้ ฯลฯ (นี่เป็นเพียงตัวอย่างที่ทำขึ้นคุณสมบัติที่ไม่สำคัญจริงๆ)
คำถามของฉันคืออะไรความแตกต่างระหว่างการทำนายอัตราส่วนกับเปอร์เซ็นต์และแบบจำลองของฉันจะเปลี่ยนไปตามที่ฉันเลือกได้อย่างไร ดีกว่าอีกไหม? ฟังก์ชั่นอื่น ๆ ดีกว่าฟังก์ชั่นใดฟังก์ชันหนึ่งหรือไม่? (ฉันไม่สนใจจริง ๆ เกี่ยวกับจำนวนอัตราส่วนเทียบกับอัตราร้อยละที่เฉพาะเจาะจงฉันแค่ต้องการที่จะระบุว่าฝ่ายใดมีแนวโน้มที่จะเป็น "ฝ่ายเด็กชาย" กับ "ฝ่ายสาว") ตัวอย่างเช่นฉัน ความคิด:
- ถ้าฉันต้องการทำนายเปอร์เซ็นต์ (พูด
# boys / (# boys + # girls)
แล้วเนื่องจากคุณสมบัติที่ขึ้นต่อกันของฉันมีขอบเขตระหว่าง 0 ถึง 1 ฉันอาจใช้บางอย่างเช่นการถดถอยโลจิสติกแทนการถดถอยเชิงเส้น - หากฉันต้องการทำนายอัตราส่วน (พูด
# boys / # girls
หรือ# boys / (1 + # girls)
เพื่อหลีกเลี่ยงข้อผิดพลาดการหารด้วยศูนย์) คุณลักษณะที่ต้องพึ่งพาของฉันจะเป็นค่าบวกดังนั้นฉันจึงควรใช้การแปลง (log?) บางชนิดก่อนใช้การถดถอยเชิงเส้น (หรือโมเดลอื่น ๆ แบบจำลองการถดถอยชนิดใดที่ใช้สำหรับข้อมูลที่เป็นค่าบวกและไม่นับ) - โดยทั่วไปแล้วจะดีกว่าที่จะทำนาย (พูด) เปอร์เซ็นต์แทนที่จะเป็นอัตราส่วนและถ้าใช่ทำไม?