บอกว่าเรามีตัวอย่างจากประชากรสองกลุ่ม A: และA
B
สมมติว่าประชากรเหล่านี้ทำจากบุคคลและเราเลือกที่จะอธิบายบุคคลในแง่ของคุณสมบัติ คุณสมบัติบางอย่างเหล่านี้มีการจัดหมวดหมู่ (เช่นพวกเขาขับรถไปทำงานหรือไม่) และบางส่วนเป็นตัวเลข (เช่นความสูง) ขอเรียกคุณสมบัติเหล่านี้:X_n เรารวบรวมคุณลักษณะเหล่านี้หลายร้อยรายการ (เช่น n = 200) สมมติว่าใช้งานง่ายโดยไม่มีข้อผิดพลาดหรือเสียงรบกวนในทุกคน
เราตั้งสมมติฐานว่าประชากรสองคนนั้นแตกต่างกัน เป้าหมายของเราคือการตอบคำถามสองข้อต่อไปนี้:
- จริง ๆ แล้วพวกเขาแตกต่างกันอย่างมีนัยสำคัญ?
- อะไรคือความแตกต่างระหว่างพวกเขา?
วิธีการเช่นต้นไม้ตัดสินใจ (เช่นป่าสุ่ม) และการวิเคราะห์การถดถอยเชิงเส้นสามารถช่วยได้ ตัวอย่างเช่นเราสามารถดูความสำคัญของคุณลักษณะในป่าสุ่มหรือสัมประสิทธิ์ที่เหมาะสมในการถดถอยเชิงเส้นเพื่อทำความเข้าใจกับสิ่งที่อาจแยกแยะกลุ่มเหล่านี้และสำรวจความสัมพันธ์ระหว่างคุณลักษณะและประชากร
ก่อนที่ฉันจะไปตามเส้นทางนี้ฉันต้องการเข้าใจตัวเลือกของฉันที่นี่สิ่งที่ดีและทันสมัยกับการปฏิบัติที่ไม่ดี โปรดทราบว่าเป้าหมายของฉันไม่ใช่การคาดการณ์ต่อการทดสอบและการค้นหาความแตกต่างที่สำคัญระหว่างกลุ่ม
อะไรคือหลักการในการแก้ไขปัญหานี้
ต่อไปนี้เป็นข้อกังวลของฉัน:
วิธีการเช่นการวิเคราะห์การถดถอยเชิงเส้นอาจไม่ตอบอย่างเต็มที่ (2) ใช่ไหม? เช่นความพอดีสามารถช่วยค้นหาความแตกต่างบางอย่าง แต่ไม่ใช่ความแตกต่างที่สำคัญทั้งหมด ตัวอย่างเช่นความหลากหลายหลายระดับอาจทำให้เราไม่สามารถค้นหาคุณลักษณะทั้งหมดที่แตกต่างกันในแต่ละกลุ่ม (อย่างน้อยก็ในรูปแบบเดียว) ด้วยเหตุผลเดียวกันฉันคาดหวังว่า ANOVA จะไม่สามารถให้คำตอบเต็ม (2) ได้เช่นกัน
ยังไม่ชัดเจนว่าวิธีการคาดการณ์จะตอบได้อย่างไร (1) ตัวอย่างเช่นฟังก์ชั่นการสูญเสียการจำแนกประเภท / การทำนายใดที่เราควรลด และเราจะทดสอบได้อย่างไรว่ากลุ่มแตกต่างกันอย่างมีนัยสำคัญเมื่อเรามีความเหมาะสมหรือไม่? ในที่สุดฉันกังวลว่าคำตอบที่ฉันได้รับ (1) อาจขึ้นอยู่กับชุดการจำแนกประเภทเฉพาะที่ฉันใช้