5
การแยกความแตกต่างระหว่างสองกลุ่มในสถิติและการเรียนรู้ของเครื่อง: การทดสอบสมมติฐานเทียบกับการจำแนกและการทำคลัสเตอร์
สมมติว่าฉันมีกลุ่มข้อมูลสองกลุ่มระบุว่า A และ B (แต่ละกลุ่มประกอบด้วยตัวอย่าง 200 ตัวอย่างและคุณสมบัติ 1) และฉันต้องการทราบว่าพวกเขาแตกต่างกันหรือไม่ ฉันทำได้: a) ทำการทดสอบทางสถิติ (เช่น t-test) เพื่อดูว่ามีความแตกต่างทางสถิติหรือไม่ b) ใช้การเรียนรู้ของเครื่องควบคุม (เช่นการสนับสนุนตัวจําแนกเวกเตอร์หรือลักษณนามฟอเรสต์แบบสุ่ม) ฉันสามารถฝึกอบรมสิ่งนี้ในส่วนของข้อมูลของฉันและตรวจสอบในส่วนที่เหลือ หากอัลกอริทึมการเรียนรู้ของเครื่องจำแนกส่วนที่เหลืออย่างถูกต้องหลังจากนั้นฉันสามารถมั่นใจได้ว่าตัวอย่างจะแตกต่างกัน c) ใช้อัลกอริทึมที่ไม่มีผู้ดูแล (เช่น K-Means) และปล่อยให้มันแบ่งข้อมูลทั้งหมดออกเป็นสองตัวอย่าง ฉันสามารถตรวจสอบว่าตัวอย่างที่พบทั้งสองนี้เห็นด้วยกับฉลากของฉัน A และ B หรือไม่ คำถามของฉันคือ: วิธีที่แตกต่างกันสามวิธีนี้ทับซ้อนกัน / พิเศษอย่างไร b) และ c) มีประโยชน์สำหรับข้อโต้แย้งทางวิทยาศาสตร์หรือไม่? ฉันจะได้รับ“ นัยสำคัญ” สำหรับความแตกต่างระหว่างตัวอย่าง A และ B จากวิธีการ b) และ c) อย่างไร จะเกิดอะไรขึ้นถ้าข้อมูลมีคุณสมบัติหลายอย่างมากกว่า …