ปัญหาที่พบบ่อยคือ ML เป็นข้อมูลที่มีคุณภาพไม่ดี: ข้อผิดพลาดในค่าคุณลักษณะ, อินสแตนซ์ที่ผิดประเภท ฯลฯ ฯลฯ
วิธีหนึ่งในการจัดการปัญหานี้คือการตรวจสอบข้อมูลด้วยตนเอง แต่มีเทคนิคอื่นหรือไม่? (ฉันเดิมพันมี!)
อันไหนดีกว่าและทำไม?
ปัญหาที่พบบ่อยคือ ML เป็นข้อมูลที่มีคุณภาพไม่ดี: ข้อผิดพลาดในค่าคุณลักษณะ, อินสแตนซ์ที่ผิดประเภท ฯลฯ ฯลฯ
วิธีหนึ่งในการจัดการปัญหานี้คือการตรวจสอบข้อมูลด้วยตนเอง แต่มีเทคนิคอื่นหรือไม่? (ฉันเดิมพันมี!)
อันไหนดีกว่าและทำไม?
คำตอบ:
การลดขนาดโดยใช้บางสิ่งบางอย่างเช่น PCA จะช่วยให้คุณทราบถึงจำนวนมิติที่มีความสำคัญต่อการแสดงข้อมูลของคุณ
ในการตรวจสอบอินสแตนซ์ที่ไม่ได้จัดประเภทคุณสามารถทำการจัดกลุ่ม k-mean พื้นฐานของข้อมูลของคุณเพื่อดูว่าข้อมูลดิบของคุณเหมาะสมกับหมวดหมู่ที่คุณเสนอได้ดีเพียงใด ในขณะที่ไม่อัตโนมัติการแสดงภาพในขั้นตอนนี้จะเป็นประโยชน์เนื่องจากสมองที่มองเห็นของคุณเป็นลักษณนามที่ทรงพลังในตัวมันเอง
ในแง่ของข้อมูลที่ขาดหายไปทันทีสถิติมีเทคนิคมากมายที่จะจัดการกับสถานการณ์นั้นรวมถึงการใส่ความคิดการรับข้อมูลจากชุดที่มีอยู่หรืออีกชุดหนึ่งเพื่อเติมลงในช่องว่าง
คุณไม่สามารถลบบุคคลที่มีความรู้ออกจากวงและคาดหวังผลลัพธ์ที่สมเหตุสมผล นั่นไม่ได้หมายความว่าบุคคลนั้นจะต้องดูรายการแต่ละรายการทีละรายการ แต่ท้ายที่สุดแล้วมันต้องใช้ความรู้จริงเพื่อทราบว่าบทสรุป / กราฟของข้อมูลมีความสมเหตุสมผลหรือไม่ (ตัวอย่างเช่น: ตัวแปร A เป็นค่าลบ, ตัวแปร B สามารถใหญ่กว่าตัวแปร A หรือมี 4 หรือ 5 ตัวเลือกสำหรับหมวดหมู่ตัวแปร C?)
เมื่อคุณมีความรู้เกี่ยวกับข้อมูลคุณสามารถสร้างชุดของกฎที่คุณสามารถใช้ในการทดสอบข้อมูลโดยอัตโนมัติ ปัญหาคือข้อผิดพลาดอื่น ๆ สามารถเกิดขึ้นได้ที่คุณไม่ได้คิด (ตัวอย่างเช่นข้อผิดพลาดการเขียนโปรแกรมในกระบวนการรวบรวมข้อมูลที่ทำซ้ำตัวแปร A ถึงตัวแปร C)
หากคุณรู้ว่าข้อมูลของคุณไม่ค่อยดีนักก็ควรตรวจสอบค่าผิดปกติด้วยเช่นกัน ส่วนใหญ่มีความผิดปกติ
หากคุณมีคุณสมบัติจำนวนมากการลดขนาดต้องเป็นสิ่งที่จำเป็น PCA นั้นค่อนข้างมีประสิทธิภาพสำหรับเรื่องนั้น
หากคุณมีข้อมูลที่ขาดหายไปคุณสามารถใช้การใส่ข้อมูลหรือการแก้ไข แต่หากความต้องการของคุณอนุญาตกรณีที่ชนะก็คือการใช้การกรองร่วมกัน