ล้างข้อมูลอัตโนมัติ


10

ปัญหาที่พบบ่อยคือ ML เป็นข้อมูลที่มีคุณภาพไม่ดี: ข้อผิดพลาดในค่าคุณลักษณะ, อินสแตนซ์ที่ผิดประเภท ฯลฯ ฯลฯ

วิธีหนึ่งในการจัดการปัญหานี้คือการตรวจสอบข้อมูลด้วยตนเอง แต่มีเทคนิคอื่นหรือไม่? (ฉันเดิมพันมี!)

อันไหนดีกว่าและทำไม?


Google Refine อาจเป็นสิ่งที่ควรค่าแก่การดู
Dimitriy V. Masterov

คำตอบ:


6

การลดขนาดโดยใช้บางสิ่งบางอย่างเช่น PCA จะช่วยให้คุณทราบถึงจำนวนมิติที่มีความสำคัญต่อการแสดงข้อมูลของคุณ

ในการตรวจสอบอินสแตนซ์ที่ไม่ได้จัดประเภทคุณสามารถทำการจัดกลุ่ม k-mean พื้นฐานของข้อมูลของคุณเพื่อดูว่าข้อมูลดิบของคุณเหมาะสมกับหมวดหมู่ที่คุณเสนอได้ดีเพียงใด ในขณะที่ไม่อัตโนมัติการแสดงภาพในขั้นตอนนี้จะเป็นประโยชน์เนื่องจากสมองที่มองเห็นของคุณเป็นลักษณนามที่ทรงพลังในตัวมันเอง

ในแง่ของข้อมูลที่ขาดหายไปทันทีสถิติมีเทคนิคมากมายที่จะจัดการกับสถานการณ์นั้นรวมถึงการใส่ความคิดการรับข้อมูลจากชุดที่มีอยู่หรืออีกชุดหนึ่งเพื่อเติมลงในช่องว่าง


3
พล็อตข้อมูลคือการตรวจสอบคู่มือ
ทะเบียน

@ ลงทะเบียนฉันพิจารณาการตรวจสอบทีละจุดบนสเปรดชีตเพื่อตรวจสอบด้วยตนเอง แต่ไม่เป็นไรฉันเห็นสิ่งที่คุณได้รับ
jonsca

5

คุณไม่สามารถลบบุคคลที่มีความรู้ออกจากวงและคาดหวังผลลัพธ์ที่สมเหตุสมผล นั่นไม่ได้หมายความว่าบุคคลนั้นจะต้องดูรายการแต่ละรายการทีละรายการ แต่ท้ายที่สุดแล้วมันต้องใช้ความรู้จริงเพื่อทราบว่าบทสรุป / กราฟของข้อมูลมีความสมเหตุสมผลหรือไม่ (ตัวอย่างเช่น: ตัวแปร A เป็นค่าลบ, ตัวแปร B สามารถใหญ่กว่าตัวแปร A หรือมี 4 หรือ 5 ตัวเลือกสำหรับหมวดหมู่ตัวแปร C?)

เมื่อคุณมีความรู้เกี่ยวกับข้อมูลคุณสามารถสร้างชุดของกฎที่คุณสามารถใช้ในการทดสอบข้อมูลโดยอัตโนมัติ ปัญหาคือข้อผิดพลาดอื่น ๆ สามารถเกิดขึ้นได้ที่คุณไม่ได้คิด (ตัวอย่างเช่นข้อผิดพลาดการเขียนโปรแกรมในกระบวนการรวบรวมข้อมูลที่ทำซ้ำตัวแปร A ถึงตัวแปร C)


คำตอบที่ดี ฉันจะเพิ่มเฉพาะเพื่อให้แน่ใจว่าไวยากรณ์ที่ใช้ในการล้างตัวแปรนั้นยังคงอยู่ในเอกสารประกอบพร้อมกับความคิดเห็นหากไม่มีข้อความอธิบายเกี่ยวกับสาเหตุที่สิ่งต่าง ๆ เปลี่ยนไป :)
มิเชล

1

หากคุณรู้ว่าข้อมูลของคุณไม่ค่อยดีนักก็ควรตรวจสอบค่าผิดปกติด้วยเช่นกัน ส่วนใหญ่มีความผิดปกติ

หากคุณมีคุณสมบัติจำนวนมากการลดขนาดต้องเป็นสิ่งที่จำเป็น PCA นั้นค่อนข้างมีประสิทธิภาพสำหรับเรื่องนั้น

หากคุณมีข้อมูลที่ขาดหายไปคุณสามารถใช้การใส่ข้อมูลหรือการแก้ไข แต่หากความต้องการของคุณอนุญาตกรณีที่ชนะก็คือการใช้การกรองร่วมกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.