ความแตกต่างระหว่างข้อมูลที่หายไปและข้อมูลกระจัดกระจายในอัลกอริทึมการเรียนรู้ของเครื่อง


20

อะไรคือความแตกต่างที่สำคัญระหว่างข้อมูลที่กระจัดกระจายและข้อมูลที่ขาดหายไป? และมันมีอิทธิพลต่อการเรียนรู้ของเครื่องอย่างไร โดยเฉพาะอย่างยิ่งสิ่งที่ทำให้ข้อมูลกระจัดกระจายและข้อมูลที่ขาดหายไปนั้นมีต่ออัลกอริธึมการจำแนกและประเภทการถดถอย ฉันกำลังพูดถึงสถานการณ์ที่เปอร์เซ็นต์ของข้อมูลที่ขาดหายไปมีความสำคัญและเราไม่สามารถวางแถวที่มีข้อมูลที่ขาดหายไปได้


4
ข้อมูลที่กระจัดกระจายหมายความว่าค่าจำนวนมากเป็นศูนย์ แต่คุณรู้ว่าเป็นศูนย์ ข้อมูลที่หายไปหมายความว่าคุณไม่ทราบว่ามีค่าบางอย่างหรือหลายค่า
Anna SdTC

ขอบคุณ นั่นคือสิ่งที่ฉันคิดเช่นกัน แต่ต้องการยืนยัน นอกจากนี้ตามที่กล่าวถึงในคำถามต้องการทราบว่าโดยทั่วไปแล้วชุดข้อมูลประเภทนี้จะได้รับการจัดการในปัญหาการเรียนรู้ของเครื่อง ..
dev และเบื่อหน่าย dev

1
ฉันคิดว่าคำถามของคุณค่อนข้างคลุมเครือ "การเรียนรู้ของเครื่อง" รวมถึงวิธีการและเครื่องมือที่หลากหลายดังนั้นคำตอบขึ้นอยู่กับสิ่งที่คุณมีหรือสิ่งที่คุณต้องการจะทำ ที่นี่พวกเขาหารือเกี่ยวกับวิธีการบางอย่างสำหรับการจัดการข้อมูลที่ขาดหายไป: stats.stackexchange.com/questions/103500/…
Anna SdTC

ขอบคุณ ฉันตระหนักถึงเครื่องมือที่หลากหลายและประเภทอัลกอริทึมมล. แต่อยากรู้ว่ามีวิธีการทั่วไปหรือไม่
เหนื่อยล้าและเบื่อหน่าย

คำตอบ:


16

เพื่อความสะดวกในการทำความเข้าใจฉันจะอธิบายเรื่องนี้โดยใช้ตัวอย่าง สมมติว่าคุณกำลังรวบรวมข้อมูลจากอุปกรณ์ที่มีเซ็นเซอร์ 12 ตัว และคุณได้รวบรวมข้อมูลเป็นเวลา 10 วัน

ข้อมูลที่คุณรวบรวมมีดังนี้: ป้อนคำอธิบายรูปภาพที่นี่

สิ่งนี้เรียกว่าข้อมูลกระจัดกระจายเพราะส่วนใหญ่ของผลลัพธ์ของเซ็นเซอร์เป็นศูนย์ ซึ่งหมายความว่าเซ็นเซอร์เหล่านั้นทำงานได้อย่างถูกต้อง แต่การอ่านค่าจริงนั้นเป็นศูนย์ แม้ว่าเมทริกซ์นี้จะมีข้อมูลมิติสูง (12 แกน) แต่ก็สามารถกล่าวได้ว่ามันมีข้อมูลน้อยกว่า

สมมติว่าเซ็นเซอร์ 2 ตัวในอุปกรณ์ของคุณทำงานผิดปกติ
จากนั้นข้อมูลของคุณจะเป็นดังนี้:ป้อนคำอธิบายรูปภาพที่นี่

ในกรณีนี้คุณจะเห็นว่าคุณไม่สามารถใช้ข้อมูลจาก Sensor1 และ Sensor6 ไม่ว่าคุณจะต้องกรอกข้อมูลด้วยตนเองโดยไม่ส่งผลต่อผลลัพธ์หรือคุณต้องทำการทดสอบซ้ำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.