คำถามของฉันถูกส่งไปยังเทคนิคต่าง ๆ เพื่อจัดการกับข้อมูลที่ไม่สมบูรณ์ในระหว่างการจัดประเภท / การฝึกอบรม / การจำลองแบบ
ตัวอย่างเช่นในชุดข้อมูลที่มีไม่กี่ร้อยแถวแต่ละแถวมีสมมุติห้ามิติและเลเบลคลาสเป็นรายการสุดท้ายจุดข้อมูลส่วนใหญ่จะมีลักษณะดังนี้:
[0.74, 0.39, 0.14, 0.33, 0.34, 0]
บางอย่างอาจมีลักษณะเช่นนี้:
[0.21, 0.68,?, 0.82, 0.58, 1]
ดังนั้นจุดข้อมูลประเภทนั้นคือจุดสนใจของคำถามนี้
เหตุผลแรกของฉันที่ถามคำถามนี้คือปัญหาตรงหน้าฉัน อย่างไรก็ตามก่อนที่จะโพสต์คำถามของฉันฉันคิดว่ามันอาจจะมีประโยชน์มากกว่าถ้าฉันเขียนอีกครั้งดังนั้นคำตอบจะเป็นประโยชน์กับชุมชนส่วนใหญ่
ในฐานะที่เป็นฮิวริสติกแบบง่ายเรามาแบ่งเทคนิคการจัดการข้อมูลเหล่านี้ตามช่วงเวลาของการประมวลผลที่ใช้ก่อนที่จะป้อนตัวจําแนกหรือในระหว่าง (เช่นเทคนิคอยู่ภายในตัวจําแนก)
ตัวอย่างที่ดีที่สุดที่ฉันนึกได้สำหรับหลังคือเทคนิค 'การแยกกิ่งไม้สามทาง' ที่ชาญฉลาดที่ใช้ในต้นไม้การตัดสินใจ
ไม่ต้องสงสัยเลยว่าหมวดหมู่เดิมนั้นใหญ่กว่าเดิมมาก เทคนิคที่ฉันรับรู้ทั้งหมดตกอยู่ในกลุ่มใดกลุ่มหนึ่งด้านล่าง
ในขณะที่ฉันกำลังทบทวนบันทึกย่อส่วนบุคคลของฉันเกี่ยวกับ "การจัดการข้อมูลที่หายไป" ฉันสังเกตเห็นว่าฉันมีรายการเทคนิคที่น่าประทับใจ ฉันเก็บบันทึกเหล่านี้ไว้เพื่อความสบายใจทั่วไปและในกรณีที่เพื่อนร่วมงานรุ่นน้องขอให้ฉันจัดการกับข้อมูลที่หายไป ในทางปฏิบัติจริง ๆ ฉันไม่ได้ใช้สิ่งใดเลยยกเว้นครั้งสุดท้าย
Imputation : รูบริกแบบกว้างสำหรับชุดของเทคนิคที่มีตัวหารร่วม (ฉันเชื่อ) คือข้อมูลที่ขาดหายไปจะถูกส่งโดยตรงโดยชุดข้อมูลเดียวกัน - การแทนที่มากกว่าการประมาณ / การทำนาย
การสร้างใหม่ : ประเมินจุดข้อมูลที่ขาดหายไปโดยใช้เครือข่ายเชื่อมโยงอัตโนมัติ (เพียงเครือข่ายประสาทที่ขนาดของชั้นข้อมูลเข้าและส่งออกมีความเท่ากัน - กล่าวอีกนัยหนึ่งเอาท์พุทมีมิติเดียวกับอินพุต) ความคิดที่นี่คือการฝึกอบรมเครือข่ายนี้ในข้อมูลที่สมบูรณ์จากนั้นป้อนรูปแบบที่ไม่สมบูรณ์และอ่านค่าที่หายไปจากโหนดเอาต์พุต
Bootstrapping : (ไม่จำเป็นต้องสรุปฉันไม่ควรคิดเพราะมันใช้ที่อื่นในการวิเคราะห์ทางสถิติ)
ปฏิเสธ : ลบจุดข้อมูลอย่างเงียบ ๆ ด้วยองค์ประกอบที่ขาดหาย / เสียหายจากชุดการฝึกอบรมของคุณและแกล้งทำเป็นไม่เคยมีอยู่
modern
เทคนิคเหล่านี้ได้อย่างไร ขอบคุณ
mice
มีกระดาษเบื้องต้นที่ดีใน JSS: jstatsoft.org/article/view/v045i03 (คุณควรพบว่าการแนะนำมีประโยชน์แม้ว่าคุณจะไม่ได้ใช้อาร์) และแพ็คเกจ R Amelia
มีบทความสั้น ๆ ที่มาพร้อมกับแพ็คเกจ แพ็กเกจทั้งสองนี้มีรายละเอียดต่างกัน แต่ทั้งคู่ใช้การใส่หลายแบบ