เทคนิคในการจัดการข้อมูลที่ไม่สมบูรณ์ / ขาดหายไป


12

คำถามของฉันถูกส่งไปยังเทคนิคต่าง ๆ เพื่อจัดการกับข้อมูลที่ไม่สมบูรณ์ในระหว่างการจัดประเภท / การฝึกอบรม / การจำลองแบบ

ตัวอย่างเช่นในชุดข้อมูลที่มีไม่กี่ร้อยแถวแต่ละแถวมีสมมุติห้ามิติและเลเบลคลาสเป็นรายการสุดท้ายจุดข้อมูลส่วนใหญ่จะมีลักษณะดังนี้:

[0.74, 0.39, 0.14, 0.33, 0.34, 0]

บางอย่างอาจมีลักษณะเช่นนี้:

[0.21, 0.68,?, 0.82, 0.58, 1]

ดังนั้นจุดข้อมูลประเภทนั้นคือจุดสนใจของคำถามนี้

เหตุผลแรกของฉันที่ถามคำถามนี้คือปัญหาตรงหน้าฉัน อย่างไรก็ตามก่อนที่จะโพสต์คำถามของฉันฉันคิดว่ามันอาจจะมีประโยชน์มากกว่าถ้าฉันเขียนอีกครั้งดังนั้นคำตอบจะเป็นประโยชน์กับชุมชนส่วนใหญ่

ในฐานะที่เป็นฮิวริสติกแบบง่ายเรามาแบ่งเทคนิคการจัดการข้อมูลเหล่านี้ตามช่วงเวลาของการประมวลผลที่ใช้ก่อนที่จะป้อนตัวจําแนกหรือในระหว่าง (เช่นเทคนิคอยู่ภายในตัวจําแนก)

ตัวอย่างที่ดีที่สุดที่ฉันนึกได้สำหรับหลังคือเทคนิค 'การแยกกิ่งไม้สามทาง' ที่ชาญฉลาดที่ใช้ในต้นไม้การตัดสินใจ

ไม่ต้องสงสัยเลยว่าหมวดหมู่เดิมนั้นใหญ่กว่าเดิมมาก เทคนิคที่ฉันรับรู้ทั้งหมดตกอยู่ในกลุ่มใดกลุ่มหนึ่งด้านล่าง

ในขณะที่ฉันกำลังทบทวนบันทึกย่อส่วนบุคคลของฉันเกี่ยวกับ "การจัดการข้อมูลที่หายไป" ฉันสังเกตเห็นว่าฉันมีรายการเทคนิคที่น่าประทับใจ ฉันเก็บบันทึกเหล่านี้ไว้เพื่อความสบายใจทั่วไปและในกรณีที่เพื่อนร่วมงานรุ่นน้องขอให้ฉันจัดการกับข้อมูลที่หายไป ในทางปฏิบัติจริง ๆ ฉันไม่ได้ใช้สิ่งใดเลยยกเว้นครั้งสุดท้าย

  1. Imputation : รูบริกแบบกว้างสำหรับชุดของเทคนิคที่มีตัวหารร่วม (ฉันเชื่อ) คือข้อมูลที่ขาดหายไปจะถูกส่งโดยตรงโดยชุดข้อมูลเดียวกัน - การแทนที่มากกว่าการประมาณ / การทำนาย

  2. การสร้างใหม่ : ประเมินจุดข้อมูลที่ขาดหายไปโดยใช้เครือข่ายเชื่อมโยงอัตโนมัติ (เพียงเครือข่ายประสาทที่ขนาดของชั้นข้อมูลเข้าและส่งออกมีความเท่ากัน - กล่าวอีกนัยหนึ่งเอาท์พุทมีมิติเดียวกับอินพุต) ความคิดที่นี่คือการฝึกอบรมเครือข่ายนี้ในข้อมูลที่สมบูรณ์จากนั้นป้อนรูปแบบที่ไม่สมบูรณ์และอ่านค่าที่หายไปจากโหนดเอาต์พุต

  3. Bootstrapping : (ไม่จำเป็นต้องสรุปฉันไม่ควรคิดเพราะมันใช้ที่อื่นในการวิเคราะห์ทางสถิติ)

  4. ปฏิเสธ : ลบจุดข้อมูลอย่างเงียบ ๆ ด้วยองค์ประกอบที่ขาดหาย / เสียหายจากชุดการฝึกอบรมของคุณและแกล้งทำเป็นไม่เคยมีอยู่


2
นอกจากนี้ยังมีวิธี "แบบจำลองลด" ที่คุณฝึกอบรมตัวจําแนกสำหรับรูปแบบของค่าที่หายไปทุกรูปแบบที่พบในระหว่างการทดสอบ IE เพื่อคาดการณ์สำหรับ x โดยที่แอตทริบิวต์ i'th หายไปให้ลบแอตทริบิวต์ i'th ออกจากอินสแตนซ์ทั้งหมดของข้อมูลการฝึกอบรมและฝึกอบรมในเรื่องนั้น jmlr.csail.mit.edu/papers/v8/saar-tsechansky07a.html
Yaroslav Bulatov

ฉันเชื่อว่าคำจำกัดความการใส่ความของคุณไม่ถูกต้องในบริบทที่ทันสมัย ตอนนี้การใส่ข้อมูลเกี่ยวข้องกับการสร้างแบบจำลองข้อมูลที่หายไปตามตัวแปรอื่น ๆ จากชุดข้อมูล วิธีการใส่ข้อมูลที่ชื่นชอบในปัจจุบันคือการใส่ข้อมูลหลายทางซึ่งสร้างทางเลือกหลายรายการสำหรับแต่ละค่าที่หายไป (ขึ้นอยู่กับตัวแบบ) ประมวลผลชุดข้อมูลที่สมบูรณ์ทางเลือกแต่ละชุดแล้วรวมคำตอบที่สะท้อนความแปรปรวนระหว่างผลลัพธ์ (ใน "วันเก่า" คนไม่ชอบสิ่งที่แทนค่าจากบันทึกที่คล้ายกันหรือค่าเฉลี่ย ฯลฯ แต่ไม่ได้ตอนนี้.)
เวย์น

@ เวย์นคุณจะกรุณาชี้ไปที่กระดาษอธิบายmodernเทคนิคเหล่านี้ได้อย่างไร ขอบคุณ
Enzo

แพคเกจการ R miceมีกระดาษเบื้องต้นที่ดีใน JSS: jstatsoft.org/article/view/v045i03 (คุณควรพบว่าการแนะนำมีประโยชน์แม้ว่าคุณจะไม่ได้ใช้อาร์) และแพ็คเกจ R Ameliaมีบทความสั้น ๆ ที่มาพร้อมกับแพ็คเกจ แพ็กเกจทั้งสองนี้มีรายละเอียดต่างกัน แต่ทั้งคู่ใช้การใส่หลายแบบ
เวน

คำตอบ:


3

ฉันให้คำตอบนี้กับคำถามอื่นแต่มันอาจใช้ที่นี่ด้วย

"มีงานวิจัยใหม่ที่มีเหตุผลพอสมควรที่เรียกว่าMatrix Completionซึ่งอาจเป็นสิ่งที่คุณต้องการการแนะนำที่ดีมากมีให้ในการบรรยายครั้งนี้โดย Emmanuel Candes"

โดยพื้นฐานแล้วถ้าชุดข้อมูลของคุณมีอันดับต่ำ (หรือประมาณระดับต่ำ) นั่นคือคุณมี 100 แถว แต่เมทริกซ์จริงมีระดับเล็กน้อยบางส่วนพูด 10 (หรือเพียง 10 ค่าเอกพจน์ขนาดใหญ่) จากนั้นคุณสามารถใช้ Matrix Completion เพื่อเติมเต็มส่วนที่ขาดหายไป ข้อมูล.


2

ฉันอาจจะแหกคอกเล็กน้อยที่นี่ แต่สิ่งที่ห่า โปรดทราบ:แนวความคิดนี้มาจากปรัชญาการจำแนกของฉันซึ่งฉันใช้เมื่อจุดประสงค์ของฉันคือการทำนายอย่างบริสุทธิ์ - ไม่ใช่คำอธิบายการเชื่อมโยงแนวความคิด ฯลฯ ดังนั้นสิ่งที่ฉันพูดที่นี่ขัดแย้งกับฉันอย่างไร เข้าใกล้การสร้างแบบจำลองการถดถอย

วิธีการจำแนกประเภทแตกต่างกันไปในความสามารถในการจัดการข้อมูลที่หายไปและขึ้นอยู่กับปัจจัยอื่น ๆ ^ ฉันอาจลอง # 5: ใช้ตัวจําแนกที่จะไม่สำลักกับ NAs เหล่านั้น ส่วนหนึ่งของการตัดสินใจที่จะไปยังเส้นทางนั้นอาจรวมถึงการคิดว่าสัดส่วนที่คล้ายกันของ NAs นั้นจะเกิดขึ้นในข้อมูลในอนาคตที่คุณจะนำโมเดลไปใช้อย่างไร ถ้า NAs สำหรับตัวแปรบางตัวจะอยู่ในระดับที่แน่นอนสำหรับหลักสูตรแล้วมันอาจจะสมเหตุสมผลที่จะกลิ้งไปกับพวกเขา (เช่นอย่าสร้างแบบจำลองการทำนายที่ใช้ข้อมูลที่ให้ข้อมูลมากกว่าสิ่งที่คุณมีอยู่จริงหรือ ฉันจะล้อเล่นตัวเองเกี่ยวกับวิธีการทำนายว่าจะเป็นอย่างไร) ในความเป็นจริงถ้าฉันไม่มั่นใจว่า NAs หายไปโดยการสุ่มฉันจะโน้มน้าวให้เปลี่ยนตัวแปรใหม่ (หรือระดับใหม่ถ้ามัน '

หากฉันมีเหตุผลที่ดีที่จะใช้ตัวจําแนกที่ไม่ได้ใช้ข้อมูลที่หายไปอย่างดีแล้ววิธีการของฉันก็คือ # 1 (การใส่หลายครั้ง) เพื่อค้นหารูปแบบการจำแนกประเภทที่มีพฤติกรรมคล้ายกันกับชุดข้อมูลที่ใส่เข้าไป

^ รวมถึง: จำนวนที่ขาดหายไปในการทำนายของคุณไม่ว่าจะมีรูปแบบที่เป็นระบบ (ถ้ามีก็จะคุ้มค่าที่จะดูอย่างใกล้ชิดและความคิดผ่านผลกระทบสำหรับการวิเคราะห์ของคุณ) และจำนวนข้อมูลที่คุณต้องทำงานด้วยโดยรวม .


1

หากคุณมีลางสังหรณ์ที่สมเหตุสมผลเกี่ยวกับกระบวนการสร้างข้อมูลที่รับผิดชอบข้อมูลที่เป็นปัญหาคุณสามารถใช้แนวคิดแบบเบย์เพื่อประเมินข้อมูลที่ขาดหายไป ภายใต้วิธีการแบบเบส์คุณเพียงแค่สมมติว่าข้อมูลที่ขาดหายไปนั้นเป็นตัวแปรสุ่มและสร้างภาพหลังสำหรับข้อมูลที่ขาดหายไปตามเงื่อนไขในข้อมูลที่สังเกตได้ วิธีการหลังจะถูกใช้แทนข้อมูลที่ขาดหายไป

การใช้แบบจำลองแบบเบย์อาจมีคุณสมบัติเป็นการใส่ความภายใต้ความหมายกว้าง ๆ ของคำ แต่ฉันคิดว่าจะพูดถึงมันเนื่องจากมันไม่ปรากฏในรายการของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.