อัลกอริทึมการเรียนรู้ของเครื่องเพื่อจัดการข้อมูลที่หายไป


25

ฉันพยายามที่จะพัฒนารูปแบบการทำนายโดยใช้ข้อมูลทางคลินิกมิติสูงรวมถึงค่าห้องปฏิบัติการ พื้นที่ข้อมูลเบาบางด้วยตัวอย่าง 5k และตัวแปร 200 ตัว แนวคิดคือการจัดอันดับตัวแปรโดยใช้วิธีการเลือกคุณสมบัติ (IG, RF ฯลฯ ) และใช้คุณสมบัติการจัดอันดับสูงสุดสำหรับการพัฒนาแบบจำลองการทำนาย

ในขณะที่การเลือกคุณสมบัติเป็นไปได้ดีกับแนวทางของNaïve Bayes ตอนนี้ฉันกำลังตีปัญหาในการใช้แบบจำลองการทำนายเนื่องจากข้อมูลที่หายไป (NA) ในพื้นที่ตัวแปรของฉัน มีอัลกอริทึมการเรียนรู้ของเครื่องที่สามารถจัดการกับตัวอย่างที่มีข้อมูลที่ขาดหายไปอย่างระมัดระวังหรือไม่?


1
การมีอยู่ของคำตอบที่มีการลงคะแนนบ่งบอกว่าคำถามนี้ไม่กว้างเกินกว่าจะตอบได้ ฉันลงคะแนนให้เปิดทิ้งไว้
gung - Reinstate Monica

คำตอบ:


15

ขึ้นอยู่กับรุ่นที่คุณใช้ หากคุณกำลังใช้รูปแบบการกำเนิดบางอย่างแล้วมีวิธีการจัดการกับค่าที่ขาดหายไป () ตัวอย่างเช่นในโมเดลเช่น Naive Bayes หรือกระบวนการ Gaussian คุณจะรวมตัวแปรที่ขาดหายไปและเลือกตัวเลือกที่ดีที่สุดกับตัวแปรที่เหลือ

สำหรับรุ่นพินิจพิเคราะห์มันซับซ้อนมากขึ้นเนื่องจากเป็นไปไม่ได้ มีหลายวิธี Gharamani และ Jordanอธิบายวิธีการแบบเฉพาะเจาะจงซึ่งค่าที่หายไปจะได้รับการปฏิบัติเหมือนตัวแปรที่ซ่อนอยู่และตัวแปรของอัลกอริทึม EM ใช้สำหรับประเมินค่าเหล่านั้น ในทำนองเดียวกันSmola และคณะ อธิบายความแตกต่างของอัลกอริธึม SVM ซึ่งจัดการกับปัญหาอย่างชัดเจน

โปรดทราบว่ามันมักจะแนะนำให้แทนที่ค่าที่หายไปโดยค่าเฉลี่ยของตัวแปร นี่เป็นปัญหาตามที่อธิบายไว้ในบทความแรก บางครั้งฉันเจอเอกสารที่ถดถอยเกี่ยวกับตัวแปรเพื่อประเมินค่าที่ขาดหายไป แต่ฉันไม่สามารถพูดได้ว่ามันใช้กับกรณีของคุณหรือไม่


2
มันก็มักจะแนะนำให้ใช้แทนค่าที่ขาดหายไปจากค่าเฉลี่ยของตัวแปร คุณช่วยชี้แหล่งที่มาได้ไหม
Sergey Bushmanov

1
@juampa ทำไมคุณถึงอ้างว่ามันเป็นไปไม่ได้ที่จะรวมตัวแปรที่ขาดหายไปในแบบจำลองที่เลือกปฏิบัติ? เราทำเช่นนี้เพื่อการถดถอยโลจิสติกตลอดเวลา ในความเป็นจริงมันสามารถแสดงให้เห็นว่าเท่ากับการใส่ร้ายหลาย
AdamO

1
@SergeyBushmanov ฉันอยู่กับคุณในความสับสนของคุณที่นี่ มันเป็นเรื่องที่ไม่ได้มักจะแนะนำให้ใช้ (เดี่ยว) ใส่ร้ายเฉลี่ยเพราะมันจะนำไปสู่การมีอคติในบางกรณีและตัวชี้วัดการตรวจสอบ anticonservative ในกรณีอื่น ๆ
AdamO

7

R-package randomForestSRC ซึ่งใช้ป่าสุ่มของ Breiman จัดการข้อมูลที่ขาดหายไปสำหรับการวิเคราะห์ในระดับกว้าง (การถดถอยการจัดประเภทการอยู่รอดความเสี่ยงในการแข่งขัน

ดูโพสต์ต่อไปนี้:

เหตุใด Random Forest จึงไม่จัดการกับค่าที่ขาดหายไปในเครื่องมือทำนาย


2

ลองใส่ร้ายโดยใช้เพื่อนบ้านที่ใกล้ที่สุดเพื่อกำจัดข้อมูลที่หายไป

นอกจากนี้แพ็คเกจ Caret ยังมีส่วนต่อประสานกับอัลกอริทึมที่หลากหลายและทั้งหมดนั้นมาพร้อมกับวิธีการทำนายใน R ที่สามารถใช้ในการทำนายข้อมูลใหม่ได้ ตัวชี้วัดประสิทธิภาพยังสามารถประเมินได้โดยใช้การตรวจสอบความถูกต้องแบบข้ามของ k-fold โดยใช้แพ็คเกจเดียวกัน


2

นอกจากนี้ยังมีอัลกอริทึมที่สามารถใช้ค่าที่หายไปเป็นค่าที่ไม่เหมือนใครและแตกต่างกันเมื่อสร้างแบบจำลองการทำนายเช่นการจำแนกและต้นไม้การถดถอย เช่น xgboost


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.