การจำแนกประเภทที่มีข้อมูล“ ไม่ทราบ” บางส่วน


11

สมมติว่าฉันต้องการเรียนรู้ลักษณนามที่ใช้เวกเตอร์ของตัวเลขเป็นอินพุตและให้เลเบลของคลาสเป็นเอาต์พุต ข้อมูลการฝึกอบรมของฉันประกอบด้วยคู่ของอินพุตและเอาท์พุตจำนวนมาก

อย่างไรก็ตามเมื่อฉันมาทดสอบข้อมูลใหม่บางอย่างข้อมูลนี้จะสมบูรณ์เพียงบางส่วนเท่านั้น ตัวอย่างเช่นถ้าเวกเตอร์การป้อนข้อมูลมีความยาว 100 อาจมีเพียง 30 องค์ประกอบเท่านั้นที่จะได้รับค่า

เป็นตัวอย่างของสิ่งนี้พิจารณาการรู้จำภาพเมื่อเป็นที่ทราบกันว่าส่วนหนึ่งของภาพนั้นถูกบดบัง หรือพิจารณาการจัดประเภทในแง่ทั่วไปที่ทราบว่าส่วนหนึ่งของข้อมูลเสียหาย ในทุกกรณีฉันรู้ว่าองค์ประกอบใดในเวกเตอร์ข้อมูลคือส่วนที่ไม่รู้จัก

ฉันสงสัยว่าฉันจะเรียนรู้ลักษณนามที่จะทำงานกับข้อมูลประเภทนี้ได้อย่างไร ฉันสามารถตั้งค่าองค์ประกอบที่ "ไม่รู้จัก" เป็นตัวเลขสุ่ม แต่เนื่องจากมีองค์ประกอบที่ไม่รู้จักมากกว่าที่รู้จักบ่อยครั้งสิ่งนี้ไม่ได้ดูเหมือนโซลูชันที่ดี หรือฉันสามารถเปลี่ยนองค์ประกอบในข้อมูลการฝึกอบรมเป็น "ไม่ทราบ" และฝึกอบรมกับสิ่งเหล่านี้แทนที่จะเป็นข้อมูลที่สมบูรณ์ แต่อาจต้องมีการสุ่มตัวอย่างแบบละเอียดขององค์ประกอบที่รู้จักและไม่รู้จักทั้งหมด

โดยเฉพาะอย่างยิ่งฉันกำลังคิดเกี่ยวกับโครงข่ายประสาท

ความคิดใด ๆ ขอบคุณ!


en.m.wikipedia.org/wiki/Missing_dataอาจเป็นจุดเริ่มต้น
Hatshepsut

ฉันคิดว่าการเรียนรู้แบบกึ่งกำกับดูแลเป็นกรณีที่ข้อมูลการฝึกอบรมไม่ได้ระบุว่าครบถ้วน ในกรณีของฉันข้อมูลการฝึกอบรมทั้งหมดของฉันจะมีป้ายกำกับ แต่ส่วนของข้อมูลการทดสอบแต่ละรายการจะ "ไม่ทราบ"
Karnivaurus

การเรียนรู้แบบกึ่งภายใต้การดูแลกับเครือข่ายบันได: github.com/CuriousAI/ladder
itdxer

คำตอบ:


2

ฉันคิดว่ามันมีวิธีที่สมเหตุสมผลในการทำให้มันทำงานกับ Neural Networks

พี

ฉันไม่เคยเห็นมันทำมาก่อน แต่จะคล้ายกับการทำDropout (วิธีการทำให้เป็นมาตรฐานที่รู้จักกันดีในเครือข่ายประสาทเทียม) ในเซลล์ประสาทอินพุตของคุณแทนที่จะเป็นเซลล์ประสาทที่ซ่อนอยู่ ฉันไม่คิดว่ามันเป็นความคิดที่ดีที่จะทำโดยทั่วไป แต่ถ้าคุณถูกบังคับ (อย่างเช่นกรณีของคุณ) อย่างน้อยก็ใกล้เคียงกับเหตุผลทางทฤษฎีกับบางสิ่งที่เคยทำงาน


1

ฉันคิดว่ามีตัวเลือกบางอย่างที่ทำงานร่วมกับตัวจําแนกใด ๆ :

  • กำหนดค่าที่หายไปด้วยค่าเดียวเช่นค่าเฉลี่ยหรือค่ามัธยฐานจากชุดฝึกอบรมหรือค่าบางค่าที่คาดการณ์จากส่วนที่สังเกตของอินพุตหรือเพียงแค่ใช้ตัวเลขสุ่มหรือค่าคงที่
  • ใช้ค่าที่แตกต่างกันหลายค่าสำหรับค่าที่ไม่รู้จักและรวมผลลัพธ์เช่นหาค่าเฉลี่ย

นอกเหนือจากนั้นคุณสามารถใช้ตัวแยกประเภทแบบอิงทรี (เช่นฟอเรสต์แบบสุ่ม) และถ้าต้นไม้ต้องการประเมินการแยกคุณลักษณะที่ขาดหายไปเพียงแค่ส่งข้อมูลลงไปยังโหนดลูกทั้งสอง

พี(x,Y)xYxxและค่าเฉลี่ยผลลัพธ์ที่ถ่วงน้ำหนักโดยความน่าจะเป็นของการใส่ความ สิ่งนี้สามารถทำได้ทั้งในเชิงวิเคราะห์ในรูปแบบปิดสำหรับตัวจําแนกบางตัวเช่นโมเดลการวิเคราะห์เชิงเส้นเชิงเส้นหรือประมาณโดยการสุ่มตัวอย่างนิรนามเช่นสําหรับเครื่อง Boltzmann ที่ถูกจํากัดหรือตัวแปรที่ลึกของมัน


ฉันไม่คิดว่ามันจะได้ผล ใช้ตัวอย่างทั่วไปจากการมองเห็นของคอมพิวเตอร์แต่ละพิกเซลของรูปภาพอาจเกี่ยวข้องกับส่วนต่าง ๆ ของวัตถุ ตัวอย่างพิกเซล (50,50) ของภาพที่ 1 คือดวงตาของแมว แต่แมวถูกขยับเล็กน้อยในภาพที่ 2 ดังนั้น (50, 50) จึงเป็นเพียงพิกเซลของพื้นหลัง หากสถานที่ตั้งของ NAs เช่น การบดเคี้ยวแบบสุ่มแตกต่างกันไปตามการสังเกตการใส่ความคิดของคุณจะไม่ทำงาน
horaceT
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.