การจัดการกับชุดข้อมูลที่มีคุณสมบัติจำนวนตัวแปร


14

มีวิธีการอะไรบ้างในการจำแนกข้อมูลด้วยจำนวนตัวแปรที่มีคุณสมบัติ?

ยกตัวอย่างเช่นพิจารณาปัญหาที่แต่ละจุดข้อมูลเป็นเวกเตอร์ของจุด x และ y และเราไม่มีจุดเท่ากันสำหรับแต่ละอินสแตนซ์ เราสามารถใช้คะแนน x และ y แต่ละคู่เป็นคุณสมบัติได้หรือไม่? หรือเราควรสรุปประเด็นเพื่อให้จุดข้อมูลแต่ละจุดมีคุณสมบัติคงที่?


7
การมีหรือไม่มีจุดที่กำหนดช่วยในการจำแนกข้อมูลหรือไม่?
jonsca

คำตอบ:


5

คุณสามารถรักษาคะแนนเหล่านี้ว่าหายไป --- เช่น สมมุติว่าเวกเตอร์มีคู่มากที่สุด 20 (x, y) และจุดเฉพาะมี 5 (x, y) คู่ในกรณีนี้ถือว่าคู่ที่เหลือหายไปจากนั้นใช้โพรซีเดอร์ standatd สำหรับพารามิเตอร์ที่หายไป:

ขั้นตอนมาตรฐานเหล่านี้อาจเป็น:

  • ใช้โมเดลที่จัดการกับพารามิเตอร์ที่ขาดหายไปอย่างเป็นธรรมชาติตัวอย่างเช่นโมเดลแผนผังการตัดสินใจควรสามารถรับมือกับมันได้
  • แทนที่หายไปด้วยค่าเฉลี่ยสำหรับคอลัมน์ที่เหมาะสม
  • ใช้แบบจำลองง่าย ๆ เพื่อ 'คาดการณ์' ค่าที่หายไป

แต่เป็น @jonsca points --- หากการไม่มีจุดที่กำหนดจะช่วยในการจำแนกข้อมูลที่คุณควรยกตัวอย่างเช่นการสร้างโมเดลสองแบบแต่ละแบบจำลองแต่ละอินสแตนซ์ที่มีจำนวนคะแนนเฉพาะ


10

จากที่ฉันเข้าใจคำถามของคุณคะแนนในข้อมูลนั้นสามารถใช้แทนกันได้และไม่ได้มาพร้อมกับการสั่งซื้อใด ๆ นั่นคือคุณมีชุดคะแนนสำหรับแต่ละตัวอย่าง การตั้งค่านี้แตกต่างจากการตั้งค่า "ค่าที่หายไป" ที่ jb อธิบาย

ฉันรู้เกี่ยวกับวิธีการที่ใช้กันทั่วไปสองวิธีสำหรับปัญหานี้ซึ่งจริง ๆ แล้วขึ้นอยู่กับความคิดของคุณ เส้นฐานที่ดีอาจเป็นเพียงแค่หาค่าเฉลี่ยของคะแนนทั้งหมดในตัวอย่างเดียว แต่โดยทั่วไปจะใช้งานไม่ได้

  • หากต้องการรวมหลาย ๆ จุดเข้ากับคุณลักษณะเดียวการใช้คำแทนถุง (หรือลักษณะเด่น) เป็นคำที่ใช้กันทั่วไปเช่นในคอมพิวเตอร์ที่มีวิสัยทัศน์ แนวคิดคือการจัดกลุ่มคะแนนทั้งหมดในชุดการฝึกอบรมของคุณ (โดยใช้ตัวอย่าง k-mean) จากนั้นอธิบายแต่ละจุดด้วยคลัสเตอร์ สำหรับแต่ละตัวอย่างคุณจะได้ฮิสโตแกรมที่กลุ่มเกิดขึ้นบ่อยแค่ไหน

  • ในการใช้คะแนนทุกคู่คุณสามารถใช้ประโยชน์จากเซตของเมล็ด สิ่งนี้อาจทำงานได้ดีที่สุดเมื่อใช้ SVM แต่อาจจะใช้ได้กับอัลกอริทึมการเรียนรู้ใด ๆ ที่สามารถทำเป็นเคอร์เนลหรือใช้ประโยชน์จากฟังก์ชั่นความเข้ากันได้ระหว่างอินพุต เมล็ดชุดนั้นเป็นวิธีการคำนวณความคล้ายคลึงกันของสองชุดคุณลักษณะเช่นเดียวกับในการตั้งค่าของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.