เหตุใดการเลือกคุณสมบัติจึงสำคัญสำหรับงานจัดประเภท


11

ฉันเรียนรู้เกี่ยวกับการเลือกคุณสมบัติ ฉันเห็นได้ว่าทำไมมันถึงมีความสำคัญและมีประโยชน์สำหรับการสร้างแบบจำลอง แต่เรามาเน้นที่งานการเรียนรู้แบบแบ่งหมวดหมู่ เหตุใดการเลือกคุณสมบัติจึงสำคัญสำหรับงานจัดประเภท

ฉันเห็นวรรณกรรมจำนวนมากที่เขียนเกี่ยวกับการเลือกคุณสมบัติและการใช้เพื่อการเรียนรู้แบบมีผู้ควบคุม แต่สิ่งนี้ทำให้ฉันสับสน การเลือกคุณสมบัติเป็นเรื่องเกี่ยวกับการระบุคุณสมบัติที่จะทิ้ง โดยสังเขปการทิ้งคุณสมบัติบางอย่างดูเหมือนว่าจะเอาชนะตนเองได้: กำลังทิ้งข้อมูล ดูเหมือนว่าการโยนข้อมูลไม่ควรช่วย

และแม้ว่าการลบคุณลักษณะบางอย่างจะช่วยได้ถ้าเราทิ้งคุณสมบัติบางอย่างแล้วป้อนส่วนที่เหลือลงในอัลกอริทึมการเรียนรู้ภายใต้การดูแลทำไมเราต้องทำเช่นนั้นด้วยตัวเองแทนที่จะปล่อยให้อัลกอริทึมการเรียนรู้ภายใต้การดูแลจัดการ หากคุณลักษณะบางอย่างไม่เป็นประโยชน์ควรอัลกอริทึมการเรียนรู้แบบมีผู้สอนที่เหมาะสมไม่ควรค้นพบและเรียนรู้รูปแบบที่ไม่ใช้คุณลักษณะนั้น

ดังนั้นโดยสังเขปฉันคาดหวังว่าการเลือกคุณสมบัติจะเป็นการออกกำลังกายที่ไม่มีจุดหมายที่ไม่เคยช่วยและบางครั้งก็เจ็บปวด แต่ความจริงที่ว่ามันถูกใช้อย่างกว้างขวางและเขียนเกี่ยวกับทำให้ฉันสงสัยว่าสัญชาตญาณของฉันเป็นความผิดพลาด ทุกคนสามารถให้สัญชาตญาณว่าทำไมการเลือกคุณสมบัตินั้นมีประโยชน์และสำคัญเมื่อทำการเรียนรู้แบบมีผู้สอน ทำไมมันถึงปรับปรุงประสิทธิภาพของการเรียนรู้ของเครื่อง? มันขึ้นอยู่กับลักษณนามที่ฉันใช้หรือไม่?

คำตอบ:


10

สัญชาตญาณของคุณค่อนข้างถูกต้อง ในสถานการณ์ส่วนใหญ่การเลือกคุณสมบัติแสดงถึงความต้องการคำอธิบายอย่างง่าย ๆ ซึ่งเป็นผลมาจากความเข้าใจผิดที่สาม:

  1. นักวิเคราะห์ไม่ทราบว่าชุดของคุณสมบัติ "ที่เลือก" นั้นค่อนข้างไม่เสถียรนั่นคือไม่มีประสิทธิภาพและกระบวนการของการเลือกเมื่อทำกับชุดข้อมูลอื่นจะส่งผลให้ชุดคุณลักษณะแตกต่างกันมาก ข้อมูลมักไม่มีเนื้อหาข้อมูลที่จำเป็นในการเลือกคุณสมบัติ "ถูกต้อง" ปัญหานี้จะแย่ลงถ้ามีเส้นตรงร่วมอยู่ด้วย
  2. กลไกและกระบวนการมีความซับซ้อนในการทดลองที่ไม่สามารถควบคุมได้ พฤติกรรมมนุษย์และธรรมชาติมีความซับซ้อนและไม่ parsimoneous
  3. ความแม่นยำในการทำนายนั้นได้รับอันตรายจากการขอข้อมูลเพื่อบอกคุณว่าอะไรคือคุณสมบัติที่สำคัญและความสัมพันธ์กับสำหรับสิ่งที่ "สำคัญ" เป็นการดีกว่าที่จะ "ใช้เพียงเล็กน้อยของตัวแปรแต่ละตัว" แทนที่จะใช้ตัวแปรบางตัวทั้งหมดและไม่มีเลยสำหรับตัวแปรอื่น (กล่าวคือใช้การหดตัว / ลงโทษ)Y

วิธีการศึกษานี้:

  1. ทำการเปรียบเทียบความแม่นยำในการทำนายได้มากขึ้นระหว่างเชือก , ตาข่ายยางยืดและการลงโทษกำลังสองมาตรฐาน (การถดถอยสัน)
  2. Bootstrap วัดความสำคัญของตัวแปรจากฟอเรสต์แบบสุ่มและตรวจสอบความเสถียร
  3. คำนวณช่วงความเชื่อมั่น bootstrap ในการจัดอันดับคุณลักษณะที่มีศักยภาพเช่นในการทดสอบความสัมพันธ์บางส่วน(หรือสิ่งต่าง ๆ เช่น Univariate Spearmanหรือซอมเมอร์ ' ) และดูว่าช่วงความมั่นใจเหล่านี้กว้างมาก โดยตรงแจ้งให้คุณทราบถึงความยากลำบากของงาน บันทึกหลักสูตรของฉันเชื่อมโยงจากhttp://biostat.mc.vanderbilt.edu/rmsมีตัวอย่างของ bootstrapping ลำดับของการพยากรณ์โดยใช้ OLSχ2ρDxy

ทั้งหมดนี้นำไปใช้กับทั้งการจำแนกประเภทและแนวคิดทั่วไปที่มีประโยชน์และมีประโยชน์ในการทำนาย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.