ทำไมการเพิ่มจำนวนคุณสมบัติจึงทำให้ประสิทธิภาพลดลง?


12

ฉันพยายามที่จะเพิ่มสัญชาตญาณว่าทำไมการเพิ่มจำนวนคุณสมบัติจึงสามารถลดประสิทธิภาพลงได้ ขณะนี้ฉันใช้ตัวแยกประเภท LDA ซึ่งทำงานได้ดีกว่าในฟีเจอร์บางอย่าง แต่ก็แย่ลงเมื่อดูฟีเจอร์อื่น ๆ ความแม่นยำในการจัดหมวดหมู่ของฉันดำเนินการโดยใช้ช่วงเวลา 10 เท่า x

มีกรณีง่ายๆหรือไม่ที่เมื่อตัวจําแนกจะทำงานได้ดีกว่าแบบไม่มีเงื่อนไขโดยดีกว่าการได้รับ bivaraiately เพื่อให้ได้สัญชาตญาณทางกายภาพหรือเชิงพื้นที่ของสิ่งที่เกิดขึ้นในมิติที่สูงขึ้นเหล่านี้หรือไม่


8
ในฐานะที่เป็นความคิดเห็นอย่างรวดเร็วการเพิ่มตัวคาดคะเนที่ไม่เกี่ยวข้องสามารถทำให้ประสิทธิภาพการทำงานของข้อมูลใหม่แย่ลง - เพิ่มความแปรปรวนของการทำนาย (เพิ่มความเหมาะสม) นี่เป็นเพราะคุณท้ายเหมาะสมกับเสียงรบกวนและเจือจาง "สัญญาณจริง"
B_Miner

คำตอบ:


9

ดู " ปัญหาเกี่ยวกับมิติ: ตัวอย่างง่ายๆ " - บทความสั้น ๆ และเก่ามากโดย GV Trunk เขาพิจารณาปัญหาที่เกิดขึ้นสองระดับด้วยการแจกแจงแบบมีเงื่อนไขแบบเกาส์ซึ่งคุณสมบัตินั้นมีความเกี่ยวข้องทั้งหมดแต่มีความเกี่ยวข้องลดลง เขาแสดงให้เห็นว่าอัตราความผิดพลาดของลักษณนามที่ได้รับการฝึกฝนบนตัวอย่าง จำกัด มาบรรจบกับ 0.5 ในขณะที่ข้อผิดพลาด Bayes เข้าใกล้ 0 เมื่อจำนวนของคุณลักษณะเพิ่มขึ้น


(+1) นั่นเป็นข้อมูลอ้างอิงน้อยน่ารัก
พระคาร์ดินัล

2

ชื่อนี้มีชื่อว่า " Curse Of Dimensionality " ฉันไม่รู้ว่ามีเหตุผลที่เฉพาะเจาะจงสำหรับ LDA แต่โดยทั่วไปมีมิติมากเกี่ยวกับผลลัพธ์เวกเตอร์ของคุณลักษณะที่ต้องการขอบเขตการตัดสินใจที่ซับซ้อนมากขึ้น การมีขอบเขตที่ซับซ้อนยังมาพร้อมกับคำถาม "ในระดับใด" เนื่องจากเรายังคำนึงถึงความเหมาะสมมากเกินไป อีกมิติหนึ่งความซับซ้อนของอัลกอริทึมการเรียนรู้ก็เพิ่มขึ้นเช่นกัน ดังนั้นการทำงานกับอัลกอริทึมการเรียนรู้ที่ค่อนข้างช้าพร้อมด้วยเวคเตอร์ขนาดใหญ่ทำให้งานของคุณแย่ลง นอกจากมิติที่คุณอาจมีความเป็นไปได้ที่เพิ่มขึ้นแล้วยังมีฟีเจอร์ที่สัมพันธ์กันซึ่งไม่ดีสำหรับอัลกอริทึมการเรียนรู้มากมายเช่น Neural Net หรืออื่น ๆ

คุณอาจนับเหตุผลอื่น ๆ ที่อยู่ภายใต้ "Curse Of Dimensionality" แต่ความจริงก็คือมีจำนวนอินสแตนซ์ที่เพียงพอกับเวกเตอร์คุณลักษณะที่รัดกุมซึ่งดำเนินการไปตามขั้นตอนการเลือกคุณลักษณะบางอย่าง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.