วิธีการที่ไม่ใช้พารามิเตอร์เช่น K- เพื่อนบ้านที่ใกล้ที่สุดในพื้นที่คุณลักษณะมิติสูง


11

แนวคิดหลักของk- ใกล้เคียงที่สุด - เพื่อนบ้านจะคำนึงถึงคะแนนใกล้ที่สุดและตัดสินการจำแนกข้อมูลโดยการโหวตเสียงข้างมาก ถ้าเป็นเช่นนั้นไม่ควรมีปัญหาในข้อมูลมิติที่สูงขึ้นเนื่องจากวิธีการเช่นการแฮชที่มีความละเอียดอ่อนในพื้นที่สามารถค้นหาเพื่อนบ้านที่ใกล้ที่สุดได้อย่างมีประสิทธิภาพk

นอกจากนี้การเลือกคุณสมบัติด้วยเครือข่ายแบบเบย์สามารถลดขนาดของข้อมูลและทำให้การเรียนรู้ง่ายขึ้น

อย่างไรก็ตามการทบทวนรายงานนี้โดย John Lafferty ในการเรียนรู้ทางสถิติชี้ให้เห็นว่าการเรียนรู้ที่ไม่ใช่พารามิเตอร์ในพื้นที่คุณลักษณะมิติสูงยังคงเป็นความท้าทายและยังไม่แก้

เกิดอะไรขึ้น?


1
โปรดให้ข้อมูลอ้างอิงเต็มรูปแบบสำหรับกระดาษ ผู้เขียนดูเหมือนจะไม่ปรากฏ (เด่นชัด) ในนั้น
ราฟาเอล

คำตอบ:


5

ปัญหานี้เป็นที่รู้จักกันเป็นคำสาปแช่งของมิติ โดยทั่วไปเมื่อคุณเพิ่มจำนวนมิติจุดในอวกาศโดยทั่วไปมักจะห่างไกลจากจุดอื่น ๆ สิ่งนี้ทำให้การแบ่งพื้นที่ (เช่นจำเป็นสำหรับการจำแนกหรือการจัดกลุ่ม) ยากมากd

คุณสามารถเห็นสิ่งนี้ได้ด้วยตัวคุณเองอย่างง่ายดาย ฉันสร้างสุ่มdจุดมิติในหน่วย hypercube ที่ 20 ค่าที่เลือกอย่างเท่าเทียมกันของdจาก1..1000 สำหรับแต่ละค่าของdฉันคำนวณระยะทางจากจุดแรกไปยังส่วนอื่น ๆ ทั้งหมดและหาค่าเฉลี่ยของระยะทางเหล่านี้ พล็อตเรื่องนี้เราจะเห็นว่าระยะทางเฉลี่ยนั้นเพิ่มขึ้นตามขนาดมิติแม้ว่าพื้นที่ที่เราสร้างจุดในแต่ละมิติยังคงเท่าเดิม50dd1..1000d

ระยะทางเฉลี่ยเทียบกับมิติข้อมูล


แน่นอน. คุณเพิ่มจำนวนจุดใน hypersphere รัศมีคงที่ชี้แจงใน dimensionalty ดังนั้นถ้าคุณเลือกที่ 50 จุดที่เหมือนกันที่สุ่มนี้มีที่จะเกิดขึ้น ดังนั้นหากการใช้เหตุผลของคุณถูกต้องการแบ่งควรง่ายถ้าฉันมีตัวอย่างมากมาย เป็นอย่างนั้นเหรอ?
ราฟาเอล

ฉันเชื่อว่าคุณมีมันตรงกันข้าม โดยการเพิ่มมิติข้อมูลฉันลดจำนวนคะแนนภายในไฮเปอร์สเปร์ การแบ่งพาร์ติชันกลายเป็นเรื่องยากมากขึ้นเนื่องจากการวัดระยะทางสูญเสียความหมาย (เช่นทุกอย่างอยู่ไกล)
นิค

ฉันหมายถึง: จำนวนคะแนนทั้งหมดใน hypersphere ของรัศมีในการพูดN n , เช่น| N nS n ( k ) | เพิ่มขึ้นกับn kNn|NnSn(k)|n
ราฟาเอล

นอกจากนี้ทราบว่าสิ่งที่คนหมายถึงเมื่อพวกเขาอ้างถึงพื้นที่คุณลักษณะสูงมิติคือจำนวนของกลุ่มตัวอย่างที่จะมากน้อยกว่ามิติของแต่ละจุดd ( n < < d ) ดังนั้นในปัญหาเหล่านี้คุณคิดว่าคุณไม่มี 'ตัวอย่างมากมาย' ndn<<d
Nick

ฉันไม่เห็นว่าสิ่งนี้ถือโดยนิยาม; มันดูเหมือนว่าจะเป็นการประชุมตามประสบการณ์
กราฟิลส์

3

ไม่ใช่คำตอบที่สมบูรณ์ แต่หน้าวิกิพีเดียที่คุณอ้างถึง:

ความแม่นยำของอัลกอริธึม k-NN สามารถลดลงอย่างรุนแรงจากการมีอยู่ของคุณสมบัติที่มีเสียงดังหรือไม่เกี่ยวข้องหรือหากสเกลคุณลักษณะไม่สอดคล้องกับความสำคัญ

โอกาสที่จะเกิดเหตุการณ์นี้เพิ่มขึ้นเมื่อมีพื้นที่คุณลักษณะมิติสูง


แต่ฉันคิดว่าด้วย PCA (การวิเคราะห์องค์ประกอบหลัก) หรือวิธีการอื่นเพื่อลดขนาดและลบข้อมูลที่ไม่เกี่ยวข้องออก k-NN ยังคงทำงานได้ และสิ่งที่หน้าวิกิพีเดียหมายถึงไร้เดียงสา k-NN จะล้มเหลว ดังนั้นนี่ไม่ได้อธิบายบทความตรวจสอบ
Strin

PCA สามารถทำงานได้อย่างแน่นอน แต่ไม่ได้ในทุกสถานการณ์
Dave Clarke
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.