14
เพื่อนบ้านที่ใกล้ที่สุดในข้อมูลมิติสูง?
ฉันได้ถามคำถามสองสามวันย้อนหลังเกี่ยวกับวิธีค้นหาเพื่อนบ้านที่ใกล้ที่สุดสำหรับเวกเตอร์ที่กำหนด เวกเตอร์ของฉันตอนนี้มีขนาด 21 มิติและก่อนที่ฉันจะดำเนินการต่อไปเนื่องจากฉันไม่ได้มาจากโดเมนของการเรียนรู้ของเครื่องจักรและคณิตศาสตร์ฉันเริ่มถามคำถามพื้นฐานบางอย่างกับตัวเอง: ระยะทางแบบยุคลิดเป็นตัวชี้วัดที่ดีสำหรับการค้นหาเพื่อนบ้านที่ใกล้ที่สุดหรือไม่? ถ้าไม่ใช่ตัวเลือกของฉันคืออะไร นอกจากนี้แล้วจะมีวิธีการอย่างไรในการตัดสินใจเลือกขีด จำกัด ที่ถูกต้องในการพิจารณา k-neighbour มีการวิเคราะห์บางอย่างที่สามารถทำได้เพื่อหาค่านี้หรือไม่? ก่อนหน้านี้ฉันได้รับคำแนะนำให้ใช้ kd-Trees แต่หน้าวิกิพีเดียกล่าวอย่างชัดเจนว่าสำหรับมิติสูง kd-Tree นั้นเกือบจะเทียบเท่ากับการค้นหาที่โหดร้าย ในกรณีนั้นวิธีที่ดีที่สุดในการค้นหาเพื่อนบ้านที่ใกล้ที่สุดในชุดข้อมูลจุดล้านอย่างมีประสิทธิภาพคืออะไร? ใครช่วยอธิบายคำถามข้างต้นบางส่วน (หรือทั้งหมด) ได้บ้าง