ฉันเข้าใจว่า "การสาปแช่งของมิติ" คืออะไรและฉันได้ทำปัญหาการหาค่าเหมาะที่สุดในระดับสูงแล้วและรู้ถึงความท้าทายของความเป็นไปได้แบบเอ็กซ์โปเนนเชียล
อย่างไรก็ตามฉันสงสัยว่า "คำสาปของมิติ" มีอยู่ในข้อมูลโลกแห่งความเป็นจริงมากที่สุด ( ถ้างั้นลองวางรูปภาพหรือวิดีโอไว้ครู่หนึ่งฉันกำลังคิดถึงข้อมูลเช่นข้อมูลประชากรศาสตร์ของลูกค้าและข้อมูลพฤติกรรมการซื้อ)
เราสามารถรวบรวมข้อมูลด้วยฟีเจอร์มากมาย แต่ก็มีความเป็นไปได้น้อยกว่าที่ฟีเจอร์นั้นจะสามารถขยายพื้นที่ได้อย่างเต็มที่ด้วยมิติข้อมูลนับพัน นี่คือเหตุผลว่าทำไมเทคนิคการลดขนาดจึงเป็นที่นิยม
กล่าวอีกอย่างหนึ่งก็คือมีแนวโน้มว่าข้อมูลจะไม่มีข้อมูลระดับเอ็กซ์โปเนนเชียลเช่นคุณสมบัติหลายอย่างมีความสัมพันธ์สูงและคุณสมบัติหลายอย่างเป็นไปตามกฎ 80-20 (หลายกรณีมีค่าเท่ากัน)
ในกรณีเช่นนี้ฉันคิดว่าวิธีการเช่น KNN จะยังคงทำงานได้ดีพอสมควร (ในหนังสือส่วนใหญ่ "คำสาปของมิติ" บอกว่ามิติ> 10 อาจเป็นปัญหาได้ในการสาธิตพวกเขาใช้การกระจายแบบสม่ำเสมอในทุกมิติที่เอนโทรปีสูงจริง ๆ ฉันสงสัยในโลกแห่งความจริงนี้จะเกิดขึ้น)
ประสบการณ์ส่วนตัวของฉันกับข้อมูลจริงคือ "การสาปแช่งของมิติ" ไม่ได้ส่งผลกระทบต่อวิธีการเทมเพลต (เช่น KNN) มากเกินไปและในกรณีส่วนใหญ่ขนาด ~ 100 จะยังคงใช้งานได้
สิ่งนี้เป็นจริงสำหรับคนอื่นหรือไม่? (ฉันทำงานกับข้อมูลจริงในอุตสาหกรรมต่าง ๆ เป็นเวลา 5 ปีไม่เคยสังเกตว่า "คู่ระยะทางทั้งหมดมีค่าใกล้เคียงกัน" ตามที่อธิบายไว้ในหนังสือเล่มนี้)