ฉันพยายามหาเหตุผลที่ดีว่าทำไมคนเราถึงใช้ระยะทางแมนฮัตตันเหนือระยะทางแบบยุคลิดในการเรียนรู้ของเครื่องจักร
สิ่งที่ใกล้เคียงผมพบว่าการโต้แย้งที่ดีเพื่อให้ห่างไกลในการบรรยายนี้เอ็มไอที
ที่ 36:15 คุณสามารถดูคำสั่งต่อไปนี้บนสไลด์:
"โดยทั่วไปใช้ตัวชี้วัดแบบยุคลิดแมนฮัตตันอาจเหมาะสมถ้าขนาดที่แตกต่างกันไม่สามารถเทียบเคียงได้ "
ไม่นานหลังจากอาจารย์บอกว่าเนื่องจากจำนวนขาของสัตว์เลื้อยคลานแตกต่างกันไปตั้งแต่ 0 ถึง 4 (ในขณะที่คุณสมบัติอื่น ๆ เป็นแบบไบนารี่แตกต่างกันเพียงตั้งแต่ 0 ถึง 1) คุณลักษณะ "จำนวนขา" จะจบลงด้วยความสูงกว่ามาก น้ำหนักถ้าใช้ระยะทางแบบยุคลิด แน่นอนว่าถูกต้องแน่นอน แต่สิ่งหนึ่งก็จะมีปัญหานั้นเช่นกันหากใช้ระยะทางแมนฮัตตัน (เฉพาะที่ปัญหาจะลดลงเล็กน้อยเพราะเราไม่ได้ยกกำลังสองความแตกต่างเหมือนที่เราทำกับระยะทางแบบยุคลิดแทน)
วิธีที่ดีกว่าในการแก้ปัญหาข้างต้นคือการทำให้ปกติคุณสมบัติ "จำนวนขา" ดังนั้นค่าของมันจะอยู่ระหว่าง 0 ถึง 1
ดังนั้นเนื่องจากมีวิธีที่ดีกว่าในการแก้ปัญหามันรู้สึกเหมือนข้อโต้แย้งของการใช้ระยะทางแมนฮัตตันในกรณีนี้ไม่มีจุดแข็งกว่าอย่างน้อยในความคิดของฉัน
ไม่มีใครรู้ว่าทำไมและเมื่อไหร่ที่ใครบางคนจะใช้ระยะทางแมนฮัตตันเหนือยุคลิด ทุกคนสามารถให้ตัวอย่างฉันซึ่งใช้ระยะทางแมนฮัตตันจะให้ผลลัพธ์ที่ดีกว่า?