ตกลงดังนั้นเรามาวิเคราะห์ตัวอย่างของการจัดกลุ่มของเล่นเด็ก
ลองนึกภาพเด็กมีของเล่น 3 ชิ้นเท่านั้น:
- ลูกฟุตบอลสีน้ำเงิน
- freesbe สีน้ำเงิน
- ก้อนสีเขียว (ตกลงอาจไม่ใช่ของเล่นที่สนุกที่สุดที่คุณจินตนาการได้)
ลองทำสมมุติฐานเบื้องต้นต่อไปนี้เกี่ยวกับวิธีการทำของเล่น:
- สีที่เป็นไปได้คือ: แดง, เขียว, น้ำเงิน
- รูปร่างที่เป็นไปได้คือ: วงกลม, สี่เหลี่ยม, สามเหลี่ยม
ตอนนี้เราสามารถมี (num_colors * num_shapes) = 3 * 3 = 9 กลุ่มที่เป็นไปได้
เด็กผู้ชายจะจัดกลุ่มของเล่นดังนี้:
- กลุ่ม A) บรรจุลูกบอลสีฟ้าและสีน้ำเงินฟรีสเพราะพวกมันมีสีและรูปร่างเหมือนกัน
- CLUSTER B) บรรจุลูกบาศก์สีเขียวที่สนุกสุดขีด
ใช้เพียง 2 มิติ (สีรูปร่าง) เรามี 2 กลุ่มที่ไม่ว่างเปล่า: ในกรณีแรกนี้ 7/9 ~ 77% ของพื้นที่ของเราว่างเปล่า
ทีนี้มาเพิ่มขนาดมิติที่เด็กต้องพิจารณา เราทำสมมติฐานต่อไปนี้เกี่ยวกับวิธีการทำของเล่น:
- ขนาดของของเล่นสามารถแตกต่างกันระหว่างไม่กี่เซนติเมตรถึง 1 เมตรในขั้นตอนของสิบเซนติเมตร: 0-10cm, 11-20cm, ... , 91cm-1m
- น้ำหนักของของเล่นอาจแตกต่างกันไปในลักษณะที่คล้ายกันมากถึง 1 กิโลกรัมด้วยขั้นตอน 100 กรัม: 0-100g, 101-200g, ... , 901g-1kg
หากเราต้องการจัดกลุ่มของเล่นของเราตอนนี้เรามี (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 กลุ่มที่เป็นไปได้
เด็กผู้ชายจะจัดกลุ่มของเล่นดังนี้:
- กลุ่ม A) บรรจุลูกบอลฟุตบอลสีน้ำเงินเนื่องจากสีน้ำเงินและหนัก
- CLUSTER B) มี freesbe สีน้ำเงินเนื่องจากเป็นสีน้ำเงินและสว่าง
- CLUSTER C) บรรจุ cube สีเขียวที่สนุกสุดขีด
การใช้ 4 มิติปัจจุบัน (รูปร่างสีขนาด weigth) มีเพียง 3 คลัสเตอร์เท่านั้นที่ไม่ว่างเปล่าดังนั้นในกรณีนี้ 897/900 ~ 99.7% ของพื้นที่ว่างเปล่า
นี่คือตัวอย่างของสิ่งที่คุณพบใน Wikipedia ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... เมื่อมิติข้อมูลเพิ่มขึ้นปริมาณของพื้นที่จะเพิ่มขึ้นอย่างรวดเร็วจนข้อมูลที่มีอยู่กระจัดกระจาย
แก้ไข: ฉันไม่แน่ใจว่าฉันสามารถอธิบายให้เด็กฟังได้จริง ๆ ทำไมบางครั้งระยะทางผิดพลาดในช่องว่างมิติสูง แต่ลองทำตัวอย่างของเด็กและของเล่นของเขา
พิจารณาเฉพาะ 2 คุณสมบัติแรกเท่านั้น {color, shape} ทุกคนยอมรับว่าลูกบอลสีฟ้าคล้ายกับสีฟ้า freesbe มากกว่าลูกบาศก์สีเขียว
ทีนี้มาเพิ่มคุณสมบัติอื่น ๆ อีก 98 อย่าง {พูด: ขนาด, น้ำหนัก, day_of_production_of_the_toy, วัสดุ, ความนุ่มนวล, day_in_which_the_toy_was_bought_by_daddy, ราคาฯลฯ }: สำหรับฉันแล้วฉันจะตัดสินได้ยากขึ้น
ดังนั้น:
- คุณลักษณะจำนวนมากอาจไม่เกี่ยวข้องในการเปรียบเทียบความคล้ายคลึงกันซึ่งนำไปสู่ความเสียหายของอัตราส่วนสัญญาณต่อสัญญาณรบกวน
- ในมิติที่สูงตัวอย่างทั้งหมด "ดูคล้าย"
หากคุณฟังฉันการบรรยายที่ดีคือ "สิ่งที่มีประโยชน์น้อยที่ควรรู้เกี่ยวกับการเรียนรู้ของเครื่อง" ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ) วรรค 6 โดยเฉพาะอย่างยิ่งนำเสนอสิ่งนี้ ชนิดของการให้เหตุผล
หวังว่านี่จะช่วยได้!