วิทยาศาสตร์ข้อมูล manifold

คะแนนที่ใกล้เคียงกันจะถือว่าคล้ายกันมากขึ้นในการสร้างภาพข้อมูล T-SNE ได้หรือไม่?

ฉันเข้าใจจากกระดาษของฮินตันว่า T-SNE ทำงานได้ดีในการรักษาความคล้ายคลึงกันในท้องถิ่นและงานที่ดีในการรักษาโครงสร้างของโลก (การจัดกลุ่ม) อย่างไรก็ตามฉันไม่ชัดเจนว่าจุดใดที่ปรากฎอยู่ใกล้ ๆ ในการแสดงภาพ 2D t-sne สามารถสันนิษฐานได้ว่าเป็นจุดข้อมูลที่ "คล้ายกันมากขึ้น" ฉันกำลังใช้ข้อมูลกับคุณสมบัติ 25 อย่าง ตัวอย่างเช่นจากการสังเกตภาพด้านล่างฉันสามารถสมมติว่าดาต้าพอยน์สีน้ำเงินนั้นมีความคล้ายคลึงกับสีเขียวมากกว่าโดยเฉพาะกับกลุ่มจุดสีเขียวที่ใหญ่ที่สุด? หรือการถามที่แตกต่างกันมันถือว่าโอเคไหมที่จุดสีน้ำเงินนั้นคล้ายกับสีเขียวในกระจุกที่อยู่ใกล้ที่สุดมากกว่าสีแดงในกระจุกอีกอัน? (ไม่สนใจจุดสีเขียวในกลุ่มสีแดง - ไอช) เมื่อสังเกตตัวอย่างอื่น ๆ เช่นตัวอย่างที่นำเสนอในชุด Sci-Kit เรียนรู้การเรียนรู้ Manifold ดูเหมือนว่าถูกต้องแล้ว แต่ฉันไม่แน่ใจว่าพูดถูกต้องหรือไม่ แก้ไข ฉันได้คำนวณระยะทางจากชุดข้อมูลดั้งเดิมด้วยตนเอง (ระยะทางแบบยุคลิดแบบคู่เฉลี่ย) และการสร้างภาพข้อมูลจริงแสดงระยะทางเชิงพื้นที่ตามสัดส่วนที่เกี่ยวข้องกับชุดข้อมูล อย่างไรก็ตามฉันอยากจะรู้ว่านี่เป็นสิ่งที่ยอมรับได้พอสมควรหรือไม่จากสูตรทางคณิตศาสตร์ดั้งเดิมของ t-sne และไม่ใช่เรื่องบังเอิญ

14 visualization dimensionality-reduction tsne manifold

คำถามติดแท็ก manifold