คะแนนที่ใกล้เคียงกันจะถือว่าคล้ายกันมากขึ้นในการสร้างภาพข้อมูล T-SNE ได้หรือไม่?


14

ฉันเข้าใจจากกระดาษของฮินตันว่า T-SNE ทำงานได้ดีในการรักษาความคล้ายคลึงกันในท้องถิ่นและงานที่ดีในการรักษาโครงสร้างของโลก (การจัดกลุ่ม)

อย่างไรก็ตามฉันไม่ชัดเจนว่าจุดใดที่ปรากฎอยู่ใกล้ ๆ ในการแสดงภาพ 2D t-sne สามารถสันนิษฐานได้ว่าเป็นจุดข้อมูลที่ "คล้ายกันมากขึ้น" ฉันกำลังใช้ข้อมูลกับคุณสมบัติ 25 อย่าง

ตัวอย่างเช่นจากการสังเกตภาพด้านล่างฉันสามารถสมมติว่าดาต้าพอยน์สีน้ำเงินนั้นมีความคล้ายคลึงกับสีเขียวมากกว่าโดยเฉพาะกับกลุ่มจุดสีเขียวที่ใหญ่ที่สุด? หรือการถามที่แตกต่างกันมันถือว่าโอเคไหมที่จุดสีน้ำเงินนั้นคล้ายกับสีเขียวในกระจุกที่อยู่ใกล้ที่สุดมากกว่าสีแดงในกระจุกอีกอัน? (ไม่สนใจจุดสีเขียวในกลุ่มสีแดง - ไอช)

ป้อนคำอธิบายรูปภาพที่นี่

เมื่อสังเกตตัวอย่างอื่น ๆ เช่นตัวอย่างที่นำเสนอในชุด Sci-Kit เรียนรู้การเรียนรู้ Manifold ดูเหมือนว่าถูกต้องแล้ว แต่ฉันไม่แน่ใจว่าพูดถูกต้องหรือไม่

ป้อนคำอธิบายรูปภาพที่นี่

แก้ไข

ฉันได้คำนวณระยะทางจากชุดข้อมูลดั้งเดิมด้วยตนเอง (ระยะทางแบบยุคลิดแบบคู่เฉลี่ย) และการสร้างภาพข้อมูลจริงแสดงระยะทางเชิงพื้นที่ตามสัดส่วนที่เกี่ยวข้องกับชุดข้อมูล อย่างไรก็ตามฉันอยากจะรู้ว่านี่เป็นสิ่งที่ยอมรับได้พอสมควรหรือไม่จากสูตรทางคณิตศาสตร์ดั้งเดิมของ t-sne และไม่ใช่เรื่องบังเอิญ


1
จุดสีน้ำเงินนั้นใกล้เคียงกับจุดสีเขียวของเพื่อนบ้านซึ่งเป็นวิธีการฝัง ควรพูดอย่างคล้ายคลึงกันอย่างหลวม ๆ (หรือระยะทาง) การเปลี่ยนจาก 25 มิติเป็น 2 เท่าอาจส่งผลให้สูญเสียข้อมูล แต่การแสดงแบบ 2D นั้นใกล้เคียงที่สุดที่สามารถแสดงบนหน้าจอได้
Vladislavs Dovgalecs

คำตอบ:


5

ฉันจะนำเสนอ t-SNE เป็นการปรับความน่าจะเป็นที่ชาญฉลาดของการฝังแบบฝังตัวเชิงเส้น ในทั้งสองกรณีเราพยายามที่จะฉายจุดจากพื้นที่มิติสูงไปสู่พื้นที่ขนาดเล็ก การฉายภาพนี้ทำโดยปรับการอนุรักษ์ระยะทางในท้องถิ่นให้เหมาะสม (โดยตรงกับ LLE, สร้างการกระจายความน่าจะเป็นล่วงหน้าและปรับการเบี่ยงเบนของ KL ด้วย t-SNE) ถ้าหากคำถามของคุณคือมันทำให้ระยะทางทั่วโลกคำตอบคือไม่ มันจะขึ้นอยู่กับ "รูปร่าง" ของข้อมูลของคุณ (หากการแจกแจงเป็นไปอย่างราบรื่นระยะทางก็ควรอนุรักษ์ไว้อย่างใด)

t-SNE จริง ๆ แล้วทำงานได้ไม่ดีกับภาพสวิสต์โรล (ภาพ 3D "S" ของคุณ) และคุณจะเห็นได้ว่าในผลลัพธ์แบบ 2 มิติจุดสีเหลืองตรงกลางนั้นโดยทั่วไปจะใกล้เคียงกับสีแดงมากกว่าสีฟ้า อยู่กึ่งกลางอย่างสมบูรณ์ในภาพ 3 มิติ)

อีกตัวอย่างที่ดีของสิ่งที่ t-SNE ทำคือการจัดกลุ่มของตัวเลขที่เขียนด้วยลายมือ ดูตัวอย่างในลิงค์นี้: https://lvdmaaten.github.io/tsne/


2
สิ่งที่ฉันหมายถึงคือคุณไม่สามารถใช้ระยะทางในพื้นที่ด้านล่างเป็นเกณฑ์ความคล้ายคลึงกันได้ t-SNE จะรักษาโครงสร้างของโลกเช่นกลุ่ม แต่ไม่จำเป็นต้องรักษาระยะทาง สิ่งนี้จะขึ้นอยู่กับรูปร่างของข้อมูลมิติสูงและความสับสนที่คุณใช้
Robin

1
โอเคฉันเห็นแล้ว ขอบคุณสำหรับการชี้แจง ใช่ฉันยอมรับว่าระยะทางในพื้นที่ต่ำกว่าจะไม่ถูกต้อง ทีนี้, เนื่องจาก t-sne นั้นใช้งานได้จริงสำหรับการสร้างภาพฉันสามารถใช้ระยะทางในมิติที่ต่ำกว่า ยกตัวอย่างเช่นในเนื้อเรื่องของฉันฉันสามารถพูดได้อย่างมั่นใจว่าจุดสีฟ้านั้นใกล้เคียงหรือคล้ายกับสีเขียวมากกว่าจุดสีแดงเนื่องจากมีการแยกชัดเจนของสามกลุ่มในพื้นที่ 2d หรือว่าจะพูดยากเช่นกัน?
Javierfdr

1
มันยากที่จะพูด จุดในพื้นที่มิติต่ำเริ่มต้นได้ด้วยการกระจายแบบเกาส์เน้นที่จุดกำเนิด พวกเขาจะถูกแทนที่ซ้ำแล้วซ้ำอีกการเพิ่มประสิทธิภาพ KL-divergence ดังนั้นฉันจะบอกว่าในกรณีของคุณจุดสีน้ำเงินคล้ายกับกลุ่มสีเขียว แต่ตอนนี้มีวิธีการประเมินว่าพวกเขาอยู่ใกล้กับกลุ่มสีแดงมากขึ้น เสื้อ SNE
Robin

1
เมื่อนำมารวมกัน t-SNE ให้ความสำคัญกับ (1) การสร้างแบบจำลองดาต้าพอยน์ที่แตกต่างกันโดยใช้ระยะทางคู่ใหญ่ที่ชาญฉลาดและ (2) การสร้างแบบจำลองดาต้าพอยน์ที่คล้ายคลึงกัน โดยเฉพาะอย่างยิ่ง t-SNE แนะนำกองกำลังระยะยาวในแผนที่มิติต่ำที่สามารถดึงกลับมารวมกันสองจุด (กลุ่มของ) จุดที่คล้ายกันที่แยกออกก่อนในการเพิ่มประสิทธิภาพ
Robin

1
คำอธิบายที่ดีมาก ขอบคุณมากสำหรับความพยายามของคุณ ฉันคิดว่าคุณมีความคิดเห็นที่แตกต่างกันรวมกันเป็นคำตอบที่สมบูรณ์
Javierfdr
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.