t-Distributed Stochastic Neighbor Embedding (t-SNE) เป็นเทคนิค(ที่ได้รับรางวัล ) สำหรับการลดมิติที่เหมาะอย่างยิ่งสำหรับการสร้างภาพชุดข้อมูลมิติสูง
ดังนั้นมันฟังดูดีมาก แต่นั่นคือผู้เขียนพูดคุย
ข้อความอ้างอิงอื่นจากผู้เขียน (อีกครั้ง: การแข่งขันดังกล่าว):
คุณนำอะไรไปจากการแข่งขันครั้งนี้?
ให้มองเห็นข้อมูลของคุณก่อนเสมอก่อนที่คุณจะเริ่มฝึกการทำนายข้อมูล! บ่อยครั้งที่การสร้างภาพข้อมูลเช่นที่ฉันทำนั้นให้ข้อมูลเชิงลึกเกี่ยวกับการกระจายข้อมูลที่อาจช่วยคุณในการกำหนดรูปแบบการทำนายที่ควรลอง
ข้อมูลจะต้อง หายไป1 - มันเป็นเทคนิคการลดขนาด อย่างไรก็ตามเนื่องจากเป็นเทคนิคที่ดีที่จะใช้เมื่อสร้างภาพข้อมูลที่สูญหายจึงมีค่าน้อยกว่าข้อมูลที่ถูกเน้น (/ ทำให้มองเห็น / เข้าใจได้ผ่านการลดขนาดเป็น 2 หรือ 3 มิติ)
ดังนั้นคำถามของฉันคือ:
- tSNE เป็นเครื่องมือที่ผิดสำหรับงานเมื่อใด
- ชุดข้อมูลประเภทใดที่ทำให้ไม่สามารถใช้งานได้
- คำถามประเภทใดที่ดูเหมือนว่าจะสามารถตอบได้ แต่จริง ๆ แล้วไม่สามารถทำได้
- ในการอ้างอิงที่สองข้างต้นขอแนะนำให้มองเห็นชุดข้อมูลของคุณเสมอการสร้างภาพข้อมูลนี้ควรทำด้วย tSNE เสมอหรือไม่
ฉันคาดหวังว่าคำถามนี้อาจตอบได้ดีที่สุดในการสนทนาคือการตอบ: tSNE เป็นเครื่องมือที่เหมาะสมสำหรับงานเมื่อใด
ฉันได้รับการเตือนว่าไม่ต้องพึ่งพา tSNE เพื่อบอกฉันว่าข้อมูลง่าย ๆ จะจำแนกได้อย่างไร (แยกเป็นคลาส - แบบจำลองแบบจำแนก) ตัวอย่างของการเข้าใจผิดคือตัวอย่างรูปสองรูปด้านล่างรูปแบบกำเนิด2นั้นแย่ลง สำหรับข้อมูลที่มองเห็นได้ในส่วนแรก / ซ้าย (ความแม่นยำ 53.6%) มากกว่าข้อมูลที่เทียบเท่าสำหรับวินาที / ขวา (ความแม่นยำ 67.2%)
1 ฉันอาจจะผิดเกี่ยวกับเรื่องนี้ฉันอาจนั่งลงและลองตัวอย่างหลักฐาน / เคาน์เตอร์ในภายหลัง
2 โปรดทราบว่ารูปแบบการกำเนิดไม่เหมือนกับแบบเลือกปฏิบัติ แต่นี่คือตัวอย่างที่ฉันได้รับ