ข้อมูลควรอยู่กึ่งกลาง + สเกลก่อนใช้ t-SNE หรือไม่


18

คุณสมบัติของข้อมูลบางอย่างของฉันมีค่ามากในขณะที่คุณสมบัติอื่นมีค่าน้อยกว่ามาก

จำเป็นหรือไม่ที่จะรวมศูนย์ + ข้อมูลสเกลก่อนใช้ t-SNE เพื่อป้องกันอคติต่อค่าที่มากขึ้น

ฉันใช้การปฏิบัติ sklearn.manifold.TSNE ของ Python กับการวัดระยะทางแบบปริภูมิแบบปริยาย

คำตอบ:


18

การจัดกึ่งกลางไม่สำคัญเนื่องจากอัลกอริทึมทำงานเฉพาะในระยะทางระหว่างจุด แต่การลดขนาดเป็นสิ่งจำเป็นหากคุณต้องการให้มิติที่แตกต่างได้รับการปฏิบัติด้วยความสำคัญเท่ากันเนื่องจาก 2-norm จะได้รับอิทธิพลอย่างมากจากมิติที่มีความแปรปรวนขนาดใหญ่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.