คำตอบสั้น ๆ ก่อนจากนั้นแสดงความคิดเห็นอีกต่อไป:
ตอบ
เทคนิค SNE คำนวณเมทริกซ์ความคล้ายคลึงกันของ N × N ทั้งในพื้นที่ข้อมูลดั้งเดิมและในพื้นที่ฝังแบบมิติต่ำในลักษณะที่ความคล้ายคลึงกันก่อให้เกิดการกระจายความน่าจะเป็นเหนือวัตถุสองคู่ โดยเฉพาะความน่าจะเป็นที่ได้รับจากเคอร์เนลเกาส์เซียนที่คำนวณจากข้อมูลอินพุตหรือจากการฝัง ในแง่ของการจัดหมวดหมู่สิ่งนี้ทำให้นึกถึงวิธีการเรียนรู้แบบอิงอินสแตนซ์ทันที คุณได้แสดงรายการหนึ่งในรายการเหล่านี้: SVM พร้อม RBF และ @amoeba แสดงรายการ kNN นอกจากนี้ยังมีเครือข่ายฟังก์ชั่นพื้นฐานที่เป็นรัศมีซึ่งฉันไม่เชี่ยวชาญ
คิดเห็น
ต้องบอกว่าฉันจะต้องระมัดระวังเป็นสองเท่าเกี่ยวกับการอนุมานในชุดข้อมูลเพียงแค่ดูที่แปลง t-SNE t-SNE ไม่จำเป็นต้องมุ่งเน้นไปที่โครงสร้างท้องถิ่น อย่างไรก็ตามคุณสามารถปรับให้ทำเช่นนั้นได้โดยการปรับperplexity
พารามิเตอร์ซึ่งควบคุม (อย่างหลวม ๆ ) วิธีการสร้างสมดุลระหว่างความสนใจของข้อมูลท้องถิ่นและทั่วโลก
ในบริบทนี้perplexity
ตัวมันเองถูกแทงในที่มืดในจำนวนเพื่อนบ้านที่ใกล้ชิดแต่ละการสังเกตอาจมีและให้ผู้ใช้ สถานะเดิมของกระดาษ : “ ประสิทธิภาพของ t-SNE นั้นค่อนข้างแข็งแกร่งต่อการเปลี่ยนแปลงในความสับสนและค่าทั่วไปอยู่ระหว่าง 5 ถึง 50” อย่างไรก็ตามประสบการณ์ของฉันคือการได้รับประโยชน์สูงสุดจาก t-SNE อาจหมายถึงการวิเคราะห์หลาย ๆ แปลงที่มีความซับซ้อนที่แตกต่างกัน
กล่าวอีกนัยหนึ่งคือการปรับlearning rate
และperplexity
เป็นไปได้ที่จะได้รับแผนการแปลงสองมิติที่ดูแตกต่างกันมากสำหรับขั้นตอนการฝึกอบรมจำนวนเท่ากันและใช้ข้อมูลเดียวกัน
นี้กลั่นกระดาษวิธีการใช้เสื้อ SNE อย่างมีประสิทธิภาพให้สรุปที่ดีของข้อผิดพลาดที่พบบ่อยของการวิเคราะห์เสื้อ SNE จุดสรุปคือ:
พารามิเตอร์เหล่านั้น (เช่นอัตราการเรียนรู้ความฉงนสนเท่ห์) มีความสำคัญจริงๆ
ขนาดคลัสเตอร์ในพล็อต t-SNE ไม่มีความหมาย
ระยะห่างระหว่างกลุ่มอาจไม่ได้มีความหมายอะไรเลย
เสียงแบบสุ่มไม่ได้ดูแบบสุ่มเสมอไป
คุณสามารถเห็นรูปร่างบางครั้ง
สำหรับโทโพโลยีคุณอาจต้องการพล็อตมากกว่าหนึ่ง
โดยเฉพาะจากจุด 2, 3 และ 6 ข้างต้นฉันจะคิดสองครั้งเกี่ยวกับการอนุมานเกี่ยวกับความสามารถในการแยกของข้อมูลโดยดูที่แปลง t-SNE แต่ละแปลง มีหลายกรณีที่คุณสามารถ 'แปลง' แปลงที่แสดงกลุ่มที่ชัดเจนโดยใช้พารามิเตอร์ที่เหมาะสม