6
การทำคลัสเตอร์บนเอาต์พุตของ t-SNE
ฉันมีแอปพลิเคชั่นที่จะสะดวกในการจัดกลุ่มชุดข้อมูลที่มีเสียงดังก่อนที่จะมองหาเอฟเฟกต์กลุ่มย่อยภายในกลุ่ม ครั้งแรกที่ฉันดู PCA แต่ต้องใช้ส่วนประกอบประมาณ 30 ชิ้นเพื่อรับความแปรปรวนได้ถึง 90% ดังนั้นการรวมกลุ่มกับพีซีเพียงไม่กี่เครื่องจะทำให้ข้อมูลจำนวนมากหมด จากนั้นฉันก็ลอง t-SNE (เป็นครั้งแรก) ซึ่งทำให้ฉันมีรูปร่างแปลก ๆ ในสองมิติที่คล้อยตามการจัดกลุ่มผ่าน k-mean ยิ่งไปกว่านั้นการรันฟอเรสต์แบบสุ่มบนข้อมูลด้วยการกำหนดคลัสเตอร์เนื่องจากผลลัพธ์แสดงว่ากลุ่มมีการตีความที่สมเหตุสมผลพอสมควรตามบริบทของปัญหาในแง่ของตัวแปรที่ประกอบขึ้นเป็นข้อมูลดิบ แต่ถ้าฉันจะรายงานเกี่ยวกับกลุ่มเหล่านี้ฉันจะอธิบายพวกเขาได้อย่างไร K-หมายถึงกลุ่มบนส่วนประกอบหลักเปิดเผยบุคคลที่อยู่ใกล้กันในแง่ของตัวแปรที่ได้รับซึ่งประกอบด้วย X% ของความแปรปรวนในชุดข้อมูล คำสั่งที่เทียบเท่าสามารถทำอะไรได้บ้างเกี่ยวกับกลุ่ม t-SNE บางทีสิ่งที่จะเป็นผลของ: t-SNE แสดงให้เห็นถึงความใกล้เคียงกันโดยประมาณในนานามิติมิติพื้นฐานดังนั้นกลุ่มที่มีมิติต่ำของพื้นที่มิติสูงจะเพิ่ม "โอกาส" ที่บุคคลที่อยู่ติดกันจะไม่อยู่ในกลุ่มเดียวกัน ทุกคนสามารถเสนอการแจ้งเตือนที่ดีกว่านั้นได้หรือไม่?