วิธีการกำหนดพารามิเตอร์สำหรับ t-SNE สำหรับการลดขนาด?

11

ฉันใหม่มากที่จะแต่งงานคำ ฉันต้องการเห็นภาพว่าเอกสารกำลังเรียนรู้อย่างไร ฉันอ่านว่า t-SNE เป็นวิธีการที่จะทำ ฉันมีเอกสาร 100K ขนาด 250 เท่าของการฝัง มีหลายแพ็คเกจเช่นกัน

อย่างไรก็ตามสำหรับ t-SNE ฉันไม่ทราบว่าการวนซ้ำหรือค่าของ alpha หรือค่า perpexility ที่ฉันควรเรียนรู้มากขึ้นเท่าไร

พารามิเตอร์ไฮเปอร์เหล่านี้หรืออาจถูกกำหนดโดยคุณลักษณะบางอย่าง?

— silent_dev
แหล่งที่มา

12

ผมขอแนะนำบทความวิธีการใช้เสื้อ SNE อย่างมีประสิทธิภาพ มันมีพล็อตภาพเคลื่อนไหวที่ยอดเยี่ยมของกระบวนการ tsne fitting และเป็นแหล่งแรกที่ทำให้ฉันเข้าใจอย่างถ่องแท้ถึงสิ่งที่ tsne ทำ

ในระดับสูงความงุนงงเป็นพารามิเตอร์ที่สำคัญ เป็นความคิดที่ดีที่จะลองความงุนงง 5, 30 และ 50 แล้วดูผลลัพธ์

แต่จริงจังอ่านวิธีการใช้ t-SNE อย่างมีประสิทธิภาพ มันจะทำให้การใช้ TSNE ของคุณมีประสิทธิภาพมากขึ้น

สำหรับแพ็คเกจใช้Rtsneใน R หรือsklearn.manifold.TSNEใน python

— ซัค
แหล่งที่มา

สำหรับชุดข้อมูลขนาดใหญ่และใช้ GPU ในการคำนวณของคุณ ตรวจสอบห้องสมุด Rapids โดย nVidia [Rapids.AI] (rapids.ai)

— Aakash Gupta

2

ผมจะกล่าวถึงคำถามที่พบบ่อยจากเว็บไซต์เสื้อ SNE ที่หนึ่งสำหรับความงุนงง:

ฉันจะตั้งค่าความฉงนสนเท่ห์ใน t-SNE ได้อย่างไร?

ประสิทธิภาพของ t-SNE ค่อนข้างแข็งแกร่งภายใต้การตั้งค่าที่แตกต่างกันของความสับสน ค่าที่เหมาะสมที่สุดขึ้นอยู่กับความหนาแน่นของข้อมูลของคุณ การพูดอย่างหลวม ๆ อาจกล่าวได้ว่าชุดข้อมูลที่มีขนาดใหญ่ขึ้นและหนาแน่นขึ้นต้องมีความสับสนมากขึ้น ค่าทั่วไปสำหรับช่วงความน่างงงวยระหว่าง 5 และ 50

สำหรับ paremeters อื่น ๆ ทั้งหมดฉันจะลองอ่านสิ่งนี้:

ฉันจะประเมินคุณภาพของการสร้างภาพข้อมูลที่ t-SNE สร้างได้อย่างไร

เด่นกว่าเพียงแค่ดูพวกเขา! โปรดสังเกตว่า t-SNE ไม่ได้รักษาระยะทาง แต่น่าจะเป็นดังนั้นการวัดข้อผิดพลาดบางอย่างระหว่างระยะทางแบบยุคลิดใน high-D และ low-D นั้นไม่มีประโยชน์ อย่างไรก็ตามหากคุณใช้ข้อมูลและความสับสนเดียวกันคุณสามารถเปรียบเทียบความแตกต่างของ Kullback-Leibler ที่รายงาน t-SNE เป็นการดีที่จะเรียกใช้ t-SNE สิบครั้งและเลือกโซลูชันที่มีค่าเบี่ยงเบน KL ต่ำสุด

กล่าวอีกนัยหนึ่งก็คือ: ดูที่เนื้อเรื่องถ้าการสร้างภาพข้อมูลที่ดีไม่เปลี่ยนพารามิเตอร์ นอกจากนี้คุณยังสามารถเลือกการรันด้วยค่าเบี่ยงเบน KL ต่ำสุดสำหรับความสับสนคงที่แต่ละรายการ

— Daniel Falbel
แหล่งที่มา