คำถามติดแท็ก tsne

การฝังเพื่อนบ้านสุ่มแบบกระจาย T (t-SNE) เป็นอัลกอริธึมการลดขนาดแบบไม่เชิงเส้นที่แนะนำโดย van der Maaten และ Hinton ในปี 2008

2
วิธีการกำหนดพารามิเตอร์สำหรับ t-SNE สำหรับการลดขนาด?
ฉันใหม่มากที่จะแต่งงานคำ ฉันต้องการเห็นภาพว่าเอกสารกำลังเรียนรู้อย่างไร ฉันอ่านว่า t-SNE เป็นวิธีการที่จะทำ ฉันมีเอกสาร 100K ขนาด 250 เท่าของการฝัง มีหลายแพ็คเกจเช่นกัน อย่างไรก็ตามสำหรับ t-SNE ฉันไม่ทราบว่าการวนซ้ำหรือค่าของ alpha หรือค่า perpexility ที่ฉันควรเรียนรู้มากขึ้นเท่าไร พารามิเตอร์ไฮเปอร์เหล่านี้หรืออาจถูกกำหนดโดยคุณลักษณะบางอย่าง?

1
PCA มีความหมายว่าอย่างไรในการรักษาระยะทางคู่ที่มีขนาดใหญ่เท่านั้น?
ขณะนี้ฉันกำลังอ่านเทคนิคการสร้างภาพข้อมูล t-SNE และได้มีการกล่าวว่าหนึ่งในข้อเสียของการใช้การวิเคราะห์องค์ประกอบหลัก (PCA) สำหรับการแสดงข้อมูลมิติสูงคือการรักษาระยะห่างระหว่างจุดสองจุดขนาดใหญ่เท่านั้น จุดความหมายที่อยู่ห่างกันในพื้นที่มิติสูงก็จะปรากฏห่างกันในพื้นที่ย่อยต่ำ แต่นอกเหนือจากนั้นระยะทางคู่อื่น ๆ ทั้งหมดจะได้รับการเมาขึ้น ใครช่วยให้ฉันเข้าใจว่าทำไมมันถึงเป็นเช่นนั้นและมันหมายถึงอะไร?

1
t-SNE พร้อมตัวแปรแบบต่อเนื่องและไบนารีแบบผสม
ฉันกำลังตรวจสอบการสร้างภาพข้อมูลมิติสูงโดยใช้ t-SNE ฉันมีข้อมูลบางส่วนที่มีไบนารีผสมและตัวแปรต่อเนื่องและข้อมูลดูเหมือนว่าจะจัดกลุ่มข้อมูลไบนารีได้อย่างง่ายดายเกินไป แน่นอนว่าสิ่งนี้คาดว่าจะเป็นข้อมูลสเกล (ระหว่าง 0 ถึง 1): ระยะ Euclidian จะยิ่งใหญ่ที่สุด / เล็กที่สุดระหว่างตัวแปรไบนารี เราควรจัดการกับชุดข้อมูลไบนารี / ต่อเนื่องผสมโดยใช้ t-SNE อย่างไร เราควรดร็อปคอลัมน์ไบนารีหรือไม่ มันมีความแตกต่างที่metricเราสามารถใช้? เป็นตัวอย่างให้พิจารณารหัสหลามนี้: x1 = np.random.rand(200) x2 = np.random.rand(200) x3 = np.r_[np.ones(100), np.zeros(100)] X = np.c_[x1, x2, x3] # plot of the original data plt.scatter(x1, x2, c=x3) # … format graph ดังนั้นข้อมูลดิบของฉันคือ: …

3
PCA ช้าเกินไปเมื่อทั้ง n, p มีขนาดใหญ่: ทางเลือก?
การตั้งค่าปัญหา ฉันมีจุดข้อมูล (ภาพ) ที่มีมิติสูง (4096) ซึ่งฉันกำลังพยายามมองเห็นเป็น 2D ด้วยเหตุนี้ผมใช้เสื้อ sne ในลักษณะที่คล้ายกับต่อไปนี้โค้ดตัวอย่างโดย Karpathy เอกสาร scikit เรียนรู้แนะนำให้ใช้ PCA แรกลดขนาดของข้อมูล: ขอแนะนำให้ใช้วิธีการลดขนาดแบบอื่น (เช่น PCA สำหรับข้อมูลหนาแน่นหรือ TruncatedSVD สำหรับข้อมูลแบบเบาบาง) เพื่อลดจำนวนมิติเป็นจำนวนที่เหมาะสม (เช่น 50) หากจำนวนคุณลักษณะสูงมาก ฉันใช้รหัสนี้โดย Darks.Liu เพื่อดำเนินการ PCA ใน Java: //C=X*X^t / m DoubleMatrix covMatrix = source.mmul(source.transpose()).div(source.columns); ComplexDoubleMatrix eigVal = Eigen.eigenvalues(covMatrix); ComplexDoubleMatrix[] eigVectorsVal = Eigen.eigenvectors(covMatrix); ComplexDoubleMatrix eigVectors = …

2
การลดขนาดที่ปรับขนาดได้
พิจารณาจำนวนของคุณสมบัติคงที่บาร์นส์ฮัทเสื้อ SNEมีความซับซ้อนของ , ประมาณการสุ่มและ PCA มีความซับซ้อนของทำให้พวกเขา "แพง" สำหรับชุดข้อมูลขนาดใหญ่มากO ( n บันทึกn )O(nเข้าสู่ระบบ⁡n)O(n\log n)O ( n )O(n)O(n) ในทางกลับกันวิธีการที่ใช้การวัดหลายมิติมีความซับซ้อนโอ (n2)O(n2)O(n^2) มีเทคนิคการลดขนาดอื่น ๆ (นอกเหนือจากสิ่งเล็กน้อยเช่นการดูคอลัมน์แรก) ซึ่งมีความซับซ้อนต่ำกว่าหรือไม่kkkO ( n บันทึกn )O(nเข้าสู่ระบบ⁡n)O(n\log n)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.