ทำไม t-SNE ไม่ถูกใช้เป็นเทคนิคการลดขนาดสำหรับการจัดกลุ่มหรือการจำแนก?


34

ในการมอบหมายเมื่อเร็ว ๆ นี้เราได้รับคำสั่งให้ใช้ PCA บนตัวเลข MNIST เพื่อลดขนาดจาก 64 (8 x 8 ภาพ) เป็น 2 จากนั้นเราต้องจัดกลุ่มตัวเลขโดยใช้แบบจำลองส่วนผสมของเกาส์เซียน PCA ที่ใช้ 2 องค์ประกอบหลักเท่านั้นไม่ได้ให้ผลที่แตกต่างกันของคลัสเตอร์และเป็นผลให้แบบจำลองไม่สามารถสร้างการจัดกลุ่มที่มีประโยชน์ได้

อย่างไรก็ตามการใช้ t-SNE พร้อมด้วย 2 องค์ประกอบกลุ่มจะถูกแยกออกจากกันได้ดีกว่ามาก แบบจำลองการผสมแบบเกาส์ผลิตกลุ่มที่แตกต่างกันมากขึ้นเมื่อนำไปใช้กับส่วนประกอบ t-SNE

ความแตกต่างใน PCA ที่มี 2 องค์ประกอบและ t-SNE ที่มี 2 ส่วนประกอบสามารถมองเห็นได้ในภาพคู่ต่อไปนี้ที่มีการใช้การแปลงกับชุดข้อมูล MNIST

PCA บน MNIST

t-SNE บน MNIST

ฉันได้อ่านแล้วว่า t-SNE ใช้สำหรับการสร้างภาพข้อมูลมิติสูงเท่านั้นเช่นในคำตอบนี้แต่ได้รับกลุ่มที่แตกต่างกันแล้วทำไมมันไม่ใช้เป็นเทคนิคการลดขนาดที่ใช้สำหรับแบบจำลองการจำแนกหรือ วิธีการทำคลัสเตอร์แบบสแตนด์อโลน


2
คุณหมายถึงการจำแนกหรือการจัดกลุ่ม? ชื่อบอกว่าการจัดกลุ่ม แต่โพสต์บอกว่าการจัดหมวดหมู่
usεr11852พูดว่า Reinstate Monic

ขอโทษสำหรับเรื่องนั้น. ฉันต้องการทราบว่าทำไมมันไม่ได้ใช้เป็นเทคนิคการจัดกลุ่มหรือเป็นเทคนิคการลดขนาดสำหรับการจัดหมวดหมู่ ฉันแก้ไขเพื่อสะท้อนสิ่งนี้
willk

กระดาษที่เผยแพร่เมื่อเร็ว ๆ นี้ใช้ t-SNE และอัลกอริธึมการจัดกลุ่มที่ไม่ได้รับอนุญาตในการติดฉลากกระบวนการเผาไหม้
tpg2114

2
คำตอบที่คุณเชื่อมโยงแสดงให้เห็นถึงวิธีการที่ทำให้เข้าใจผิด tSNE สามารถ คุณเห็นกลุ่มในพล็อตที่ไม่มีอยู่ในข้อมูล นั่นเป็นอันตรายหากคุณไม่มีฉลาก และอย่าดึงข้อสรุปจากข้อมูล MNIST มากเกินไป นั่นคือชุดข้อมูลความประพฤติดีมาก ...
anony-มูส

1
ฉันพบว่าบทความนี้มีประโยชน์ในการอธิบาย t-SNE และข้อเสียของมัน มีการสร้างภาพข้อมูลเชิงโต้ตอบที่ช่วยเน้นจุดสำคัญ
willk

คำตอบ:


33

เสื้อเสื้อ

เสื้อเสื้อ

เสื้อเสื้อ11เราอาจใช้การจำแนกประเภทเพื่อเริ่มต้นด้วย (ซึ่งนำเรากลับไปใช้การเข้ารหัสอัตโนมัติ)


1
คำถามถามคำถามเกี่ยวกับการทำคลัสเตอร์มากกว่าการจำแนกประเภท อย่างน้อยการจัดกลุ่มอยู่ในชื่อ
อะมีบากล่าวว่า Reinstate Monica

@ amoeba: ฉันคิดเหมือนกันและเขียนเกี่ยวกับการใช้ที่อาจเกิดขึ้นผ่านการจัดกลุ่มตามระยะทาง (เช่น FMM, DBSCAN) แต่แล้วฉันอ่านคำถาม: " ทำไมมันไม่ใช้เป็นเทคนิคการลดขนาดที่ใช้สำหรับการจัดหมวดหมู่ แบบจำลอง? "
usεr11852พูดว่า Reinstate Monic

ใช่ แต่ชื่อ Q แตกต่างกัน ฉันคิดว่า OP อาจสับสนเกี่ยวกับความแตกต่างดังนั้นมันจึงสมเหตุสมผลที่จะกล่าวถึงทั้งใน A!
อะมีบากล่าวว่า Reinstate Monica

4
ตกลง .. ตกลง ... ยูคาริโอตที่เป็นทาสขับ ... : P
usεr11852พูดว่า Reinstate Monic

1
(+1) ฉันสนใจที่จะฟังความคิดเห็นของคุณเกี่ยวกับการจัดกลุ่ม / t-SNE คำตอบนี้stats.stackexchange.com/questions/263539ฉันเพิ่งโพสต์ CC ไปที่ @caseWestern - สิ่งนี้อาจเป็นที่สนใจของคุณเช่นกัน
อะมีบาพูดว่า Reinstate Monica

3

t-SNE ไม่รักษาระยะทาง แต่โดยทั่วไปประมาณการแจกแจงความน่าจะเป็น ตามทฤษฎีแล้วอัลกอริธึม t-SNE จะแม็พอินพุตกับพื้นที่ของแผนที่ 2 หรือ 3 มิติ พื้นที่อินพุตจะถือว่าเป็นการแจกแจงแบบเกาส์และพื้นที่แผนที่เป็นการกระจายแบบ t ฟังก์ชั่นการสูญเสียที่ใช้คือ KL Divergence ระหว่างการแจกแจงสองแบบซึ่งจะถูกย่อให้เล็กสุดโดยใช้การไล่ระดับสี

ตามที่ Laurens van der Maaten ผู้ร่วมเขียน t-SNE

t-SNE ไม่ได้รักษาระยะห่าง แต่ความน่าจะเป็นดังนั้นการวัดความผิดพลาดบางอย่างระหว่างระยะทางแบบยุคลิดใน high-D และ low-D นั้นไร้ประโยชน์

อ้างอิง:

https://lvdmaaten.github.io/tsne/

https://www.oreilly.com/learning/an-illustrated-introduction-to-the-t-sne-algorithm


2

ตามคำแถลงทั่วไป: เมื่อได้รับลักษณนาม (/ เหมาะสม) ที่มีประสิทธิภาพเพียงพอหรือคลัสเตอร์ - เอ้อเราจะไม่ใช้การลดขนาดใด ๆเลย

การลดขนาดจะสูญเสียข้อมูล

เนื่องจากตัวแบ่งคลัสเตอร์หรือตัวจําแนก (เช่นตัวจําแนกตัวแบ่งกลุ่มน้อยกว่า) จึงรวมการประมาณรูปแบบบางอย่างเข้ากับพื้นที่ที่มีความหมายอยู่แล้ว และการลดมิติยังฉายภาพไปยังพื้นที่ที่มีความหมาย (ความหวัง)

แต่การลดขนาดนั้นต้องทำในลักษณะที่ไม่เป็นไปตามที่คาด - ไม่ทราบว่างานที่คุณต้องการลดนั้นเป็นอย่างไร นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งสำหรับการจัดหมวดหมู่ที่คุณมีข้อมูลการกำกับดูแลทันที (สำหรับอัลกอริทึมนี้) ดีกว่าเพียงแค่ "มีมิติน้อยกว่า" @ usεr11852คำตอบของการพูดคุยเกี่ยวกับเรื่องนี้ในขณะที่ฉันบอกว่าการลดขนาดไม่ทราบว่าอะไร งานที่คุณต้องการลดลง - คุณแจ้งให้คุณทราบว่าคุณเลือกใช้อัลกอริธึมการลดมิติข้อมูลแบบใด

บ่อยครั้งที่แทนที่จะเพิ่มขั้นตอนการลดขนาดเช่นเดียวกับการประมวลผลก่อนการจัดกลุ่ม / การจัดประเภทหนึ่งจะดีกว่าที่จะใช้ตัวจําแนก / ลักษณนามที่แตกต่างกันซึ่งรวมการประมาณการที่มีประโยชน์

สิ่งหนึ่งที่ทำให้เกิดมิติน้อยลงนั้นเกิดขึ้นได้ในเรื่องนี้แม้ว่ามันจะเป็นธรรมชาติที่ไม่มีผู้ดูแลในการสร้างภาพไปยังพื้นที่ที่มีความหมาย (หวังว่า) ซึ่งมีประโยชน์หากคุณมีข้อมูลป้ายกำกับเล็กน้อย แต่มักจะมีวิธีอื่น ๆ ที่เชื่อมโยงกับตัวจําแนกของคุณ (เช่นสำหรับเครือข่ายประสาทเทียมโดยใช้ autoencoder เช่นการฝึกอบรมเครือข่ายความเชื่อลึก) ที่จะทำงานได้ดีขึ้นเพราะพวกเขาได้รับการออกแบบด้วยงานสุดท้ายในใจ ไม่ใช่งานทั่วไปของการลดขนาด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.