T-SNE จะทำให้เข้าใจผิดเมื่อใด


37

การอ้างอิงจากผู้เขียนคนหนึ่ง:

t-Distributed Stochastic Neighbor Embedding (t-SNE) เป็นเทคนิค(ที่ได้รับรางวัล ) สำหรับการลดมิติที่เหมาะอย่างยิ่งสำหรับการสร้างภาพชุดข้อมูลมิติสูง

ดังนั้นมันฟังดูดีมาก แต่นั่นคือผู้เขียนพูดคุย

ข้อความอ้างอิงอื่นจากผู้เขียน (อีกครั้ง: การแข่งขันดังกล่าว):

คุณนำอะไรไปจากการแข่งขันครั้งนี้?
ให้มองเห็นข้อมูลของคุณก่อนเสมอก่อนที่คุณจะเริ่มฝึกการทำนายข้อมูล! บ่อยครั้งที่การสร้างภาพข้อมูลเช่นที่ฉันทำนั้นให้ข้อมูลเชิงลึกเกี่ยวกับการกระจายข้อมูลที่อาจช่วยคุณในการกำหนดรูปแบบการทำนายที่ควรลอง

ข้อมูลจะต้อง หายไป1 - มันเป็นเทคนิคการลดขนาด อย่างไรก็ตามเนื่องจากเป็นเทคนิคที่ดีที่จะใช้เมื่อสร้างภาพข้อมูลที่สูญหายจึงมีค่าน้อยกว่าข้อมูลที่ถูกเน้น (/ ทำให้มองเห็น / เข้าใจได้ผ่านการลดขนาดเป็น 2 หรือ 3 มิติ)

ดังนั้นคำถามของฉันคือ:

  • tSNE เป็นเครื่องมือที่ผิดสำหรับงานเมื่อใด
  • ชุดข้อมูลประเภทใดที่ทำให้ไม่สามารถใช้งานได้
  • คำถามประเภทใดที่ดูเหมือนว่าจะสามารถตอบได้ แต่จริง ๆ แล้วไม่สามารถทำได้
  • ในการอ้างอิงที่สองข้างต้นขอแนะนำให้มองเห็นชุดข้อมูลของคุณเสมอการสร้างภาพข้อมูลนี้ควรทำด้วย tSNE เสมอหรือไม่

ฉันคาดหวังว่าคำถามนี้อาจตอบได้ดีที่สุดในการสนทนาคือการตอบ: tSNE เป็นเครื่องมือที่เหมาะสมสำหรับงานเมื่อใด


ฉันได้รับการเตือนว่าไม่ต้องพึ่งพา tSNE เพื่อบอกฉันว่าข้อมูลง่าย ๆ จะจำแนกได้อย่างไร (แยกเป็นคลาส - แบบจำลองแบบจำแนก) ตัวอย่างของการเข้าใจผิดคือตัวอย่างรูปสองรูปด้านล่างรูปแบบกำเนิด2นั้นแย่ลง สำหรับข้อมูลที่มองเห็นได้ในส่วนแรก / ซ้าย (ความแม่นยำ 53.6%) มากกว่าข้อมูลที่เทียบเท่าสำหรับวินาที / ขวา (ความแม่นยำ 67.2%)

เป็นครั้งแรก ที่สอง


1 ฉันอาจจะผิดเกี่ยวกับเรื่องนี้ฉันอาจนั่งลงและลองตัวอย่างหลักฐาน / เคาน์เตอร์ในภายหลัง

2 โปรดทราบว่ารูปแบบการกำเนิดไม่เหมือนกับแบบเลือกปฏิบัติ แต่นี่คือตัวอย่างที่ฉันได้รับ


1
เกี่ยวกับคำแถลงของคุณว่า "ข้อมูลจะต้องสูญหาย": มีการทำแผนที่ bijectiveระหว่างเซตและหากว่าcardinalityของพวกเขาเห็นด้วยและหาก. และเรามีตัวอย่างเช่นและ (ดูที่นี่ ) นั่นคือในหลักการเราสามารถอัดข้อมูลมากในในขณะที่{R} BAB| N | = | N n | = 0 | R | = | R | = | R n | = 1 R 2 R|A|=|B||N|=|Nn|=0|R|=|R|=|Rn|=1R2R
ลูคัส

@Lucas: อ่าแน่นอน (ฉันไม่ทราบได้อย่างไร)
Lyndon White

คุณกำลังพยายามสร้างโมเดลต้นแบบอะไร
WeiChing Lin

@ Wei-ChingLin ฉันไม่แน่ใจว่ารูปแบบการกำเนิดแบบใดที่ถูกนำมาใช้ มีแนวโน้มว่าเครือข่าย Deep Belief, Deep Boltzmann Manchine หรือ Autoencoder บางประเภท ไม่เกี่ยวข้องกับหัวใจของคำถาม
Lyndon White

2
ที่เกี่ยวข้อง: distill.pub/2016/misread-tsne
Lyndon White

คำตอบ:


13

T-Sne เป็นเทคนิคการลดที่รักษาโครงสร้างขนาดเล็ก (เช่นสิ่งที่อยู่ใกล้กับสิ่งใด) ของพื้นที่ซึ่งทำให้ดีมากในการมองเห็นการแยกข้อมูล ซึ่งหมายความว่า T-Sne มีประโยชน์อย่างยิ่งสำหรับการสร้างภาพข้อมูลในช่วงต้นซึ่งจะช่วยให้เข้าใจระดับความสามารถในการแยกข้อมูล เทคนิคอื่น ๆ (ตัวอย่างเช่น PCA) ปล่อยให้ข้อมูลในมิติข้อมูลที่ต่ำกว่าการคาดการณ์ที่อยู่ด้านบนของแต่ละอื่น ๆ เป็นมิติหายไปซึ่งทำให้ยากมากที่จะทำให้คำสั่งที่ชัดเจนเกี่ยวกับการแยกในพื้นที่มิติที่สูงขึ้น

ตัวอย่างเช่นหากคุณได้รับกราฟ T-Sne ที่มีข้อมูลทับซ้อนกันจำนวนมากอัตราต่อรองจะสูงว่าตัวแยกประเภทของคุณจะทำงานได้ไม่ดีไม่ว่าคุณจะทำอะไรก็ตาม ในทางกลับกันหากคุณเห็นข้อมูลที่แยกกันอย่างชัดเจนในกราฟ T-Sne ข้อมูลที่อยู่ในระดับสูงจะมีความแปรปรวนเพียงพอที่จะสร้างตัวแยกประเภทที่ดี


3
นั่นเป็นคำอธิบายที่ดีมากสำหรับ T-SNE คืออะไรขอบคุณ แต่ฉันไม่เห็นคำตอบสำหรับคำถามจริงของฉัน (ดูจุดจุดในโพสต์เปิด)
Lyndon White

5
นี่ไม่ได้ตอบคำถามเลย
อะมีบาพูดว่า Reinstate Monica

10

ออกมาจากกล่อง tSNE มีพารามิเตอร์หลายมิติซึ่งเป็นพารามิเตอร์หลักที่น่าฉงนสนเท่ห์ โปรดจำไว้ว่า heuristically ความงุนงงกำหนดความคิดของความคล้ายคลึงกันสำหรับ tSNE และความฉงนสนเท่ห์สากลใช้สำหรับจุดข้อมูลทั้งหมด คุณสามารถลองสร้างชุดข้อมูลที่มีป้ายกำกับซึ่งแต่ละคลัสเตอร์มีความสับสนที่แตกต่างกันอย่างดุเดือด สิ่งนี้สามารถทำได้โดยการทำส่วนผสมของ gaussians ด้วยความหลากหลายที่แตกต่างกัน ฉันคาดเดาว่าสิ่งนี้จะทำให้เกิดปัญหาในการใช้งาน tSNE ของ Barnes-Hut ซึ่งอาศัยข้อมูลการควอไทล์และการใช้เพื่อนบ้านที่ใกล้ที่สุดเท่านั้น tSNE ยังมีช่วงเวลาการผ่อนคลายเริ่มต้นซึ่งพยายามที่จะส่งผ่านกลุ่มกัน ในช่วงเวลานี้ไม่มีการลงโทษหรือการขับไล่ ตัวอย่างเช่นหากข้อมูลของคุณมีลักษณะเป็นก้อนด้านที่เป็นก้อน (เส้นก๋วยเตี๋ยวแต่ละเส้นแสดงถึงกลุ่มที่ได้รับ) คุณ ' จะมีช่วงเวลาที่ยากลำบากในการสอบเทียบการผ่านครั้งแรกและฉันสงสัยว่า tSNE จะทำงานได้ดี ในบางแง่ฉันคิดว่าคำแนะนำนี้ว่า tSNE จะทำงานได้ไม่ดีถ้าข้อมูลของคุณถูกสานเข้าด้วยกันและเริ่มแรกอาศัยอยู่ในพื้นที่ที่มีมิติต่ำให้บอกว่า 5

โดยทั่วไป tSNE นั้นดีเพราะส่วน "t" ซึ่งแก้ไขปัญหาที่โดดเด่นใน SNE ของวิธีการหาจุดอวกาศในมิติที่ต่ำกว่าเมื่อเทียบกับมิติที่สูงขึ้น ปรากฎว่าโดยเฉลี่ยระยะห่างของจุดข้อมูลในมิติที่สูงกว่าจะทำงานแตกต่างจากมิติด้านล่างโดยสิ้นเชิง โดยเฉพาะอย่างยิ่ง tSNE ขอสนับสนุนการต่อต้านการใช้ Gaussians การวัดระยะทางในมิติที่ต่ำกว่าโมโหแทนหนึ่งมิติกระจาย (เช่นการกระจาย Cauchy) ซึ่งมีหาง heaver และช่วยให้การแพร่กระจายมากขึ้นในมิติที่ต่ำกว่า ดังนั้นจึงเป็นไปได้ว่า "t" ใน tSNE อาจเป็นไฮเปอร์พารามิเตอร์ซึ่งคุณสามารถเลือกการกระจายแบบต่าง ๆ ได้ (แม้ว่าจะมีค่าใช้จ่ายในการคำนวณสูง)t

คุณควรคิดว่า tSNE เป็นวิธีการจัดกลุ่มที่ไม่ได้รับอนุญาตดังนั้นจึงไม่มีเหตุผลที่จะคิดว่ามันเป็นเครื่องมือเดียวสำหรับงานนี้ ฉันคิดว่าโดยรวมมันอาจเป็นเครื่องมือที่ยอดเยี่ยมถ้าปรับเทียบถูกต้อง อย่างไรก็ตามมันค่อนข้างช้าในชุดข้อมูลขนาดใหญ่และคุณอาจจะดีกว่าโดยใช้บางรูปแบบของ -means หรือ PCA ขึ้นอยู่กับว่าข้อมูลกระจัดกระจายk

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.