มีกรณีที่ PCA เหมาะสมกว่า t-SNE หรือไม่?


39

ฉันต้องการดูวิธีการวัดการแก้ไขข้อความ 7 วิธี (เวลาที่ใช้ในการแก้ไขข้อความจำนวนการกดแป้น ฯลฯ ) เกี่ยวข้องกัน มาตรการมีความสัมพันธ์ ฉันใช้ PCA เพื่อดูว่าการวัดที่ฉายบน PC1 และ PC2 นั้นอย่างไรซึ่งหลีกเลี่ยงการเหลื่อมซ้อนของการรันการทดสอบสหสัมพันธ์แบบสองทางที่แยกกันระหว่างการวัด

ฉันถูกถามว่าทำไมไม่ใช้ t-SNE เนื่องจากความสัมพันธ์ระหว่างการวัดบางอย่างอาจไม่ใช่แบบเชิงเส้น

ฉันสามารถดูได้ว่าการอนุญาตสำหรับการไม่เป็นเชิงเส้นจะช่วยปรับปรุงสิ่งนี้ได้อย่างไร แต่ฉันสงสัยว่ามีเหตุผลที่ดีที่จะใช้ PCA ในกรณีนี้ไม่ใช่ t-SNE หรือไม่ ฉันไม่ได้สนใจในการจัดกลุ่มข้อความตามความสัมพันธ์ของพวกเขากับมาตรการ แต่ในความสัมพันธ์ระหว่างมาตรการเอง

(ฉันเดาว่า EFA อาจเป็นวิธีที่ดีกว่า / วิธีอื่น แต่นั่นคือการสนทนาที่แตกต่างกัน) เมื่อเปรียบเทียบกับวิธีอื่นมี t-SNE จำนวนไม่กี่โพสต์อยู่ที่นี่ดังนั้นคำถามดูเหมือนน่าจะถาม


3
t-SNE ปรับขนาดได้ไม่ดีกับขนาดของชุดข้อมูลในขณะที่ PCA ทำ สิ่งนี้มาจากประสบการณ์ในการดำเนินการทั้งสองอย่างบนชุดข้อมูลขนาดใหญ่โดยใช้การเรียนรู้ Scikit
เชียงใหม่

@Mai น่าจะใช้กับชุดข้อมูลขนาดใหญ่ได้ไหม? ชุดข้อมูลของฉันมีขนาดเล็ก (มีจุดข้อมูลไม่กี่ร้อยจุด)
user3744206

คำตอบ:


64

tt -NE เป็นชิ้นส่วนที่ยอดเยี่ยมของการเรียนรู้ของเครื่องจักร แต่มีหลายเหตุผลที่สามารถใช้ PCA แทนได้ ด้านบนของหัวของฉันฉันจะพูดถึงห้า ในฐานะที่เป็นวิธีการคำนวณอื่น ๆ ส่วนใหญ่ที่ใช้งาน -SNE ไม่มีกระสุนเงินและมีเหตุผลบางอย่างที่ทำให้เป็นทางเลือกที่ไม่ดีในบางกรณี ให้ฉันพูดถึงบางประเด็นโดยสังเขป:t

  1. Stochasticity ของการแก้ปัญหาสุดท้าย PCA กำหนดขึ้น -NE ไม่ใช่ หนึ่งได้รับการสร้างภาพที่ดีและจากนั้นเพื่อนร่วมงานของเธอได้รับการสร้างภาพข้อมูลอื่นแล้วพวกเขาได้รับงานศิลปะที่ดูดีขึ้นและหากความแตกต่างของในความแตกต่างมีความหมาย ... ใน PCA คำตอบที่ถูกต้องคำถามที่ถูกวางประกัน -SNE อาจมีหลาย minima ที่อาจนำไปสู่การแก้ปัญหาที่แตกต่างกัน สิ่งนี้จำเป็นต้องมีการรันหลายครั้งรวมถึงการตั้งคำถามเกี่ยวกับการทำซ้ำผลลัพธ์0.03 % K L ( P | | Q ) tt0.03%KL(P||Q)t

  2. interpretability ของการทำแผนที่ สิ่งนี้เกี่ยวข้องกับประเด็นข้างต้น แต่สมมติว่าทีมได้ตกลงกันในการสุ่มเริ่มต้น ตอนนี้คำถามกลายเป็นสิ่งที่แสดง ... -NE พยายามทำแผนที่เฉพาะเพื่อนบ้าน / ท้องถิ่นอย่างถูกต้องดังนั้นข้อมูลเชิงลึกของเราจากการฝังนั้นควรจะระมัดระวังมาก แนวโน้มของโลกไม่ได้แสดงอย่างถูกต้อง (และอาจเป็นสิ่งที่ดีสำหรับการสร้างภาพ) ในอีกทางหนึ่ง PCA เป็นเพียงการหมุนในแนวทแยงของเมทริกซ์ความแปรปรวนร่วมเริ่มต้นของเราและ eigenvectors เป็นตัวแทนของระบบแกนใหม่ในพื้นที่ที่ถูกทอดข้อมูลโดยข้อมูลดั้งเดิมของเรา เราสามารถอธิบายได้โดยตรงว่า PCA นั้นทำอะไรt

  3. แอพลิเคชันใหม่ / ข้อมูลที่มองไม่เห็น -NE ไม่ได้เรียนรู้ฟังก์ชั่นจากอวกาศดั้งเดิมไปสู่มิติใหม่ (ล่าง) และนั่นเป็นปัญหา ในเรื่องนั้น -SNE เป็นอัลกอริทึมการเรียนรู้แบบไม่มีพารามิเตอร์ดังนั้นการประมาณด้วยอัลกอริธึมพาราเมทริกจึงเป็นปัญหาที่ไม่ถูกต้อง การฝังจะเรียนรู้โดยการย้ายข้อมูลโดยตรงไปยังพื้นที่มิติต่ำ นั่นหมายความว่าเราไม่ได้รับeigenvectorหรือโครงสร้างที่คล้ายกันเพื่อใช้ในข้อมูลใหม่ ในทางตรงกันข้ามการใช้ PCA eigenvectors เสนอระบบแกนใหม่ที่สามารถนำมาใช้โดยตรงเพื่อฉายข้อมูลใหม่ [เห็นได้ชัดว่าคน ๆ หนึ่งอาจลองฝึกอบรมเครือข่ายลึกเพื่อเรียนรู้t tttt- การทำแผนที่ -SNE (คุณสามารถได้ยิน Dr. van der Maaten ที่ ~ 46 'ของวิดีโอนี้จะแนะนำบางสิ่งตามบรรทัดนี้) แต่เห็นได้ชัดว่าไม่มีวิธีแก้ปัญหาที่ง่าย]

  4. ข้อมูลที่ไม่สมบูรณ์ กำเนิด -SNE ไม่ได้จัดการกับข้อมูลที่ไม่สมบูรณ์ ในความเป็นธรรม PCA ไม่ได้จัดการกับพวกเขา แต่ส่วนขยายจำนวนมากของ PCA สำหรับข้อมูลที่ไม่สมบูรณ์ (เช่นprobabilistic PCA ) ออกมีและเกือบจะเป็นแบบจำลองมาตรฐานมาตรฐาน -SNE ไม่สามารถจัดการข้อมูลที่ไม่สมบูรณ์ได้ (นอกเหนือจากการฝึกอบรม PCA ที่น่าจะเป็นอันดับแรกและส่งคะแนน PC ไปยัง -SNE เป็นอินพุต)t tttt

  5. ไม่ได้ (มากเกินไป) กรณีที่มีขนาดเล็ก k -NE แก้ปัญหาที่รู้จักกันในชื่อปัญหาการเบียดเสียดอย่างมีประสิทธิภาพซึ่งคะแนนที่ค่อนข้างคล้ายกันในมิติที่สูงกว่ายุบตัวลงบนกันในมิติที่ต่ำกว่า (เพิ่มเติมที่นี่ ) ตอนนี้เมื่อคุณเพิ่มขนาดที่ใช้ปัญหาฝูงชนก็จะรุนแรงน้อยลงเช่นกัน ปัญหาที่คุณพยายามแก้ไขผ่านการใช้ -NE ได้รับการลดทอน คุณสามารถแก้ไขปัญหานี้ได้ แต่มันก็ไม่สำคัญ ดังนั้นถ้าคุณต้องการเวกเตอร์เนื่องจากเซตที่ลดลงและนั้นไม่ได้ค่อนข้างเล็กการมองในแง่ดีที่สุดของการแก้ปัญหาการผลิต PCA จะเสนอเสมอt k k kttkkkชุดค่าผสมเชิงเส้นที่ดีที่สุดในแง่ของความแปรปรวนอธิบาย (ขอบคุณ @amoeba สำหรับการสังเกตเห็นว่าฉันทำเลอะเมื่อพยายามที่จะร่างประเด็นนี้ครั้งแรก)

ฉันไม่ได้พูดถึงปัญหาเกี่ยวกับข้อกำหนดในการคำนวณ (เช่นความเร็วหรือขนาดหน่วยความจำ) หรือปัญหาเกี่ยวกับการเลือกไฮเปอร์พารามิเตอร์ที่เกี่ยวข้อง (เช่นความฉงนสนเท่ห์) ฉันคิดว่าสิ่งเหล่านี้เป็นปัญหาภายในของวิธีการ -SNE และไม่เกี่ยวข้องเมื่อเปรียบเทียบกับอัลกอริทึมอื่นt

เพื่อสรุป -NE นั้นยอดเยี่ยม แต่เนื่องจากอัลกอริธึมทั้งหมดมีข้อ จำกัด ในเรื่องของการบังคับใช้ ฉันใช้ -NE เกือบทุกชุดข้อมูลใหม่ที่ฉันได้รับในมือเป็นเครื่องมือวิเคราะห์ข้อมูลที่อธิบาย ฉันคิดว่ามันมีข้อ จำกัด บางประการที่ไม่ได้ทำให้มันใกล้เคียงกับ PCA ฉันขอเน้นย้ำว่า PCA นั้นไม่สมบูรณ์เช่นกัน ตัวอย่างเช่นการแสดงข้อมูลด้วย PCA มักจะด้อยกว่าของ -SNEt tttt


@ amoeba: ฉันลบจุดเพราะมันลำบากเกินไป ฉันส่วนใหญ่มีแรงบันดาลใจจากความคิดของ -NE ที่มีปัญหาเกี่ยวกับปัญหาการเบียดเสียดที่รุนแรงน้อยกว่าเมื่อใช้มิติที่สูงขึ้น (แทนที่จะเป็น ) และเสนอข้อมูลเชิงลึกที่ยุ่งเหยิง พยายามทำ นอกจากนี้เนื่องจากการสร้างใหม่เป็นไปได้จาก LLE (Roweis & Saul, 2000) ทำไม t-SNE ถึงเป็นไปไม่ได้ k = 2 , 3 , 4tk=2,3,4
usεr11852พูดว่า Reinstate Monic

@ amoeba: ขอบคุณที่พูดถึงมัน ฉันปรับปรุงคำตอบของฉันตาม
usεr11852พูดว่า Reinstate Monic

3
เกี่ยวกับจุด # 3: นี่คือกระดาษในพาราเสื้อ sne 2009 lvdmaaten.github.io/publications/papers/AISTATS_2009.pdf ดูเหมือนว่ามันจะไม่ได้ถอดออกจริง ๆ (มีการอ้างอิงน้อยกว่า 25 เท่าของกระดาษ t-sne ดั้งเดิม) แต่อันที่จริงมันค่อนข้างง่ายที่จะนำไปใช้กับเทคโนโลยี / ห้องสมุดในปัจจุบัน ฉันมีมันและทำงานใน Keras; ฉันได้ทำการตรวจสอบ (และอาจขยาย) ในสัปดาห์ที่ผ่านมา
อะมีบาพูดว่า Reinstate Monica

เย็น! (+1) หากคุณได้รับการพิมพ์ล่วงหน้าของ arXiv โปรดแจ้งให้เราทราบ (ที่นี่หรือ 10 เท่า) ฉันจะอยากรู้มากเกี่ยวกับผลลัพธ์ ใช่ฉันเคยเห็นกระดาษแผ่นนั้นในขณะที่เขียนคำตอบนี้ (มันเป็นกระดาษที่มีชื่อเสียงที่ฉันจะพูด) แต่ตามที่คุณบอกว่ามันดูเหมือนจะไม่ได้รับการหยิบยกขึ้นมา จุดที่ # 3 ยังคงใช้ได้อย่างสมบูรณ์: คุณต้องสร้าง DNN เพื่อให้ได้สิ่งที่ PCA เสนอผ่านเมทริกซ์ crossproduct เดียว
usεr11852พูดว่า Reinstate Monic

12

https://stats.stackexchange.com/a/249520/7828

เป็นคำตอบทั่วไปที่ยอดเยี่ยม

ฉันต้องการเน้นปัญหาของคุณอีกเล็กน้อย เห็นได้ชัดว่าคุณต้องการดูว่าตัวอย่างของคุณเกี่ยวข้องกับตัวแปรอินพุททั้ง 7 ของคุณอย่างไร นั่นคือสิ่งที่ t-SNE ไม่ได้ทำ แนวคิดของ SNE และ t-SNE คือการวางเพื่อนบ้านไว้ใกล้กัน (เกือบ) โดยไม่สนใจโครงสร้างของโลก

สิ่งนี้เป็นสิ่งที่ยอดเยี่ยมสำหรับการสร้างภาพเนื่องจากสามารถทำการพล็อตรายการที่คล้ายกันติดกัน (และไม่อยู่ด้านบนของกันและกัน

สิ่งนี้ไม่ดีสำหรับการวิเคราะห์เพิ่มเติม โครงสร้างทั่วโลกหายไปวัตถุบางอย่างอาจถูกบล็อกไม่ให้ย้ายไปยังเพื่อนบ้านของพวกเขาและการแยกระหว่างกลุ่มที่แตกต่างกันนั้นไม่ได้เก็บรักษาไว้ในเชิงปริมาณ ซึ่งส่วนใหญ่เป็นสาเหตุที่ทำให้การจัดกลุ่มในการฉายภาพมักจะทำงานได้ไม่ดีนัก

PCA ค่อนข้างตรงกันข้าม มันพยายามที่จะรักษาคุณสมบัติของโลก (eigenvector ที่มีความแปรปรวนสูง) ในขณะที่มันอาจสูญเสียความเบี่ยงเบนความแปรปรวนต่ำระหว่างประเทศเพื่อนบ้าน


อานั่นคือสิ่งที่ฉันคิดเอาไว้ ฉันไม่สนใจว่าจุดข้อมูลตั้งอยู่ในอวกาศอย่างไร แต่เกี่ยวข้องกับวิธีการวัดที่เกี่ยวข้องกันอย่างไร แน่นอนว่าสองสิ่งนี้เชื่อมโยงกัน แต่ในแง่ของการแสดงภาพและตีความความสัมพันธ์เหล่านี้ฉันสงสัยว่า PCA เท่านั้นที่ทำสิ่งที่ฉันต้องการ ตัวอย่างเช่นมีทั้งความสัมพันธ์เชิงบวกและเชิงลบระหว่างมาตรการและสิ่งที่ฉันสนใจจริงๆคือค่าสัมบูรณ์ของการเชื่อมโยงซึ่งฉันคิดว่าอีกครั้งง่ายต่อการตีความ / ดูว่าฉันใช้ PCA หรือไม่
user3744206

1
สำหรับกรณีที่ใช้มันอาจจะดีกว่าที่จะดูเมทริกซ์สหสัมพันธ์เองนั่นคือทำการเปรียบเทียบแบบคู่เท่านั้น จากนั้นคุณสามารถจัดการความไม่เชิงเส้นได้เช่นโดยใช้ความสัมพันธ์แบบสเปียร์แมน
Anony-Mousse

เราสามารถใช้ T-SNE สำหรับปัญหาคลัสเตอร์ได้หรือไม่ เท่าที่ฉันเข้าใจเราสามารถฉายจุดใหม่และลองจัดกลุ่มในมิติที่ต่ำกว่าได้หรือไม่ เป็นไปได้ไหม ?
Catbuilts

ไม่เพราะ tSNE ไม่ใช่เชิงเส้นคุณไม่สามารถคำนวณหาข้อมูลใหม่ได้ (ดูด้านบน) และมีการสนทนาที่ผิดกฎหมายว่ามันอาจทำให้เข้าใจผิดในการจัดกลุ่มข้อมูลที่คาดการณ์ไว้
Anony-Mousse

1

เพื่อให้ได้มุมหนึ่งที่ใช้ PCA และ t-SNE นั้นไม่ได้เกิดร่วมกัน ในบางสาขาของชีววิทยาเรากำลังจัดการกับข้อมูลมิติสูง (เช่น scRNA-seq เป็นหลายพันมิติ) โดยที่ t-SNE ไม่ได้ปรับขนาด ดังนั้นเราใช้ PCA ก่อนเพื่อลดขนาดของข้อมูลและจากนั้นนำองค์ประกอบหลักด้านบนเราคำนวณกราฟพื้นที่ใกล้เคียงแล้วฝังกราฟเป็น 2 มิติโดยใช้ t-SNE (หรือวิธีการลดมิติข้อมูลแบบไม่เชิงเส้นที่คล้ายกัน เช่น UMAP) เพื่อให้เห็นภาพข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.