PCA มีความหมายว่าอย่างไรในการรักษาระยะทางคู่ที่มีขนาดใหญ่เท่านั้น?

ขณะนี้ฉันกำลังอ่านเทคนิคการสร้างภาพข้อมูล t-SNE และได้มีการกล่าวว่าหนึ่งในข้อเสียของการใช้การวิเคราะห์องค์ประกอบหลัก (PCA) สำหรับการแสดงข้อมูลมิติสูงคือการรักษาระยะห่างระหว่างจุดสองจุดขนาดใหญ่เท่านั้น จุดความหมายที่อยู่ห่างกันในพื้นที่มิติสูงก็จะปรากฏห่างกันในพื้นที่ย่อยต่ำ แต่นอกเหนือจากนั้นระยะทางคู่อื่น ๆ ทั้งหมดจะได้รับการเมาขึ้น

ใครช่วยให้ฉันเข้าใจว่าทำไมมันถึงเป็นเช่นนั้นและมันหมายถึงอะไร?

— ผู้ใช้งาน
แหล่งที่มา

PCA นั้นเกี่ยวข้องกับระยะทาง Euclidian และ Mahalanobis ซึ่งเป็นสายตาสั้นในมิติที่สูงขึ้นพวกเขาไม่สามารถมองเห็นระยะทางไกล ๆ ได้

— Aksakal

โปรดทราบว่า PCA ซึ่งเห็นว่าเป็นระบบ MDS ที่ง่ายที่สุดนั้นเกี่ยวกับการสร้างระยะทางแบบยุคลิดกำลังสองบวกใหม่ ความแม่นยำความแม่นยำสูงสำหรับระยะทางเล็ก ๆ

— ttnphns

พิจารณาชุดข้อมูลต่อไปนี้:

แกน PC1 เพิ่มความแปรปรวนของเส้นโครงให้สูงสุด ดังนั้นในกรณีนี้มันจะไปตามแนวทแยงมุมจากมุมล่างซ้ายไปขวาบน:

ระยะทางคู่ที่ใหญ่ที่สุดในชุดข้อมูลดั้งเดิมอยู่ระหว่างสองจุดที่อยู่ห่างออกไป สังเกตว่ามันเกือบจะถูกเก็บรักษาไว้อย่างแน่นอนใน PC1 ระยะทางสั้น ๆ ที่มีขนาดเล็ก แต่ยังคงเป็นกอบเป็นกำอยู่ระหว่างแต่ละจุดที่อยู่ห่างไกลและจุดอื่น ๆ ทั้งหมด สิ่งเหล่านั้นจะได้รับการเก็บรักษาไว้อย่างดีเช่นกัน แต่ถ้าคุณดูที่ระยะห่างระหว่างจุดเล็ก ๆ ในคลัสเตอร์ตรงกลางคุณจะเห็นว่าบางส่วนนั้นมีการบิดเบี้ยวอย่างรุนแรง

ฉันคิดว่านี่ให้สัญชาตญาณที่ถูกต้อง: PCA พบพื้นที่ย่อยในมิติต่ำที่มีความแปรปรวนสูงสุด ความแปรปรวนสูงสุดหมายความว่าพื้นที่ย่อยจะมีแนวโน้มที่จะจัดตำแหน่งเช่นเข้าใกล้จุดที่อยู่ห่างจากศูนย์กลาง ดังนั้นระยะทางคู่ที่ใหญ่ที่สุดจะมีแนวโน้มที่จะได้รับการเก็บรักษาไว้อย่างดีและระยะทางที่สั้นลง

อย่างไรก็ตามโปรดทราบว่าสิ่งนี้ไม่สามารถเปลี่ยนเป็นอาร์กิวเมนต์ที่เป็นทางการได้เพราะในความเป็นจริงมันไม่จำเป็นต้องเป็นเรื่องจริง ลองดูที่คำตอบของฉันในการวิเคราะห์องค์ประกอบหลักกับการปรับสเกลหลายมิติคืออะไร ถ้าคุณใช้เวลาจุดจากตัวเลขข้างต้นสร้างเมทริกซ์ของระยะทางคู่และขอให้สิ่งที่เป็นประมาณการ 1D ที่รักษาระยะห่างที่ใกล้ที่สุดเท่าที่เป็นไปได้แล้วคำตอบจะได้รับโดยวิธี MDS และไม่ได้กำหนดโดย PC1 อย่างไรก็ตามถ้าคุณพิจารณาเมทริกซ์สเกลาร์แบบเป็นศูนย์ที่จากนั้นก็จะเป็น $10$ $10\times 10$ $10\times 10$ ในความเป็นจริงที่ดีที่สุดเก็บรักษาไว้อย่างแม่นยำโดย PC1 (ดูคำตอบของฉันมีเพื่อพิสูจน์) และเราสามารถยืนยันได้ว่าระยะทางที่มีขนาดใหญ่ตามปกติมักหมายถึงผลิตภัณฑ์สเกลาร์ขนาดใหญ่เช่นกัน ในความเป็นจริงหนึ่งในอัลกอริทึม MDS (แบบดั้งเดิม / Torgerson MDS) ยินดีที่จะทำสมมติฐานนี้อย่างชัดเจน

ดังนั้นเพื่อสรุป:

PCA ตั้งเป้าหมายที่จะรักษาเมทริกซ์ของผลิตภัณฑ์สเกลาร์แบบคู่ในกรณีที่ผลรวมของความแตกต่างยกกำลังสองระหว่างผลิตภัณฑ์สเกลาร์เดิมและแบบสร้างใหม่ควรมีค่าน้อยที่สุด
ซึ่งหมายความว่ามันจะรักษาผลิตภัณฑ์สเกลาร์ที่มีค่าสัมบูรณ์ที่ใหญ่ที่สุดและจะให้ความสำคัญกับผลิตภัณฑ์ที่มีค่าสัมบูรณ์เล็กน้อยน้อยลง
ดังนั้น PCA รักษาผลิตภัณฑ์สเกลาร์ที่ใหญ่กว่าดีกว่าตัวที่เล็กกว่า
ระยะทางแบบคู่จะได้รับการเก็บรักษาไว้ให้มากที่สุดเท่าที่จะคล้ายกับผลิตภัณฑ์สเกลาร์ซึ่งบ่อยครั้ง แต่ไม่เสมอไป หากเป็นเช่นนั้นระยะทางที่ใหญ่กว่าของคู่จะถูกเก็บรักษาไว้ดีกว่าระยะทางที่สั้นกว่า

— อะมีบา
แหล่งที่มา

ฉันไม่คิดว่านี่เป็นภาพที่ถูกต้อง มันไม่ได้แสดงให้เห็นว่าสิ่งต่าง ๆ เลวร้ายลงไปอย่างไรเมื่อขนาดเพิ่มขึ้น

— อั

ฉันไม่แน่ใจว่าฉันเข้าใจประเด็นของคุณ @Aksakal ลองโพสต์คำตอบอื่นด้วยมุมมองของคุณ ฉันคิดว่าผลของการรักษาขนาดใหญ่กว่าระยะทางคู่ที่เล็กกว่านั้นมีอยู่แล้วในแบบ 2D และไม่จำเป็นต้องคิดถึงมิติที่สูงเพื่อที่จะเข้าใจว่าเกิดอะไรขึ้น ดังนั้นฉันจึงมุ่งเน้นไปที่ตัวอย่าง 2 มิติที่เรียบง่าย

— อะมีบา

สิ่งที่คุณวาดจะใช้กับวิธีการใด ๆ ฉันสามารถใส่คะแนนสองสามคะแนนให้ไกลและให้เหตุผลว่าพวกเขามีน้ำหนักเกินที่เหลือ ปัญหาเกี่ยวกับระยะทางแบบ

— ยุคลิด

+1 แต่ฉันจะเปลี่ยนสำเนียงค่อนข้างแตกต่างจากที่คุณทำ (จุด 4 ส่วนใหญ่) ไม่ใช่ว่ามันเป็นระยะทางและเป็นผลคูณของสเกลาร์ (เมทริกซ์ "การคูณสองครั้ง") - หลังจากทั้งหมดให้แนวทแยงมุมพวกเขารักษาข้อมูลที่เหมือนกัน ค่อนข้างปัญหาคล้ายกับอัตราต่อรองการวิเคราะห์ PCA และปัจจัย PCoA ของ Torgerson ในฐานะ PCA จะตั้งเป้าหมายที่จะสร้าง SC ใหม่ แยง. เมทริกซ์ส่วนใหญ่ผ่านเส้นทแยงมุมของมันไม่ได้ควบคุมเฉพาะวิธีการที่รายการแนวทแยงมุมจะได้รับการติดตั้ง

— ttnphns

(ต่อ) ร่องรอยของเส้นทแยงมุมที่กล่าวถึงคือความแปรปรวนโดยรวมและเกี่ยวข้องโดยตรงกับผลรวมของระยะทางคู่ที่เป็นคู่กำลังสองทั้งหมด มันอาจจะเป็นวลีในแง่ของทฤษฎีบท Eckart-Young ซึ่งระบุว่าคลาวด์ข้อมูลที่สร้างขึ้นใหม่ PCA นั้นใกล้เคียงที่สุดในแง่ของผลรวมของกำลังสองกับแบบดั้งเดิม นั่นคือระยะทางกำลังสองโดยรวมระหว่างจุดเก่ากับจุดที่ฉาย PCA นั้นน้อยที่สุด นี่ไม่เหมือนกับระยะทางคู่เก่า - ความสัมพันธ์ pw ระยะทางใหม่

— ttnphns