พิจารณาชุดข้อมูลต่อไปนี้:
แกน PC1 เพิ่มความแปรปรวนของเส้นโครงให้สูงสุด ดังนั้นในกรณีนี้มันจะไปตามแนวทแยงมุมจากมุมล่างซ้ายไปขวาบน:
ระยะทางคู่ที่ใหญ่ที่สุดในชุดข้อมูลดั้งเดิมอยู่ระหว่างสองจุดที่อยู่ห่างออกไป สังเกตว่ามันเกือบจะถูกเก็บรักษาไว้อย่างแน่นอนใน PC1 ระยะทางสั้น ๆ ที่มีขนาดเล็ก แต่ยังคงเป็นกอบเป็นกำอยู่ระหว่างแต่ละจุดที่อยู่ห่างไกลและจุดอื่น ๆ ทั้งหมด สิ่งเหล่านั้นจะได้รับการเก็บรักษาไว้อย่างดีเช่นกัน แต่ถ้าคุณดูที่ระยะห่างระหว่างจุดเล็ก ๆ ในคลัสเตอร์ตรงกลางคุณจะเห็นว่าบางส่วนนั้นมีการบิดเบี้ยวอย่างรุนแรง
ฉันคิดว่านี่ให้สัญชาตญาณที่ถูกต้อง: PCA พบพื้นที่ย่อยในมิติต่ำที่มีความแปรปรวนสูงสุด ความแปรปรวนสูงสุดหมายความว่าพื้นที่ย่อยจะมีแนวโน้มที่จะจัดตำแหน่งเช่นเข้าใกล้จุดที่อยู่ห่างจากศูนย์กลาง ดังนั้นระยะทางคู่ที่ใหญ่ที่สุดจะมีแนวโน้มที่จะได้รับการเก็บรักษาไว้อย่างดีและระยะทางที่สั้นลง
อย่างไรก็ตามโปรดทราบว่าสิ่งนี้ไม่สามารถเปลี่ยนเป็นอาร์กิวเมนต์ที่เป็นทางการได้เพราะในความเป็นจริงมันไม่จำเป็นต้องเป็นเรื่องจริง ลองดูที่คำตอบของฉันในการวิเคราะห์องค์ประกอบหลักกับการปรับสเกลหลายมิติคืออะไร ถ้าคุณใช้เวลาจุดจากตัวเลขข้างต้นสร้างเมทริกซ์ของระยะทางคู่และขอให้สิ่งที่เป็นประมาณการ 1D ที่รักษาระยะห่างที่ใกล้ที่สุดเท่าที่เป็นไปได้แล้วคำตอบจะได้รับโดยวิธี MDS และไม่ได้กำหนดโดย PC1 อย่างไรก็ตามถ้าคุณพิจารณาเมทริกซ์สเกลาร์แบบเป็นศูนย์ที่จากนั้นก็จะเป็น1010 × 1010 × 10ในความเป็นจริงที่ดีที่สุดเก็บรักษาไว้อย่างแม่นยำโดย PC1 (ดูคำตอบของฉันมีเพื่อพิสูจน์) และเราสามารถยืนยันได้ว่าระยะทางที่มีขนาดใหญ่ตามปกติมักหมายถึงผลิตภัณฑ์สเกลาร์ขนาดใหญ่เช่นกัน ในความเป็นจริงหนึ่งในอัลกอริทึม MDS (แบบดั้งเดิม / Torgerson MDS) ยินดีที่จะทำสมมติฐานนี้อย่างชัดเจน
ดังนั้นเพื่อสรุป:
- PCA ตั้งเป้าหมายที่จะรักษาเมทริกซ์ของผลิตภัณฑ์สเกลาร์แบบคู่ในกรณีที่ผลรวมของความแตกต่างยกกำลังสองระหว่างผลิตภัณฑ์สเกลาร์เดิมและแบบสร้างใหม่ควรมีค่าน้อยที่สุด
- ซึ่งหมายความว่ามันจะรักษาผลิตภัณฑ์สเกลาร์ที่มีค่าสัมบูรณ์ที่ใหญ่ที่สุดและจะให้ความสำคัญกับผลิตภัณฑ์ที่มีค่าสัมบูรณ์เล็กน้อยน้อยลง
- ดังนั้น PCA รักษาผลิตภัณฑ์สเกลาร์ที่ใหญ่กว่าดีกว่าตัวที่เล็กกว่า
- ระยะทางแบบคู่จะได้รับการเก็บรักษาไว้ให้มากที่สุดเท่าที่จะคล้ายกับผลิตภัณฑ์สเกลาร์ซึ่งบ่อยครั้ง แต่ไม่เสมอไป หากเป็นเช่นนั้นระยะทางที่ใหญ่กว่าของคู่จะถูกเก็บรักษาไว้ดีกว่าระยะทางที่สั้นกว่า