ทำไมจึงมีเพียงองค์ประกอบหลักสำหรับข้อมูลหากจำนวนมิติคือ ?


22

ใน PCA เมื่อจำนวนมิติมากกว่า (หรือเท่ากับ) จำนวนตัวอย่างทำไมคุณถึงมีeigenvector ที่ไม่ใช่ศูนย์มากที่สุดในคำอื่น ๆ ยศแปรปรวนเมทริกซ์ในหมู่ที่มิติคือN-1N N - 1 d N N - 1dNN1dNN1

ตัวอย่าง: ตัวอย่างของคุณเป็นภาพเวกเตอร์ซึ่งมีขนาดแต่คุณมีเพียงภาพN = 10d=640×480=307200N=10


5
ลองนึกภาพคะแนนใน 2D หรือ 3D มิติของความหลากหลายที่จุดเหล่านี้ครอบครองอยู่คืออะไร? คำตอบคือ : จุดสองจุดอยู่บนเส้นเสมอ (และเส้นคือ 1 มิติ) มิติที่แน่นอนของพื้นที่ไม่สำคัญ (ตราบใดที่มันมีขนาดใหญ่กว่า ) คะแนนของคุณจะครอบคลุมพื้นที่ย่อย 1 มิติเท่านั้น ดังนั้นความแปรปรวนเป็นเพียง "การแพร่กระจาย" ในพื้นที่ย่อยนี้เช่นตาม 1 มิติ นี้ยังคงเป็นจริงสำหรับการใด ๆNN - 1 = 1 N NN=2N1=1NN
อะมีบาพูดว่า Reinstate Monica

1
ฉันจะเพิ่มความแม่นยำเพิ่มเติมให้กับความคิดเห็นของ @ amoeba จุดกำเนิดก็มีความสำคัญเช่นกัน ดังนั้นหากคุณมีแหล่งกำเนิด N = 2 + จำนวนมิติจะมีค่าสูงสุด 2 (ไม่ใช่ 1) อย่างไรก็ตามใน PCA เรามักจะจัดวางข้อมูลไว้ที่ศูนย์กลางซึ่งหมายความว่าเราใส่จุดเริ่มต้นไว้ในพื้นที่ของคลาวด์ข้อมูลจากนั้นมิติหนึ่งจะถูกใช้ไปและคำตอบจะเป็น "N-1" ดังที่อะมีบาแสดง
ttnphns

นี่คือสิ่งที่ทำให้ฉันสับสน มันไม่ได้อยู่ตรงกลางที่ทำลายมิติใช่มั้ย หากคุณมีตัวอย่าง N และมิติ N แน่นอนแม้กระทั่งหลังจากที่อยู่ตรงกลางคุณยังคงมี N eigenvectors .. ?
GrokingPCA

2
ทำไม? มันอยู่ตรงกลางที่ทำลายหนึ่งมิติ การจัดกึ่งกลาง (ตามค่าเฉลี่ยเลขคณิต) "ย้าย" ต้นกำเนิดจาก "นอก" ลงในช่องว่าง "ถูกขยาย" โดยข้อมูล ด้วยตัวอย่างของ N = 2 2 คะแนน + จุดกำเนิดบางจุดโดยทั่วไปครอบคลุมระนาบ เมื่อคุณจัดกึ่งกลางข้อมูลนี้คุณวางจุดกำเนิดบนเส้นตรงครึ่งทางระหว่างจุด 2 จุด ดังนั้นข้อมูลจะขยายเฉพาะบรรทัด
ttnphns

3
Euclid รู้เรื่องนี้มา 2300 ปีก่อน: สองจุดกำหนดเส้นตรง, สามจุดกำหนดระนาบ generalizing,จุดที่กำหนดมิติปริภูมิแบบยุคลิด N - 1ยังไม่มีข้อความยังไม่มีข้อความ-1
whuber

คำตอบ:


20

พิจารณาสิ่งที่ PCA ทำ พูดง่ายๆก็คือ PCA (โดยทั่วไปแล้วจะทำงาน) สร้างระบบพิกัดใหม่โดย:

  1. เปลี่ยนต้นกำเนิดเป็นเซนทรอยด์ของข้อมูลของคุณ
  2. บีบและ / หรือยืดแกนเพื่อทำให้ความยาวเท่ากันและ
  3. หมุนแกนของคุณเป็นแนวใหม่

(สำหรับรายละเอียดเพิ่มเติมให้ดูหัวข้อ CV ที่ยอดเยี่ยมนี้: ทำความเข้าใจกับการวิเคราะห์องค์ประกอบหลัก, ค่าเฉพาะและค่าลักษณะเฉพาะ ) อย่างไรก็ตามมันไม่เพียงแค่หมุนแกนของคุณแบบเก่า ๆ ใหม่ของคุณ(องค์ประกอบหลักตัวแรก) มุ่งเน้นไปที่ทิศทางข้อมูลของคุณในรูปแบบที่หลากหลาย องค์ประกอบหลักที่สองคือการมุ่งเน้นในทิศทางของจำนวนมากที่สุดต่อไปของการเปลี่ยนแปลงที่เป็นมุมฉากกับองค์ประกอบหลักแรก ส่วนประกอบหลักที่เหลือจะเกิดขึ้นเช่นเดียวกัน X1

กับในใจให้ตรวจสอบตัวอย่าง @ อะมีบาของ นี่คือเมทริกซ์ข้อมูลที่มีสองจุดในพื้นที่สามมิติ: ลองดูจุดเหล่านี้ใน ( pseudo) scatterplot สามมิติ:

X=[111222]

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นทำตามขั้นตอนข้างต้น (1) ที่มาของระบบพิกัดใหม่จะตั้งอยู่ที่1.5) (2) แกนมีค่าเท่ากันแล้ว (3) องค์ประกอบหลักตัวแรกจะเป็นแนวทแยงมุมจากถึงซึ่งเป็นทิศทางของการเปลี่ยนแปลงที่ยิ่งใหญ่ที่สุดสำหรับข้อมูลเหล่านี้ ตอนนี้องค์ประกอบหลักที่สองจะต้องเป็นมุมฉากเป็นอันดับแรกและควรจะไปในทิศทางของการเปลี่ยนแปลงที่ยิ่งใหญ่ที่สุดที่เหลืออยู่ แต่ทิศทางนั้นคืออะไร? มันมาจากถึงหรือจากถึงหรืออย่างอื่น? ไม่มีการเปลี่ยนแปลงที่เหลืออยู่ดังนั้นจึงไม่สามารถมีองค์ประกอบหลักได้อีก( 0 , 0 , 0 ) ( 3 , 3 , 3 ) ( 0 , 0 , 3 ) ( 3 , 3 , 0 ) ( 0 , 3 , 0 ) ( 3 , 0 , 3 )(1.5,1.5,1.5)(0,0,0)(3,3,3)(0,0,3)(3,3,0)(0,3,0)(3,0,3).

ด้วยข้อมูลเราสามารถใส่ได้ (สูงสุด)ส่วนประกอบหลัก N - 1 = 1ยังไม่มีข้อความ=2ยังไม่มีข้อความ-1=1

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.