การจัดกึ่งกลางสร้างความแตกต่างใน PCA ได้อย่างไร (สำหรับการแยกย่อย SVD และ eigen)
การจัดกึ่งกลาง (หรือลบความหมาย) ข้อมูลของคุณมีความแตกต่างจาก PCA อย่างไร ฉันได้ยินมาว่ามันทำให้คณิตศาสตร์ง่ายขึ้นหรือป้องกันพีซีเครื่องแรกไม่ให้ถูกครอบงำด้วยค่าเฉลี่ยของตัวแปร แต่ฉันรู้สึกว่าฉันยังไม่สามารถเข้าใจแนวคิดได้อย่างมั่นคง ตัวอย่างเช่นคำตอบยอดนิยมที่นี่ข้อมูลที่อยู่ตรงกลางกำจัดการสกัดกั้นในการถดถอยและ PCA ได้อย่างไร อธิบายวิธีที่การไม่อยู่ตรงกลางจะดึง PCA แรกผ่านจุดเริ่มต้นแทนที่จะเป็นแกนหลักของคลาวด์พอยต์ จากความเข้าใจของฉันเกี่ยวกับวิธีที่พีซีได้รับจาก eigenvectors เมทริกซ์ความแปรปรวนร่วมฉันไม่สามารถเข้าใจได้ว่าทำไมสิ่งนี้จึงเกิดขึ้น ยิ่งกว่านั้นการคำนวณของฉันเองที่มีและไม่มีการกำหนดกึ่งกลางดูเหมือนจะไม่สมเหตุสมผล พิจารณาดอกไม้ setosa ในirisชุดข้อมูลใน R. ฉันคำนวณค่าลักษณะเฉพาะและค่าลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมตัวอย่างดังนี้ data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 …