ฉันมีคำถามสองสามข้อเกี่ยวกับ PCA:
- PCA คิดว่าชุดข้อมูลเป็น Gaussian หรือไม่
- จะเกิดอะไรขึ้นเมื่อฉันใช้ PCA กับข้อมูลที่ไม่ใช่เชิงเส้นโดยเนื้อแท้
ให้ชุดข้อมูลกระบวนการคือการทำให้ค่าเฉลี่ย - ปกติแรกตั้งค่าความแปรปรวนเป็น 1 รับ SVD ลดอันดับและสุดท้ายแมปชุดข้อมูลลงในพื้นที่ลดอันดับใหม่ ในพื้นที่ใหม่แต่ละมิติสอดคล้องกับ "ทิศทาง" ของความแปรปรวนสูงสุด
- แต่ความสัมพันธ์ของชุดข้อมูลนั้นในพื้นที่ใหม่เป็นศูนย์เสมอหรือเป็นจริงสำหรับข้อมูลที่เป็นแบบเกาส์โดยเนื้อแท้
สมมติว่าฉันมีชุดข้อมูลสองชุดคือ "A" และ "B" โดยที่ "A" ตรงกับจุดสุ่มตัวอย่างที่นำมาจาก Gaussian ในขณะที่ "B" ตรงกับจุดสุ่มตัวอย่างจากการแจกแจงแบบอื่น (พูดปัวซอง)
- PCA (A) เปรียบเทียบกับ PCA (B) อย่างไร
- โดยการดูที่จุดในพื้นที่ใหม่ฉันจะพิจารณาได้อย่างไรว่า PCA (A) ตรงกับจุดที่สุ่มตัวอย่างจาก Gaussian ในขณะที่ PCA (B) ตรงกับจุดที่สุ่มตัวอย่างจาก Poisson
- ความสัมพันธ์ของคะแนนใน "A" เป็น 0 หรือไม่?
- ความสัมพันธ์ของคะแนนใน "B" เป็น 0 ด้วยหรือไม่
- ที่สำคัญกว่านั้นฉันกำลังถามคำถาม "ถูกต้อง" หรือไม่?
- ฉันควรดูความสัมพันธ์หรือมีเมตริกอื่นที่ฉันควรพิจารณาหรือไม่