ฉันเจอสถานการณ์ที่ฉันมี 10 สัญญาณ / คนสำหรับ 10 คน (ตัวอย่าง 100 ตัวอย่าง) ที่มีจุดข้อมูล 14,000 (มิติ) ที่ฉันต้องผ่านไปยังตัวจําแนก ฉันต้องการลดขนาดของข้อมูลนี้และ PCA น่าจะเป็นวิธีที่ทำได้ อย่างไรก็ตามฉันสามารถค้นหาตัวอย่างของ PCA ที่มีจำนวนตัวอย่างมากกว่าจำนวนมิติเท่านั้น ฉันใช้แอปพลิเคชัน PCA ที่ค้นหาพีซีที่ใช้ SVD เมื่อฉันผ่านชุดข้อมูล 100x14000 ชุดของฉันมี 101 ชิ้นที่ส่งคืนดังนั้นขนาดส่วนใหญ่จะถูกมองข้ามอย่างชัดเจน โปรแกรมระบุว่าพีซี 6 เครื่องแรกมีความแปรปรวน 90%
เป็นสมมติฐานที่สมเหตุสมผลหรือไม่ว่าพีซี 101 เครื่องเหล่านี้มีความแปรปรวนทั้งหมดและขนาดที่เหลืออยู่นั้นไม่สามารถละเลยได้?
หนึ่งในเอกสารที่ฉันได้อ่านอ้างว่าด้วยชุดข้อมูลที่คล้ายกัน (แต่คุณภาพต่ำกว่าเล็กน้อย) กว่าของฉันพวกเขาสามารถลดขนาด 4500 มิติลงเหลือ 80 เก็บข้อมูล 96% ของข้อมูลต้นฉบับ คลื่นกระดาษผ่านรายละเอียดของเทคนิค PCA ที่ใช้มีเพียง 3100 ตัวอย่างเท่านั้นและฉันมีเหตุผลที่จะเชื่อว่าตัวอย่างน้อยกว่าที่ใช้ในการปฏิบัติ PCA จริง ๆ (เพื่อลบอคติจากขั้นตอนการจำแนก)
ฉันขาดอะไรไปหรือนี่เป็นวิธีที่ PCA ใช้กับชุดข้อมูลขนาดตัวอย่างที่มีขนาดต่ำมากหรือไม่? ข้อเสนอแนะใด ๆ จะได้รับการชื่นชมอย่างมาก