สมมติว่าฉันมีชุดข้อมูลด้วย ขนาด (เช่น ) เพื่อให้แต่ละมิติคือ iid (อีกทางหนึ่งแต่ละมิติ ) และเป็นอิสระจากกัน
ตอนนี้ฉันวาดวัตถุสุ่มจากชุดข้อมูลนี้และรับ เพื่อนบ้านที่ใกล้ที่สุดและคำนวณ PCA ในชุดนี้ ตรงกันข้ามกับสิ่งที่เราคาดหวังค่าลักษณะเฉพาะนั้นไม่เหมือนกันทั้งหมด ในเครื่องแบบ 20 มิติผลลัพธ์ทั่วไปจะเป็นดังนี้:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
สำหรับข้อมูลที่แจกแจงแบบปกติผลลัพธ์จะคล้ายกันมากอย่างน้อยเมื่อทำการลดขนาดให้เป็นผลรวมทั้งหมด (คน การกระจายอย่างชัดเจนมีความแปรปรวนสูงกว่าในตอนแรก)
ฉันสงสัยว่ามีผลใดที่ทำนายพฤติกรรมนี้หรือไม่ ฉันกำลังมองหาการทดสอบว่าชุดของค่าลักษณะเฉพาะค่อนข้างปกติและจำนวนค่าลักษณะเฉพาะเป็นไปตามที่คาดไว้และชุดใดมีความแตกต่างอย่างมากจากค่าที่คาดหวัง
สำหรับขนาดตัวอย่าง (เล็ก) ที่กำหนด จะมีผลอย่างไรถ้าค่าสัมประสิทธิ์สหสัมพันธ์สำหรับสองตัวแปรมีความสำคัญ? แม้ตัวแปร iid จะมีผลลัพธ์ที่ไม่ใช่ 0 เป็นครั้งคราวด้วยค่าต่ำ.