เหตุใดการวินิจฉัยจากการทดสอบทรงกลมของ Bartlett จึงหมายความว่า PCA ไม่เหมาะสม


14

ฉันเข้าใจว่าการทดสอบของ Bartlett เกี่ยวข้องกับการพิจารณาว่าตัวอย่างของคุณมาจากประชากรที่มีความแปรปรวนเท่ากันหรือไม่

หากตัวอย่างนั้นมาจากประชากรที่มีความแปรปรวนเท่ากันเราจะไม่ปฏิเสธสมมติฐานว่างของการทดสอบดังนั้นการวิเคราะห์องค์ประกอบหลักนั้นไม่เหมาะสม

ฉันไม่แน่ใจว่าปัญหาของสถานการณ์นี้อยู่ที่ใด (มีชุดข้อมูลแบบ homoskedastic) อยู่ มีปัญหาอะไรกับการมีชุดข้อมูลที่การกระจายของข้อมูลทั้งหมดของคุณเหมือนกัน? ฉันไม่เห็นเรื่องใหญ่ถ้าเงื่อนไขนี้มีอยู่ เหตุใดจึงทำให้ PCA ไม่เหมาะสม

ฉันไม่สามารถหาข้อมูลที่ดีได้ทุกที่ทางออนไลน์ ใครบ้างมีประสบการณ์ในการตีความว่าเพราะเหตุใดการทดสอบนี้จึงเกี่ยวข้องกับ PCA

คำตอบ:


15

ในการตอบคำถามชื่อ

การทดสอบทรงกลมของ Bartlettซึ่งมักทำก่อน PCA หรือการวิเคราะห์ปัจจัยทดสอบว่าข้อมูลมาจากการกระจายปกติหลายตัวแปรที่ไม่มีศูนย์แปรปรวนร่วมหรือไม่ (โปรดทราบว่ามาตรฐานการทดสอบแบบ asymptotic นั้นไม่สมบูรณ์ในการออกจากภาวะปกติหลายตัวแปรใครอาจใช้ bootstrapping กับ nongaussian cloud) เพื่อให้มันเท่าเทียมกันสมมุติฐานว่างคือเมทริกซ์สหสัมพันธ์ของประชากรเป็นเมทริกซ์เอกลักษณ์ หรือเมทริกซ์ความแปรปรวนร่วมนั้นเป็นเส้นทแยงมุม1

ลองจินตนาการว่าคลาวด์หลายตัวแปรนั้นเป็นทรงกลมอย่างสมบูรณ์ (เช่นเมทริกซ์ความแปรปรวนร่วมของมันนั้นเป็นสัดส่วนกับเมทริกซ์เอกลักษณ์) จากนั้น 1) ขนาดใดก็ได้สามารถให้บริการส่วนประกอบหลักดังนั้นโซลูชัน PCA จึงไม่ซ้ำกัน 2) ส่วนประกอบทั้งหมดมีความแปรปรวนเดียวกัน (ค่าลักษณะเฉพาะ) ดังนั้น PCA จึงไม่สามารถช่วยลดข้อมูลได้

ลองจินตนาการถึงกรณีที่สองที่คลาวด์หลายตัวแปรเป็นรูปวงรีที่มีความยาวเป็นวงรีตามแนวแกนของตัวแปร (เช่นเมทริกซ์ความแปรปรวนร่วมของมันคือแนวทแยงมุม) จากนั้นการหมุนโดยนัยโดยการแปลง PCA จะเป็นศูนย์ องค์ประกอบหลักคือตัวแปรตัวเองเพียงจัดลำดับใหม่และมีการย้อนกลับแบบลงชื่อด้วยตนเอง นี่เป็นผลลัพธ์ที่ไม่สำคัญ: ไม่จำเป็นต้องมี PCA เพื่อทิ้งมิติที่อ่อนแอเพื่อลดข้อมูล


1หลายครั้ง (ต่อการรับรู้ของฉัน) หลายอย่างในสถิติตั้งชื่อตามบาร์ตเลต ที่นี่เรากำลังพูดถึงการทดสอบ sphericity ของ Bartlett


14

ปรากฏว่ามีสองการทดสอบที่เรียกว่าการทดสอบของบาร์ตเลต ตัวอย่างที่คุณอ้างอิง (1937) กำหนดว่ากลุ่มตัวอย่างของคุณมาจากกลุ่มประชากรที่มีความแปรปรวนเท่ากันหรือไม่ อีกอันหนึ่งดูเหมือนว่าจะทดสอบว่าเมทริกซ์สหสัมพันธ์สำหรับชุดข้อมูลนั้นเป็นเมทริกซ์เอกลักษณ์หรือไม่ (1951) มันสมเหตุสมผลมากกว่าที่คุณจะไม่เรียกใช้ PCA กับข้อมูลที่มีเมทริกซ์ความสัมพันธ์ของตัวตนเนื่องจากคุณจะได้รับกลับตัวแปรเดิมของคุณเมื่อพวกเขาไม่เกี่ยวข้องกันแล้ว เปรียบเทียบเช่น


2
+1 สิ่งนี้แก้ปัญหาความสับสนได้ดีกว่าคำตอบอื่น ๆ
HelloWorld
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.