ตัวชี้วัดที่ดีในการประเมินคุณภาพของ PCA คืออะไรเพื่อเลือกจำนวนขององค์ประกอบ


10

อะไรคือการวัดที่ดีสำหรับการประเมินคุณภาพของการวิเคราะห์องค์ประกอบหลัก (PCA)

ฉันใช้อัลกอริทึมนี้กับชุดข้อมูล วัตถุประสงค์ของฉันคือลดจำนวนฟีเจอร์ (ข้อมูลซ้ำซ้อนมาก) ฉันรู้ว่าเปอร์เซ็นต์ของความแปรปรวนที่เก็บไว้เป็นตัวบ่งชี้ที่ดีว่าเราเก็บข้อมูลไว้มากน้อยเพียงใดจะมีตัวชี้วัดข้อมูลอื่นที่ฉันสามารถใช้เพื่อให้แน่ใจว่าฉันลบข้อมูลซ้ำซ้อนและไม่สูญเสียข้อมูลดังกล่าวหรือไม่


3
พูดอย่างเคร่งครัดไม่มีข้อมูล "ซ้ำซ้อน" เว้นแต่ว่าข้อมูลเริ่มต้นของคุณจะถูกจัดวางอย่างสมบูรณ์แบบ เรามักจะเห็นเปอร์เซ็นต์ของความแปรปรวนที่เก็บรักษาไว้ ("เราใช้องค์ประกอบหลักห้าประการแรกซึ่งคิดเป็น 90% ของความแปรปรวน") ฉันสนใจที่จะเห็นทางเลือกอื่น
Stephan Kolassa

เนื่องจากหนึ่งในแท็กของคุณคือทฤษฎีข้อมูล: วิธีทางอ้อมในการประเมินว่า PCA ทำงานเพื่อตรวจสอบสมมติฐานภายใต้ทฤษฎีข้อมูลซึ่งบอกเราว่ามีการสูญเสียข้อมูลน้อยสำหรับการลดขนาดที่กำหนด Wiki บอกว่านี่เป็นเช่นนั้นเมื่อข้อมูลของคุณเป็นผลรวมของสัญญาณ Gaussian บวกกับเสียง Gaussian en.wikipedia.org/wiki/…
CloseToC

คำตอบ:


17

ฉันคิดว่าส่วนหนึ่งของคำถามนี้คือการวัดอื่น ๆ ที่มีอยู่นอกเหนือจากความแปรปรวนสะสม (CPV) และวิธีการแปลงที่คล้ายกัน คำตอบนี้คือใช่จำนวนมาก

กระดาษที่ดีเยี่ยมในบางตัวเลือกคือ Valle 1999:

มันครอบคลุมมากกว่า CPV แต่ยังรวมถึงการวิเคราะห์แบบขนานการตรวจสอบข้ามความแปรปรวนของข้อผิดพลาดในการสร้างใหม่ (VRE) วิธีการตามเกณฑ์ของข้อมูลและอื่น ๆ คุณอาจทำตามคำแนะนำที่ทำโดยกระดาษหลังจากการเปรียบเทียบและใช้ VRE แต่การตรวจสอบข้ามตาม PRESS ยังทำงานได้ดีในประสบการณ์ของฉันและพวกเขาได้รับผลลัพธ์ที่ดีด้วยเช่นกัน จากประสบการณ์ของฉัน CPV สะดวกและง่ายและทำงานได้ดี แต่ทั้งสองวิธีมักจะดีกว่า

มีวิธีอื่นในการประเมินว่าแบบจำลอง PCA ของคุณดีแค่ไหนหากคุณรู้เพิ่มเติมเกี่ยวกับข้อมูล วิธีหนึ่งคือการเปรียบเทียบการโหลด PCA โดยประมาณกับความจริงถ้าคุณรู้ (ซึ่งคุณจะจำลอง) สิ่งนี้สามารถทำได้โดยการคำนวณอคติของการโหลดโดยประมาณเป็นจริง ยิ่งความลำเอียงของคุณยิ่งใหญ่ สำหรับวิธีการทำเช่นนั้นคุณสามารถตรวจสอบกระดาษนี้ที่พวกเขาใช้วิธีนี้เพื่อเปรียบเทียบวิธีการ ไม่สามารถใช้งานได้ในกรณีข้อมูลจริงซึ่งคุณไม่ทราบว่าโหลด PCA จริง สิ่งนี้พูดถึงจำนวนคอมโพเนนต์ที่คุณลบน้อยกว่าความลำเอียงของแบบจำลองของคุณเนื่องจากอิทธิพลของการสังเกตจากภายนอก แต่ยังคงทำหน้าที่เป็นตัวชี้วัดคุณภาพแบบจำลอง


4
เชื่อมโยงไปยังกระดาษ Valle, Li และ Qin
Zhubarb

3

นอกจากนี้ยังมีมาตรการตามเกณฑ์ข้อมูลทางทฤษฎีเช่น

MDL ของ Rissanen (และรูปแบบต่าง ๆ )


@user: 45382 ใช่นั่นเป็นอีกอัน นอกจากนี้ยังมีการสัมผัสในกระดาษ Zhubarb เชื่อมโยงไปยัง
Deathkill14

@ Deathkill14 ถูกต้องฉันอ่านกระดาษมาตรการข้อมูลทางทฤษฎีที่กล่าวถึง (ในความเป็นจริงเป็นทางเลือกที่ดี)
Nikos M.

กระดาษทฤษฎีที่ดีใน MDL, MML และ Bayesianism: Vitany & Li, MDL เหมาะและความสัมพันธ์กับ Bayesianism citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 นอกจากนี้วิธีการเลือกรูปแบบอื่น ๆ เช่น AIC และ BIC ยังเป็นการใช้งาน MDL อย่างมีประสิทธิภาพ
ggll
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.