มีกี่มิติที่จะลดลงเมื่อทำ PCA


12

จะเลือก K สำหรับ PCA ได้อย่างไร? K คือจำนวนมิติที่จะฉายภาพลงไป ข้อกำหนดเพียงอย่างเดียวคือการไม่สูญเสียข้อมูลมากเกินไป ฉันเข้าใจว่ามันขึ้นอยู่กับข้อมูล แต่ฉันกำลังมองหาภาพรวมทั่วไปอย่างง่าย ๆ เกี่ยวกับคุณสมบัติที่ต้องพิจารณาเมื่อเลือก K


ขึ้นอยู่กับการสูญเสียข้อมูลที่ยอมรับได้และคำสั่งปัญหาด้วย!
Dawny33

ฉันเห็นด้วยกับสองคำตอบด้านล่าง อย่างไรก็ตามคุณรู้หรือไม่ว่ามีวิธีง่ายๆในการหาปริมาณการสูญเสียข้อมูลคือการใช้เส้นทแยงมุมของ SVD ของเมทริกซ์ความแปรปรวนร่วม?
yuqian

คำตอบ:


13

หลังจากดำเนินการตามอัลกอริทึม PCA คุณจะได้รับส่วนประกอบหลักเรียงตามจำนวนข้อมูลที่เก็บไว้ หากคุณเก็บทั้งชุดไว้จะไม่มีข้อมูลสูญหาย ลบพวกเขาทีละคนและฉายพวกเขากลับสู่พื้นที่เดิมคุณสามารถคำนวณการสูญเสียข้อมูล คุณสามารถพล็อตการสูญเสียข้อมูลนี้กับจำนวนขององค์ประกอบหลักที่ลบออกและดูว่ามันทำให้ 'ข้อศอก' เป็นที่เหมาะสมหรือไม่ สิ่งนี้ขึ้นอยู่กับกรณีการใช้งานของคุณ


(+1) ใช่ง่ายเหมือนกัน :)
Dawny33

3

ปกติฉันจะตรวจสอบเปอร์เซ็นต์ของข้อมูลที่เก็บโดยค่า K สมมุติว่าจาก 8 ช่อง 2 แห่งมีข้อมูล 90% จากนั้นจะไม่มีประเด็นในการรวมฟิลด์ 6 หรือ 5 อื่น ๆ ถ้าคุณรู้ข้อมูล mnist จากอินพุต 768 ฉันใช้ 250 ซึ่งกระแทกความถูกต้องของฉันจาก 83 เป็น 96% ความจริงก็คือมิติข้อมูลมากขึ้นทำให้เกิดปัญหามากขึ้น ดังนั้นตัดพวกเขาออก ฉันมักจะใช้เวลา K เท่านั้นที่ถือ 90% ของข้อมูลและใช้งานได้สำหรับฉัน


สวัสดี .. ฉันมีปัญหาคล้ายกันที่ฉันต้องการใช้ข้อมูล% x และไม่แน่ใจว่าจะทำอย่างไร? ฉันตั้งใจจะใช้IPCAเพื่อทำสิ่งนี้ฉันสามารถปล่อยให้ n_components = ไม่มี แต่ฉันจะตัดสินใจได้อย่างไรว่าอะไรคือคุณสมบัติที่มี x% ของข้อมูล?
Arsenal Fanatic
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.