จะเลือก K สำหรับ PCA ได้อย่างไร? K คือจำนวนมิติที่จะฉายภาพลงไป ข้อกำหนดเพียงอย่างเดียวคือการไม่สูญเสียข้อมูลมากเกินไป ฉันเข้าใจว่ามันขึ้นอยู่กับข้อมูล แต่ฉันกำลังมองหาภาพรวมทั่วไปอย่างง่าย ๆ เกี่ยวกับคุณสมบัติที่ต้องพิจารณาเมื่อเลือก K
จะเลือก K สำหรับ PCA ได้อย่างไร? K คือจำนวนมิติที่จะฉายภาพลงไป ข้อกำหนดเพียงอย่างเดียวคือการไม่สูญเสียข้อมูลมากเกินไป ฉันเข้าใจว่ามันขึ้นอยู่กับข้อมูล แต่ฉันกำลังมองหาภาพรวมทั่วไปอย่างง่าย ๆ เกี่ยวกับคุณสมบัติที่ต้องพิจารณาเมื่อเลือก K
คำตอบ:
หลังจากดำเนินการตามอัลกอริทึม PCA คุณจะได้รับส่วนประกอบหลักเรียงตามจำนวนข้อมูลที่เก็บไว้ หากคุณเก็บทั้งชุดไว้จะไม่มีข้อมูลสูญหาย ลบพวกเขาทีละคนและฉายพวกเขากลับสู่พื้นที่เดิมคุณสามารถคำนวณการสูญเสียข้อมูล คุณสามารถพล็อตการสูญเสียข้อมูลนี้กับจำนวนขององค์ประกอบหลักที่ลบออกและดูว่ามันทำให้ 'ข้อศอก' เป็นที่เหมาะสมหรือไม่ สิ่งนี้ขึ้นอยู่กับกรณีการใช้งานของคุณ
ปกติฉันจะตรวจสอบเปอร์เซ็นต์ของข้อมูลที่เก็บโดยค่า K สมมุติว่าจาก 8 ช่อง 2 แห่งมีข้อมูล 90% จากนั้นจะไม่มีประเด็นในการรวมฟิลด์ 6 หรือ 5 อื่น ๆ ถ้าคุณรู้ข้อมูล mnist จากอินพุต 768 ฉันใช้ 250 ซึ่งกระแทกความถูกต้องของฉันจาก 83 เป็น 96% ความจริงก็คือมิติข้อมูลมากขึ้นทำให้เกิดปัญหามากขึ้น ดังนั้นตัดพวกเขาออก ฉันมักจะใช้เวลา K เท่านั้นที่ถือ 90% ของข้อมูลและใช้งานได้สำหรับฉัน