ในหลักสูตรการเรียนรู้ของเครื่องฉันได้เรียนรู้ว่าการใช้งานทั่วไปของ PCA ( การวิเคราะห์องค์ประกอบหลัก ) คือการเร่งความเร็วอัลกอริทึมการเรียนรู้ของเครื่อง ตัวอย่างเช่นสมมติว่าคุณกำลังฝึกอบรมโมเดลการถดถอยแบบโลจิสติกส์ หากคุณมีชุดฝึกอบรมสำหรับ i จาก 1 ถึง n และปรากฎมิติของเวกเตอร์ x ของคุณใหญ่มาก (สมมุติว่าส่วนหนึ่ง) คุณสามารถใช้ PCA เพื่อรับ ขนาดเล็กลง (สมมุติว่าขนาด k) เวกเตอร์ของคุณลักษณะ z จากนั้นคุณสามารถฝึกรูปแบบการถดถอยโลจิสติกของคุณในชุดฝึกอบรม( z ( i ) , y ( i )สำหรับฉันตั้งแต่ 1 ถึง n การฝึกอบรมโมเดลนี้จะเร็วขึ้นเนื่องจากฟีเจอร์ของคุณมีขนาดน้อย
อย่างไรก็ตามฉันไม่เข้าใจว่าทำไมคุณไม่สามารถลดขนาดของคุณลักษณะเวกเตอร์ของคุณเป็นขนาด k ได้เพียงแค่เลือกคุณสมบัติของคุณแบบสุ่มและกำจัดส่วนที่เหลือ
เวกเตอร์ z คือการรวมกันเชิงเส้นของเวกเตอร์คุณลักษณะของคุณ เนื่องจากเวกเตอร์ z ถูก จำกัด ไว้ที่พื้นผิว k-มิติคุณสามารถเขียนค่าคุณลักษณะที่ถูกกำจัด ak เป็นฟังก์ชันเชิงเส้นของค่าคุณลักษณะ k ที่เหลืออยู่และทำให้ z ทั้งหมดสามารถเกิดขึ้นได้จากการรวมกันเชิงเส้นของคุณสมบัติ k ของคุณ ดังนั้นโมเดลที่ไม่ผ่านการฝึกอบรมในชุดการฝึกอบรมที่มีคุณสมบัติการกำจัดควรมีพลังเช่นเดียวกับแบบจำลองการฝึกอบรมในชุดการฝึกอบรมที่มี PCA ลดขนาดลงหรือไม่ มันขึ้นอยู่กับประเภทของแบบจำลองและมันอาศัยการผสมผสานเชิงเส้นบางประเภทหรือไม่?