สำหรับการแข่งขัน Kaggle เมื่อเร็ว ๆ นี้ฉัน (กำหนดเอง) กำหนดคุณสมบัติเพิ่มเติมอีก 10 รายการสำหรับชุดการฝึกอบรมของฉันซึ่งจะใช้ในการฝึกอบรมตัวจําแนกป่าแบบสุ่ม ฉันตัดสินใจเรียกใช้ PCA บนชุดข้อมูลด้วยคุณสมบัติใหม่เพื่อดูว่าพวกเขาเปรียบเทียบกันอย่างไร ฉันพบว่าประมาณ 98% ของความแปรปรวนดำเนินการโดยองค์ประกอบแรก (eigenvector แรก) จากนั้นฉันฝึกตัวจําแนกหลายครั้งเพิ่มคุณสมบัติทีละรายการและใช้การตรวจสอบข้ามและข้อผิดพลาด RMS เพื่อเปรียบเทียบคุณภาพของการจําแนก ฉันพบว่าการจัดหมวดหมู่ได้รับการปรับปรุงด้วยคุณสมบัติเพิ่มเติมแต่ละรายการและผลลัพธ์สุดท้าย (พร้อมคุณสมบัติใหม่ทั้ง 10 รายการ) นั้นดีกว่าการเรียกใช้ครั้งแรกด้วย (พูด) คุณสมบัติ 2 อย่าง
เนื่องจาก PCA อ้างว่า ~ 98% ของความแปรปรวนอยู่ในองค์ประกอบแรกของชุดข้อมูลของฉันทำไมคุณภาพของการจำแนกประเภทจึงพัฒนาขึ้นมาก
สิ่งนี้จะเป็นจริงสำหรับตัวแยกประเภทอื่นหรือไม่ RF ปรับข้ามหลายคอร์ดังนั้นจึงเร็วกว่าในการฝึกอบรม (พูด) SVM
ถ้าฉันแปลงชุดข้อมูลไปเป็นพื้นที่ "PCA" แล้วเรียกใช้ตัวจําแนกในพื้นที่แปลง ผลลัพธ์ของฉันจะเปลี่ยนแปลงอย่างไร