แนวคิดพื้นฐานเมื่อใช้ PCA เป็นเครื่องมือสำหรับการเลือกคุณสมบัติคือการเลือกตัวแปรตามขนาด (จากมากที่สุดไปหาน้อยที่สุดในค่าสัมบูรณ์) ของสัมประสิทธิ์ ( โหลด ) คุณอาจจำได้ว่า PCA พยายามที่จะแทนที่ตัวแปร (มีความสัมพันธ์มากขึ้นหรือน้อยลง) ด้วยชุดค่าผสมเชิงเส้นที่ไม่สัมพันธ์กัน (ประมาณการ) ของตัวแปรดั้งเดิม ให้เราไม่สนใจวิธีเลือกเหมาะสมที่สุดสำหรับปัญหาที่เกิดขึ้น องค์ประกอบหลักเหล่านั้นถูกจัดอันดับตามความสำคัญผ่านการอธิบายความแปรปรวนและตัวแปรแต่ละอย่างมีส่วนช่วยในระดับที่แตกต่างกันไปในแต่ละองค์ประกอบ การใช้เกณฑ์ผลต่างที่ใหญ่ที่สุดจะคล้ายกับการแยกคุณลักษณะpk<pkk โดยที่องค์ประกอบหลักถูกใช้เป็นคุณสมบัติใหม่แทนที่จะเป็นตัวแปรดั้งเดิม อย่างไรก็ตามเราสามารถตัดสินใจที่จะเก็บเฉพาะองค์ประกอบแรกและเลือกตัวแปรที่มีสัมประสิทธิ์สัมบูรณ์สูงสุด หมายเลขอาจขึ้นอยู่กับสัดส่วนของจำนวนตัวแปร (เช่นเก็บเฉพาะ 10% สูงสุดของตัวแปร ) หรือค่าตัดคงที่ (เช่นพิจารณาขีด จำกัด ของค่าสัมประสิทธิ์ปกติ) วิธีการนี้มีความคล้ายคลึงกับโอเปอเรเตอร์Lassoในการลงโทษที่ถูกลงโทษ (หรือการถดถอยPLS ) แม้ว่าค่าของหรือจำนวนขององค์ประกอบที่จะเก็บรักษาเป็นตัวเลือกที่ชัดเจนj<pjpj
ปัญหาเกี่ยวกับการใช้ PCA คือ (1) การวัดจากตัวแปรดั้งเดิมทั้งหมดถูกใช้ในการฉายภาพไปยังพื้นที่มิติด้านล่าง (2) พิจารณาเฉพาะความสัมพันธ์เชิงเส้นเท่านั้นและ (3) วิธีการที่ใช้ PCA หรือ SVD เช่นกัน เป็นวิธีการคัดกรองแบบ univariate (t-test, correlation, ฯลฯ ) อย่าคำนึงถึงธรรมชาติของตัวแปรหลายตัวแปรที่มีศักยภาพของโครงสร้างข้อมูล (เช่นการปฏิสัมพันธ์ระหว่างคำสั่งที่สูงขึ้นระหว่างตัวแปร)
เกี่ยวกับจุดที่ 1 มีการเสนอวิธีการคัดกรองที่ละเอียดยิ่งขึ้นบางตัวอย่างเช่นการวิเคราะห์คุณสมบัติหลักหรือวิธีการแบบขั้นตอนเช่นเดียวกับที่ใช้สำหรับ ' การโกนของยีน ' ในการศึกษาการแสดงออกของยีน นอกจากนี้อาจใช้PCA กระจัดกระจายเพื่อทำการลดขนาดและเลือกตัวแปรตามผลลัพธ์การโหลดตัวแปร เกี่ยวกับจุดที่ 2 เป็นไปได้ที่จะใช้เคอร์เนล PCA (ใช้เคล็ดลับเคอร์เนล ) หากจำเป็นต้องฝังความสัมพันธ์แบบไม่เชิงเส้นลงในพื้นที่มิติที่ต่ำกว่า ต้นไม้ตัดสินใจหรือดีกว่าป่าสุ่มขั้นตอนวิธีการอาจจะดีขึ้นสามารถที่จะแก้ปัญหาจุด 3. หลังจะช่วยให้ได้รับมา Gini- หรือเปลี่ยนแปลงตามมาตรการสำคัญตัวแปร
จุดสุดท้าย: หากคุณตั้งใจจะทำการเลือกคุณสมบัติก่อนที่จะใช้การจำแนกประเภทหรือแบบจำลองการถดถอยให้ตรวจสอบความถูกต้องของกระบวนการทั้งหมด (ดู .107.10.2 ขององค์ประกอบของการเรียนรู้ทางสถิติหรือAmbroise และ McLachlan, 2002 )
ในขณะที่คุณสนใจโซลูชัน R ฉันขอแนะนำให้ดูที่ชุดคาเร็ตซึ่งมีฟังก์ชันที่มีประโยชน์มากมายสำหรับการประมวลผลข้อมูลล่วงหน้าและการเลือกตัวแปรในบริบทการจำแนกหรือการถดถอย