สำหรับการวัดข้อผิดพลาดทั่วไปคุณต้องทำสิ่งต่อไปนี้: PCA แยกต่างหากสำหรับชุดฝึกอบรมทุกชุด (ซึ่งหมายถึงการทำ PCA แยกต่างหากสำหรับตัวแยกประเภททุกตัวและสำหรับการพับ CV ทุกครั้ง)
จากนั้นคุณใช้การแปลงแบบเดียวกันกับชุดทดสอบ: นั่นคือคุณไม่ได้ทำ PCA แยกต่างหากในชุดทดสอบ! คุณลบค่าเฉลี่ย (และถ้าจำเป็นต้องหารด้วยค่าเบี่ยงเบนมาตรฐาน) ของชุดการฝึกอบรมตามที่อธิบายไว้ที่นี่: ศูนย์อยู่ตรงกลางชุดทดสอบหลังจาก PCA ในชุดฝึกอบรม จากนั้นคุณฉายข้อมูลลงบนพีซีของชุดฝึกอบรม
คุณจะต้องกำหนดเกณฑ์อัตโนมัติสำหรับจำนวนพีซีที่จะใช้
เนื่องจากเป็นเพียงขั้นตอนการลดข้อมูลครั้งแรกก่อนการจัดหมวดหมู่ "จริง" การใช้พีซีจำนวนมากเกินไปอาจไม่ส่งผลเสียต่อประสิทธิภาพการทำงาน หากคุณมีความคาดหวังว่าจะมีพีซีกี่เครื่องที่ดีจากประสบการณ์คุณสามารถใช้มันได้
คุณสามารถทดสอบได้ว่าต้องการทำซ้ำ PCA สำหรับแบบจำลองตัวแทนทุกชุดหรือไม่ (การวิเคราะห์ซ้ำด้วยแบบจำลอง PCA เพียงรุ่นเดียว) ฉันคิดว่าผลลัพธ์ของการทดสอบนี้คุ้มค่ากับการรายงาน
ฉันเคยวัดอคติของการไม่ทำซ้ำ PCA และพบว่าด้วยข้อมูลการจำแนกสเปคโทรสโกของฉันฉันตรวจพบเพียงครึ่งหนึ่งของอัตราความผิดพลาดทั่วไปเมื่อไม่ทำซ้ำ PCA สำหรับแบบจำลองตัวแทน
ดังที่ได้กล่าวไปแล้วคุณสามารถสร้างโมเดล PCA เพิ่มเติมของชุดข้อมูลทั้งหมดเพื่อวัตถุประสงค์ในการอธิบาย (เช่นการสร้างภาพข้อมูล) ตรวจสอบให้แน่ใจว่าคุณแยกทั้งสองวิธีออกจากกัน
ฉันยังคงพบว่ามันยากที่จะเข้าใจว่า PCA เริ่มต้นในชุดข้อมูลทั้งหมดจะมีอคติกับผลลัพธ์โดยไม่เห็นป้ายกำกับระดับ
แต่มันจะดูข้อมูล และถ้าความแปรปรวนระหว่างคลาสมีขนาดใหญ่เมื่อเทียบกับความแปรปรวนภายในคลาสความแปรปรวนระหว่างคลาสจะมีผลต่อการฉาย PCA โดยปกติแล้วขั้นตอน PCA นั้นจะทำเพราะคุณจำเป็นต้องจัดหมวดหมู่ให้เสถียร นั่นคือในสถานการณ์ที่มีกรณีเพิ่มเติมจะมีผลต่อโมเดล
หากความแปรปรวนระหว่างคลาสมีน้อยอคตินี้จะไม่มากนัก แต่ในกรณีนั้น PCA จะไม่ช่วยในการจัดหมวดหมู่: การประมาณ PCA นั้นไม่สามารถช่วยเน้นการแยกระหว่างคลาสได้
caret
แพคเกจ: PCA และ K-พับรอการตรวจสอบในแป้นพิมพ์