ฉันไม่เห็นการบรรยายดังนั้นฉันไม่สามารถให้ความเห็นเกี่ยวกับสิ่งที่พูด
$ 0.02 ของฉัน: หากคุณต้องการได้รับการประเมินที่ดีโดยใช้การสุ่มใหม่คุณควรดำเนินการทั้งหมดในระหว่างการสุ่มใหม่แทนก่อนหน้านี้ นี่เป็นเรื่องจริงของการเลือกคุณสมบัติ [1] เช่นเดียวกับการทำงานที่ไม่สำคัญเช่น PCA หากเพิ่มความไม่แน่นอนให้กับผลลัพธ์ให้รวมไว้ในการสุ่มใหม่
คิดเกี่ยวกับการถดถอยองค์ประกอบหลัก: PCA ตามด้วยการถดถอยเชิงเส้นในองค์ประกอบบางส่วน PCA ประมาณการพารามิเตอร์ (ด้วยเสียงรบกวน) และจำนวนของส่วนประกอบที่ต้องเลือกด้วย (ค่าที่แตกต่างกันจะส่งผลให้ผลลัพธ์ที่แตกต่างกัน => เสียงดังขึ้น)
สมมติว่าเราใช้ CV 10 เท่ากับแบบแผน 1:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
หรือแบบแผน 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
ควรมีความชัดเจนกว่าวิธีที่สองควรประเมินข้อผิดพลาดที่สะท้อนถึงความไม่แน่นอนที่เกิดจาก PCA การเลือกจำนวนส่วนประกอบและการถดถอยเชิงเส้น ในความเป็นจริงประวัติย่อในรูปแบบแรกไม่ทราบว่าเกิดอะไรขึ้น
ฉันมีความผิดที่จะไม่ทำการดำเนินการทั้งหมดด้วยการสุ่มใหม่ แต่ก็ต่อเมื่อฉันไม่สนใจเกี่ยวกับการประเมินประสิทธิภาพ (ซึ่งผิดปกติ)
มีความแตกต่างอย่างมากระหว่างสองรูปแบบหรือไม่? มันขึ้นอยู่กับข้อมูลและการประมวลผลล่วงหน้า หากคุณอยู่กึ่งกลางและปรับขนาดอาจไม่ใช่ หากคุณมีข้อมูลมากมายอาจไม่ใช่ เมื่อขนาดของชุดฝึกอบรมลดลงความเสี่ยงในการได้รับการประเมินที่ไม่ดีจะเพิ่มขึ้นโดยเฉพาะถ้า n ใกล้เคียงกับ p
ฉันสามารถพูดด้วยความมั่นใจจากประสบการณ์ที่ไม่รวมถึงการเลือกคุณสมบัติภายใต้การดูแลซ้ำอีกครั้งเป็นความคิดที่ดีจริงๆ (ไม่มีชุดฝึกอบรมขนาดใหญ่) ฉันไม่เห็นว่าทำไมการประมวลผลล่วงหน้าจะมีภูมิคุ้มกันต่อสิ่งนี้ (ในระดับหนึ่ง)
@mchangun: ฉันคิดว่าจำนวนขององค์ประกอบเป็นพารามิเตอร์การปรับแต่งและคุณอาจต้องการที่จะเลือกโดยใช้การประมาณประสิทธิภาพที่สามารถใช้งานได้ คุณสามารถเลือก K โดยอัตโนมัติซึ่งอธิบายอย่างน้อย X% ของความแปรปรวนและรวมกระบวนการดังกล่าวไว้ในการสุ่มตัวอย่างอีกครั้งดังนั้นเราจึงคำนึงถึงเสียงรบกวนในกระบวนการนั้น
แม็กซ์
[1] Ambroise, C. , & McLachlan, G. (2002) การคัดเลือกอคติในการสกัดยีนบนพื้นฐานของข้อมูลการแสดงออกของยีน microarray กิจการของ National Academy of Sciences, 99 (10), 6562–6566