ประการแรกขอโทษสำหรับการโพสต์คำถามที่ได้รับการกล่าวถึงในที่มีความยาวที่นี่ , ที่นี่ , ที่นี่ , ที่นี่ , ที่นี่และสำหรับอุ่นหัวข้อเก่า ฉันรู้ว่า @DikranMarsupial เขียนเกี่ยวกับหัวข้อนี้ในโพสต์และบทความในวารสาร แต่ฉันยังสับสนและตัดสินจากจำนวนโพสต์ที่คล้ายกันที่นี่มันยังคงเป็นสิ่งที่ผู้อื่นพยายามเข้าใจ ฉันควรระบุว่าฉันได้รับความขัดแย้งในหัวข้อนี้ซึ่งเพิ่มความสับสนของฉัน คุณควรรู้ด้วยว่าตอนแรกฉันเป็นนักฟิสิกส์และไม่ใช่นักสถิติดังนั้นความเชี่ยวชาญด้านโดเมนของฉันที่นี่จึงค่อนข้าง จำกัด ฉันกำลังเขียนรายงานประจำวันที่ฉันต้องการใช้ CV ที่ซ้อนกันเพื่อประเมินประสิทธิภาพที่ฉันคาดหวังจากแบบจำลองสุดท้ายของฉัน ในโดเมนของฉันนี่เป็นครั้งแรก (เราแทบไม่เคยใช้เลยรูปแบบของ CV ที่มีประสิทธิภาพในสาขาของฉัน แต่อัดฉีดเอกสารด้วยผลลัพธ์จากการศึกษาโดยใช้อวนประสาทและต้นไม้ตัดสินใจเพิ่มขึ้น!) ดังนั้นมันสำคัญมากที่ฉันมีความเข้าใจอย่างละเอียดและชัดเจนเพื่อที่ฉันจะไม่พลาดและเผยแพร่ เป็นขั้นตอนที่ผิดพลาดในชุมชนของฉัน ขอบคุณ! ไปกับคำถาม ...
ฉันจะสร้างรุ่นสุดท้ายได้อย่างไรหลังจากการตรวจสอบความถูกต้องข้ามแบบซ้อน
ฉันกำลังฝึกอบรมโมเดล glmnet อย่างง่ายด้วยการทำให้เป็นมาตรฐาน L1 และ L2 มันรวดเร็วง่ายและตีความได้ ฉันทำการเปลี่ยนคุณลักษณะกึ่งกลางปรับขนาดและแปลงบ็อกซ์ค็อกซ์เพื่อให้เห็นว่าการกระจายคุณลักษณะนั้นมีค่าเฉลี่ยอยู่ที่มาตรฐานและเป็นแบบเกาส์เซียน ฉันทำขั้นตอนนี้ภายในการตรวจสอบข้ามเพื่อป้องกันการรั่วไหลของข้อมูล อย่างแท้จริงเพราะฮาร์ดแวร์ของฉันช้าอย่างไม่น่าเชื่อและฉันไม่สามารถเข้าถึงกล้ามเนื้อ CPU ได้มากขึ้นฉันจึงทำการเลือกคุณสมบัติตัวกรองที่รวดเร็วภายใน CV หลังจากการประมวลผลคุณลักษณะล่วงหน้า ฉันใช้การค้นหากริดแบบสุ่มเพื่อเลือกพารามิเตอร์อัลฟาและแลมบ์ดา ฉันเข้าใจว่าฉันไม่ควรCV loop เพื่อรับค่าประมาณนี้ ฉันเข้าใจว่าวง CV ภายในนั้นใช้สำหรับการเลือกแบบจำลอง (ในกรณีนี้คือพารามิเตอร์ที่เหมาะสมที่สุด) และวงรอบนอกนั้นใช้สำหรับการประเมินแบบจำลองนั่นคือ CV ภายในและภายนอกให้บริการเพื่อวัตถุประสงค์ที่แตกต่างกันสองประการ (ฉันเป็นยังไงบ้าง)
ตอนนี้ลิงก์ที่ฉันโพสต์แนะนำว่า "วิธีคิดข้ามการตรวจสอบความถูกต้องเป็นการประเมินประสิทธิภาพที่ได้รับโดยใช้วิธีการสร้างแบบจำลองแทนที่จะประเมินประสิทธิภาพของแบบจำลอง" ระบุว่าฉันจะตีความผลลัพธ์ของขั้นตอน CV ที่ซ้อนกันได้อย่างไร
คำแนะนำที่ฉันได้อ่านดูเหมือนจะบ่งบอกถึงสิ่งต่อไปนี้ - โปรดแก้ไขให้ฉันถ้านี่เป็นสิ่งที่ผิด: CV ภายในเป็นส่วนหนึ่งของกลไกที่ช่วยให้ฉันเลือกอัลฟาและแลมบ์ดาไฮเปอร์พารามิเตอร์ที่ดีที่สุดของโมเดล glmnet ของฉัน CV ภายนอกบอกถึงค่าประมาณที่ฉันคาดว่าจะได้รับจากตัวแบบสุดท้ายถ้าฉันใช้ขั้นตอนเหมือนกับที่ใช้ใน CV ภายในรวมถึงการปรับแต่งพารามิเตอร์และใช้ชุดข้อมูลทั้งหมดเพื่อสร้างตัวแบบสุดท้าย นั่นคือการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์เป็นส่วนหนึ่งของ "วิธีการสร้างแบบจำลอง" สิ่งนี้ถูกต้องหรือไม่? เพราะนี่คือสิ่งที่ทำให้ฉันสับสน ที่อื่นฉันได้เห็นแล้วว่าขั้นตอนการสร้างแบบจำลองสุดท้ายที่จะนำไปใช้นั้นเกี่ยวข้องกับการฝึกอบรมในชุดข้อมูลทั้งหมดโดยใช้ค่าคงที่ของไฮเปอร์พารามิเตอร์ที่เลือกใช้โดยใช้ CV ที่นี่ "วิธีการสร้างแบบจำลอง" ไม่รวมการปรับแต่ง แล้วมันคืออะไร? ในบางจุดพารามิเตอร์ที่เหมาะสมจะถูกเลือกและแก้ไขเพื่อสร้างแบบจำลองขั้นสุดท้าย! ที่ไหน? อย่างไร? ถ้าลูปด้านในของฉันคือ 5-fold CV และลูปด้านนอกของฉันคือ 5-fold CV และฉันเลือกพูด 100 คะแนนสำหรับการทดสอบซึ่งเป็นส่วนหนึ่งของการค้นหากริดแบบสุ่มใน CV ภายในฉันจะฝึก glmnet กี่ครั้ง รูปแบบ? (100 * 5 * 5) + 1 สำหรับการสร้างขั้นสุดท้ายหรือมีขั้นตอนเพิ่มเติมที่ฉันไม่ทราบหรือไม่
โดยพื้นฐานแล้วฉันต้องการคำอธิบายที่ชัดเจนมากเกี่ยวกับวิธีตีความการประเมินประสิทธิภาพจาก CV ที่ซ้อนกันและวิธีการสร้างแบบจำลองขั้นสุดท้าย
ฉันต้องการทราบขั้นตอนที่เหมาะสมสำหรับการเลือกเกณฑ์ความน่าจะเป็นสำหรับการแปลงคะแนนความน่าจะเป็นจากโมเดล glmnet สุดท้ายของฉันไปเป็นเลเบลคลาส (ไบนารี) --- ต้องการ CV อีกวงหนึ่งหรือไม่