1
วิธีสร้างโมเดลสุดท้ายและปรับเกณฑ์ความน่าจะเป็นหลังจากการตรวจสอบข้ามแบบซ้อน
ประการแรกขอโทษสำหรับการโพสต์คำถามที่ได้รับการกล่าวถึงในที่มีความยาวที่นี่ , ที่นี่ , ที่นี่ , ที่นี่ , ที่นี่และสำหรับอุ่นหัวข้อเก่า ฉันรู้ว่า @DikranMarsupial เขียนเกี่ยวกับหัวข้อนี้ในโพสต์และบทความในวารสาร แต่ฉันยังสับสนและตัดสินจากจำนวนโพสต์ที่คล้ายกันที่นี่มันยังคงเป็นสิ่งที่ผู้อื่นพยายามเข้าใจ ฉันควรระบุว่าฉันได้รับความขัดแย้งในหัวข้อนี้ซึ่งเพิ่มความสับสนของฉัน คุณควรรู้ด้วยว่าตอนแรกฉันเป็นนักฟิสิกส์และไม่ใช่นักสถิติดังนั้นความเชี่ยวชาญด้านโดเมนของฉันที่นี่จึงค่อนข้าง จำกัด ฉันกำลังเขียนรายงานประจำวันที่ฉันต้องการใช้ CV ที่ซ้อนกันเพื่อประเมินประสิทธิภาพที่ฉันคาดหวังจากแบบจำลองสุดท้ายของฉัน ในโดเมนของฉันนี่เป็นครั้งแรก (เราแทบไม่เคยใช้เลยรูปแบบของ CV ที่มีประสิทธิภาพในสาขาของฉัน แต่อัดฉีดเอกสารด้วยผลลัพธ์จากการศึกษาโดยใช้อวนประสาทและต้นไม้ตัดสินใจเพิ่มขึ้น!) ดังนั้นมันสำคัญมากที่ฉันมีความเข้าใจอย่างละเอียดและชัดเจนเพื่อที่ฉันจะไม่พลาดและเผยแพร่ เป็นขั้นตอนที่ผิดพลาดในชุมชนของฉัน ขอบคุณ! ไปกับคำถาม ... ฉันจะสร้างรุ่นสุดท้ายได้อย่างไรหลังจากการตรวจสอบความถูกต้องข้ามแบบซ้อน ฉันกำลังฝึกอบรมโมเดล glmnet อย่างง่ายด้วยการทำให้เป็นมาตรฐาน L1 และ L2 มันรวดเร็วง่ายและตีความได้ ฉันทำการเปลี่ยนคุณลักษณะกึ่งกลางปรับขนาดและแปลงบ็อกซ์ค็อกซ์เพื่อให้เห็นว่าการกระจายคุณลักษณะนั้นมีค่าเฉลี่ยอยู่ที่มาตรฐานและเป็นแบบเกาส์เซียน ฉันทำขั้นตอนนี้ภายในการตรวจสอบข้ามเพื่อป้องกันการรั่วไหลของข้อมูล อย่างแท้จริงเพราะฮาร์ดแวร์ของฉันช้าอย่างไม่น่าเชื่อและฉันไม่สามารถเข้าถึงกล้ามเนื้อ CPU ได้มากขึ้นฉันจึงทำการเลือกคุณสมบัติตัวกรองที่รวดเร็วภายใน CV หลังจากการประมวลผลคุณลักษณะล่วงหน้า ฉันใช้การค้นหากริดแบบสุ่มเพื่อเลือกพารามิเตอร์อัลฟาและแลมบ์ดา ฉันเข้าใจว่าฉันไม่ควรCV loop เพื่อรับค่าประมาณนี้ ฉันเข้าใจว่าวง CV …