คำถามติดแท็ก overfitting

ข้อผิดพลาดในการสร้างแบบจำลอง (โดยเฉพาะการสุ่มตัวอย่างข้อผิดพลาด) แทนความสัมพันธ์ที่จำลองแบบได้และให้ข้อมูลระหว่างตัวแปรช่วยปรับปรุงสถิติแบบจำลองให้พอดี แต่จะช่วยลดความน่าเบื่อหน่าย


6
การถดถอยของสันเขาไร้ประโยชน์ในมิติที่สูง ( ) หรือไม่? OLS จะล้มเหลวได้อย่างไร
พิจารณาปัญหาการถดถอยที่ดีเก่ากับพยากรณ์และขนาดของกลุ่มตัวอย่างnภูมิปัญญาปกติคือตัวประมาณค่า OLS จะ overfit และโดยทั่วไปแล้วจะดีกว่าโดยตัวประมาณถดถอยสัน:มันเป็นมาตรฐานที่จะใช้การตรวจสอบข้ามที่จะหาที่ดีที่สุด regularization พารามิเตอร์\ที่นี่ฉันใช้ CV 10 เท่า ปรับปรุงการชี้แจง:เมื่อ , โดย "OLS ตัวประมาณ" ฉันเข้าใจ "ตัวประมาณค่าต่ำสุด - บรรทัดฐาน OLS" ที่กำหนดโดยpppβ = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Y λnnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdaβ OLS = ( X ⊤ X ) + …

6
Random Forest - วิธีจัดการกับการสวมใส่ที่มากเกินไป
ฉันมีพื้นฐานด้านวิทยาการคอมพิวเตอร์ แต่ฉันพยายามสอนวิทยาศาสตร์ข้อมูลด้วยตนเองโดยการแก้ปัญหาทางอินเทอร์เน็ต ฉันได้พยายามแก้ไขปัญหานี้ในช่วงสองสามสัปดาห์ที่ผ่านมา (ประมาณ 900 แถวและ 10 ฟีเจอร์) ตอนแรกฉันใช้การถดถอยแบบโลจิสติกส์ แต่ตอนนี้ฉันเปลี่ยนเป็นป่าแบบสุ่ม เมื่อฉันใช้โมเดลฟอเรสต์แบบสุ่มบนข้อมูลการฝึกอบรมของฉันฉันจะได้รับค่าที่สูงมากสำหรับ auc (> 99%) อย่างไรก็ตามเมื่อฉันรันโมเดลเดียวกันกับข้อมูลการทดสอบผลลัพธ์จะไม่ดี (ความแม่นยำประมาณ 77%) สิ่งนี้ทำให้ฉันเชื่อว่าฉันเหมาะสมกว่าข้อมูลการฝึกอบรม อะไรคือวิธีปฏิบัติที่ดีที่สุดเกี่ยวกับการป้องกันการติดตั้งในป่าสุ่ม? ฉันใช้ r และ rstudio เป็นสภาพแวดล้อมการพัฒนาของฉัน ฉันใช้randomForestแพคเกจและได้ยอมรับค่าเริ่มต้นสำหรับพารามิเตอร์ทั้งหมด

4
วารสารวิทยาศาสตร์ให้การรับรองเส้นทางการ์เด้นออฟฟอร์คกิ้งหรือไม่?
แนวคิดของการวิเคราะห์ข้อมูลแบบปรับตัวคือคุณปรับเปลี่ยนแผนสำหรับการวิเคราะห์ข้อมูลในขณะที่คุณเรียนรู้เพิ่มเติมเกี่ยวกับมัน ในกรณีของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) โดยทั่วไปเป็นความคิดที่ดี (คุณมักจะมองหารูปแบบที่ไม่คาดฝันในข้อมูล) แต่สำหรับการศึกษาเชิงยืนยันสิ่งนี้ได้รับการยอมรับอย่างกว้างขวางว่าเป็นวิธีการวิเคราะห์ที่มีข้อบกพร่องมาก ขั้นตอนมีการกำหนดไว้อย่างชัดเจนและวางแผนอย่างเหมาะสมในขั้นสูง) ดังที่ได้กล่าวไปแล้วการวิเคราะห์ข้อมูลที่ปรับตัวได้นั้นโดยทั่วไปแล้วมีนักวิจัยจำนวนเท่าใดที่ทำการวิเคราะห์จริง ๆ เช่นนี้หากใครสามารถทำได้ในลักษณะที่ถูกต้องทางสถิติมันจะปฏิวัติการปฏิบัติทางสถิติ บทความวิทยาศาสตร์ต่อไปนี้อ้างว่าได้พบวิธีในการทำเช่นนั้น (ฉันขอโทษสำหรับ paywall แต่ถ้าคุณอยู่ในมหาวิทยาลัยคุณน่าจะเข้าถึงได้): Dwork et al, 2015, holdout ที่นำมาใช้ใหม่ได้: รักษาความถูกต้องในการวิเคราะห์ข้อมูลแบบปรับตัว . โดยส่วนตัวฉันมักสงสัยเกี่ยวกับบทความสถิติที่ตีพิมพ์ในวิทยาศาสตร์และบทความนี้ก็ไม่ต่างกัน ในความเป็นจริงหลังจากอ่านบทความสองครั้งรวมถึงเนื้อหาเพิ่มเติมฉันไม่เข้าใจ (เลย) ทำไมผู้เขียนอ้างว่าวิธีการของพวกเขาป้องกันไม่ให้เกินความเหมาะสม ความเข้าใจของฉันคือพวกเขามีชุดข้อมูลแบบโฮลด์ซึ่งพวกเขาจะใช้ซ้ำ พวกเขาดูเหมือนจะเรียกร้องโดย "fuzzing" ผลลัพธ์ของการวิเคราะห์ยืนยันในชุดข้อมูลที่ไม่ยอมอ่อนข้อกว่ากระชับจะได้รับการป้องกัน (มันเป็นที่น่าสังเกตว่า fuzzing น่าจะเป็นเพียงการเพิ่มเสียงถ้าสถิติการคำนวณเกี่ยวกับข้อมูลการฝึกอบรมคือพอไกล จากสถิติที่คำนวณได้ในข้อมูลโฮลด์ ) เท่าที่ฉันสามารถบอกได้ว่าไม่มีเหตุผลจริงที่จะป้องกันไม่ให้มีความเหมาะสมมากเกินไป ฉันเข้าใจผิดในสิ่งที่ผู้เขียนเสนอหรือไม่? มีลักษณะพิเศษบางอย่างที่ฉันมองเห็นหรือไม่? หรือวิทยาศาสตร์ ได้รับรองการฝึกฝนทางสถิติที่เลวร้ายที่สุดจนถึงปัจจุบันหรือไม่?

5
การจำลองโมเดลการถดถอยโลจิสติก
เป็นไปได้หรือไม่ที่จะจัดโมเดลการถดถอยโลจิสติกให้มากเกินไป? ฉันเห็นวิดีโอที่บอกว่าหากพื้นที่ของฉันภายใต้เส้นโค้ง ROC สูงกว่า 95% ก็น่าจะติดตั้งได้มากกว่า แต่เป็นไปได้หรือไม่ที่จะปรับรูปแบบการถดถอยโลจิสติกให้เหมาะสม?

4
เป็นไปได้อย่างไรที่การสูญเสียการตรวจสอบเพิ่มขึ้นในขณะที่ความแม่นยำในการตรวจสอบเพิ่มขึ้นเช่นกัน
ฉันกำลังฝึกโครงข่ายประสาทอย่างง่ายบนชุดข้อมูล CIFAR10 หลังจากเวลาผ่านไปการสูญเสียการตรวจสอบความถูกต้องก็เริ่มเพิ่มขึ้น การสูญเสียการทดสอบและความแม่นยำในการทดสอบยังคงปรับปรุง เป็นไปได้อย่างไร? ดูเหมือนว่าหากการสูญเสียการตรวจสอบเพิ่มขึ้นความแม่นยำควรลดลง ป.ล. มีคำถามที่คล้ายกันหลายประการ แต่ไม่มีใครอธิบายสิ่งที่เกิดขึ้นที่นั่น

6
ทำไมน้ำหนักที่เล็กลงส่งผลให้ตัวแบบที่เรียบง่ายขึ้นในการทำให้เป็นปกติ
ฉันเสร็จหลักสูตรการเรียนรู้ของ Machine Andrew เมื่อประมาณหนึ่งปีที่แล้วและตอนนี้ฉันกำลังเขียน Math High School Math ของฉันเกี่ยวกับการทำงานของ Logistic Regression และเทคนิคต่าง ๆ เพื่อเพิ่มประสิทธิภาพการทำงาน หนึ่งในเทคนิคเหล่านี้คือการทำให้เป็นมาตรฐาน เป้าหมายของการทำให้เป็นมาตรฐานคือการป้องกันไม่ให้เกิดการล้นเกินโดยการขยายฟังก์ชั่นค่าใช้จ่ายเพื่อรวมเป้าหมายของความเรียบง่ายของแบบจำลอง เราสามารถทำสิ่งนี้ได้โดยการลงโทษขนาดของน้ำหนักโดยการเพิ่มฟังก์ชั่นค่าใช้จ่ายของน้ำหนักแต่ละค่าที่ยกกำลังสองคูณด้วยพารามิเตอร์ปกติ ตอนนี้อัลกอริทึมการเรียนรู้ของเครื่องจะมุ่งที่จะลดขนาดของน้ำหนักในขณะที่ยังคงความถูกต้องในชุดการฝึกอบรม แนวคิดก็คือเราจะไปถึงจุดกึ่งกลางที่เราสามารถสร้างแบบจำลองที่สรุปข้อมูลและไม่พยายามที่จะปรับให้เหมาะกับเสียงรบกวนทั้งหมดโดยมีความซับซ้อนน้อยลง ความสับสนของฉันคือทำไมเราลงโทษขนาดของน้ำหนัก? ทำไมน้ำหนักที่ใหญ่ขึ้นจึงสร้างแบบจำลองที่ซับซ้อนมากขึ้นและน้ำหนักที่เล็กกว่าจึงสร้างแบบจำลองที่เรียบง่ายขึ้น Andrew Ng อ้างว่าในการบรรยายของเขาว่าคำอธิบายนั้นยากสำหรับการสอน แต่ฉันคิดว่าฉันกำลังมองหาคำอธิบายนี้ในตอนนี้ ศ. อึ้งได้ยกตัวอย่างจริง ๆ ว่าฟังก์ชั่นต้นทุนใหม่อาจทำให้น้ำหนักของคุณลักษณะ (เช่น. x ^ 3 และ x ^ 4) มีแนวโน้มเป็นศูนย์เพื่อให้ระดับของแบบจำลองลดลง แต่สิ่งนี้ไม่ได้สร้างความสมบูรณ์ คำอธิบาย ปรีชาญาณของฉันคือน้ำหนักที่น้อยกว่ามักจะเป็นที่ "ยอมรับ" ในคุณสมบัติที่มีเลขชี้กำลังมากกว่าคนที่มีเลขชี้กำลังขนาดเล็ก (เพราะคุณลักษณะที่มีน้ำหนักขนาดเล็กเป็นพื้นฐานของฟังก์ชั่น) น้ำหนักที่เล็กลงแสดงถึง "การมีส่วนร่วม" ที่เล็กลงสำหรับคุณลักษณะที่มีลำดับสูง แต่สัญชาตญาณนี้ไม่เป็นรูปธรรมมาก

2
เป็นความจริงที่ว่าวิธีการแบบเบย์ไม่เหมาะสมหรือไม่
เป็นความจริงที่ว่าวิธีการแบบเบย์ไม่เหมาะสมหรือไม่ (ฉันเห็นเอกสารและแบบฝึกหัดที่อ้างสิทธิ์นี้) ตัวอย่างเช่นหากเราใช้กระบวนการแบบเกาส์เซียนกับ MNIST (การจำแนกตัวเลขด้วยลายมือ) แต่แสดงเพียงตัวอย่างเดียวมันจะเปลี่ยนเป็นการกระจายก่อนหน้าสำหรับอินพุตใด ๆ ที่แตกต่างจากตัวอย่างเดี่ยว แต่มีความแตกต่างเล็กน้อยหรือไม่?

5
โมเดลที่ติดตั้งเกินความจำเป็นไร้ประโยชน์หรือไม่?
สมมติว่าแบบจำลองมีความแม่นยำ 100% สำหรับข้อมูลการฝึกอบรม แต่ความแม่นยำ 70% สำหรับข้อมูลการทดสอบ อาร์กิวเมนต์ต่อไปนี้เป็นจริงเกี่ยวกับโมเดลนี้หรือไม่? เห็นได้ชัดว่านี่เป็นรุ่นที่ติดตั้งมากเกินไป ความแม่นยำในการทดสอบสามารถปรับปรุงได้โดยการลดการ overfitting แต่รุ่นนี้ยังคงเป็นรุ่นที่มีประโยชน์เนื่องจากมีความแม่นยำที่ยอมรับได้สำหรับข้อมูลการทดสอบ

2
มันเหมาะสมหรือไม่ที่จะรวม PCA และ LDA
สมมติว่าฉันมีชุดข้อมูลสำหรับงานการจัดหมวดหมู่ทางสถิติภายใต้การดูแลเช่นผ่านตัวจําแนกของ Bayes ชุดข้อมูลนี้ประกอบด้วย 20 ฟีเจอร์และฉันต้องการต้มให้เหลือ 2 ฟีเจอร์โดยใช้เทคนิคการลดขนาดเช่นการวิเคราะห์ส่วนประกอบหลัก (PCA) และ / หรือการวิเคราะห์เชิงเส้น (LDA) เทคนิคทั้งสองกำลังฉายข้อมูลลงในพื้นที่ย่อยขนาดเล็ก: ด้วย PCA ฉันจะหาทิศทาง (ส่วนประกอบ) ที่เพิ่มความแปรปรวนในชุดข้อมูล (โดยไม่คำนึงถึงคลาสฉลาก) และด้วย LDA ฉันจะมีส่วนประกอบที่ขยายระหว่าง - คลาสแยก ตอนนี้ฉันกำลังสงสัยว่าอย่างไรและทำไมเทคนิคเหล่านี้สามารถรวมกันและถ้ามันทำให้รู้สึก ตัวอย่างเช่น: แปลงชุดข้อมูลผ่าน PCA และฉายลงบนพื้นที่ว่างสองมิติใหม่ Transform (ชุด PCA-transformed) ชุดข้อมูลที่ผ่าน LDA เป็นค่าสูงสุด การแยกชั้นเรียน หรือ ข้ามขั้นตอน PCA และใช้ส่วนประกอบ 2 อันดับแรกจาก LDA หรือชุดค่าผสมอื่น ๆ ที่เหมาะสม

4
“ การเรียนรู้แบบมีผู้ควบคุมกึ่ง” - การทำเกินนี้หรือไม่
ฉันอ่านรายงานเกี่ยวกับวิธีแก้ปัญหาการชนะของการแข่งขัน Kaggle ( การจำแนกประเภทมัลแวร์ ) รายงานสามารถพบได้ในโพสต์ฟอรั่มนี้ ปัญหาคือปัญหาการจัดหมวดหมู่ (เก้าคลาสตัวชี้วัดคือการสูญเสียลอการิทึม) ที่มี 10,000 องค์ประกอบในชุดรถไฟ 10,000 ชิ้นส่วนในชุดทดสอบ ในระหว่างการแข่งขันแบบจำลองจะถูกประเมินเทียบกับ 30% ของชุดทดสอบ องค์ประกอบที่สำคัญอีกประการหนึ่งคือโมเดลมีประสิทธิภาพดีมาก (ใกล้เคียงกับความแม่นยำ 100%) ผู้เขียนใช้เทคนิคต่อไปนี้: อีกเทคนิคที่สำคัญที่เราเกิดขึ้นคือการเรียนรู้แบบ Semisupervised ก่อนอื่นเราสร้างฉลากเทียมของชุดทดสอบโดยเลือกความน่าจะเป็นสูงสุดของแบบจำลองที่ดีที่สุดของเรา จากนั้นเราคาดการณ์ชุดการทดสอบอีกครั้งในรูปแบบการตรวจสอบความถูกต้องทั้งข้อมูลรถไฟและข้อมูลการทดสอบ ตัวอย่างเช่นชุดข้อมูลการทดสอบแบ่งออกเป็น 4 ส่วน A, B, C และ D เราใช้ข้อมูลการฝึกอบรมทั้งหมดและทดสอบข้อมูล A, B, C พร้อมป้ายกำกับหลอกของพวกเขาพร้อมกันเป็นชุดฝึกอบรมใหม่และเราทำนายการทดสอบ ชุด D วิธีเดียวกันนี้ใช้ในการทำนาย A, B และ C วิธีการนี้คิดค้นโดย Xiaozhou ทำงานได้ดีอย่างน่าประหลาดใจและช่วยลดการสูญเสียการตรวจสอบข้ามท้องถิ่นการสูญเสีย LB สาธารณะและการสูญเสีย LB …

9
Overfitting และ Underfitting
ฉันได้ทำการวิจัยบางอย่างเกี่ยวกับการให้น้ำหนักมากไปและ underfitting และฉันเข้าใจว่ามันคืออะไร แต่ฉันไม่สามารถหาสาเหตุได้ อะไรคือสาเหตุหลักของการทำ overfitting และ underfitting? ทำไมเราต้องเผชิญกับปัญหาทั้งสองนี้ในการฝึกอบรมนางแบบ?

1
การอภิปรายเกี่ยวกับ overfit ใน xgboost
การตั้งค่าของฉันมีดังต่อไปนี้: ฉันกำลังติดตามแนวทางใน "การทำนายแบบจำลองประยุกต์" ดังนั้นฉันได้กรองคุณสมบัติที่เกี่ยวข้องและจบลงด้วยสิ่งต่อไปนี้: จุดข้อมูล 4900 ในชุดฝึกอบรมและ 1600 จุดข้อมูลในชุดทดสอบ ฉันมีคุณสมบัติ 26 อย่างและเป้าหมายเป็นตัวแปรต่อเนื่อง ฉันใช้ crossvalidation 5 เท่ากับโมเดลรถไฟโดยใช้caretแพ็คเกจ เมื่อฉันใช้แบบจำลอง MARS ฉันจะได้รับข้อผิดพลาดแบบสัมบูรณ์ (MAE) ประมาณ 4 ในชุดฝึกอบรมและชุดทดสอบ อย่างไรก็ตามการใช้ xgboost (เป็นอัลกอริทึมแบบต้นไม้หรือแบบเชิงเส้น) ฉันได้รับบางอย่างเช่น 0.32 (!) ในชุดการฝึกอบรมและ 2.4 ในชุดทดสอบ ดังนั้นหากข้อผิดพลาดการทดสอบเป็น 8 เท่าของข้อผิดพลาดในการฝึกอบรมฉันจะบอกว่า: ฉันมีข้อมูลการฝึกอบรมมากเกินไป ฉันยังได้รับข้อผิดพลาดเล็กน้อยในการทดสอบอย่างไรก็ตาม ฉันใช้พารามิเตอร์ต่อไปนี้ใน xgboost: nrounds = 1000และeta = 0.01(การเพิ่ม nrounds และการลดลงของกทพ. สามารถช่วยได้ แต่ฉันมีหน่วยความจำไม่เพียงพอและเวลาในการรันนานเกินไป) max_depth = …

5
หลีกเลี่ยงการ overfitting ในการถดถอย: ทางเลือกเพื่อ normalization
การทำให้เป็นปกติในการถดถอย (เชิงเส้น, โลจิสติก ... ) เป็นวิธีที่นิยมมากที่สุดในการลดความกระชับ เมื่อเป้าหมายคือการคาดการณ์ความแม่นยำ (ไม่อธิบาย) มีทางเลือกอื่นที่ดีสำหรับการทำให้เป็นมาตรฐานหรือไม่โดยเฉพาะอย่างยิ่งเหมาะสำหรับชุดข้อมูลขนาดใหญ่ (ไมล์ / พันล้านการสังเกตและคุณสมบัตินับล้าน)

2
การส่งเสริม: เหตุใดอัตราการเรียนรู้จึงเรียกว่าพารามิเตอร์การทำให้เป็นมาตรฐาน
อัตราการเรียนรู้พารามิเตอร์ ( ) ในการไล่โทนสีการส่งเสริมการมีส่วนร่วมของ shrinks รุ่นแต่ละฐานใหม่ -typically tree- ตื้นที่จะถูกเพิ่มในซีรีส์ มันแสดงให้เห็นถึงการเพิ่มความแม่นยำของชุดการทดสอบอย่างมากซึ่งเป็นที่เข้าใจได้เช่นเดียวกับขั้นตอนที่เล็กกว่าขั้นต่ำของฟังก์ชั่นการสูญเสียสามารถบรรลุได้อย่างแม่นยำมากขึ้น ν∈[0,1]ν∈[0,1]\nu \in [0,1] ฉันไม่เข้าใจว่าทำไมอัตราการเรียนรู้จึงถือเป็นพารามิเตอร์ในการทำให้เป็นมาตรฐาน? อ้างถึงองค์ประกอบของการเรียนรู้สถิติส่วนที่ 10.12.1, p.364: การควบคุมจำนวนต้นไม้ไม่ได้เป็นเพียงกลยุทธ์การทำให้เป็นมาตรฐานเท่านั้น เช่นเดียวกับการถดถอยของสันเขาและโครงข่ายประสาทเทียมสามารถใช้เทคนิคการหดตัวได้เช่นกัน ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำM ดังนั้นทั้งνและM จึงควบคุมความเสี่ยงในการทำนายข้อมูลการฝึกอบรมνν\nuMMMνν\nuMMM การทำให้เป็นมาตรฐานหมายถึง "วิธีหลีกเลี่ยงการทำให้อ้วนมากเกินไป" ดังนั้นจึงเป็นที่ชัดเจนว่าจำนวนการวนซ้ำเป็นสิ่งสำคัญในการเคารพนั้น ( Mที่สูงเกินไปที่จะนำไปสู่การล้น) แต่:MMMMMM ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำMνν\nuMMM เพียงหมายความว่าด้วยอัตราการเรียนรู้ต่ำจำเป็นต้องมีการทำซ้ำมากขึ้นเพื่อให้ได้ความถูกต้องเหมือนกันในชุดฝึกอบรม แล้วมันเกี่ยวข้องอย่างไรกับการบรรจุมากเกินไป?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.