คำถามติดแท็ก overfitting

ข้อผิดพลาดในการสร้างแบบจำลอง (โดยเฉพาะการสุ่มตัวอย่างข้อผิดพลาด) แทนความสัมพันธ์ที่จำลองแบบได้และให้ข้อมูลระหว่างตัวแปรช่วยปรับปรุงสถิติแบบจำลองให้พอดี แต่จะช่วยลดความน่าเบื่อหน่าย

2
หนึ่งคน (ในทางทฤษฎี) สามารถฝึกโครงข่ายประสาทเทียมด้วยตัวอย่างการฝึกอบรมที่น้อยกว่าน้ำหนักได้หรือไม่?
ก่อนอื่น: ฉันรู้ว่าไม่มีขนาดตัวอย่างทั่วไปที่ต้องใช้ในการฝึกอบรมโครงข่ายประสาท ขึ้นอยู่กับปัจจัยหลายอย่างเช่นความซับซ้อนของงานเสียงในข้อมูลและอื่น ๆ ยิ่งฉันมีตัวอย่างการฝึกอบรมมากเท่าไหร่เครือข่ายของฉันก็ยิ่งดีขึ้นเท่านั้น แต่ฉันสงสัยว่า: เป็นไปได้ไหมในทางทฤษฎีที่จะฝึกโครงข่ายประสาทด้วยตัวอย่างการฝึกอบรมที่น้อยกว่าน้ำหนักถ้าฉันคิดว่างานของฉันจะ "ง่าย" เพียงพอหรือไม่ มีใครรู้บ้างไหมว่านี่เป็นตัวอย่างที่ดีหรือไม่? หรือเครือข่ายนี้จะทำงานได้ไม่ดีหรือไม่? ถ้าฉันพิจารณาตัวอย่างเช่นการถดถอยพหุนามฉันไม่สามารถพอดีกับพหุนามระดับ 4 (เช่นมี 5 พารามิเตอร์อิสระ) ในจุดข้อมูลเพียง 4 จุด มีกฎที่คล้ายกันสำหรับเครือข่ายประสาทเทียมหรือไม่โดยพิจารณาจากจำนวนน้ำหนักของฉันเป็นจำนวนพารามิเตอร์อิสระหรือไม่

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

1
วิธีการเลือกแบบที่ดีที่สุดโดยไม่มีข้อมูลที่เหมาะสมมากเกินไป? การสร้างแบบจำลองการกระจาย bimodal ด้วยฟังก์ชั่นปกติ N ฯลฯ
ฉันมีการกระจายของค่านิยมแบบ bimodal อย่างชัดเจนซึ่งฉันพยายามที่จะปรับให้เหมาะสม ข้อมูลสามารถเข้ากันได้ดีกับทั้ง 2 ฟังก์ชั่นปกติ (bimodal) หรือฟังก์ชั่นปกติ 3 อย่าง นอกจากนี้ยังมีเหตุผลทางกายภาพที่เป็นไปได้สำหรับการปรับข้อมูลด้วย 3 ยิ่งมีการแนะนำพารามิเตอร์มากเท่าใดความพอดีที่สมบูรณ์แบบก็จะยิ่งมากขึ้นเช่นเดียวกับค่าคงที่ที่เพียงพอหนึ่งสามารถ " พอดีช้าง " นี่คือการกระจายตัวพอดีกับผลรวมของ 3 เส้นโค้ง (Gaussian): เหล่านี้คือข้อมูลสำหรับการฟิต ฉันไม่แน่ใจว่าควรใช้แบบทดสอบแบบใดเพื่อตรวจสอบความเหมาะสม ข้อมูลประกอบด้วย 91 คะแนน 1 ฟังก์ชั่นปกติ: RSS: 1.06231 X ^ 2: 3.1674 F.Test: 0.3092 2 ฟังก์ชั่นปกติ: RSS: 0.010939 X ^ 2: 0.053896 F.Test: 0.97101 3 ฟังก์ชั่นปกติ: RSS: 0.00536 X …

4
การมีตัวแยกแบบเป็นเส้นตรงมากเกินไป
วันนี้อาจารย์ของเรากล่าวในชั้นเรียนว่า ฉันถือว่ามันผิดเนื่องจากแม้แต่ตัวแยกประเภทแบบเส้นตรงอาจมีความอ่อนไหวต่อค่าผิดปกติในชุดฝึกอบรม - ยกตัวอย่างเช่นเครื่องเวกเตอร์สนับสนุนยาก: ดาต้าพอยน์ที่มีเสียงดังเพียงตัวเดียวสามารถเปลี่ยนไฮเปอร์เพลนที่จะใช้แยกชุดข้อมูล หรือฉันผิด เห็นได้ชัดว่าการเรียงตัวเชิงเส้นอาจป้องกันได้มากกว่าการบรรจุเกินเนื่องจากความซับซ้อนของโมเดลที่ต่ำกว่า แต่ถึงกระนั้นฉันก็ไม่เห็นว่าทำไมการบรรจุเกินควรเป็นไปไม่ได้ อีกประเด็นหนึ่งคือเมื่อฉันพยายามคิดเกี่ยวกับปัญหานี้ฉันรู้ว่า "การ overfitting" ดูเหมือนจะไม่ได้ถูกกำหนดอย่างเป็นทางการ ทำไมถึงเป็นอย่างนั้น? การวัดระยะทางระหว่างการฝึกซ้อมและชุดทดสอบจะไม่อนุญาตให้ทำในรูปแบบดังกล่าวหรือไม่ ขอบคุณ

1
การสร้างแบบจำลองด้วยป่าสุ่มต้องมีการตรวจสอบข้ามหรือไม่?
เท่าที่ฉันเคยเห็นความคิดเห็นมีแนวโน้มที่จะแตกต่างกันเกี่ยวกับเรื่องนี้ แนวปฏิบัติที่ดีที่สุดจะใช้การตรวจสอบข้าม (โดยเฉพาะอย่างยิ่งหากเปรียบเทียบ RF กับอัลกอริธึมอื่น ๆ ในชุดข้อมูลเดียวกัน) แหล่งที่มาดั้งเดิมระบุว่ามีการคำนวณข้อผิดพลาด OOB ข้อเท็จจริงระหว่างการฝึกอบรมแบบจำลองเพียงพอที่จะเป็นตัวบ่งชี้ประสิทธิภาพของชุดทดสอบ แม้แต่ Trevor Hastie ในการพูดคุยเมื่อไม่นานมานี้กล่าวว่า "Random Forest ให้การตรวจสอบข้ามฟรี" โดยสัญชาตญาณสิ่งนี้สมเหตุสมผลสำหรับฉันหากการฝึกอบรมและพยายามปรับปรุงโมเดล RF-based บนหนึ่งชุดข้อมูล ความคิดเห็นของคุณเกี่ยวกับเรื่องนี้คืออะไร?

1
ป่าสุ่มไม่สามารถทนได้?
ฉันได้อ่านวรรณกรรมแล้วว่าป่าสุ่มไม่เหมาะสม ในขณะที่ฟังดูดี แต่มันก็ดีเกินกว่าที่จะเป็นจริงได้ เป็นไปได้หรือไม่ที่ rf จะมีน้ำหนักเกิน?

2
คำอธิบายที่ชัดเจนสำหรับ "เสถียรภาพเชิงตัวเลขของเมทริกซ์ผกผัน" ในการถดถอยของสันเขาและบทบาทในการลดความพอดี
ฉันเข้าใจว่าเราสามารถใช้การทำให้เป็นมาตรฐานในปัญหาการถดถอยกำลังสองน้อยที่สุดเช่น w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] และปัญหานี้มีวิธีแก้ปัญหาแบบปิดเป็น: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. เราเห็นว่าในสมการที่ 2 การทำให้เป็นมาตรฐานนั้นเป็นการเพิ่มλλ\lambdaไปยังแนวทแยงของXTXXTX\boldsymbol{X}^T\boldsymbol{X}ซึ่งทำเพื่อปรับปรุงเสถียรภาพเชิงตัวเลขของการผกผันเมทริกซ์ ความเข้าใจ 'หยาบ' ปัจจุบันของฉันเกี่ยวกับเสถียรภาพเชิงตัวเลขคือถ้าฟังก์ชั่นมากขึ้น 'เสถียรภาพเชิงตัวเลข' ดังนั้นเอาต์พุตของมันจะได้รับผลกระทบน้อยลงอย่างมากจากเสียงรบกวนในอินพุต ฉันมีปัญหาเกี่ยวกับแนวคิดของความเสถียรเชิงตัวเลขที่ได้รับการปรับปรุงให้ดีขึ้นเพื่อภาพรวมที่ใหญ่ขึ้นว่าจะหลีกเลี่ยง / ลดปัญหาการ overfitting อย่างไร ฉันลองดูที่Wikipediaและเว็บไซต์มหาวิทยาลัยอื่น ๆ ไม่กี่แห่ง แต่พวกเขาก็ไม่ได้อธิบายอย่างลึกซึ้งว่าทำไมถึงเป็นเช่นนั้น

1
แบบจำลองที่อิ่มตัวนั้นเป็นกรณีพิเศษของรุ่นที่ติดตั้งมากเกินไปหรือไม่?
ฉันพยายามเข้าใจว่าแบบจำลองที่อิ่มตัวคืออะไร AFAIK คือเมื่อคุณมีคุณสมบัติมากเท่าที่สังเกต เราบอกได้ไหมว่าแบบจำลองที่อิ่มตัวนั้นเป็นกรณีพิเศษของโมเดลที่ติดตั้งมากเกินไป?

1
ทำไมการกำจัดย้อนหลังจึงมีเหตุผลเมื่อทำการถดถอยหลายครั้ง?
มันไม่ได้ส่งผลให้กระชับหรือไม่? ผลลัพธ์ของฉันจะเชื่อถือได้มากขึ้นหรือไม่ถ้าฉันเพิ่มขั้นตอนแจ็คมีดหรือ bootstrap เป็นส่วนหนึ่งของการวิเคราะห์

2
การทดสอบย้อนกลับหรือการตรวจสอบความถูกต้องข้ามเมื่อกระบวนการสร้างแบบจำลองเป็นแบบโต้ตอบ
ฉันมีตัวแบบทำนายผลซึ่งฉันต้องการทดสอบกลับ (เช่นนำชุดข้อมูลของฉัน "ย้อนกลับ" ไปยังจุดก่อนหน้าในเวลาและดูว่าตัวแบบนั้นจะทำแบบมุ่งหวังได้อย่างไร) ปัญหาคือว่าบางรุ่นของฉันถูกสร้างขึ้นผ่านกระบวนการโต้ตอบ ตัวอย่างเช่นทำตามคำแนะนำในกลยุทธ์การสร้างแบบจำลองการถดถอยของ Frank Harrell ในแบบจำลองหนึ่งฉันใช้ splines ลูกบาศก์แบบ จำกัด เพื่อจัดการความสัมพันธ์แบบไม่เชิงเส้นที่เป็นไปได้ระหว่างคุณลักษณะและการตอบสนอง ฉันจัดสรรระดับความเป็นอิสระของแต่ละอิสระขึ้นอยู่กับการรวมกันของความรู้ในโดเมนและการวัดความแข็งแกร่งของสมาคม แต่องศาอิสระที่ฉันต้องการอนุญาตให้แบบจำลองของฉันขึ้นอยู่กับขนาดของชุดข้อมูลซึ่งแตกต่างกันอย่างมากเมื่อทำการทดสอบย้อนหลัง หากฉันไม่ต้องการแยกองศาอิสระแยกจากกันในแต่ละครั้งที่รุ่นถูกทดสอบซ้ำตัวเลือกอื่นของฉันคืออะไร สำหรับตัวอย่างอื่นฉันกำลังตรวจจับค่าผิดปกติผ่านการหาจุดที่มีเลเวอเรจสูง ถ้าฉันมีความสุขที่จะทำสิ่งนี้ด้วยมือฉันจะดูที่จุดข้อมูลที่มีประโยชน์สูงแต่ละจุดตรวจสอบอย่างมีเหตุผลว่าข้อมูลนั้นสะอาดและกรองออกหรือทำความสะอาดด้วยมือ แต่สิ่งนี้ขึ้นอยู่กับความรู้เกี่ยวกับโดเมนจำนวนมากดังนั้นฉันจึงไม่ทราบวิธีการดำเนินการอัตโนมัติ ฉันขอขอบคุณคำแนะนำและวิธีแก้ปัญหาทั้งสอง (ก) ถึงปัญหาทั่วไปของการสร้างส่วนโต้ตอบอัตโนมัติของกระบวนการสร้างแบบจำลองหรือ (ข) คำแนะนำเฉพาะสำหรับสองกรณีนี้ ขอบคุณ!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.