คำถามติดแท็ก regularization

รวมถึงข้อ จำกัด เพิ่มเติม (โดยทั่วไปจะเป็นบทลงโทษสำหรับความซับซ้อน) ในกระบวนการปรับตัวแบบ ใช้เพื่อป้องกันการ overfitting / เพิ่มความแม่นยำในการทำนาย

6
ทำไม L1 จึงเป็นแบบอย่างสำหรับรุ่นที่กระจัดกระจาย
ฉันกำลังอ่านหนังสือเกี่ยวกับการถดถอยเชิงเส้น มีประโยคบางส่วนเกี่ยวกับบรรทัดฐาน L1 และ L2 ฉันรู้ว่าพวกเขาเพียงแค่ไม่เข้าใจว่าทำไมมาตรฐาน L1 สำหรับรุ่นที่กระจัดกระจาย ใครสามารถใช้คำอธิบายง่ายๆ?


3
ทำไม Lasso ถึงเลือก Variable
ฉันได้อ่านองค์ประกอบของการเรียนรู้ทางสถิติแล้วและฉันอยากจะรู้ว่าทำไม Lasso ถึงเลือกตัวแปรและการถดถอยแบบสันไม่ได้ ทั้งสองวิธีลดผลรวมการตกค้างของสี่เหลี่ยมและมีข้อ จำกัด เกี่ยวกับค่าที่เป็นไปได้ของพารามิเตอร์\สำหรับคล้องข้อ จำกัด คือ , ในขณะที่สำหรับสันมันเป็นสำหรับบางคนทีββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt ฉันเคยเห็นรูป Diamond vs ellipse ในหนังสือแล้วและฉันมีสัญชาตญาณว่าทำไม Lasso ถึงมุมของภูมิภาคที่ถูก จำกัด ซึ่งหมายความว่าหนึ่งในสัมประสิทธิ์ถูกตั้งค่าเป็นศูนย์ อย่างไรก็ตามสัญชาตญาณของฉันค่อนข้างอ่อนแอและฉันไม่มั่นใจ มันควรจะเห็นง่าย แต่ฉันไม่รู้ว่าทำไมเรื่องนี้ถึงเป็นจริง ดังนั้นฉันเดาว่าฉันกำลังมองหาเหตุผลทางคณิตศาสตร์หรือคำอธิบายที่เข้าใจง่ายว่าทำไมรูปทรงของผลรวมที่เหลือของกำลังสองมีแนวโน้มที่จะเข้ามุมของ ขอบเขต จำกัด (ในขณะที่สถานการณ์นี้ไม่น่าจะเกิดขึ้นถ้า ข้อ จำกัด คือ )||β||1||β||1||\beta||_1||β||2||β||2||\beta||_2

5
การทำให้เป็นปกติในภาษาอังกฤษธรรมดาคืออะไร
แตกต่างจากบทความอื่น ๆ ฉันพบรายการวิกิพีเดียสำหรับเรื่องนี้อ่านไม่ได้สำหรับคนที่ไม่ใช่คณิตศาสตร์ (เช่นฉัน) ฉันเข้าใจแนวคิดพื้นฐานที่ว่าคุณชอบโมเดลที่มีกฎน้อยกว่า สิ่งที่ฉันไม่ได้รับคือคุณจะได้รับจากชุดของกฎไปยัง 'คะแนนการทำให้เป็นมาตรฐาน' ซึ่งคุณสามารถใช้เพื่อเรียงลำดับโมเดลจากน้อยไปหามากที่สุด คุณสามารถอธิบายวิธีการทำให้เป็นมาตรฐานได้ง่ายหรือไม่? ฉันสนใจในบริบทของการวิเคราะห์ระบบการซื้อขายทางสถิติ มันจะดีมากถ้าคุณสามารถอธิบายได้ว่า / ฉันจะใช้การทำให้เป็นมาตรฐานเพื่อวิเคราะห์แบบจำลองการทำนายสองแบบต่อไปนี้ได้อย่างไร: รุ่น 1 - ราคาสูงขึ้นเมื่อ: exp_moving_avg (ราคา, ช่วงเวลา = 50)> exp_moving_avg (ราคา, ช่วงเวลา = 200) รุ่น 2 - ราคาสูงขึ้นเมื่อ: ราคา [n] <ราคา [n-1] 10 ครั้งติดต่อกัน exp_moving_avg (ราคา, ระยะเวลา = 200) เพิ่มขึ้น แต่ฉันสนใจที่จะรับรู้ถึงวิธีการทำให้เป็นปกติมากขึ้น ดังนั้นหากคุณรู้จักโมเดลที่ดีกว่าสำหรับการอธิบายโปรดทำเช่นนั้น

6
การทำให้เป็นมาตรฐาน L2 เทียบเท่ากับ Gaussian ก่อน
ฉันอ่านมันต่อไปและอย่างสังหรณ์ใจฉันสามารถเห็นสิ่งนี้ได้ แต่จะไปจากการทำให้เป็นมาตรฐาน L2 เพื่อบอกว่านี่คือการวิเคราะห์แบบเกาส์ก่อนหรือไม่ กันไปสำหรับการพูด L1 เทียบเท่ากับ Laplacean ก่อน การอ้างอิงใด ๆ เพิ่มเติมจะดีมาก

2
ทำไมการหดตัวจึงใช้งานได้
เพื่อที่จะแก้ปัญหาของการเลือกแบบจำลองจำนวนของวิธีการ (LASSO, การถดถอยของสันเขา ฯลฯ ) จะลดค่าสัมประสิทธิ์ของตัวแปรทำนายไปทางศูนย์ ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายว่าทำไมสิ่งนี้จึงปรับปรุงความสามารถในการทำนาย หากผลที่แท้จริงของตัวแปรมีขนาดใหญ่มากทำไมไม่ลดขนาดพารามิเตอร์ส่งผลให้การคาดการณ์แย่ลง?

7
ทำไมคำศัพท์ธรรมดาจึงถูกเพิ่มเข้าไปในฟังก์ชั่นต้นทุน (แทนที่จะเป็นแบบทวีคูณเป็นต้น)
เมื่อใดก็ตามที่มีการใช้การทำให้เป็นปกติจะมีการเพิ่มฟังก์ชันต้นทุนเช่นในฟังก์ชันต้นทุนต่อไปนี้ ทำให้ฉันเข้าใจได้ง่ายตั้งแต่ลดขนาด ฟังก์ชั่นค่าใช้จ่ายหมายถึงการลดข้อผิดพลาด (ด้านซ้าย) และลดขนาดของค่าสัมประสิทธิ์ (ระยะเวลาที่เหมาะสม) ในเวลาเดียวกัน (หรืออย่างน้อยสมดุลสองการย่อขนาด)J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 คำถามของฉันคือเหตุผลว่าทำไมคำศัพท์ที่ทำให้เป็นมาตรฐานนี้α∥θ∥22α‖θ‖22\alpha\|\theta\|_2^2เพิ่มเข้ากับฟังก์ชั่นต้นทุนดั้งเดิมและไม่คูณหรือสิ่งอื่นใดที่ทำให้จิตใจของแรงจูงใจที่อยู่เบื้องหลังแนวคิดของการทำให้เป็นปกติ? เป็นเพราะถ้าเราเพิ่มคำง่ายๆมันก็ง่ายพอและทำให้เราสามารถแก้ปัญหาเชิงวิเคราะห์ได้หรือมีเหตุผลที่ลึกซึ้งกว่านี้?

6
การถดถอยของสันเขาไร้ประโยชน์ในมิติที่สูง ( ) หรือไม่? OLS จะล้มเหลวได้อย่างไร
พิจารณาปัญหาการถดถอยที่ดีเก่ากับพยากรณ์และขนาดของกลุ่มตัวอย่างnภูมิปัญญาปกติคือตัวประมาณค่า OLS จะ overfit และโดยทั่วไปแล้วจะดีกว่าโดยตัวประมาณถดถอยสัน:มันเป็นมาตรฐานที่จะใช้การตรวจสอบข้ามที่จะหาที่ดีที่สุด regularization พารามิเตอร์\ที่นี่ฉันใช้ CV 10 เท่า ปรับปรุงการชี้แจง:เมื่อ , โดย "OLS ตัวประมาณ" ฉันเข้าใจ "ตัวประมาณค่าต่ำสุด - บรรทัดฐาน OLS" ที่กำหนดโดยpppβ = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Y λnnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdaβ OLS = ( X ⊤ X ) + …

6
เหตุใดจึงไม่มีการตรวจสอบความสัมพันธ์หลายระดับในสถิติสมัยใหม่ / การเรียนรู้ของเครื่อง
ในสถิติแบบดั้งเดิมในขณะที่สร้างแบบจำลองเราจะตรวจสอบความหลากหลายทางพินิจพิเคราะห์โดยใช้วิธีการเช่นประมาณการค่าความแปรปรวนของเงินเฟ้อ (VIF) แต่ในการเรียนรู้ของเครื่อง เลย ทำไมเราทำเช่นนั้น?

3
วิธีการทำให้เป็นมาตรฐานสำหรับการถดถอยโลจิสติก
การทำให้เป็นปกติโดยใช้วิธีการเช่น Ridge, Lasso, ElasticNet นั้นค่อนข้างทั่วไปสำหรับการถดถอยเชิงเส้น ฉันต้องการที่จะรู้ว่าต่อไปนี้: วิธีการเหล่านี้ใช้สำหรับการถดถอยโลจิสติก? ถ้าเป็นเช่นนั้นมีความแตกต่างในวิธีที่พวกเขาต้องใช้สำหรับการถดถอยโลจิสติกหรือไม่? หากวิธีการเหล่านี้ใช้ไม่ได้จะทำให้การถดถอยโลจิสติกเป็นปกติได้อย่างไร

1
โครงข่ายประสาทเทียม: โมเมนตัมการเปลี่ยนแปลงน้ำหนักและการลดน้ำหนัก
โมเมนตัมใช้เพื่อลดความผันผวนของการเปลี่ยนแปลงน้ำหนักในการวนซ้ำตามลำดับ:αα\alpha ที่E(W)เป็นฟังก์ชั่นข้อผิดพลาดW- เวกเตอร์ของน้ำหนักที่η- การเรียนรู้อัตราΔ โอห์มผม( t + 1 ) = - η∂E∂Wผม+ อัลฟ่าΔ โอห์มผม( T ) ,Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E( w )E(w)E({\bf w})Ww{\bf w}ηη\eta การลดน้ำหนักลงโทษการเปลี่ยนแปลงน้ำหนัก:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i คำถามคือถ้ามันเหมาะสมที่จะรวมทั้งเทคนิคในระหว่างการเผยแพร่กลับและสิ่งที่มันจะมีผล? Δωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωiΔωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωi\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - …

5
จะหาวิธีการแก้ปัญหาการถดถอยของสันเขาได้อย่างไร?
ฉันกำลังมีปัญหาบางอย่างกับการได้มาของวิธีแก้ปัญหาการถดถอยของสันเขา ฉันรู้วิธีการแก้ปัญหาการถดถอยโดยไม่มีคำศัพท์ β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. แต่หลังจากเพิ่มคำศัพท์ L2เข้ากับฟังก์ชั่นค่าใช้จ่ายλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

3
เหตุผลเชิงประจักษ์สำหรับกฎข้อผิดพลาดมาตรฐานเดียวเมื่อใช้การตรวจสอบความถูกต้องข้าม
มีการศึกษาเชิงประจักษ์ที่แสดงให้เห็นถึงการใช้กฎข้อผิดพลาดมาตรฐานเดียวเพื่อสนับสนุนการประหยัดเงินหรือไม่? เห็นได้ชัดว่ามันขึ้นอยู่กับกระบวนการสร้างข้อมูล แต่สิ่งใดก็ตามที่วิเคราะห์คลังข้อมูลขนาดใหญ่จะเป็นการอ่านที่น่าสนใจมาก "กฎข้อผิดพลาดมาตรฐานหนึ่งข้อ" จะถูกนำไปใช้เมื่อเลือกรุ่นผ่านการตรวจสอบข้าม (หรือโดยทั่วไปผ่านขั้นตอนการสุ่มใด ๆ ) สมมติเราพิจารณารุ่นการจัดทำดัชนีความซับซ้อนพารามิเตอร์เช่นว่าคือ "ความซับซ้อนมากขึ้น" กว่าว่าเมื่อtau' สมมติว่าเราประเมินคุณภาพของโมเดลโดยกระบวนการสุ่มตัวอย่างเช่นการตรวจสอบข้าม ให้แสดงถึงคุณภาพ "เฉลี่ย" ของเช่นค่าความผิดพลาดการทำนายค่าเฉลี่ยของการข้ามการตรวจสอบความถูกต้องจำนวนมาก เราต้องการลดปริมาณนี้MτMτM_\tauτ∈Rτ∈R\tau\in\mathbb{R}MτMτM_\tauMτ′Mτ′M_{\tau'}τ>τ′τ>τ′\tau>\tau'MMMq(M)q(M)q(M)MMM อย่างไรก็ตามเนื่องจากการวัดคุณภาพของเรานั้นมาจากขั้นตอนการสุ่มตัวอย่างบางอย่างจึงมาพร้อมกับความแปรปรวน อนุญาตให้แสดงถึงข้อผิดพลาดมาตรฐานของคุณภาพของในการดำเนินการสุ่มเช่นค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดการคาดการณ์นอกถุงของในการดำเนินการตรวจสอบข้ามs(M)s(M)s(M)MMMMMM จากนั้นเราก็เลือกรูปแบบที่เป็นที่เล็กที่สุดดังกล่าวว่าMτMτM_\tauττ\tauττ\tau q(Mτ)≤q(Mτ′)+s(Mτ′),q(Mτ)≤q(Mτ′)+s(Mτ′),q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}), ที่ดัชนี (โดยเฉลี่ย) แบบที่ดีที่สุด,tau)τ′τ′\tau'q(Mτ′)=minτq(Mτ)q(Mτ′)=minτq(Mτ)q(M_{\tau'})=\min_\tau q(M_\tau) นั่นคือเราเลือกแบบจำลองที่ง่ายที่สุด ( เล็กที่สุด ττ\tau ) ซึ่งไม่เกินหนึ่งข้อผิดพลาดมาตรฐานที่แย่กว่าแบบจำลองที่ดีที่สุดMτ′Mτ′M_{\tau'}ในขั้นตอนการสุ่ม ฉันพบ "กฎข้อผิดพลาดมาตรฐานหนึ่งข้อ" ที่อ้างถึงในที่ต่อไปนี้ แต่ไม่เคยมีเหตุผลที่ชัดเจน: หน้า 80 ในการจำแนกและต้นไม้ถดถอยโดย Breiman, Friedman, Stone & Olshen (1984) หน้า 415 ในการประมาณจำนวนกลุ่มในชุดข้อมูลผ่านสถิติ Gapโดย Tibshirani, Walther …

7
ทำไมการทำให้เป็นมาตรฐานไม่สามารถแก้ปัญหาความหิวโหยของโครงข่ายประสาทได้
ปัญหาที่ฉันเห็นบ่อยขึ้นในบริบทของเครือข่ายประสาททั่วไปและโดยเฉพาะอย่างยิ่งเครือข่ายประสาทลึกคือพวกเขากำลัง "หิวข้อมูล" - นั่นคือพวกเขาทำงานได้ไม่ดียกเว้นว่าเรามีชุดข้อมูลขนาดใหญ่ ที่จะฝึกอบรมเครือข่าย ความเข้าใจของฉันคือว่านี่เป็นเพราะความจริงที่ว่า NNets โดยเฉพาะอย่างยิ่ง NNets ลึกมีระดับของเสรีภาพจำนวนมาก ดังนั้นในแบบจำลอง NNet จึงมีพารามิเตอร์จำนวนมากและหากจำนวนพารามิเตอร์ของแบบจำลองมีขนาดใหญ่เมื่อเทียบกับจำนวนจุดข้อมูลการฝึกอบรมมีแนวโน้มที่จะเพิ่มขึ้นพอดี แต่ทำไมปัญหานี้ถึงไม่ได้รับการแก้ไขโดยการทำให้เป็นมาตรฐาน เท่าที่ฉันรู้ NNets สามารถใช้การทำให้เป็นมาตรฐาน L1 และ L2 และยังมีวิธีการทำให้เป็นมาตรฐานของตนเองเช่นการออกกลางคันซึ่งสามารถลดจำนวนพารามิเตอร์ในเครือข่าย เราสามารถเลือกวิธีการทำให้เป็นมาตรฐานของเราเช่นที่พวกเขาบังคับใช้ parsimony และ จำกัด ขนาดของเครือข่ายได้หรือไม่? เพื่อชี้แจงความคิดของฉัน: สมมติว่าเรากำลังใช้ Deep NNet ขนาดใหญ่เพื่อพยายามสร้างแบบจำลองข้อมูลของเรา แต่ชุดข้อมูลมีขนาดเล็กและสามารถจำลองโดยโมเดลเชิงเส้นได้ แล้วทำไมน้ำหนักของเครือข่ายไม่มาบรรจบกันในลักษณะที่เซลล์ประสาทหนึ่งเลียนแบบการถดถอยเชิงเส้นและส่วนอื่น ๆ ทั้งหมดมารวมกันเป็นศูนย์ เหตุใดการทำให้เป็นมาตรฐานไม่ช่วยด้วยสิ่งนี้


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.