ทำไมคำศัพท์ธรรมดาจึงถูกเพิ่มเข้าไปในฟังก์ชั่นต้นทุน (แทนที่จะเป็นแบบทวีคูณเป็นต้น)

51

เมื่อใดก็ตามที่มีการใช้การทำให้เป็นปกติจะมีการเพิ่มฟังก์ชันต้นทุนเช่นในฟังก์ชันต้นทุนต่อไปนี้ ทำให้ฉันเข้าใจได้ง่ายตั้งแต่ลดขนาด ฟังก์ชั่นค่าใช้จ่ายหมายถึงการลดข้อผิดพลาด (ด้านซ้าย) และลดขนาดของค่าสัมประสิทธิ์ (ระยะเวลาที่เหมาะสม) ในเวลาเดียวกัน (หรืออย่างน้อยสมดุลสองการย่อขนาด)

J (θ) = \frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T} + α ‖ θ ‖_{2}^{2}

$J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2$

คำถามของฉันคือเหตุผลว่าทำไมคำศัพท์ที่ทำให้เป็นมาตรฐานนี้ $\alpha\|\theta\|_2^2$ เพิ่มเข้ากับฟังก์ชั่นต้นทุนดั้งเดิมและไม่คูณหรือสิ่งอื่นใดที่ทำให้จิตใจของแรงจูงใจที่อยู่เบื้องหลังแนวคิดของการทำให้เป็นปกติ? เป็นเพราะถ้าเราเพิ่มคำง่ายๆมันก็ง่ายพอและทำให้เราสามารถแก้ปัญหาเชิงวิเคราะห์ได้หรือมีเหตุผลที่ลึกซึ้งกว่านี้?

regularization

— grenmester
แหล่งที่มา

1

อีกข้อโต้แย้งผ่านทฤษฎีผู้

— ตอบโต้

2

ตัวคูณ lagrangian

— Haitao Du

9

หากคุณมีตัวแปรอิสระมากกว่าการสังเกตคุณอาจจะได้รับ

\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}

$\frac 1 2(y-\theta X^T)(y-\theta X^T)^T$ เป็นศูนย์ในหลาย ๆ วิธีดังนั้นการคูณด้วยอะไรจะไม่ ช่วยแยกแยะโมเดลที่มีประโยชน์

— Henry

47

มันค่อนข้างเป็นสัญชาตญาณที่ดีในกรอบ Bayesian พิจารณาว่า regularized ฟังก์ชั่นค่าใช้จ่าย $J$ มีบทบาทเช่นเดียวกับความน่าจะเป็นของการกำหนดค่าพารามิเตอร์ $\theta$ ได้รับการสังเกต $X, y$ Y การใช้ทฤษฎีบทของเบย์เราจะได้รับ:

P (θ | X, y) = \frac{P (X, y | θ) P (θ)}{P (X, y)} .

$P(\theta|X,y) = \frac{P(X,y|\theta)P(\theta)}{P(X,y)}.$

การบันทึกการแสดงออกให้เรา:

\log P (θ | X, y) = \log P (X, y | θ) + \log P (θ) - \log P (X, y) .

$\log P(\theta|X,y) = \log P(X,y|\theta) + \log P(\theta) - \log P(X,y).$

ตอนนี้ขอบอกว่าเป็นเชิงลบ¹เข้าสู่ระบบหลัง,y) เนื่องจากคำสุดท้ายไม่ได้ขึ้นอยู่กับเราจึงสามารถละเว้นได้โดยไม่ต้องเปลี่ยนขั้นต่ำ คุณเหลือคำสองคำ: 1) คำที่น่าจะเป็นขึ้นอยู่กับและและ 2) คำก่อนหน้าขึ้นอยู่กับเท่านั้น คำสองคำเหล่านี้สอดคล้องกับข้อกำหนดของข้อมูลและข้อกำหนดการทำให้เป็นมาตรฐานในสูตรของคุณ $J(\theta)$ $-\log P(\theta|X,y)$ $\theta$ $\log P(X,y|\theta)$ $X$ $y$ $\log P(\theta)$ $\theta$

คุณสามารถก้าวต่อไปและแสดงให้เห็นว่าฟังก์ชั่นการสูญเสียที่คุณโพสต์นั้นตรงกับรุ่นต่อไปนี้:

P (X, y | θ) = N (y | θ X, σ_{1}^{2}),

$P(X,y|\theta) = \mathcal{N}(y|\theta X, \sigma_1^2),$

P (θ) = N (θ | 0, σ_{2}^{2}),

$P(\theta) = \mathcal{N}(\theta | 0, \sigma_2^2),$

ที่พารามิเตอร์มาจากการแจกแจงแบบเกาส์ค่าศูนย์และการสังเกตที่มีสัญญาณรบกวนแบบเกาส์ค่าศูนย์ สำหรับรายละเอียดเพิ่มเติมดูคำตอบนี้ $\theta$ $y$

¹เชิงลบเนื่องจากคุณต้องการเพิ่มความน่าจะเป็นให้เกิดประโยชน์สูงสุดแต่ลดต้นทุนให้น้อยที่สุด

— Jan Kukacka
แหล่งที่มา

5

ฉันไม่พอใจคำตอบนี้เล็กน้อยเพราะมันแค่ส่งคลื่นความสอดคล้องระหว่างฟังก์ชั่นค่าใช้จ่ายและบันทึกหลัง หากค่าใช้จ่ายไม่สอดคล้องกับ log-posterior แต่แทน posterior เองเราจะสรุปว่าการทำให้เป็นมาตรฐานนั้นควรนำมาคูณกับต้นทุนที่ไม่ได้ทำเป็นมาตรฐาน (เช่น OP ถาม) - ในการพิสูจน์คำตอบนี้อย่างถูกต้องคุณจะต้องพิสูจน์เหตุผลว่าทำไมมันถึงเป็น log-posterior ที่เราคิดต้นทุน (คุณทำอะไรกับ "ไปให้ไกลกว่านี้" แต่คุณจะได้รับคลื่นนิดหน่อย ณ จุดนั้น)

— RM

1

@RM จุดที่ถูกต้อง มีเหตุผล: เนื่องจากฟังก์ชั่นการสูญเสียมาตรฐานที่ใช้ในการเรียนรู้ของเครื่องนั้นสอดคล้องกับ log-posterior แทนที่จะเป็น posterior นั้น ทำไม? เนื่องจากใช้การลดความเสี่ยงเชิงประจักษ์ และฟังก์ชั่นการสูญเสียมาตรฐานมักจะใช้รูปแบบโดยที่คือฟังก์ชันการสูญเสียที่มีการตีความที่สมเหตุสมผลว่าเป็นความน่าจะเป็นบันทึกหลัง (ฉันสงสัยว่าคุณรู้เรื่องนี้ แต่ฉันแค่สะกดคำออกมาสำหรับผู้เข้าชมคนอื่น ๆ )

\log P (X_{1}, \dots, X_{n}, y_{1}, \dots, y_{n} | θ) = \sum_{i} \log P (X_{i}, y_{i} | θ)

$\log P(X_1,\dots,X_n,y_1,\dots,y_n|\theta) = \sum_i \log P(X_i,y_i|\theta)$

\sum_{i} f (X_{i}, y_{i}, θ_{i})

$\sum_i f(X_i,y_i,\theta_i)$

f

$f$

— DW

@RM หากคุณมีค่าใช้จ่ายคุณสามารถกำหนดปัญหาของคุณใหม่ในแง่ของได้เสมอ กล่าวอีกนัยหนึ่งไม่ว่าฟังก์ชันต้นทุนของคุณคืออะไรมันจะกำหนดการกระจายตามหารด้วยค่าคงที่ normalizing ที่คุณสามารถละเว้นเมื่อใช้วิธีการ MCMC ความจริงที่คุณสามารถย้ำในแง่ของการชี้แจงเป็นสิ่งสำคัญมากสำหรับเช่นการจำลองการหลอมตัวอย่าง MCMC ฯลฯ

C

$C$

C = \exp \ln C

$C = \exp{\ln C}$

\exp \ln C

$\exp{\ln C}$

— ely

ตัวอย่างเช่น @RM ให้พิจารณาบทความนี้โดย Jun Liu (และมีความคิดเห็นคล้ายกันในหนังสือ MCMC ของ Liu) โดยที่หน้า 3 ที่ด้านล่างจะกล่าวว่า "Letคือการแจกแจงความน่าจะเป็นเป้าหมายภายใต้การสอบสวน (สมมุติว่าไฟล์ PDF ทั้งหมดสามารถเขียนได้ในรูปแบบนี้) "(เน้นที่การเพิ่ม) ดังนั้นจากจุดคชกรรมของมุมมองที่เป็นส่วนหนึ่งของหลังที่กำหนดโดยรูปแบบความน่าจะเป็นฟังก์ชั่นการสูญเสียนี้นี้สลายตัวแบบเบย์สำหรับคำตอบนี้จะเป็นอย่างเต็มที่ทั่วไป

π (x) = c \exp - h (x)

$\pi(x) = c\exp{-h(x)}$

— ely

ขอบคุณสำหรับคำตอบ! ฉันพยายามที่จะเข้าใจ "มัน" ที่จุดเริ่มต้นของโพสต์ของคุณ: สิ่งที่คุณอ้างว่ามีสัญชาตญาณที่ดีภายในกรอบ Bayesian? เหตุผลพื้นฐานว่าทำไมการเพิ่มบทลงโทษให้ตัวประมาณที่ดี? หรือเหตุผลทางประวัติศาสตร์ (และไม่ใช่ตัวย่อ) ทำไมผู้คนใช้ตัวประมาณค่าเพิ่มเติม (ในขณะที่ฉันกำลังพยายามให้คำพูดแนะนำฉันคิดว่าคำตอบของคุณพูดถึงเหตุผลทางประวัติศาสตร์มากกว่าเหตุผลทางสถิติ)

— user795305

34

JanและCagdasให้เหตุผลแบบเบย์ที่ดีโดยตีความตัวแปลประจำเหมือนก่อน นี่คือบางส่วนที่ไม่ใช่ Bayesian:

หากวัตถุประสงค์ที่ไม่สม่ำเสมอของคุณคือนูนและคุณเพิ่มตัวกำหนดค่าคอนเนกเตอร์นูนจากนั้นเป้าหมายรวมของคุณจะยังคงเป็นนูน สิ่งนี้จะไม่เป็นจริงถ้าคุณคูณมันหรือวิธีอื่น ๆ ของการรวม การเพิ่มประสิทธิภาพของนูนนั้นดีมากจริงๆเมื่อเทียบกับการเพิ่มประสิทธิภาพที่ไม่นูน ถ้าสูตรการนูนทำงานได้ดีกว่าการทำเช่นนั้น
บางครั้งมันนำไปสู่รูปแบบปิดที่ง่ายมากเนื่องจากwpof กล่าวถึงเป็นกรณีของการถดถอยของสัน
หากคุณคิดว่าปัญหาที่คุณ "จริง ๆ " ต้องการแก้ไขเป็นปัญหากับข้อ จำกัด ที่ยาก แล้วLagrangeของมันคือปัญหา แม้ว่าคุณไม่จำเป็นต้องใช้ความเป็นคู่ของลากรองจ์ แต่ก็เป็นที่เข้าใจกันมาก
$min_{θ : c (θ) \leq 0} J (θ),$ $\min_{\theta : c(\theta) \le 0} J(\theta) ,$ $min_{θ} J (θ) + λ c (θ) .$ $\min_\theta J(\theta) + \lambda c(\theta) .$
ในฐานะที่เป็นogogmad กล่าวถึงที่ทฤษฎีบท representerนำไปใช้ในกรณีที่มีการลงโทษสารเติมแต่ง: ถ้าคุณต้องการที่จะเพิ่มประสิทธิภาพมากกว่าทั้งการทำซ้ำเคอร์เนลพื้นที่ Hilbertของฟังก์ชั่นแล้วเรารู้ว่าวิธีการเพิ่มประสิทธิภาพมากกว่าพื้นที่ทั้งหมด อยู่ในพื้นที่ จำกัด มิติง่าย ๆ สำหรับการสูญ ; ฉันไม่ทราบว่าสิ่งนี้จะเก็บไว้เป็น regularizer แบบ multiplicative หรือไม่ นี่คือการหนุนของเคอร์เนล SVM $f$ $\mathcal H$
$min_{f \in H} J (f) + λ ‖ f ‖_{H}^{2}$ $\min_{f \in \mathcal H} J(f) + \lambda \lVert f \rVert_{\mathcal H}^2$ $J$
หากคุณกำลังเรียนรู้อย่างลึกซึ้งหรือมีอะไรที่ไม่นูนอยู่ดี: การสูญเสียสารเติมแต่งจะให้การไล่ระดับสีแบบง่าย ๆ สำหรับง่าย regularizer คุณให้มันจะกลายเป็นเรื่องง่ายมากที่ผุน้ำหนัก แต่ถึงแม้สำหรับ regularizer ที่ซับซ้อนกว่าพูดการสูญเสียของ WGAN-GPมันง่ายสำหรับการ backpropagation ในการคำนวณการไล่ระดับสีเมื่อมันต้องพิจารณาผลรวมของการสูญเสียและ regularizer ที่ซับซ้อน (พิจารณาแยกกัน) แทนที่จะต้อง ทำกฎผลิตภัณฑ์ $L_2$
$\sum_{x, y} \underset{the loss}{\underset{⏟}{f_{θ} (x) - f_{θ} (y)}} + λ \underset{the regularizer}{\underset{⏟}{{\hat{E}}_{α \sim U n i f o r m (0, 1)} {(‖ \nabla f_{θ} (α x + (1 - α) y) ‖ - 1)}^{2}}},$ $\sum_{x,y} \underbrace{f_\theta(x) - f_\theta(y)}_\text{the loss} + \lambda \underbrace{\mathbb{\hat E}_{\alpha \sim \mathrm{Uniform}(0, 1)} \left( \lVert \nabla f_\theta(\alpha x + (1 - \alpha) y) \rVert - 1\right)^2}_\text{the regularizer},$
การสูญเสียที่เพิ่มขึ้นนั้นยังสอดคล้องกับอัลกอริธึมการปรับให้เหมาะสมของADMM ที่ได้รับความนิยมและอัลกอริธึมที่ใช้

ไม่มีของเหล่านี้มีกฎอย่างหนักและรวดเร็วและแน่นอนบางครั้งการคูณ (หรืออื่น ๆ ) regularizer อาจทำงานได้ดีขึ้น (ตามogogmad ชี้ให้เห็น ) (อันที่จริงแล้วฉันเพิ่งจะส่งบทความเกี่ยวกับว่าบางสิ่งที่คุณสามารถตีความว่าเป็น regularizer multiplicative ทำได้ดีกว่า WGAN-GP สารเติมแต่งข้างต้น!) แต่หวังว่านี่จะช่วยอธิบายได้ว่าทำไม

— Dougal
แหล่งที่มา

2

+1 ขอให้โชคดีกับการส่งของคุณ

— อะมีบาพูดว่า Reinstate Monica

13

คุณต้องการลดทั้งสองคำลงในฟังก์ชันวัตถุประสงค์ ดังนั้นคุณต้องแยกแยะข้อกำหนด หากคุณคูณเทอมคุณสามารถมีเทอมใหญ่และอีกอันต่ำมาก ดังนั้นคุณยังคงจบลงด้วยค่าที่ต่ำของฟังก์ชันวัตถุประสงค์ แต่มีผลลัพธ์ที่ไม่พึงประสงค์

คุณอาจพบกับรุ่นที่มีตัวแปรใกล้เคียงกับศูนย์มากที่สุดโดยไม่มีอำนาจการทำนาย

ฟังก์ชันวัตถุประสงค์ซึ่งเป็นฟังก์ชันที่จะย่อให้เล็กสุดสามารถสร้างเป็นผลรวมของฟังก์ชันต้นทุนและเงื่อนไขการทำให้เป็นมาตรฐาน

ในกรณีที่ทั้งสองเป็นอิสระต่อกันคุณจะได้รับค่าที่แสดงในรูปแรกสำหรับวัตถุประสงค์ คุณเห็นในกรณีของผลรวมมีขั้นต่ำเพียงหนึ่งที่ (0, 0) ในกรณีของผลิตภัณฑ์ที่คุณมีความกำกวม คุณมีพื้นผิวไฮเปอร์ทั้งหมดเท่ากับศูนย์ที่ (x = 0 หรือ y = 0) ดังนั้นอัลกอริธึมการปรับให้เหมาะสมสามารถสิ้นสุดได้ทุกที่ขึ้นอยู่กับการเริ่มต้นของคุณ และไม่สามารถตัดสินใจได้ว่าทางออกใดดีกว่า

— Sören
แหล่งที่มา

10

คุณสามารถลองการทำงานแบบไบนารีอื่น ๆ ( ) และดูวิธีการเปรียบเทียบ $\max,\min,\times$

ปัญหากับและคือว่าถ้าข้อผิดพลาดเป็นแล้วโทษ regularized จะจบลงด้วยการ0สิ่งนี้ทำให้โมเดลมีความเหมาะสม $\min$ $\times$ $0$ $0$

ปัญหาของคือการที่คุณลงเอยด้วยการ "ลงโทษ" ที่หนักหนาสาหัสที่สุดของทั้งสองบทลงโทษ $\max$

ในทางตรงกันข้ามนั้นง่ายและใช้งานได้ $+$

คุณอาจถามว่าทำไมไม่ปฏิบัติการไบนารีอื่น ๆ ? ไม่มีข้อโต้แย้งใด ๆ ที่สามารถแยกพวกเขาออกได้ดังนั้นทำไมไม่เป็นเช่นนั้น

— jkabrg
แหล่งที่มา

8

ฉันคิดว่าคุณมีคำถามที่ถูกต้อง เพื่อให้คำตอบที่ถูกต้องคุณจะต้องเข้าใจธรรมชาติของความน่าจะเป็นของปัญหา

โดยทั่วไปปัญหาที่เราพยายามแก้ไขมีดังต่อไปนี้: ข้อมูลที่ให้ไว้การกระจายของสมมติฐานที่อธิบายข้อมูลนี้คืออะไร เมื่อเราพูดสมมติฐานเราหมายถึง PDF (อย่างน้อยในบริบทนี้) และการกระจายตัวของสมมติฐานที่เป็นรูปแบบไฟล์ PDF ของไฟล์ PDF คือD) $D$ $p(H | D)$

$p(H | D)$ คือการกระจายกว่าสมมติฐานที่กำหนดDหากเราพบสิ่งนี้เราก็สามารถเลือกหนึ่งในสมมติฐานเหล่านี้ตัวอย่างเช่นหนึ่งที่มีความน่าจะเป็นสูงที่สุดหรือเราอาจเลือกที่จะเฉลี่ยมากกว่าพวกเขาทั้งหมด แนวทางที่ง่ายกว่าคือการโจมตีปัญหาจากทิศทางที่แตกต่างกันโดยใช้ทฤษฎีบทของเบย์ $D$

$p (H | D) = \frac{p (D | H) \times p (H)}{p (D)}$ $p(H|D) = \frac{p(D|H)\times p(H)}{p(D)}$
$p(D|H)$ เป็นหนึ่งในสมมติฐานที่เรียกว่าความน่าจะเป็น คือการกระจายของสมมติฐานในจักรวาลของเราของสมมติฐานก่อนที่จะสังเกตข้อมูล หลังจากที่เราสังเกตข้อมูลเราอัพเดตความเชื่อของเรา $p(H)$
$p(D)$ เป็นค่าเฉลี่ยของสมมติฐานก่อนที่เราจะปรับปรุงความเชื่อของเรา

ตอนนี้ถ้าเราใช้ของสมการเบย์ทั้งสองข้างเราจะได้: $-\log$

- \log [p (H | D)] = - \log [p (D | H)] - \log [p (H)] + \log [p (D)]

$-\log [p(H|D)] = -\log [p(D|H)] -\log [p(H)] + \log [p(D)]$

โดยทั่วไปแล้วจะยากต่อการคำนวณ สิ่งที่ดีคือมันไม่ส่งผลกระทบต่อผลลัพธ์ มันเป็นค่าคงที่การทำให้เป็นมาตรฐาน $p(D)$

ตัวอย่างเช่นถ้าชุดของสมมติฐานเราเป็นกลุ่มของเกาส์ที่มีที่เราไม่รู้แต่ สมมติให้รู้ว่า (หรืออย่างน้อยก็สมมติว่ามันเป็นค่าคงที่) และยิ่งกว่านั้นสมมุติฐานของตัวเองถูกแจกจ่ายเป็น Gaussian ด้วยจากนั้นเสียบทุกอย่างที่ด้านบนดูเหมือนว่า: $p(D|H)$ $p(y|X,\theta)\sim N(\theta X,\sigma)$ $\theta$ $\sigma$ $p(H) = p(\theta) \sim N(0,\alpha^{-1} I)$

- \log [p (H | D)] = bunch of constants + \frac{1}{2} (y - θ X)^{2} + \frac{1}{2} α | | θ | |^{2} + c o n s t a n t

$-\log [p(H|D)] = \text{bunch of constants} + \frac{1}{2}(y-\theta X)^2 + \frac{1}{2}\alpha||\theta||^2 + {\rm constant}$

ทีนี้ถ้าเราลดนิพจน์นี้เราจะพบว่าสมมติฐานมีความน่าจะเป็นสูงสุด ค่าคงที่จะไม่ส่งผลกระทบต่อการย่อขนาด นี่คือการแสดงออกในคำถามของคุณ

ความจริงที่ว่าเราใช้ Gaussians ไม่ได้เปลี่ยนความจริงที่ว่าคำศัพท์พื้นฐานนั้นเพิ่มเติม มันจะต้องเป็นสารเติมแต่ง (ในแง่ของบันทึกหรือความน่าจะเป็นทวีคูณ) ไม่มีทางเลือกอื่น จะมีอะไรเปลี่ยนแปลงหากเราใช้ดิสทริบิวชันอื่น ๆ เป็นส่วนประกอบของการเพิ่ม ฟังก์ชันต้นทุน / ขาดทุนที่คุณให้ไว้มีความเหมาะสมที่สุดสำหรับสถานการณ์เฉพาะของ Gaussians

— Cagdas Ozgenc
แหล่งที่มา

เฮ้ Cagdas ขอบคุณสำหรับคำอธิบาย ฉันไม่เข้าใจการแปลงสมการสุดท้ายบน RHS คุณช่วยชี้ให้ฉันเข้าใจส่วนนั้นมากขึ้นได้ไหม

— Itachi

7

สันเขาเป็นสูตรที่สะดวกมาก ตรงกันข้ามกับคำตอบที่น่าจะเป็นคำตอบนี้ไม่ได้ให้การตีความใด ๆ ของประมาณการ แต่แทนที่จะอธิบายว่าทำไมสันเป็นรูปแบบเก่าและชัดเจน

ในการถดถอยเชิงเส้นสมการปกติจะให้ $\hat{\theta} = (X^TX)^{-1} X^T y$

แต่เมทริกซ์บางครั้งก็ไม่สามารถย้อนกลับได้ วิธีหนึ่งที่จะปรับเปลี่ยนได้โดยการเพิ่มองค์ประกอบขนาดเล็กไปจนถึงเส้นทแยงมุม:ฉัน $X^TX$ $X^TX + \alpha I$

นี่เป็นวิธีแก้ปัญหา: ; ดังนั้นไม่สามารถแก้ปัญหาเดิมได้ แต่เป็นปัญหาของสันเขา $\tilde{\theta} = (X^TX + \alpha I)^{-1} X^T y$ $\tilde{\theta}$

— wpof
แหล่งที่มา

3

โปรดระบุคำตอบที่คุณอ้างอิง การสั่งซื้อจะย้ายไปรอบ ๆ เมื่อคะแนนโหวตสะสมดังนั้น "เหนือ" จึงไม่ชัดเจนโดยเนื้อแท้

— gung - Reinstate Monica

1

ฉันคิดว่ามีเหตุผลที่เข้าใจง่ายกว่าว่าทำไมเราไม่สามารถคูณด้วยคำศัพท์ทั่วไปได้

ให้เราใช้ฟังก์ชันการลงโทษของเรากับฟังก์ชั่นการลงโทษปกติคูณด้วยคำว่าการทำให้เป็นมาตรฐานอย่างที่คุณแนะนำ

J (θ) = (\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}) α ‖ θ ‖_{2}^{2}

$J(θ)=(\frac{1}{2}(y−θX^T)(y−θX^T)^T)α‖θ‖^2_2$

ที่นี่เราสร้างขั้นต่ำทั่วโลกของฟังก์ชั่นการลงโทษที่ 0 ในกรณีนี้รูปแบบของเราสามารถผลิตข้อผิดพลาดสูงระหว่างการทำนายและข้อมูลที่ แต่มันไม่สำคัญว่าถ้าน้ำหนักรุ่นพารามิเตอร์ทุกฟังก์ชั่นเป็นศูนย์โทษของเราเป็นศูนย์ 0 $α‖θ‖^2_2=0$ $J(θ=0)=0$

เนื่องจากเว้นแต่ว่าโมเดลของเราสมบูรณ์แบบสมบูรณ์แล้วคำว่าจะไม่เป็นศูนย์ (ความน่าจะเป็นที่มีชุด unless เพื่อให้โมเดลของเรา 'สมบูรณ์แบบ' นั้นมีความสำคัญน้อยมากสำหรับข้อมูลจริง) จากนั้นโมเดลของเราควรฝึกอบรมเพื่อหาทางแก้ปัญหาเสมอθ = 0 $(\frac{1}{2}(y−θX^T)(y−θX^T)^T)$

นี่คือสิ่งที่มันจะกลับมาเว้นแต่จะติดอยู่ในท้องถิ่นขั้นต่ำที่ไหนสักแห่ง

— เจมส์ฟุลตัน
แหล่งที่มา