ทำไมคำศัพท์ธรรมดาจึงถูกเพิ่มเข้าไปในฟังก์ชั่นต้นทุน (แทนที่จะเป็นแบบทวีคูณเป็นต้น)


51

เมื่อใดก็ตามที่มีการใช้การทำให้เป็นปกติจะมีการเพิ่มฟังก์ชันต้นทุนเช่นในฟังก์ชันต้นทุนต่อไปนี้ ทำให้ฉันเข้าใจได้ง่ายตั้งแต่ลดขนาด ฟังก์ชั่นค่าใช้จ่ายหมายถึงการลดข้อผิดพลาด (ด้านซ้าย) และลดขนาดของค่าสัมประสิทธิ์ (ระยะเวลาที่เหมาะสม) ในเวลาเดียวกัน (หรืออย่างน้อยสมดุลสองการย่อขนาด)

J(θ)=12(yθXT)(yθXT)T+αθ22

คำถามของฉันคือเหตุผลว่าทำไมคำศัพท์ที่ทำให้เป็นมาตรฐานนี้αθ22เพิ่มเข้ากับฟังก์ชั่นต้นทุนดั้งเดิมและไม่คูณหรือสิ่งอื่นใดที่ทำให้จิตใจของแรงจูงใจที่อยู่เบื้องหลังแนวคิดของการทำให้เป็นปกติ? เป็นเพราะถ้าเราเพิ่มคำง่ายๆมันก็ง่ายพอและทำให้เราสามารถแก้ปัญหาเชิงวิเคราะห์ได้หรือมีเหตุผลที่ลึกซึ้งกว่านี้?


1
อีกข้อโต้แย้งผ่านทฤษฎีผู้
ตอบโต้

2
ตัวคูณ lagrangian
Haitao Du

9
หากคุณมีตัวแปรอิสระมากกว่าการสังเกตคุณอาจจะได้รับ12(yθXT)(yθXT)Tเป็นศูนย์ในหลาย ๆ วิธีดังนั้นการคูณด้วยอะไรจะไม่ ช่วยแยกแยะโมเดลที่มีประโยชน์
Henry

คำตอบ:


47

มันค่อนข้างเป็นสัญชาตญาณที่ดีในกรอบ Bayesian พิจารณาว่า regularized ฟังก์ชั่นค่าใช้จ่ายJมีบทบาทเช่นเดียวกับความน่าจะเป็นของการกำหนดค่าพารามิเตอร์θได้รับการสังเกตX,y Y การใช้ทฤษฎีบทของเบย์เราจะได้รับ:

P(θ|X,y)=P(X,y|θ)P(θ)P(X,y).

การบันทึกการแสดงออกให้เรา:

logP(θ|X,y)=logP(X,y|θ)+logP(θ)logP(X,y).

ตอนนี้ขอบอกว่าเป็นเชิงลบ1เข้าสู่ระบบหลัง,y) เนื่องจากคำสุดท้ายไม่ได้ขึ้นอยู่กับเราจึงสามารถละเว้นได้โดยไม่ต้องเปลี่ยนขั้นต่ำ คุณเหลือคำสองคำ: 1) คำที่น่าจะเป็นขึ้นอยู่กับและและ 2) คำก่อนหน้าขึ้นอยู่กับเท่านั้น คำสองคำเหล่านี้สอดคล้องกับข้อกำหนดของข้อมูลและข้อกำหนดการทำให้เป็นมาตรฐานในสูตรของคุณJ(θ)logP(θ|X,y)θlogP(X,y|θ)XylogP(θ)θ

คุณสามารถก้าวต่อไปและแสดงให้เห็นว่าฟังก์ชั่นการสูญเสียที่คุณโพสต์นั้นตรงกับรุ่นต่อไปนี้:

P(X,y|θ)=N(y|θX,σ12),
P(θ)=N(θ|0,σ22),

ที่พารามิเตอร์มาจากการแจกแจงแบบเกาส์ค่าศูนย์และการสังเกตที่มีสัญญาณรบกวนแบบเกาส์ค่าศูนย์ สำหรับรายละเอียดเพิ่มเติมดูคำตอบนี้θy


1เชิงลบเนื่องจากคุณต้องการเพิ่มความน่าจะเป็นให้เกิดประโยชน์สูงสุดแต่ลดต้นทุนให้น้อยที่สุด


5
ฉันไม่พอใจคำตอบนี้เล็กน้อยเพราะมันแค่ส่งคลื่นความสอดคล้องระหว่างฟังก์ชั่นค่าใช้จ่ายและบันทึกหลัง หากค่าใช้จ่ายไม่สอดคล้องกับ log-posterior แต่แทน posterior เองเราจะสรุปว่าการทำให้เป็นมาตรฐานนั้นควรนำมาคูณกับต้นทุนที่ไม่ได้ทำเป็นมาตรฐาน (เช่น OP ถาม) - ในการพิสูจน์คำตอบนี้อย่างถูกต้องคุณจะต้องพิสูจน์เหตุผลว่าทำไมมันถึงเป็น log-posterior ที่เราคิดต้นทุน (คุณทำอะไรกับ "ไปให้ไกลกว่านี้" แต่คุณจะได้รับคลื่นนิดหน่อย ณ จุดนั้น)
RM

1
@RM จุดที่ถูกต้อง มีเหตุผล: เนื่องจากฟังก์ชั่นการสูญเสียมาตรฐานที่ใช้ในการเรียนรู้ของเครื่องนั้นสอดคล้องกับ log-posterior แทนที่จะเป็น posterior นั้น ทำไม? เนื่องจากใช้การลดความเสี่ยงเชิงประจักษ์ และฟังก์ชั่นการสูญเสียมาตรฐานมักจะใช้รูปแบบโดยที่คือฟังก์ชันการสูญเสียที่มีการตีความที่สมเหตุสมผลว่าเป็นความน่าจะเป็นบันทึกหลัง (ฉันสงสัยว่าคุณรู้เรื่องนี้ แต่ฉันแค่สะกดคำออกมาสำหรับผู้เข้าชมคนอื่น ๆ )logP(X1,,Xn,y1,,yn|θ)=ilogP(Xi,yi|θ)if(Xi,yi,θi)f
DW

@RM หากคุณมีค่าใช้จ่ายคุณสามารถกำหนดปัญหาของคุณใหม่ในแง่ของได้เสมอ กล่าวอีกนัยหนึ่งไม่ว่าฟังก์ชันต้นทุนของคุณคืออะไรมันจะกำหนดการกระจายตามหารด้วยค่าคงที่ normalizing ที่คุณสามารถละเว้นเมื่อใช้วิธีการ MCMC ความจริงที่คุณสามารถย้ำในแง่ของการชี้แจงเป็นสิ่งสำคัญมากสำหรับเช่นการจำลองการหลอมตัวอย่าง MCMC ฯลฯCC=explnCexplnC
ely

ตัวอย่างเช่น @RM ให้พิจารณาบทความนี้โดย Jun Liu (และมีความคิดเห็นคล้ายกันในหนังสือ MCMC ของ Liu) โดยที่หน้า 3 ที่ด้านล่างจะกล่าวว่า "Letคือการแจกแจงความน่าจะเป็นเป้าหมายภายใต้การสอบสวน (สมมุติว่าไฟล์ PDF ทั้งหมดสามารถเขียนได้ในรูปแบบนี้) "(เน้นที่การเพิ่ม) ดังนั้นจากจุดคชกรรมของมุมมองที่เป็นส่วนหนึ่งของหลังที่กำหนดโดยรูปแบบความน่าจะเป็นฟังก์ชั่นการสูญเสียนี้นี้สลายตัวแบบเบย์สำหรับคำตอบนี้จะเป็นอย่างเต็มที่ทั่วไป π(x)=cexph(x)
ely

ขอบคุณสำหรับคำตอบ! ฉันพยายามที่จะเข้าใจ "มัน" ที่จุดเริ่มต้นของโพสต์ของคุณ: สิ่งที่คุณอ้างว่ามีสัญชาตญาณที่ดีภายในกรอบ Bayesian? เหตุผลพื้นฐานว่าทำไมการเพิ่มบทลงโทษให้ตัวประมาณที่ดี? หรือเหตุผลทางประวัติศาสตร์ (และไม่ใช่ตัวย่อ) ทำไมผู้คนใช้ตัวประมาณค่าเพิ่มเติม (ในขณะที่ฉันกำลังพยายามให้คำพูดแนะนำฉันคิดว่าคำตอบของคุณพูดถึงเหตุผลทางประวัติศาสตร์มากกว่าเหตุผลทางสถิติ)
user795305

34

JanและCagdasให้เหตุผลแบบเบย์ที่ดีโดยตีความตัวแปลประจำเหมือนก่อน นี่คือบางส่วนที่ไม่ใช่ Bayesian:

  • หากวัตถุประสงค์ที่ไม่สม่ำเสมอของคุณคือนูนและคุณเพิ่มตัวกำหนดค่าคอนเนกเตอร์นูนจากนั้นเป้าหมายรวมของคุณจะยังคงเป็นนูน สิ่งนี้จะไม่เป็นจริงถ้าคุณคูณมันหรือวิธีอื่น ๆ ของการรวม การเพิ่มประสิทธิภาพของนูนนั้นดีมากจริงๆเมื่อเทียบกับการเพิ่มประสิทธิภาพที่ไม่นูน ถ้าสูตรการนูนทำงานได้ดีกว่าการทำเช่นนั้น

  • บางครั้งมันนำไปสู่รูปแบบปิดที่ง่ายมากเนื่องจากwpof กล่าวถึงเป็นกรณีของการถดถอยของสัน

  • หากคุณคิดว่าปัญหาที่คุณ "จริง ๆ " ต้องการแก้ไขเป็นปัญหากับข้อ จำกัด ที่ยาก แล้วLagrangeของมันคือปัญหา แม้ว่าคุณไม่จำเป็นต้องใช้ความเป็นคู่ของลากรองจ์ แต่ก็เป็นที่เข้าใจกันมาก

    minθ:c(θ)0J(θ),
    minθJ(θ)+λc(θ).
  • ในฐานะที่เป็นogogmad กล่าวถึงที่ทฤษฎีบท representerนำไปใช้ในกรณีที่มีการลงโทษสารเติมแต่ง: ถ้าคุณต้องการที่จะเพิ่มประสิทธิภาพมากกว่าทั้งการทำซ้ำเคอร์เนลพื้นที่ Hilbertของฟังก์ชั่นแล้วเรารู้ว่าวิธีการเพิ่มประสิทธิภาพมากกว่าพื้นที่ทั้งหมด อยู่ในพื้นที่ จำกัด มิติง่าย ๆ สำหรับการสูญ ; ฉันไม่ทราบว่าสิ่งนี้จะเก็บไว้เป็น regularizer แบบ multiplicative หรือไม่ นี่คือการหนุนของเคอร์เนล SVMfH

    minfHJ(f)+λfH2
    J
  • หากคุณกำลังเรียนรู้อย่างลึกซึ้งหรือมีอะไรที่ไม่นูนอยู่ดี: การสูญเสียสารเติมแต่งจะให้การไล่ระดับสีแบบง่าย ๆ สำหรับง่าย regularizer คุณให้มันจะกลายเป็นเรื่องง่ายมากที่ผุน้ำหนัก แต่ถึงแม้สำหรับ regularizer ที่ซับซ้อนกว่าพูดการสูญเสียของ WGAN-GPมันง่ายสำหรับการ backpropagation ในการคำนวณการไล่ระดับสีเมื่อมันต้องพิจารณาผลรวมของการสูญเสียและ regularizer ที่ซับซ้อน (พิจารณาแยกกัน) แทนที่จะต้อง ทำกฎผลิตภัณฑ์L2

    x,yfθ(x)fθ(y)the loss+λE^αUniform(0,1)(fθ(αx+(1α)y)1)2the regularizer,
  • การสูญเสียที่เพิ่มขึ้นนั้นยังสอดคล้องกับอัลกอริธึมการปรับให้เหมาะสมของADMM ที่ได้รับความนิยมและอัลกอริธึมที่ใช้

ไม่มีของเหล่านี้มีกฎอย่างหนักและรวดเร็วและแน่นอนบางครั้งการคูณ (หรืออื่น ๆ ) regularizer อาจทำงานได้ดีขึ้น (ตามogogmad ชี้ให้เห็น ) (อันที่จริงแล้วฉันเพิ่งจะส่งบทความเกี่ยวกับว่าบางสิ่งที่คุณสามารถตีความว่าเป็น regularizer multiplicative ทำได้ดีกว่า WGAN-GP สารเติมแต่งข้างต้น!) แต่หวังว่านี่จะช่วยอธิบายได้ว่าทำไม


2
+1 ขอให้โชคดีกับการส่งของคุณ
อะมีบาพูดว่า Reinstate Monica

13

คุณต้องการลดทั้งสองคำลงในฟังก์ชันวัตถุประสงค์ ดังนั้นคุณต้องแยกแยะข้อกำหนด หากคุณคูณเทอมคุณสามารถมีเทอมใหญ่และอีกอันต่ำมาก ดังนั้นคุณยังคงจบลงด้วยค่าที่ต่ำของฟังก์ชันวัตถุประสงค์ แต่มีผลลัพธ์ที่ไม่พึงประสงค์

คุณอาจพบกับรุ่นที่มีตัวแปรใกล้เคียงกับศูนย์มากที่สุดโดยไม่มีอำนาจการทำนาย

ป้อนคำอธิบายรูปภาพที่นี่ ป้อนคำอธิบายรูปภาพที่นี่

ฟังก์ชันวัตถุประสงค์ซึ่งเป็นฟังก์ชันที่จะย่อให้เล็กสุดสามารถสร้างเป็นผลรวมของฟังก์ชันต้นทุนและเงื่อนไขการทำให้เป็นมาตรฐาน

ในกรณีที่ทั้งสองเป็นอิสระต่อกันคุณจะได้รับค่าที่แสดงในรูปแรกสำหรับวัตถุประสงค์ คุณเห็นในกรณีของผลรวมมีขั้นต่ำเพียงหนึ่งที่ (0, 0) ในกรณีของผลิตภัณฑ์ที่คุณมีความกำกวม คุณมีพื้นผิวไฮเปอร์ทั้งหมดเท่ากับศูนย์ที่ (x = 0 หรือ y = 0) ดังนั้นอัลกอริธึมการปรับให้เหมาะสมสามารถสิ้นสุดได้ทุกที่ขึ้นอยู่กับการเริ่มต้นของคุณ และไม่สามารถตัดสินใจได้ว่าทางออกใดดีกว่า


10

คุณสามารถลองการทำงานแบบไบนารีอื่น ๆ ( ) และดูวิธีการเปรียบเทียบmax,min,×

ปัญหากับและคือว่าถ้าข้อผิดพลาดเป็นแล้วโทษ regularized จะจบลงด้วยการ0สิ่งนี้ทำให้โมเดลมีความเหมาะสมmin×00

ปัญหาของคือการที่คุณลงเอยด้วยการ "ลงโทษ" ที่หนักหนาสาหัสที่สุดของทั้งสองบทลงโทษmax

ในทางตรงกันข้ามนั้นง่ายและใช้งานได้+

คุณอาจถามว่าทำไมไม่ปฏิบัติการไบนารีอื่น ๆ ? ไม่มีข้อโต้แย้งใด ๆ ที่สามารถแยกพวกเขาออกได้ดังนั้นทำไมไม่เป็นเช่นนั้น


8

ฉันคิดว่าคุณมีคำถามที่ถูกต้อง เพื่อให้คำตอบที่ถูกต้องคุณจะต้องเข้าใจธรรมชาติของความน่าจะเป็นของปัญหา

โดยทั่วไปปัญหาที่เราพยายามแก้ไขมีดังต่อไปนี้: ข้อมูลที่ให้ไว้การกระจายของสมมติฐานที่อธิบายข้อมูลนี้คืออะไร เมื่อเราพูดสมมติฐานเราหมายถึง PDF (อย่างน้อยในบริบทนี้) และการกระจายตัวของสมมติฐานที่เป็นรูปแบบไฟล์ PDF ของไฟล์ PDF คือD)Dp(H|D)

  1. p(H|D)คือการกระจายกว่าสมมติฐานที่กำหนดDหากเราพบสิ่งนี้เราก็สามารถเลือกหนึ่งในสมมติฐานเหล่านี้ตัวอย่างเช่นหนึ่งที่มีความน่าจะเป็นสูงที่สุดหรือเราอาจเลือกที่จะเฉลี่ยมากกว่าพวกเขาทั้งหมด แนวทางที่ง่ายกว่าคือการโจมตีปัญหาจากทิศทางที่แตกต่างกันโดยใช้ทฤษฎีบทของเบย์D

    p(H|D)=p(D|H)×p(H)p(D)
  2. p(D|H)เป็นหนึ่งในสมมติฐานที่เรียกว่าความน่าจะเป็น คือการกระจายของสมมติฐานในจักรวาลของเราของสมมติฐานก่อนที่จะสังเกตข้อมูล หลังจากที่เราสังเกตข้อมูลเราอัพเดตความเชื่อของเราp(H)

  3. p(D)เป็นค่าเฉลี่ยของสมมติฐานก่อนที่เราจะปรับปรุงความเชื่อของเรา

ตอนนี้ถ้าเราใช้ของสมการเบย์ทั้งสองข้างเราจะได้:log

log[p(H|D)]=log[p(D|H)]log[p(H)]+log[p(D)]

โดยทั่วไปแล้วจะยากต่อการคำนวณ สิ่งที่ดีคือมันไม่ส่งผลกระทบต่อผลลัพธ์ มันเป็นค่าคงที่การทำให้เป็นมาตรฐานp(D)

ตัวอย่างเช่นถ้าชุดของสมมติฐานเราเป็นกลุ่มของเกาส์ที่มีที่เราไม่รู้แต่ สมมติให้รู้ว่า (หรืออย่างน้อยก็สมมติว่ามันเป็นค่าคงที่) และยิ่งกว่านั้นสมมุติฐานของตัวเองถูกแจกจ่ายเป็น Gaussian ด้วยจากนั้นเสียบทุกอย่างที่ด้านบนดูเหมือนว่า:p(D|H)p(y|X,θ)N(θX,σ)θσp(H)=p(θ)N(0,α1I)

log[p(H|D)]=bunch of constants+12(yθX)2+12α||θ||2+constant

ทีนี้ถ้าเราลดนิพจน์นี้เราจะพบว่าสมมติฐานมีความน่าจะเป็นสูงสุด ค่าคงที่จะไม่ส่งผลกระทบต่อการย่อขนาด นี่คือการแสดงออกในคำถามของคุณ

ความจริงที่ว่าเราใช้ Gaussians ไม่ได้เปลี่ยนความจริงที่ว่าคำศัพท์พื้นฐานนั้นเพิ่มเติม มันจะต้องเป็นสารเติมแต่ง (ในแง่ของบันทึกหรือความน่าจะเป็นทวีคูณ) ไม่มีทางเลือกอื่น จะมีอะไรเปลี่ยนแปลงหากเราใช้ดิสทริบิวชันอื่น ๆ เป็นส่วนประกอบของการเพิ่ม ฟังก์ชันต้นทุน / ขาดทุนที่คุณให้ไว้มีความเหมาะสมที่สุดสำหรับสถานการณ์เฉพาะของ Gaussians


เฮ้ Cagdas ขอบคุณสำหรับคำอธิบาย ฉันไม่เข้าใจการแปลงสมการสุดท้ายบน RHS คุณช่วยชี้ให้ฉันเข้าใจส่วนนั้นมากขึ้นได้ไหม
Itachi

7

สันเขาเป็นสูตรที่สะดวกมาก ตรงกันข้ามกับคำตอบที่น่าจะเป็นคำตอบนี้ไม่ได้ให้การตีความใด ๆ ของประมาณการ แต่แทนที่จะอธิบายว่าทำไมสันเป็นรูปแบบเก่าและชัดเจน

ในการถดถอยเชิงเส้นสมการปกติจะให้ θ^=(XTX)1XTy

แต่เมทริกซ์บางครั้งก็ไม่สามารถย้อนกลับได้ วิธีหนึ่งที่จะปรับเปลี่ยนได้โดยการเพิ่มองค์ประกอบขนาดเล็กไปจนถึงเส้นทแยงมุม:ฉันXTXXTX+αI

นี่เป็นวิธีแก้ปัญหา: ; ดังนั้นไม่สามารถแก้ปัญหาเดิมได้ แต่เป็นปัญหาของสันเขาθ~=(XTX+αI)1XTyθ~


3
โปรดระบุคำตอบที่คุณอ้างอิง การสั่งซื้อจะย้ายไปรอบ ๆ เมื่อคะแนนโหวตสะสมดังนั้น "เหนือ" จึงไม่ชัดเจนโดยเนื้อแท้
gung - Reinstate Monica

1

ฉันคิดว่ามีเหตุผลที่เข้าใจง่ายกว่าว่าทำไมเราไม่สามารถคูณด้วยคำศัพท์ทั่วไปได้

ให้เราใช้ฟังก์ชันการลงโทษของเรากับฟังก์ชั่นการลงโทษปกติคูณด้วยคำว่าการทำให้เป็นมาตรฐานอย่างที่คุณแนะนำ

J(θ)=(12(yθXT)(yθXT)T)αθ22

ที่นี่เราสร้างขั้นต่ำทั่วโลกของฟังก์ชั่นการลงโทษที่ 0 ในกรณีนี้รูปแบบของเราสามารถผลิตข้อผิดพลาดสูงระหว่างการทำนายและข้อมูลที่ แต่มันไม่สำคัญว่าถ้าน้ำหนักรุ่นพารามิเตอร์ทุกฟังก์ชั่นเป็นศูนย์โทษของเราเป็นศูนย์ 0αθ22=0J(θ=0)=0

เนื่องจากเว้นแต่ว่าโมเดลของเราสมบูรณ์แบบสมบูรณ์แล้วคำว่าจะไม่เป็นศูนย์ (ความน่าจะเป็นที่มีชุด unless เพื่อให้โมเดลของเรา 'สมบูรณ์แบบ' นั้นมีความสำคัญน้อยมากสำหรับข้อมูลจริง) จากนั้นโมเดลของเราควรฝึกอบรมเพื่อหาทางแก้ปัญหาเสมอθ = 0(12(yθXT)(yθXT)T)

นี่คือสิ่งที่มันจะกลับมาเว้นแต่จะติดอยู่ในท้องถิ่นขั้นต่ำที่ไหนสักแห่ง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.