ทำไม Laplace จึงผลิตสารละลายแบบเบาบาง?


22

ฉันดูวรรณกรรมเกี่ยวกับการทำให้เป็นระเบียบและมักจะเห็นย่อหน้าที่เชื่อมโยงการควบคุม L2 กับ Gaussian ก่อนและ L1 กับ Laplace โดยมีศูนย์เป็นศูนย์

ฉันรู้ว่านักบวชเหล่านี้มีหน้าตาเป็นอย่างไร แต่ฉันไม่เข้าใจว่ามันแปลอย่างไรเช่นตุ้มน้ำหนักในตัวแบบเชิงเส้น ใน L1 ถ้าฉันเข้าใจอย่างถูกต้องเราคาดหวังว่าการแก้ปัญหาแบบกระจัดกระจายนั่นคือน้ำหนักบางส่วนจะถูกผลักจนเหลือศูนย์ และใน L2 เราจะได้น้ำหนักเล็ก ๆ แต่ไม่ให้น้ำหนักเป็นศูนย์

แต่ทำไมมันเกิดขึ้น?

โปรดแสดงความคิดเห็นหากฉันต้องการให้ข้อมูลเพิ่มเติมหรือชี้แจงเส้นทางการคิดของฉัน



1
คำอธิบายง่ายๆที่ใช้งานง่ายคือการปรับลดลงเมื่อใช้ L2 แบบปกติ แต่ไม่ใช้ L1 แบบปกติ ดังนั้นหากคุณสามารถรักษารูปแบบส่วนหนึ่งของฟังก์ชั่นการสูญเสียได้เท่ากันและคุณสามารถทำได้โดยการลดหนึ่งในสองตัวแปรนั้นดีกว่าเพื่อลดตัวแปรด้วยค่าสัมบูรณ์สูงในกรณี L2 แต่ไม่ใช่ในกรณี L1
testuser

คำตอบ:


21

ความสัมพันธ์ของการกระจาย Laplace ก่อนหน้ากับมัธยฐาน (หรือ L1 norm) ถูกค้นพบโดย Laplace ซึ่งพบว่าการใช้ก่อนหน้านี้คุณประมาณค่ามัธยฐานแทนค่าเฉลี่ยเหมือนกับการกระจายปกติ (ดู Stingler, 1986 หรือWikipedia ) ซึ่งหมายความว่าการถดถอยด้วยการแจกแจงข้อผิดพลาด Laplace ประเมินค่ามัธยฐาน (เช่นการถดถอยเชิงปริมาณ) ในขณะที่ข้อผิดพลาดปกติอ้างถึงการประมาณค่า OLS

เสื้อ

การใช้นักบวชเช่นนี้ทำให้คุณมีแนวโน้มที่จะจบลงด้วยค่าสัมประสิทธิ์ที่มีค่าเป็นศูนย์จำนวนมาก, ขนาดกลางบางส่วนและขนาดใหญ่ (หางยาว) ในขณะที่กับปกติก่อนที่คุณจะได้ค่าสัมประสิทธิ์ปานกลางที่ค่อนข้างไม่เป็นศูนย์ ยังไม่ไกลจากศูนย์

ป้อนคำอธิบายรูปภาพที่นี่

(แหล่งรูปภาพ Tibshirani, 1996)


Stigler, SM (1986) ประวัติความเป็นมาของสถิติ: การวัดความไม่แน่นอนก่อนปี 2443 เคมบริดจ์: เบลแนปกดสำนักพิมพ์มหาวิทยาลัยฮาร์วาร์ด

Tibshirani, R. (1996) การหดตัวและการเลือกการถดถอยผ่านเชือก วารสารสมาคมสถิติ Series B (ระเบียบวิธี), 267-288

Gelman, A. , Jakulin, A. , Pittau, GM, และ Su, Y.-S. (2008) การแจกแจงเริ่มต้นก่อนหน้านี้ที่ให้ข้อมูลอ่อนสำหรับโลจิสติกและโมเดลการถดถอยอื่น ๆ พงศาวดารของสถิติประยุกต์ 2 (4), 1360-1383

Norton, RM (1984) การแจกแจงเลขชี้กำลังสองเท่า: การใช้แคลคูลัสเพื่อค้นหาตัวประมาณความน่าจะเป็นสูงสุด นักสถิติชาวอเมริกัน 38 (2): 135-136


ว้าวนี่เป็นคำอธิบายที่ดีมากและขอขอบคุณเป็นพิเศษสำหรับคำถามที่เชื่อมโยงซึ่งบรรทัดฐานการทำให้เป็นปกตินั้นเชื่อมโยงกับโหมด meadian และค่าเฉลี่ย
Dmitry Smirnov

1
@ ติ๋ม, การกระจายของ Cauchy มีหางหนา แต่ความน่าจะเป็นสำหรับ Zero นั้นน้อยกว่าการกระจายปกติ แล้วทำไมมันถึงทำให้เกิดการกระจัดกระจาย
Royi

4

มุมมองที่พบบ่อย👀

ในแง่หนึ่งเราสามารถนึกได้ว่าการทำให้เป็นมาตรฐานทั้งสองเป็น"การลดน้ำหนัก" ; L2 ลดบรรทัดฐาน Euclidean ของตุ้มน้ำหนักขณะที่ L1 ลดเกณฑ์ปกติของแมนฮัตตัน ตามแนวความคิดนี้เราสามารถเหตุผลที่ equipotentials ของ L1 และ L2 เป็นทรงกลมและเพชรรูปตามลำดับเพื่อ L1 มีแนวโน้มที่จะนำไปสู่การแก้ปัญหาเบาบางดังแสดงในบิชอปรูปแบบการรับรู้และการเรียนรู้เครื่อง :

Bishop's * การจดจำรูปแบบและการเรียนรู้ของเครื่อง *

ดูแบบเบย์ ian

อย่างไรก็ตามเพื่อให้เข้าใจวิธีไพรเออร์ที่เกี่ยวข้องกับโมเดลเชิงเส้นตรงเราต้องเข้าใจการตีความแบบเบย์ของการถดถอยเชิงเส้นสามัญ โพสต์บล็อก Katherine Baileyเป็นหนังสือที่ยอดเยี่ยมสำหรับเรื่องนี้ สรุปเราถือว่าข้อผิดพลาด iid กระจายตามปกติในโมเดลเชิงเส้นของเรา

Y=θX+ε

ยังไม่มีข้อความYผม,ผม=1,2,...,ยังไม่มีข้อความεk~ยังไม่มีข้อความ(0,σ)

Y

พี(Y|X,θ;ε)=ยังไม่มีข้อความ(θX,σ)

ตามที่ปรากฎ ... ตัวประมาณความน่าจะเป็นสูงสุดนั้นเหมือนกันกับการลดข้อผิดพลาดกำลังสองระหว่างการคาดการณ์กับค่าผลลัพธ์จริงภายใต้สมมติฐานปกติสำหรับข้อผิดพลาด

θ^MLE=หาเรื่องสูงสุดθเข้าสู่ระบบP(Y|θ)=หาเรื่องนาทีθΣผม=1n(Yผม-θxผม)2

วางมาตรฐานในการวางนักบวชให้น้ำหนัก

ถ้าเราต้องวางแบบไม่สม่ำเสมอก่อนน้ำหนักของการถดถอยเชิงเส้นค่าประมาณความน่าจะเป็นด้านหลัง (MAP) สูงสุดคือ:

θ^แผนที่=หาเรื่องสูงสุดθเข้าสู่ระบบP(Y|θ)+เข้าสู่ระบบP(θ)

P(θ)θ

P(θ)θ

Laplace vs Gaussian

ตอนนี้เรามีมุมมองอื่นว่าทำไมการวาง Laplace ก่อนน้ำหนักจึงมีแนวโน้มที่จะทำให้เกิด sparsity: เนื่องจากการกระจาย Laplace มีความเข้มข้นมากกว่ารอบศูนย์น้ำหนักของเราน่าจะเป็นศูนย์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.