การทำให้เป็นมาตรฐาน L2 เทียบเท่ากับ Gaussian ก่อน


56

ฉันอ่านมันต่อไปและอย่างสังหรณ์ใจฉันสามารถเห็นสิ่งนี้ได้ แต่จะไปจากการทำให้เป็นมาตรฐาน L2 เพื่อบอกว่านี่คือการวิเคราะห์แบบเกาส์ก่อนหรือไม่ กันไปสำหรับการพูด L1 เทียบเท่ากับ Laplacean ก่อน

การอ้างอิงใด ๆ เพิ่มเติมจะดีมาก

คำตอบ:


54

เราลองนึกภาพว่าคุณต้องการที่จะสรุปบางพารามิเตอร์จากบางส่วนสังเกตคู่อินพุทy_n) ให้เราสมมติว่าผลลัพธ์นั้นเกี่ยวข้องกับอินพุตเป็นแนวตรงผ่านและข้อมูลนั้นเสียหายจากสัญญาณรบกวน :β(x1,y1),(xN,yN)βϵ

yn=βxn+ϵ,

ที่สัญญาณรบกวนแบบเกาส์ที่มีค่าเฉลี่ยและความแปรปรวน 2 สิ่งนี้ก่อให้เกิดโอกาสแบบเกาส์น:ϵ0σ2

n=1NN(yn|βxn,σ2).

ขอให้เราปรับพารามิเตอร์โดยกำหนดให้เสียนก่อนที่เป็นสเกลาร์เชิงบวกอย่างเคร่งครัด ดังนั้นการรวมความเป็นไปได้และสิ่งที่เรามีก่อน:βN(β|0,λ1),λ

n=1NN(yn|βxn,σ2)N(β|0,λ1).

ให้เราหาลอการิทึมของนิพจน์ข้างต้น เรายังได้รับค่าคงที่ลดลง:

n=1N1σ2(ynβxn)2λβ2+const.

หากเราเพิ่มการแสดงออกข้างต้นให้มากที่สุดเกี่ยวกับเราจะได้ค่าประมาณ a-posteriori สูงสุดสำหรับหรือการประมาณ MAP สำหรับช่วงสั้น ๆ ในนิพจน์นี้จะเห็นได้ชัดว่าทำไมเกาส์เซียนก่อนสามารถตีความได้ว่าเป็นคำศัพท์ในการทำให้เป็นมาตรฐาน L2ββ


ในทำนองเดียวกันความสัมพันธ์ระหว่างบรรทัดฐาน L1 และ Laplace ก่อนสามารถเข้าใจได้ในแบบเดียวกัน ใช้เวลาแทนที่จะเป็นแบบเกาส์เซียนก่อนหน้านี้ Laplace ก่อนจะรวมเข้ากับโอกาสของคุณและใช้ลอการิทึม

การอ้างอิงที่ดี (อาจจะสูงเล็กน้อย) รายละเอียดทั้งสองประเด็นคือกระดาษ "Adaptive Sparseness สำหรับการเรียนรู้ภายใต้การดูแล" ซึ่งปัจจุบันดูเหมือนจะไม่ง่ายที่จะหาทางออนไลน์ อีกวิธีหนึ่งคือดูที่"เบาบาง Adaptive ใช้ฟรีย์ก่อน" อ้างอิงอื่นที่ดีคือ"ในการจัดหมวดหมู่คชกรรมกับไพรเออร์เลซ"


1
ในD dimensionกรณีการถดถอยเชิงเส้นสามารถbetaและsigmaมีวิธีแก้ไขปัญหาอย่างชัดเจนหรือไม่? ฉันกำลังอ่าน PRML และหาสมการ (1.67) ในหน้า 30 และไม่รู้จะแก้อย่างไร ในความเป็นไปได้สูงสุดเราจะแก้ไขbetaจากนั้นsigmaตั้งค่าความชันเป็นศูนย์ ในรูปสี่เหลี่ยมจัตุรัสน้อยที่สุดที่ทำให้เป็นมาตรฐานเนื่องจากมีการรู้จัก reqularization param lambdaเราจึงแก้ปัญหาbetaโดยตรง แต่ถ้าเราแก้ปัญหาโดยตรง MAP สิ่งที่เป็นคำสั่งของการแก้beta, sigma? พวกเขามีวิธีแก้ปัญหาอย่างชัดเจนหรือเราต้องใช้กระบวนการวนซ้ำหรือไม่?
stackunderflow

คุณขาด "สี่เหลี่ยม" ในในสมการสุดท้ายนั่นคือหรือไม่? λβλβ2
brian.keng

@AdamO มัน จำกัด จำนวนของค่าสัมประสิทธิ์ที่สามารถใช้ หากตัวอย่างก่อนหน้านี้อยู่ระหว่าง 1-10 ยกตัวอย่างเช่นมีค่าความน่าจะเป็นของสัมประสิทธิ์เท่ากับ 0 ซึ่งมีค่าอื่น ๆ เช่น [-inf to 1] และ [10, + inf]
imsrgadich

1
ในกรณีนี้เป็นที่รู้จักกัน ใช้งานได้เมื่อไม่ทราบหรือไม่ สำหรับการถดถอยเชิงเส้นแบบเบย์สามารถใช้แกมมาผกผันก่อนในการสร้างคอนจูเกตก่อนการแปรปรวน แต่ฉันไม่แน่ใจว่าพีชคณิตจะมีค่าเท่ากับนิพจน์เดียวกัน σ2σ2
AdamO

11

สำหรับโมเดลเชิงเส้นที่มีความแปรปรวนปกติหลายตัวแปรก่อนหน้าและโอกาสหลายตัวแปรปกติคุณจะได้การแจกแจงหลังทั่วไปหลายตัวแปรซึ่งค่าเฉลี่ยของรูปหลัง (และสูงสุดของรูปแบบหลัง) เป็นสิ่งที่คุณจะได้รับโดยใช้ Tikhonov (ทำให้เป็นมาตรฐาน) กำลังสองน้อยที่สุดพร้อมพารามิเตอร์การทำให้เป็นมาตรฐานที่เหมาะสม L2

โปรดทราบว่ามีความแตกต่างพื้นฐานมากขึ้นในการที่หลังเบย์คือการกระจายความน่าจะเป็นในขณะที่ Tikhonov normalized squares solution น้อยที่สุดคือการประมาณจุดที่เฉพาะเจาะจง

เรื่องนี้มีการกล่าวถึงในหนังสือหลายเล่มเกี่ยวกับวิธีการแบบเบย์สำหรับปัญหาผกผันดูตัวอย่าง:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

ในทำนองเดียวกันถ้าคุณมี Laplacian มาก่อนและหลายโอกาสปกติแล้วจำนวนสูงสุดของการกระจายหลังเกิดขึ้นในจุดที่คุณจะได้รับจากการแก้ปัญหา normalized สี่เหลี่ยมกำลังสองน้อยที่สุด L1


9

ข้อสังเกตแรกว่าค่ามัธยฐานลดค่า L1 ตามปกติ (ดูที่นี่หรือที่นี่เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ L1 และ L2)

median(x)=argminsi|xis|1

ในขณะที่ค่าเฉลี่ยลด L2

mean(x)=argminsi|xis|2

ทีนี้จำได้ว่าค่าพารามิเตอร์การแจกแจงปกติ 'สามารถประมาณได้โดยใช้ค่าเฉลี่ยตัวอย่างในขณะที่ตัวประมาณค่า MLEสำหรับพารามิเตอร์การกระจาย Laplaceเป็นค่ามัธยฐาน ดังนั้นการใช้การแจกแจงแบบปกติจะเทียบเท่ากับการเพิ่มประสิทธิภาพบรรทัดฐาน L2 และการใช้การกระจายแบบ Laplace เพื่อใช้การเพิ่มประสิทธิภาพ L1 ในทางปฏิบัติคุณสามารถคิดได้ว่าค่ามัธยฐานนั้นมีความอ่อนไหวต่อค่าผิดปกติน้อยกว่าค่าเฉลี่ยและเหมือนกันโดยใช้การกระจาย Laplace ที่มีหางเท่ขึ้นทำให้รุ่นของคุณมีแนวโน้มที่จะผิดปกติน้อยกว่าการใช้การแจกแจงแบบปกติμμμ


เฮอร์ลีย์, เจดับบลิว (2009) แนวทางเหนี่ยวนำในการคำนวณ MLE สำหรับการกระจายเอกคู่ วารสารวิธีการทางสถิติประยุกต์ที่ทันสมัย: 8 (2), บทความ 25


บางทีนี่อาจไม่ใช่คำตอบที่เข้มงวดที่สุดในเชิงคณิตศาสตร์ แต่นี่เป็นคำตอบที่ง่ายและเข้าใจง่ายที่สุดสำหรับผู้เริ่มต้นในการทำให้เป็นมาตรฐาน L1 / L2
SQLServerSteve

8

สำหรับปัญหาการถดถอยที่มีตัวแปร (การสกัดกั้นโดยไม่มี) คุณทำ OLS เป็นk

minβ(yXβ)(yXβ)

ในการถดถอยปกติด้วยการลงโทษคุณทำLp

minβ(yXβ)(yXβ)+λi=1k|βi|p

เราสามารถทำได้อย่างเท่าเทียมกัน (สังเกตการเปลี่ยนแปลงเครื่องหมาย)

maxβ(yXβ)(yXβ)λi=1k|βi|p

สิ่งนี้เกี่ยวข้องโดยตรงกับหลักการของแบบเบย์

posteriorlikelihood×prior

หรือเทียบเท่า (ภายใต้เงื่อนไขปกติ)

log(posterior)log(likelihood)+log(penalty)

ตอนนี้ไม่ยากเลยที่จะเห็นว่าการกระจายครอบครัวแบบเลขชี้กำลังนั้นสอดคล้องกับชนิดของการลงโทษ


3

หากต้องการให้ความสมดุลมีความแม่นยำมากขึ้น:

การปรับน้ำหนักแบบจำลองให้เหมาะสมเพื่อลดฟังก์ชั่นการสูญเสียความผิดพลาดกำลังสองด้วยการทำให้เป็นมาตรฐาน L2 เทียบเท่ากับการหาน้ำหนักที่น่าจะเป็นไปได้มากที่สุดภายใต้การแจกแจงหลังที่ประเมินโดยใช้กฎ Bayes

พิสูจน์:

ฟังก์ชั่นการสูญเสียตามที่อธิบายไว้ข้างต้นจะได้รับจาก

L=[n=1N(y(n)fw(x(n)))2]Originallossfunction+λi=1Kwi2L2loss

โปรดทราบว่าการแจกแจงแบบเกาส์หลายตัวแปรคือ

N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

การใช้กฎเบย์เรามีสิ่งนั้น

p(w|D)=p(D|w)p(w)p(D)p(D|w)p(w)[nNN(y(n);fw(x(n)),σy2)]N(w;0,σw2I)nNN(y(n);fw(x(n)),σy2)i=1KN(wi;0,σw2)

ที่ที่เราสามารถแยก Guassian หลายมิติเป็นผลิตภัณฑ์เพราะความแปรปรวนร่วมนั้นเป็นเมทริกซ์เอกลักษณ์หลายตัว

รับความน่าจะเป็นบันทึกเชิงลบ

log[p(w|D)]=n=1Nlog[N(y(n);fw(x(n)),σy2)]i=1Klog[N(wi;0,σw2)]+const.=12σy2n=1N(y(n)fw(x(n)))2+12σw2i=1Kwi2+const.

แน่นอนเราสามารถลดค่าคงที่และคูณด้วยจำนวนใดก็ได้โดยไม่ส่งผลกระทบต่อฟังก์ชันการสูญเสีย (ค่าคงที่ไม่ทำอะไรเลยการคูณจะขยายอัตราการเรียนรู้อย่างมีประสิทธิภาพจะไม่ส่งผลกระทบต่อตำแหน่งของ minima) ดังนั้นเราจะเห็นได้ว่าความน่าจะเป็นบันทึกเชิงลบของการแจกแจงหลังคือฟังก์ชันการสูญเสียที่เทียบเท่า

ความเท่ากันนี้เป็นเรื่องทั่วไปและถือเป็นฟังก์ชันที่มีพารามิเตอร์ของน้ำหนัก - ไม่ใช่แค่การถดถอยเชิงเส้นตามที่ปรากฏโดยนัย


1

มีสองลักษณะของแบบจำลองแบบเบย์ที่จำเป็นต้องเน้นเมื่อพูดถึงความเท่าเทียมกันของการประมาณค่าความน่าจะเป็นสูงสุดที่ถูกลงโทษบางอย่างและขั้นตอนแบบเบย์

  1. ในกรอบการทำงานแบบเบย์สิ่งก่อนหน้านี้ได้รับการคัดเลือกตามลักษณะเฉพาะของปัญหาและไม่ได้รับแรงจูงใจจากความสะดวกในการคำนวณ ดังนั้น Bayesians ใช้นักบวชที่หลากหลายรวมถึงเกือกม้าที่ได้รับความนิยมในขณะนี้ก่อนหน้าสำหรับปัญหาการทำนายแบบเบาบางและไม่จำเป็นต้องพึ่งพานักบวชที่เทียบเท่ากับการลงโทษ L1 หรือ L2
  2. ด้วยวิธีการแบบเบย์แบบเต็มคุณจะสามารถเข้าถึงขั้นตอนการอนุมานทั้งหมดเมื่อคุณทำเสร็จแล้ว ตัวอย่างเช่นคุณสามารถหาจำนวนพยานหลักฐานสำหรับค่าสัมประสิทธิ์การถดถอยจำนวนมากและคุณสามารถรับช่วงเวลาที่น่าเชื่อถือเกี่ยวกับค่าสัมประสิทธิ์การถดถอยและค่าคาดการณ์โดยรวม ในกรอบบ่อยครั้งเมื่อคุณเลือกการลงโทษคุณสูญเสียเครื่องอนุมานทั้งหมด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.