ฉันอ่านมันต่อไปและอย่างสังหรณ์ใจฉันสามารถเห็นสิ่งนี้ได้ แต่จะไปจากการทำให้เป็นมาตรฐาน L2 เพื่อบอกว่านี่คือการวิเคราะห์แบบเกาส์ก่อนหรือไม่ กันไปสำหรับการพูด L1 เทียบเท่ากับ Laplacean ก่อน
การอ้างอิงใด ๆ เพิ่มเติมจะดีมาก
ฉันอ่านมันต่อไปและอย่างสังหรณ์ใจฉันสามารถเห็นสิ่งนี้ได้ แต่จะไปจากการทำให้เป็นมาตรฐาน L2 เพื่อบอกว่านี่คือการวิเคราะห์แบบเกาส์ก่อนหรือไม่ กันไปสำหรับการพูด L1 เทียบเท่ากับ Laplacean ก่อน
การอ้างอิงใด ๆ เพิ่มเติมจะดีมาก
คำตอบ:
เราลองนึกภาพว่าคุณต้องการที่จะสรุปบางพารามิเตอร์จากบางส่วนสังเกตคู่อินพุทy_n) ให้เราสมมติว่าผลลัพธ์นั้นเกี่ยวข้องกับอินพุตเป็นแนวตรงผ่านและข้อมูลนั้นเสียหายจากสัญญาณรบกวน :
ที่สัญญาณรบกวนแบบเกาส์ที่มีค่าเฉลี่ยและความแปรปรวน 2 สิ่งนี้ก่อให้เกิดโอกาสแบบเกาส์น:
ขอให้เราปรับพารามิเตอร์โดยกำหนดให้เสียนก่อนที่เป็นสเกลาร์เชิงบวกอย่างเคร่งครัด ดังนั้นการรวมความเป็นไปได้และสิ่งที่เรามีก่อน:
ให้เราหาลอการิทึมของนิพจน์ข้างต้น เรายังได้รับค่าคงที่ลดลง:
หากเราเพิ่มการแสดงออกข้างต้นให้มากที่สุดเกี่ยวกับเราจะได้ค่าประมาณ a-posteriori สูงสุดสำหรับหรือการประมาณ MAP สำหรับช่วงสั้น ๆ ในนิพจน์นี้จะเห็นได้ชัดว่าทำไมเกาส์เซียนก่อนสามารถตีความได้ว่าเป็นคำศัพท์ในการทำให้เป็นมาตรฐาน L2
ในทำนองเดียวกันความสัมพันธ์ระหว่างบรรทัดฐาน L1 และ Laplace ก่อนสามารถเข้าใจได้ในแบบเดียวกัน ใช้เวลาแทนที่จะเป็นแบบเกาส์เซียนก่อนหน้านี้ Laplace ก่อนจะรวมเข้ากับโอกาสของคุณและใช้ลอการิทึม
การอ้างอิงที่ดี (อาจจะสูงเล็กน้อย) รายละเอียดทั้งสองประเด็นคือกระดาษ "Adaptive Sparseness สำหรับการเรียนรู้ภายใต้การดูแล" ซึ่งปัจจุบันดูเหมือนจะไม่ง่ายที่จะหาทางออนไลน์ อีกวิธีหนึ่งคือดูที่"เบาบาง Adaptive ใช้ฟรีย์ก่อน" อ้างอิงอื่นที่ดีคือ"ในการจัดหมวดหมู่คชกรรมกับไพรเออร์เลซ"
สำหรับโมเดลเชิงเส้นที่มีความแปรปรวนปกติหลายตัวแปรก่อนหน้าและโอกาสหลายตัวแปรปกติคุณจะได้การแจกแจงหลังทั่วไปหลายตัวแปรซึ่งค่าเฉลี่ยของรูปหลัง (และสูงสุดของรูปแบบหลัง) เป็นสิ่งที่คุณจะได้รับโดยใช้ Tikhonov (ทำให้เป็นมาตรฐาน) กำลังสองน้อยที่สุดพร้อมพารามิเตอร์การทำให้เป็นมาตรฐานที่เหมาะสม
โปรดทราบว่ามีความแตกต่างพื้นฐานมากขึ้นในการที่หลังเบย์คือการกระจายความน่าจะเป็นในขณะที่ Tikhonov normalized squares solution น้อยที่สุดคือการประมาณจุดที่เฉพาะเจาะจง
เรื่องนี้มีการกล่าวถึงในหนังสือหลายเล่มเกี่ยวกับวิธีการแบบเบย์สำหรับปัญหาผกผันดูตัวอย่าง:
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
ในทำนองเดียวกันถ้าคุณมี Laplacian มาก่อนและหลายโอกาสปกติแล้วจำนวนสูงสุดของการกระจายหลังเกิดขึ้นในจุดที่คุณจะได้รับจากการแก้ปัญหา normalized สี่เหลี่ยมกำลังสองน้อยที่สุด
ข้อสังเกตแรกว่าค่ามัธยฐานลดค่า L1 ตามปกติ (ดูที่นี่หรือที่นี่เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ L1 และ L2)
ในขณะที่ค่าเฉลี่ยลด L2
ทีนี้จำได้ว่าค่าพารามิเตอร์การแจกแจงปกติ 'สามารถประมาณได้โดยใช้ค่าเฉลี่ยตัวอย่างในขณะที่ตัวประมาณค่า MLEสำหรับพารามิเตอร์การกระจาย Laplaceเป็นค่ามัธยฐาน ดังนั้นการใช้การแจกแจงแบบปกติจะเทียบเท่ากับการเพิ่มประสิทธิภาพบรรทัดฐาน L2 และการใช้การกระจายแบบ Laplace เพื่อใช้การเพิ่มประสิทธิภาพ L1 ในทางปฏิบัติคุณสามารถคิดได้ว่าค่ามัธยฐานนั้นมีความอ่อนไหวต่อค่าผิดปกติน้อยกว่าค่าเฉลี่ยและเหมือนกันโดยใช้การกระจาย Laplace ที่มีหางเท่ขึ้นทำให้รุ่นของคุณมีแนวโน้มที่จะผิดปกติน้อยกว่าการใช้การแจกแจงแบบปกติμ
เฮอร์ลีย์, เจดับบลิว (2009) แนวทางเหนี่ยวนำในการคำนวณ MLE สำหรับการกระจายเอกคู่ วารสารวิธีการทางสถิติประยุกต์ที่ทันสมัย: 8 (2), บทความ 25
สำหรับปัญหาการถดถอยที่มีตัวแปร (การสกัดกั้นโดยไม่มี) คุณทำ OLS เป็น
ในการถดถอยปกติด้วยการลงโทษคุณทำ
เราสามารถทำได้อย่างเท่าเทียมกัน (สังเกตการเปลี่ยนแปลงเครื่องหมาย)
สิ่งนี้เกี่ยวข้องโดยตรงกับหลักการของแบบเบย์
หรือเทียบเท่า (ภายใต้เงื่อนไขปกติ)
ตอนนี้ไม่ยากเลยที่จะเห็นว่าการกระจายครอบครัวแบบเลขชี้กำลังนั้นสอดคล้องกับชนิดของการลงโทษ
หากต้องการให้ความสมดุลมีความแม่นยำมากขึ้น:
การปรับน้ำหนักแบบจำลองให้เหมาะสมเพื่อลดฟังก์ชั่นการสูญเสียความผิดพลาดกำลังสองด้วยการทำให้เป็นมาตรฐาน L2 เทียบเท่ากับการหาน้ำหนักที่น่าจะเป็นไปได้มากที่สุดภายใต้การแจกแจงหลังที่ประเมินโดยใช้กฎ Bayes
พิสูจน์:
ฟังก์ชั่นการสูญเสียตามที่อธิบายไว้ข้างต้นจะได้รับจาก
โปรดทราบว่าการแจกแจงแบบเกาส์หลายตัวแปรคือ
การใช้กฎเบย์เรามีสิ่งนั้น
ที่ที่เราสามารถแยก Guassian หลายมิติเป็นผลิตภัณฑ์เพราะความแปรปรวนร่วมนั้นเป็นเมทริกซ์เอกลักษณ์หลายตัว
รับความน่าจะเป็นบันทึกเชิงลบ
แน่นอนเราสามารถลดค่าคงที่และคูณด้วยจำนวนใดก็ได้โดยไม่ส่งผลกระทบต่อฟังก์ชันการสูญเสีย (ค่าคงที่ไม่ทำอะไรเลยการคูณจะขยายอัตราการเรียนรู้อย่างมีประสิทธิภาพจะไม่ส่งผลกระทบต่อตำแหน่งของ minima) ดังนั้นเราจะเห็นได้ว่าความน่าจะเป็นบันทึกเชิงลบของการแจกแจงหลังคือฟังก์ชันการสูญเสียที่เทียบเท่า
ความเท่ากันนี้เป็นเรื่องทั่วไปและถือเป็นฟังก์ชันที่มีพารามิเตอร์ของน้ำหนัก - ไม่ใช่แค่การถดถอยเชิงเส้นตามที่ปรากฏโดยนัย
มีสองลักษณะของแบบจำลองแบบเบย์ที่จำเป็นต้องเน้นเมื่อพูดถึงความเท่าเทียมกันของการประมาณค่าความน่าจะเป็นสูงสุดที่ถูกลงโทษบางอย่างและขั้นตอนแบบเบย์
D dimension
กรณีการถดถอยเชิงเส้นสามารถbeta
และsigma
มีวิธีแก้ไขปัญหาอย่างชัดเจนหรือไม่? ฉันกำลังอ่าน PRML และหาสมการ (1.67) ในหน้า 30 และไม่รู้จะแก้อย่างไร ในความเป็นไปได้สูงสุดเราจะแก้ไขbeta
จากนั้นsigma
ตั้งค่าความชันเป็นศูนย์ ในรูปสี่เหลี่ยมจัตุรัสน้อยที่สุดที่ทำให้เป็นมาตรฐานเนื่องจากมีการรู้จัก reqularization paramlambda
เราจึงแก้ปัญหาbeta
โดยตรง แต่ถ้าเราแก้ปัญหาโดยตรง MAP สิ่งที่เป็นคำสั่งของการแก้beta
,sigma
? พวกเขามีวิธีแก้ปัญหาอย่างชัดเจนหรือเราต้องใช้กระบวนการวนซ้ำหรือไม่?