MAP เป็นวิธีการแก้ปัญหา


10

ฉันเจอสไลด์เหล่านี้ (สไลด์ # 16 & # 17) ในหนึ่งในหลักสูตรออนไลน์ ผู้สอนพยายามอธิบายถึงวิธีการประมาณค่าสูงสุดหลัง (MAP) เป็นวิธีการแก้ปัญหาL(θ)=I[θθ]โดยที่θเป็นพารามิเตอร์จริง

ใครช่วยกรุณาอธิบายวิธีการดังต่อไปนี้?

แก้ไข: เพิ่มสไลด์ในกรณีที่ลิงก์เสีย ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

คำตอบ:


3

จากการดูสไลด์ที่คุณแบ่งปันฉันคิดว่าเป็นแนวคิดที่จะอธิบายว่าการประมาณค่า MAP สามารถใช้ในการประเมินคุณสมบัติต่าง ๆ ของคนหลังเช่นค่าเฉลี่ยโหมดและค่ามัธยฐาน ฉันจะพยายามที่จะอธิบายเรื่องนี้ในบริบทของการประมาณค่าทั่วไปแบบเบย์เป็นที่นำเสนอในหนังสือสตีเฟนเอ็มเคย์, พื้นฐานทางสถิติของการประมวลผลสัญญาณ

เริ่มต้นด้วยการพิจารณาความเสี่ยงสามประเภท (เช่นฟังก์ชันต้นทุน) ที่เกี่ยวข้องกับการประมาณค่าพารามิเตอร์θ :

  1. C(e)=e2
  2. C(e)=|e|
  3. ifδ<e<δ,C(e)=0 ; elseC(e)=1

ที่e=θθ^ซึ่งในθคือค่าประมาณและθคือพารามิเตอร์ที่แท้จริง ในการประมาณแบบเบย์วัตถุประสงค์คือเพื่อลดความเสี่ยงที่คาดหวังนั่นคือ:θ^θ

E[C(e)]=XθC(e)p(X,θ)dθdX=X[θC(e)p(θ|X)dθ]p(X)dX

θminθθC(e)p(θ|X)dθ

ตอนนี้ขึ้นอยู่กับว่าเราเลือกตัวใดตัวประมาณจะให้คุณสมบัติที่แตกต่างจากด้านหลัง ตัวอย่างเช่นหากเราเลือกกรณีแรกการย่อขนาดสำหรับคือค่าเฉลี่ย เนื่องจากคุณมีคำถามเกี่ยวกับฟังก์ชันตัวบ่งชี้ , ฉันจะจัดการกับความเสี่ยงที่สามที่กล่าวถึงข้างต้น (ซึ่งถ้าคุณคิดเกี่ยวกับมันสำหรับเทียบเท่า เพื่อใช้ตัวบ่งชี้)C(e)C(e)=e2θθC(e)p(θ|X)dθI[θ^θ]δ0

สำหรับกรณีที่ 3 ด้านบน:

θC(e)p(θ|X)dθ=θ^δp(θ|X)dθ+θ^+δp(θ|X)dθ=1θ^+δθ^+δp(θ|X)dθ

ซึ่งสำหรับจะย่อเล็กสุดเมื่อสอดคล้องกับโหมดของหลังδ0θ^


2
ขอบคุณสำหรับคำอธิบายที่ยอดเยี่ยม นอกจากนี้ผู้อ่านในอนาคตสามารถอ่านเกี่ยวกับสิ่งเดียวกันในหนังสือเรียนที่คล้ายกัน: บทที่ 5 ของMachine_Learning มุมมองที่น่าจะเป็นโดย Kevin Murphy
honeybadger

คุณสามารถระบุรายละเอียดของอาร์กิวเมนต์ที่ จำกัด นี้ได้ในหรือไม่ คุณหมายถึงขีด จำกัด ของกระบวนงานเมื่อเป็นศูนย์หรือขีด จำกัด ของการสูญเสียด้านหลังหรือไม่? δδ
ซีอาน

ผมหมายถึงขีด จำกัด ของความคาดหวัง(จ)] E[C(e)]
idnavid

10

ในกรณีที่เฉพาะเจาะจงพื้นที่พารามิเตอร์มี จำกัด หรือไม่มีที่สิ้นสุดจำนวนการสูญเสียหลังที่เกี่ยวข้องกับการสูญเสียตัวบ่งชี้เท่ากับความน่าจะเป็นที่จะผิดและมันจะถูกย่อให้เล็กสุดเมื่อความน่าจะเป็นหลังที่ถูกต้องถูกขยายให้ใหญ่สุด ซึ่งหมายความว่าเป็นโหมดของการกระจายหลังหรือ MAPΘ

Θ={θ1,θ2,}
P(θ^θ|x)P(θ^=θ|x)θ^

อย่างไรก็ตามการเชื่อมโยงของ MAP และการสูญเสียนี้เป็น "ทฤษฎีบทพื้นบ้าน" ซึ่งมันไม่ถูกต้องในการตั้งค่าส่วนใหญ่กล่าวคือมันไม่ได้เก็บไว้สำหรับช่องว่างพารามิเตอร์ต่อเนื่องโดยที่สำหรับและมันขัดแย้งกับผลของDruihlet และ Marin (BA, 2007)ซึ่งชี้ให้เห็นว่า MAP ขึ้นอยู่กับการเลือกของมาตรการที่มีอิทธิพล (แม้ว่าการวัด Lebesgue จะถูกเลือกโดยปริยายว่าเป็นค่าเริ่มต้น)01P(θ^=θ|x)=0θ^

ตัวอย่างเช่น Evans และ Jang โพสต์กระดาษ arXivในปี 2011 ที่พวกเขาพูดคุยเกี่ยวกับการเชื่อมต่อระหว่าง MAP ตัวประมาณค่าความประหลาดใจที่สัมพันธ์กันน้อยที่สุด (หรือความน่าจะเป็นโปรไฟล์สูงสุด) และฟังก์ชันการสูญเสีย แกนหลักของเรื่องนี้คือตัวประมาณค่า MAP ไม่ได้หรือ MLEs เป็นเหตุผลที่แท้จริงโดยวิธีการตัดสินใจเชิงทฤษฎีอย่างน้อยในพื้นที่พารามิเตอร์ต่อเนื่อง และการวัดที่ได้รับการเลือกโดยพลการในพื้นที่พารามิเตอร์นั้นส่งผลต่อค่าของ MAP ดังที่ Druihlet และ Marin แสดงในปี 2550 พวกเขาเริ่มต้นในกรณีที่ จำกัด ด้วยฟังก์ชันการสูญเสีย

L(θ,d)=I{Ψ(θ)d)/πΨ(Ψ(θ))
โดยที่พวกเขาพิจารณาการประมาณค่าของการแปลงรูปΨ (θ) โดย d โดยให้น้ำหนักผกผันโดยส่วนต่างก่อนการแปลงรูปนี้ ในกรณีพิเศษของการแปลงข้อมูลเฉพาะตัวฟังก์ชันการสูญเสียนี้จะนำไปสู่ ​​MLE ในฐานะตัวประมาณ Bayes ในกรณีทั่วไปตัวประมาณค่าแบบเบย์เป็นตัวประมาณค่าความน่าจะเป็นโปรไฟล์สูงสุด (LRSE) อย่างไรก็ตามฟังก์ชั่นการสูญเสียนี้ไม่ได้สรุปให้เว้นวรรคพารามิเตอร์อนันต์ (และต่อเนื่องอย่างเห็นได้ชัด) นับไม่ถ้วนและในการตั้งค่าดังกล่าวผู้เขียนสามารถให้ LRSEs เป็นข้อ จำกัด ของขั้นตอน Bayes เท่านั้น ฟังก์ชั่นการสูญเสียที่นำมาใช้ในกรณีที่นับได้คือเช่น
L(θ,d)=I{Ψ(θ)d}/max{η,πΨ(Ψ(θ))}
ด้วยขอบเขตที่ลดลงเป็นศูนย์ ในกรณีที่ต่อเนื่องตัวบ่งชี้ไม่ทำงานอีกต่อไปดังนั้นทางเลือกที่ผู้เขียนทำคือการแยกพื้นที่Ψ (Θ) ออกโดยการเลือกเฉพาะของพาร์ติชันของลูกบอลที่มีเส้นผ่านศูนย์กลางλเป็นศูนย์ ด้วยจิตวิญญาณของ Druihlet และ Marin ทางเลือกนี้ขึ้นอยู่กับตัวชี้วัด นอกจากนี้ LRSE เอง จะขึ้นอยู่กับรุ่นที่เลือกสำหรับความหนาแน่น (ถ้าไม่ได้อยู่ในการปกครอง) ยกเว้น กำหนดทุกความเท่าเทียมกันของ Bayes ทุกที่เมื่อ และ
maxψπψ(ψ|x)/πψ(θ)
πψ(ψ|x)/πψ(θ)=f(x|ψ)/m(x)
f(x|ψ)={θ;Ψ(θ)=ψ}f(x|θ)π(θ)dθ
m(x)=f(x|θ)π(θ)dθ
ในจิตวิญญาณของกระดาษความขัดแย้งของเราโหด-ผ้ากันเปื้อน

Robert Bassett และ Julio Deride ได้รวบรวมบทความเกี่ยวกับตำแหน่งของ MAPs ภายในทฤษฎีการตัดสินใจแบบเบย์

“ …เราให้ตัวอย่างกับความคิดที่ยอมรับกันทั่วไปของตัวประมาณค่า MAP เป็นขีด จำกัด ของตัวประมาณค่า Bayes ที่มีการสูญเสีย 0-1”

ผู้เขียนพูดถึงหนังสือของฉันThe Bayesian Choice ที่ระบุว่าสถานที่ให้บริการนี้ไม่มีข้อควรระวังเพิ่มเติมและฉันตกลงที่จะประมาทในเรื่องนี้อย่างสมบูรณ์! ความยากยืนอยู่กับขีด จำกัด ของ maximisers ที่ไม่จำเป็นต้องเป็น maximiser ของขีด จำกัด กระดาษมีตัวอย่างของเอฟเฟกต์นี้ซึ่งก่อนหน้านี้เกี่ยวข้องกับการแจกแจงตัวอย่างที่ไม่ได้ขึ้นอยู่กับพารามิเตอร์ เงื่อนไขเพียงพอที่เสนอในนั้นคือความหนาแน่นหลังเกือบจะเหมาะสมหรือ quasiconcave แน่นอน

ดูเพิ่มเติมที่ลักษณะของตัวประมาณค่า MAP โดยBurger และ Luckaเป็นตัวประมาณ Bayes ที่เหมาะสมภายใต้ฟังก์ชันการสูญเสียประเภทอื่นแม้ว่าจะเป็นตัวเลียนแบบ ผู้เขียนบทความarXivedนี้เริ่มต้นด้วยระยะทางตามก่อนหน้า; เรียกว่าระยะ Bregman ซึ่งอาจเป็นกำลังสองหรือระยะทางเอนโทรปีขึ้นอยู่กับก่อน การกำหนดฟังก์ชั่นการสูญเสียซึ่งเป็นส่วนผสมของระยะ Bregman นี้และของระยะกำลังสอง

||K(u^u)||2+2Dπ(u^,u)
สร้าง MAP เป็นตัวประมาณ Bayes บางคนอาจยังสงสัยเกี่ยวกับมาตรการที่มีอำนาจเหนือ แต่ทั้งฟังก์ชั่นการสูญเสียและตัวประมาณผลลัพธ์นั้นขึ้นอยู่กับทางเลือกของมาตรการที่มีอิทธิพล ... (การสูญเสียขึ้นอยู่กับก่อนหน้านี้ แต่นี่ไม่ใช่ข้อเสียเปรียบ

1

ฉันจะให้สรุปของข้อความดังกล่าวเกี่ยวกับปัญหานี้ในบทที่ 5 คชกรรมสถิติการเรียนรู้เครื่อง: มุมมองความน่าจะเป็น - โดยเมอร์ฟี่

ขอให้เราบอกว่าเราสังเกตเห็นข้อมูลบางอย่างและเราต้องการที่จะแสดงความคิดเห็นเกี่ยวกับการกระจายหลังของพารามิเตอร์X) ทีนี้การประมาณจุดของโหมดของการกระจายหลังนี้ซึ่งเป็นที่รู้จักกันอย่างกว้างขวางว่าเป็น MAP มีข้อเสียบางประการXp(θ|X)

ซึ่งแตกต่างจากค่าเฉลี่ยหรือค่ามัธยฐานนี่คือจุด 'ผิดปกติ' ในแง่ที่ว่ามันไม่ได้พิจารณาประเด็นอื่น ๆ ทั้งหมดในขณะที่ถูกประเมิน ในกรณีของการประเมินค่าเฉลี่ย / ค่ามัธยฐานเราจะพิจารณาประเด็นอื่น ๆ ทั้งหมด

ดังนั้นตามที่คาดไว้ในการแจกแจงหลังเบ้อย่างมาก MAP (และโดยการขยาย MLE) ไม่ได้แสดงถึงด้านหลังอย่างแท้จริง

ดังนั้นเราจะสรุปผู้หลังโดยใช้การประมาณค่าเช่น Mean / Median / Mode ได้อย่างไร

นี่คือที่ที่ผู้คนใช้ทฤษฎีการตัดสินใจ - โดยพื้นฐานแล้วฟังก์ชั่นการสูญเสียซึ่งเป็นการสูญเสียที่เกิดขึ้นถ้าความจริงคือและเป็นค่าประมาณของเรา เราสามารถเลือกฟังก์ชั่นการสูญเสียได้หลากหลายและวัตถุประสงค์ของเราในที่นี้คือการลดฟังก์ชั่นการสูญเสียที่คาดหวังL(θ,θ^)θθ^

หากฟังก์ชันสูญเสียถูกตั้งค่าเป็นฟังก์ชันตัวบ่งชี้สำหรับทุกครั้งที่เราไม่สามารถทำได้ ประเมินความจริงแล้วการลดมูลค่าที่คาดหวังของฟังก์ชั่นการสูญเสีย WRTเท่ากับการเพิ่มฟังก์ชั่นนี้ WRT \จากนี้เป็นเรื่องง่ายที่จะคาดเดาว่าโหมด Posterior จะลดค่าการสูญเสียที่คาดไว้ รายละเอียดการคำนวณนี้สามารถเห็นได้ใน คำตอบดังกล่าวข้างต้นฉัน ( θθ | x ) θ ฉัน ( θ = θ | x ) θL(θ,θ^)I(θ^θ|x)θI(θ^=θ|x)θ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.