ฉันเจอสไลด์เหล่านี้ (สไลด์ # 16 & # 17) ในหนึ่งในหลักสูตรออนไลน์ ผู้สอนพยายามอธิบายถึงวิธีการประมาณค่าสูงสุดหลัง (MAP) เป็นวิธีการแก้ปัญหาโดยที่เป็นพารามิเตอร์จริง
ใครช่วยกรุณาอธิบายวิธีการดังต่อไปนี้?
ฉันเจอสไลด์เหล่านี้ (สไลด์ # 16 & # 17) ในหนึ่งในหลักสูตรออนไลน์ ผู้สอนพยายามอธิบายถึงวิธีการประมาณค่าสูงสุดหลัง (MAP) เป็นวิธีการแก้ปัญหาโดยที่เป็นพารามิเตอร์จริง
ใครช่วยกรุณาอธิบายวิธีการดังต่อไปนี้?
คำตอบ:
จากการดูสไลด์ที่คุณแบ่งปันฉันคิดว่าเป็นแนวคิดที่จะอธิบายว่าการประมาณค่า MAP สามารถใช้ในการประเมินคุณสมบัติต่าง ๆ ของคนหลังเช่นค่าเฉลี่ยโหมดและค่ามัธยฐาน ฉันจะพยายามที่จะอธิบายเรื่องนี้ในบริบทของการประมาณค่าทั่วไปแบบเบย์เป็นที่นำเสนอในหนังสือสตีเฟนเอ็มเคย์, พื้นฐานทางสถิติของการประมวลผลสัญญาณ
เริ่มต้นด้วยการพิจารณาความเสี่ยงสามประเภท (เช่นฟังก์ชันต้นทุน) ที่เกี่ยวข้องกับการประมาณค่าพารามิเตอร์ :
- ; else
ที่ซึ่งในθคือค่าประมาณและθคือพารามิเตอร์ที่แท้จริง ในการประมาณแบบเบย์วัตถุประสงค์คือเพื่อลดความเสี่ยงที่คาดหวังนั่นคือ:
ตอนนี้ขึ้นอยู่กับว่าเราเลือกตัวใดตัวประมาณจะให้คุณสมบัติที่แตกต่างจากด้านหลัง ตัวอย่างเช่นหากเราเลือกกรณีแรกการย่อขนาดสำหรับคือค่าเฉลี่ย เนื่องจากคุณมีคำถามเกี่ยวกับฟังก์ชันตัวบ่งชี้ , ฉันจะจัดการกับความเสี่ยงที่สามที่กล่าวถึงข้างต้น (ซึ่งถ้าคุณคิดเกี่ยวกับมันสำหรับเทียบเท่า เพื่อใช้ตัวบ่งชี้)
สำหรับกรณีที่ 3 ด้านบน:
ซึ่งสำหรับจะย่อเล็กสุดเมื่อสอดคล้องกับโหมดของหลัง
ในกรณีที่เฉพาะเจาะจงพื้นที่พารามิเตอร์มี จำกัด หรือไม่มีที่สิ้นสุดจำนวนการสูญเสียหลังที่เกี่ยวข้องกับการสูญเสียตัวบ่งชี้เท่ากับความน่าจะเป็นที่จะผิดและมันจะถูกย่อให้เล็กสุดเมื่อความน่าจะเป็นหลังที่ถูกต้องถูกขยายให้ใหญ่สุด ซึ่งหมายความว่าเป็นโหมดของการกระจายหลังหรือ MAP
อย่างไรก็ตามการเชื่อมโยงของ MAP และการสูญเสียนี้เป็น "ทฤษฎีบทพื้นบ้าน" ซึ่งมันไม่ถูกต้องในการตั้งค่าส่วนใหญ่กล่าวคือมันไม่ได้เก็บไว้สำหรับช่องว่างพารามิเตอร์ต่อเนื่องโดยที่สำหรับและมันขัดแย้งกับผลของDruihlet และ Marin (BA, 2007)ซึ่งชี้ให้เห็นว่า MAP ขึ้นอยู่กับการเลือกของมาตรการที่มีอิทธิพล (แม้ว่าการวัด Lebesgue จะถูกเลือกโดยปริยายว่าเป็นค่าเริ่มต้น)
ตัวอย่างเช่น Evans และ Jang โพสต์กระดาษ arXivในปี 2011 ที่พวกเขาพูดคุยเกี่ยวกับการเชื่อมต่อระหว่าง MAP ตัวประมาณค่าความประหลาดใจที่สัมพันธ์กันน้อยที่สุด (หรือความน่าจะเป็นโปรไฟล์สูงสุด) และฟังก์ชันการสูญเสีย แกนหลักของเรื่องนี้คือตัวประมาณค่า MAP ไม่ได้หรือ MLEs เป็นเหตุผลที่แท้จริงโดยวิธีการตัดสินใจเชิงทฤษฎีอย่างน้อยในพื้นที่พารามิเตอร์ต่อเนื่อง และการวัดที่ได้รับการเลือกโดยพลการในพื้นที่พารามิเตอร์นั้นส่งผลต่อค่าของ MAP ดังที่ Druihlet และ Marin แสดงในปี 2550 พวกเขาเริ่มต้นในกรณีที่ จำกัด ด้วยฟังก์ชันการสูญเสีย
Robert Bassett และ Julio Deride ได้รวบรวมบทความเกี่ยวกับตำแหน่งของ MAPs ภายในทฤษฎีการตัดสินใจแบบเบย์
“ …เราให้ตัวอย่างกับความคิดที่ยอมรับกันทั่วไปของตัวประมาณค่า MAP เป็นขีด จำกัด ของตัวประมาณค่า Bayes ที่มีการสูญเสีย 0-1”
ผู้เขียนพูดถึงหนังสือของฉันThe Bayesian Choice ที่ระบุว่าสถานที่ให้บริการนี้ไม่มีข้อควรระวังเพิ่มเติมและฉันตกลงที่จะประมาทในเรื่องนี้อย่างสมบูรณ์! ความยากยืนอยู่กับขีด จำกัด ของ maximisers ที่ไม่จำเป็นต้องเป็น maximiser ของขีด จำกัด กระดาษมีตัวอย่างของเอฟเฟกต์นี้ซึ่งก่อนหน้านี้เกี่ยวข้องกับการแจกแจงตัวอย่างที่ไม่ได้ขึ้นอยู่กับพารามิเตอร์ เงื่อนไขเพียงพอที่เสนอในนั้นคือความหนาแน่นหลังเกือบจะเหมาะสมหรือ quasiconcave แน่นอน
ดูเพิ่มเติมที่ลักษณะของตัวประมาณค่า MAP โดยBurger และ Luckaเป็นตัวประมาณ Bayes ที่เหมาะสมภายใต้ฟังก์ชันการสูญเสียประเภทอื่นแม้ว่าจะเป็นตัวเลียนแบบ ผู้เขียนบทความarXivedนี้เริ่มต้นด้วยระยะทางตามก่อนหน้า; เรียกว่าระยะ Bregman ซึ่งอาจเป็นกำลังสองหรือระยะทางเอนโทรปีขึ้นอยู่กับก่อน การกำหนดฟังก์ชั่นการสูญเสียซึ่งเป็นส่วนผสมของระยะ Bregman นี้และของระยะกำลังสอง
ฉันจะให้สรุปของข้อความดังกล่าวเกี่ยวกับปัญหานี้ในบทที่ 5 คชกรรมสถิติการเรียนรู้เครื่อง: มุมมองความน่าจะเป็น - โดยเมอร์ฟี่
ขอให้เราบอกว่าเราสังเกตเห็นข้อมูลบางอย่างและเราต้องการที่จะแสดงความคิดเห็นเกี่ยวกับการกระจายหลังของพารามิเตอร์X) ทีนี้การประมาณจุดของโหมดของการกระจายหลังนี้ซึ่งเป็นที่รู้จักกันอย่างกว้างขวางว่าเป็น MAP มีข้อเสียบางประการ
ซึ่งแตกต่างจากค่าเฉลี่ยหรือค่ามัธยฐานนี่คือจุด 'ผิดปกติ' ในแง่ที่ว่ามันไม่ได้พิจารณาประเด็นอื่น ๆ ทั้งหมดในขณะที่ถูกประเมิน ในกรณีของการประเมินค่าเฉลี่ย / ค่ามัธยฐานเราจะพิจารณาประเด็นอื่น ๆ ทั้งหมด
ดังนั้นตามที่คาดไว้ในการแจกแจงหลังเบ้อย่างมาก MAP (และโดยการขยาย MLE) ไม่ได้แสดงถึงด้านหลังอย่างแท้จริง
ดังนั้นเราจะสรุปผู้หลังโดยใช้การประมาณค่าเช่น Mean / Median / Mode ได้อย่างไร
นี่คือที่ที่ผู้คนใช้ทฤษฎีการตัดสินใจ - โดยพื้นฐานแล้วฟังก์ชั่นการสูญเสียซึ่งเป็นการสูญเสียที่เกิดขึ้นถ้าความจริงคือและเป็นค่าประมาณของเรา เราสามารถเลือกฟังก์ชั่นการสูญเสียได้หลากหลายและวัตถุประสงค์ของเราในที่นี้คือการลดฟังก์ชั่นการสูญเสียที่คาดหวัง
หากฟังก์ชันสูญเสียถูกตั้งค่าเป็นฟังก์ชันตัวบ่งชี้สำหรับทุกครั้งที่เราไม่สามารถทำได้ ประเมินความจริงแล้วการลดมูลค่าที่คาดหวังของฟังก์ชั่นการสูญเสีย WRTเท่ากับการเพิ่มฟังก์ชั่นนี้ WRT \จากนี้เป็นเรื่องง่ายที่จะคาดเดาว่าโหมด Posterior จะลดค่าการสูญเสียที่คาดไว้ รายละเอียดการคำนวณนี้สามารถเห็นได้ใน คำตอบดังกล่าวข้างต้นฉัน ( θ ≠ θ | x ) θ ฉัน ( θ = θ | x ) θ