ในฐานะที่เป็นซีอานกล่าวว่าคำถามเป็นสิ่งที่สงสัย แต่ฉันคิดว่าคนจำนวนมากยังคงนำมาพิจารณาการประเมินความเป็นไปได้สูงสุดจากมุมมองแบบเบย์เพราะคำแถลงที่ปรากฏในวรรณกรรมบางเล่มและบนอินเทอร์เน็ต: " โอกาสสูงสุด ประมาณการเป็นกรณีเฉพาะของ Bayesian มากที่สุดประมาณการหลังเมื่อการกระจายก่อนหน้านี้เหมือนกัน "
ฉันบอกว่าจากมุมมองแบบเบย์ตัวประมาณค่าความน่าจะเป็นสูงสุดและคุณสมบัติความไม่แปรเปลี่ยนของมันสามารถเข้าท่าได้ แต่บทบาทและความหมายของตัวประมาณค่าในทฤษฎีแบบเบย์นั้นแตกต่างจากทฤษฎีบ่อยครั้งมาก และตัวประมาณนี้โดยเฉพาะมักจะไม่สมเหตุสมผลจากมุมมองแบบเบย์ นี่คือเหตุผล เพื่อความง่ายผมขอพิจารณาพารามิเตอร์หนึ่งมิติและการแปลงหนึ่งเดียว
ข้อสังเกตสองข้อแรก:
มันจะมีประโยชน์ในการพิจารณาพารามิเตอร์เป็นปริมาณที่อาศัยอยู่บนท่อร่วมกันทั่วไปซึ่งเราสามารถเลือกระบบพิกัดหรือหน่วยการวัดที่แตกต่างกัน จากมุมมองนี้การแก้ไขพารามิเตอร์ใหม่เป็นเพียงการเปลี่ยนพิกัด ตัวอย่างเช่นอุณหภูมิของจุดสามจุดของน้ำจะเหมือนกันไม่ว่าเราจะแสดงเป็นT=273.16 (K) t=0.01 (° C) θ=32.01 (° F) หรือ η=5.61(สเกลลอการิทึม) การอนุมานและการตัดสินใจของเราควรคงที่ด้วยการประสานงานการเปลี่ยนแปลง ระบบพิกัดบางระบบอาจมีความเป็นธรรมชาติมากกว่าระบบอื่น ๆ
ความน่าจะเป็นสำหรับปริมาณอย่างต่อเนื่องหมายถึงช่วงเวลา (ค่าที่แม่นยำยิ่งขึ้น, ชุด) ของค่าของปริมาณดังกล่าวเสมอไป แม้ว่าในกรณีที่เป็นเอกเทศเราสามารถพิจารณาชุดที่มีค่าเดียวเท่านั้นเช่น สัญกรณ์ความหนาแน่นของความน่าจะเป็นp(x)dxในสไตล์ Riemann-integral บอกเราว่า
(a) เราเลือกระบบพิกัดxในพารามิเตอร์นานา
(b) ระบบพิกัดนี้ช่วยให้เราสามารถพูดถึงช่วงของความกว้างเท่ากัน
(c) ความน่าจะเป็นที่ค่าอยู่ในช่วงเวลาเล็ก ๆΔx ประมาณ p(x)Δxที่ไหน xเป็นจุดภายในช่วงเวลา
(อีกวิธีหนึ่งเราสามารถพูดถึงการวัดฐานเกอdx และช่วงเวลาของการวัดเท่ากัน แต่สาระสำคัญเหมือนกัน)
ดังนั้นข้อความเช่น "p(x1)>p(x2)"ไม่ได้หมายความว่าน่าจะเป็นสำหรับ x1 มีขนาดใหญ่กว่านั้นสำหรับ x2แต่นั่นน่าจะเป็นที่x อยู่ในช่วงเวลาเล็ก ๆ x1มากกว่าความน่าจะเป็นที่อยู่ในช่วงความกว้างเท่ากันโดยรอบx2. คำสั่งดังกล่าวขึ้นอยู่กับการประสานงาน
เรามาดูจุดที่น่าจะเป็นได้สูงสุด (บ่อยครั้ง) จากมุมมอง
นี้พูดถึงความน่าจะเป็นสำหรับค่าพารามิเตอร์xไม่มีความหมายเลย หยุดเต็ม เราต้องการทราบว่าค่าพารามิเตอร์ที่แท้จริงคืออะไรและค่าx~ ที่ให้ความน่าจะเป็นสูงสุดกับข้อมูล D ควรสังหรณ์ใจไม่ไกลจากเครื่องหมาย:
x~:=argmaxxp(D∣x).(*)
นี่คือตัวประมาณโอกาสสูงสุด
ตัวประมาณค่านี้เลือกจุดบนพารามิเตอร์ต่างๆดังนั้นจึงไม่ขึ้นอยู่กับระบบพิกัดใด ๆ ระบุไว้เป็นอย่างอื่น: แต่ละจุดของพารามิเตอร์มีความสัมพันธ์กับตัวเลข: ความน่าจะเป็นสำหรับข้อมูล ; เรากำลังเลือกจุดที่มีจำนวนที่เกี่ยวข้องสูงสุด ตัวเลือกนี้ไม่จำเป็นต้องมีระบบพิกัดหรือการวัดพื้นฐาน ด้วยเหตุผลนี้เองที่ตัวประมาณค่านี้เป็นพารามิเตอร์ที่ไม่แปรเปลี่ยนและคุณสมบัตินี้บอกเราว่ามันไม่น่าจะเป็น - ตามที่ต้องการ ความไม่แปรเปลี่ยนนี้ยังคงอยู่หากเราพิจารณาการเปลี่ยนแปลงพารามิเตอร์ที่ซับซ้อนมากขึ้นและความน่าจะเป็นของโปรไฟล์ที่กล่าวถึงโดยซีอานนั้นสมเหตุสมผลจากมุมมองนี้D
ลองมาดูจุดคชกรรมของมุมมอง
จากมุมมองนี้มันก็ทำให้ความรู้สึกที่จะพูดถึงความเป็นไปได้สำหรับพารามิเตอร์อย่างต่อเนื่องถ้าเรามีความไม่แน่นอนเกี่ยวกับเรื่องเงื่อนไขในข้อมูลและอื่น ๆ หลักฐานDเราเขียนสิ่งนี้เป็น
ตามที่ระบุไว้ในตอนต้นความน่าจะเป็นนี้หมายถึงช่วงเวลาของพารามิเตอร์ต่าง ๆ ไม่ใช่จุดเดียวDp(x∣D)dx∝p(D∣x)p(x)dx.(**)
โดยหลักการแล้วเราควรรายงานความไม่แน่นอนของเราโดยระบุการแจกแจงความน่าจะเป็นแบบเต็มสำหรับพารามิเตอร์ ดังนั้นแนวคิดเรื่องตัวประมาณจึงเป็นเรื่องรองจากมุมมองแบบเบย์p(x∣D)dx
แนวคิดนี้ปรากฏขึ้นเมื่อเราต้องเลือกจุดหนึ่งจุดบนพารามิเตอร์ที่หลากหลายเพื่อวัตถุประสงค์หรือเหตุผลเฉพาะบางอย่างแม้ว่าจะไม่ทราบจุดที่แท้จริง ตัวเลือกนี้เป็นขอบเขตของทฤษฎีการตัดสินใจ [1] และค่าที่เลือกคือนิยามที่เหมาะสมของ "ตัวประมาณค่า" ในทฤษฎีแบบเบย์ ทฤษฎีการตัดสินใจบอกว่าเราจะต้องแนะนำฟังก์ชั่นยูทิลิตี้ ซึ่งบอกเราว่าเราได้รับมากเพียงใดโดยการเลือกจุดในพารามิเตอร์นานาเมื่อจุดที่แท้จริงคือ (หรือ เราพูดถึงฟังก์ชั่นการสูญเสียในแง่ร้ายได้) ฟังก์ชั่นนี้จะมีการแสดงออกที่แตกต่างกันในแต่ละระบบพิกัดเช่นและ(P0,P)↦G(P0;P)P0P(x0,x)↦Gx(x0;x)(y0,y)↦Gy(y0;y); หากการแปลงพิกัดเป็นนิพจน์ทั้งสองจะสัมพันธ์กันโดย [2]y=f(x)Gx(x0;x)=Gy[f(x0);f(x)]
ให้ฉันเครียดทันทีที่เมื่อเราพูดพูดของฟังก์ชั่นยูทิลิตี้กำลังสองเราได้เลือกระบบพิกัดเฉพาะโดยปริยายโดยปกติจะเป็นระบบธรรมชาติสำหรับพารามิเตอร์ ในระบบพิกัดอื่นการแสดงออกของฟังก์ชั่นยูทิลิตี้โดยทั่วไปจะไม่เป็นกำลังสอง แต่มันก็ยังคงเป็นฟังก์ชั่นยูทิลิตี้เดียวกันในพารามิเตอร์นานา
ประมาณการเกี่ยวข้องกับฟังก์ชั่นยูทิลิตี้เป็นจุดที่เพิ่มยูทิลิตี้ที่คาดว่าจะได้รับข้อมูลของเราDในระบบพิกัดพิกัดของมันคือ
คำจำกัดความนี้เป็นอิสระจากการเปลี่ยนแปลงพิกัด: ในพิกัดใหม่พิกัดของตัวประมาณคือ}) สิ่งนี้ติดตามได้จากความเป็นอิสระของพิกัดของและของอินทิกรัลP^GDxx^:=argmaxx0∫Gx(x0;x)p(x∣D)dx.(***)
y=f(x)y^=f(x^)G
คุณจะเห็นว่าค่าความไม่แปรเปลี่ยนนี้เป็นคุณสมบัติในตัวประมาณค่าแบบเบย์
ตอนนี้เราสามารถถามได้: มีฟังก์ชั่นยูทิลิตี้ที่นำไปสู่การประมาณเท่ากับโอกาสสูงสุด? เนื่องจากตัวประมาณค่าความน่าจะเป็นสูงสุดนั้นไม่แปรเปลี่ยนฟังก์ชันอาจมีอยู่ จากมุมมองนี้โอกาสสูงสุดจะไร้สาระจากมุมมองแบบเบย์ถ้ามันไม่คงที่!
ฟังก์ชั่นยูทิลิตี้ที่เฉพาะในระบบพิกัดเท่ากับเดลต้า Dirac, , ดูเหมือนว่าจะทำงาน [3] สมการให้ผลและหากก่อนหน้านี้ในเป็นชุดเดียวกันในพิกัดเรา ได้รับการประมาณการโอกาสสูงสุด{} อีกทางเลือกหนึ่งเราสามารถพิจารณาลำดับของฟังก์ชั่นยูทิลิตี้ด้วยการสนับสนุนที่เล็กลงเช่นถ้าและ ที่อื่นสำหรับ [4]xGx(x0;x)=δ(x0−x)(***)x^=argmaxxp(x∣D)(**)x(*)Gx(x0;x)=1|x0−x|<ϵGx(x0;x)=0ϵ→0
ดังนั้นใช่ตัวประมาณความน่าจะเป็นสูงสุดและความไม่แปรเปลี่ยนของมันสามารถทำให้เข้าใจได้จากมุมมองแบบเบย์หากเรามีความใจกว้างทางคณิตศาสตร์และยอมรับฟังก์ชั่นทั่วไป แต่ความหมายบทบาทและการใช้ตัวประมาณในมุมมองแบบเบย์นั้นแตกต่างจากมุมมองแบบประจำอย่างสิ้นเชิง
ให้ฉันเพิ่มว่าดูเหมือนว่าจะมีการจองในวรรณกรรมเกี่ยวกับว่าฟังก์ชั่นยูทิลิตี้ที่กำหนดไว้ข้างต้นทำให้รู้สึกทางคณิตศาสตร์ [5] ในกรณีใด ๆ ประโยชน์ของฟังก์ชั่นยูทิลิตี้นั้นค่อนข้าง จำกัด : เมื่อเจย์เนส [3] ชี้ให้เห็นก็หมายความว่า "เราใส่ใจเพียงแค่โอกาสที่ถูกต้องและถ้าเราผิดเราก็ไม่สนใจ เราผิดแค่ไหน ".
ตอนนี้ให้พิจารณาคำแถลงว่า "ความเป็นไปได้สูงสุดคือกรณีพิเศษของคนหลังสุดที่มีเครื่องแบบเหมือนกันก่อน" เป็นสิ่งสำคัญที่จะต้องทราบว่าเกิดอะไรขึ้นภายใต้การเปลี่ยนแปลงพิกัดทั่วไป :
1. ฟังก์ชันยูทิลิตี้ด้านบนจะถือว่านิพจน์อื่น ;
2. ความหนาแน่นก่อนหน้าในพิกัดไม่เหมือนกันเนื่องจากปัจจัยจาโคเบียน
3. ตัวประมาณค่าไม่ได้มีความหนาแน่นสูงสุดด้านหลังในพิกัดเนื่องจากเดลต้า Dirac ได้รับปัจจัยคูณแบบพิเศษy=f(x)
Gy(y0;y)=δ[f−1(y0)−f−1(y)]≡δ(y0−y)|f′[f−1(y0)]|
y
y
4. ตัวประมาณยังคงได้รับโดยโอกาสสูงสุดในพิกัดใหม่
การเปลี่ยนแปลงเหล่านี้รวมกันเพื่อให้จุดประมาณยังคงเหมือนเดิมในพารามิเตอร์นานาy
ดังนั้นข้อความข้างต้นถือว่าเป็นระบบพิกัดพิเศษ ประโยคที่ชัดเจนและชัดเจนมากขึ้นน่าจะเป็นเช่นนี้: "ตัวประมาณค่าความน่าจะเป็นสูงสุดนั้นมีค่าเท่ากับตัวเลขตัวประมาณแบบเบย์ซึ่งในระบบพิกัดบางระบบนั้นมีฟังก์ชันยูทิลิตี้เดลต้าและชุดเครื่องแบบมาก่อน"
ความคิดเห็นสุดท้าย
การสนทนาข้างต้นนั้นไม่เป็นทางการ แต่สามารถทำให้แม่นยำโดยใช้ทฤษฎีการวัดและการรวมกลุ่มของ Stieltjes
ในวรรณคดีเบย์เราสามารถหาแนวความคิดที่ไม่เป็นทางการมากขึ้นเกี่ยวกับตัวประมาณค่า: มันเป็นตัวเลขที่ "สรุป" การแจกแจงความน่าจะเป็นโดยเฉพาะอย่างยิ่งเมื่อมันไม่สะดวกหรือเป็นไปไม่ได้ที่จะระบุความหนาแน่นเต็ม ; ดูเช่น Murphy [6] หรือ MacKay [7] ความคิดนี้มักจะแยกออกจากทฤษฎีการตัดสินใจและดังนั้นจึงอาจขึ้นอยู่กับการประสานงานหรือสมมติว่าระบบพิกัดโดยเฉพาะ แต่ในนิยามการตัดสินใจเชิงทฤษฎีของตัวประมาณค่าสิ่งที่ไม่แปรเปลี่ยนไม่สามารถเป็นตัวประมาณได้p(x∣D)dx
[1] ตัวอย่างเช่น H. Raiffa, R. Schlaifer: ทฤษฎีการตัดสินใจทางสถิติประยุกต์ (Wiley 2000)
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: การวิเคราะห์, Manifolds และฟิสิกส์ ส่วนที่ 1: พื้นฐาน (เอลส์เวียร์ 1996) หรือหนังสือที่ดีอื่น ๆ เกี่ยวกับเรขาคณิตเชิงอนุพันธ์
[3] ET Jaynes: ทฤษฎีความน่าจะเป็น: ตรรกะของวิทยาศาสตร์ (Cambridge University Press 2003), §13.10
[4] เจ. Bernardo, AF Smith: ทฤษฎีแบบเบย์ (Wiley 2000), §5.1.5
[5] IH Jermyn: การประมาณค่าแบบเบย์แบบแปรผันบนแมนิโฟลด์ https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: สูงสุดตัวประมาณหลังซึ่งเป็นขีด จำกัด ของตัวประมาณ Bayes https://doi.org/10.1007/s10107-018-1241-0
[6] KP Murphy: การเรียนรู้ของเครื่อง: มุมมองที่น่าจะเป็น (MIT Press 2012) โดยเฉพาะอย่างยิ่ง 5.
[7] DJC แมคเคย์: ทฤษฎีสารสนเทศ, การอนุมานและการเรียนรู้ขั้นตอนวิธี (Cambridge University Press 2003) http://www.inference.phy.cam.ac.uk/mackay/itila/