คุณสมบัติความไม่แปรเปลี่ยนของตัวประมาณค่า ML นั้นไร้ความหมายจากมุมมองแบบเบย์หรือไม่?


9

Casella และ Bergerระบุคุณสมบัติ invariance ของตัวประมาณค่า ML ดังนี้:

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามดูเหมือนว่าพวกเขาจะกำหนด "โอกาส" ของ η อย่างสมบูรณ์แบบและไร้สาระ:

ป้อนคำอธิบายรูปภาพที่นี่

ถ้าฉันใช้กฎพื้นฐานของทฤษฎีความน่าจะเป็นกับกรณีอย่างง่าย η=τ(θ)=θ2ฉันได้รับต่อไปนี้แทน:

L(η|x)=p(x|θ2=η)=p(x|θ=ηθ=η)=:p(x|AB)
ตอนนี้ใช้ทฤษฎีบทของเบย์แล้วจากข้อเท็จจริงที่ว่า A และ B เป็นเอกสิทธิ์เฉพาะบุคคลร่วมกันเพื่อให้เราสามารถใช้กฎผลรวม:
p(x|AB)=p(x)p(AB|x)p(AB)=p(x|AB)=p(x)p(A|x)+p(B|x)p(A)+p(B)

ตอนนี้ใช้ทฤษฎีบทของเบย์กับเงื่อนไขในตัวเศษอีกครั้ง:

p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)

ถ้าเราต้องการเพิ่ม wrt นี้ให้สูงสุด η เพื่อให้ได้ค่าประมาณโอกาสสูงสุด ηเราต้องเพิ่มสูงสุด:

pθ(η)p(x|θ=η)+pθ(η)p(x|θ=η)

เบย์โจมตีอีกครั้งหรือไม่? Casella & Berger ผิดหรือเปล่า? หรือฉันผิด



1
ส่วนที่เป็นทางการหลังจาก"ถ้าฉันใช้กฎพื้นฐานของทฤษฎีความน่าจะเป็นกับกรณีอย่างง่ายη=τ(θ)=θ2"ไม่เปลี่ยนคำถามเรื่องนี้ได้รับการครอบคลุมอย่างสมบูรณ์ในคำตอบที่ดีเยี่ยมจากซามูเอลเบนิดต์ค่าความน่าจะเป็น (และจากนั้นเป็นจำนวนสูงสุด) จะไม่เปลี่ยนแปลงเนื่องจากการทำแผนที่ใช่คุณต้องระวังเป็นพิเศษหากการทำแผนที่นั้น ไม่ใช่แบบตัวต่อตัว แต่นั่นเป็นปัญหาที่แตกต่างไปจากการเปลี่ยนแปลงที่เกิดขึ้นเนื่องจากการแจกแจงความน่าจะเป็นเมื่อคุณใช้การแปลง
Sextus Empiricus

4
ฉันเข้าใจความคับข้องใจของคุณ Programmer2134 (& @MartijnWeterings) อย่างไรก็ตามโปรดระวังเสียงของคุณในความคิดเห็นของคุณ การสนทนาที่มีประสิทธิผลจะเกิดขึ้นได้ก็ต่อเมื่อมีการปฏิบัติตามนโยบายที่ดีของเรา หากคุณไม่สนใจติดตามการสนทนาที่มีประสิทธิผลคุณต้องโพสต์คำถามเหล่านี้ที่อื่น
gung - Reinstate Monica

3
@ gung คุณพูดถูก และฉันเสียใจที่ทำปฏิกิริยากับน้ำเสียงนั้น ฉันจะหยุดทำตั้งแต่นี้เป็นต้นไป ขออภัยสำหรับสิ่งนี้ เกี่ยวกับการสนทนาฉันสนใจที่จะตามหาคนที่มีประสิทธิผล แต่รู้สึกว่าการตอบสนองของผู้คนในคำถามสองสามข้อที่ฉันถามนั้นส่วนใหญ่เป็นการต่อต้าน อย่างไรก็ตามครั้งต่อไปฉันจะตอบกลับต่างกัน
user56834

3
ขอบคุณ. เป็นการดีที่สุดที่จะสมมติว่าผู้คนตอบสนองโดยสุจริต มีโอกาส (ค่อนข้างน้อย IMHO) ที่ผู้คนที่นี่ไม่ใช่ แต่บางครั้งพวกเขาก็สามารถเกลี้ยกล่อมให้มา
gung - Reinstate Monica

คำตอบ:


15

ในฐานะที่เป็นซีอานกล่าวว่าคำถามเป็นสิ่งที่สงสัย แต่ฉันคิดว่าคนจำนวนมากยังคงนำมาพิจารณาการประเมินความเป็นไปได้สูงสุดจากมุมมองแบบเบย์เพราะคำแถลงที่ปรากฏในวรรณกรรมบางเล่มและบนอินเทอร์เน็ต: " โอกาสสูงสุด ประมาณการเป็นกรณีเฉพาะของ Bayesian มากที่สุดประมาณการหลังเมื่อการกระจายก่อนหน้านี้เหมือนกัน "

ฉันบอกว่าจากมุมมองแบบเบย์ตัวประมาณค่าความน่าจะเป็นสูงสุดและคุณสมบัติความไม่แปรเปลี่ยนของมันสามารถเข้าท่าได้ แต่บทบาทและความหมายของตัวประมาณค่าในทฤษฎีแบบเบย์นั้นแตกต่างจากทฤษฎีบ่อยครั้งมาก และตัวประมาณนี้โดยเฉพาะมักจะไม่สมเหตุสมผลจากมุมมองแบบเบย์ นี่คือเหตุผล เพื่อความง่ายผมขอพิจารณาพารามิเตอร์หนึ่งมิติและการแปลงหนึ่งเดียว

ข้อสังเกตสองข้อแรก:

  1. มันจะมีประโยชน์ในการพิจารณาพารามิเตอร์เป็นปริมาณที่อาศัยอยู่บนท่อร่วมกันทั่วไปซึ่งเราสามารถเลือกระบบพิกัดหรือหน่วยการวัดที่แตกต่างกัน จากมุมมองนี้การแก้ไขพารามิเตอร์ใหม่เป็นเพียงการเปลี่ยนพิกัด ตัวอย่างเช่นอุณหภูมิของจุดสามจุดของน้ำจะเหมือนกันไม่ว่าเราจะแสดงเป็นT=273.16 (K) t=0.01 (° C) θ=32.01 (° F) หรือ η=5.61(สเกลลอการิทึม) การอนุมานและการตัดสินใจของเราควรคงที่ด้วยการประสานงานการเปลี่ยนแปลง ระบบพิกัดบางระบบอาจมีความเป็นธรรมชาติมากกว่าระบบอื่น ๆ

  2. ความน่าจะเป็นสำหรับปริมาณอย่างต่อเนื่องหมายถึงช่วงเวลา (ค่าที่แม่นยำยิ่งขึ้น, ชุด) ของค่าของปริมาณดังกล่าวเสมอไป แม้ว่าในกรณีที่เป็นเอกเทศเราสามารถพิจารณาชุดที่มีค่าเดียวเท่านั้นเช่น สัญกรณ์ความหนาแน่นของความน่าจะเป็นp(x)dxในสไตล์ Riemann-integral บอกเราว่า
    (a) เราเลือกระบบพิกัดxในพารามิเตอร์นานา
    (b) ระบบพิกัดนี้ช่วยให้เราสามารถพูดถึงช่วงของความกว้างเท่ากัน
    (c) ความน่าจะเป็นที่ค่าอยู่ในช่วงเวลาเล็ก ๆΔx ประมาณ p(x)Δxที่ไหน xเป็นจุดภายในช่วงเวลา
    (อีกวิธีหนึ่งเราสามารถพูดถึงการวัดฐานเกอdx และช่วงเวลาของการวัดเท่ากัน แต่สาระสำคัญเหมือนกัน)

    ดังนั้นข้อความเช่น "p(x1)>p(x2)"ไม่ได้หมายความว่าน่าจะเป็นสำหรับ x1 มีขนาดใหญ่กว่านั้นสำหรับ x2แต่นั่นน่าจะเป็นที่x อยู่ในช่วงเวลาเล็ก ๆ x1มากกว่าความน่าจะเป็นที่อยู่ในช่วงความกว้างเท่ากันโดยรอบx2. คำสั่งดังกล่าวขึ้นอยู่กับการประสานงาน

เรามาดูจุดที่น่าจะเป็นได้สูงสุด (บ่อยครั้ง) จากมุมมอง
นี้พูดถึงความน่าจะเป็นสำหรับค่าพารามิเตอร์xไม่มีความหมายเลย หยุดเต็ม เราต้องการทราบว่าค่าพารามิเตอร์ที่แท้จริงคืออะไรและค่าx~ ที่ให้ความน่าจะเป็นสูงสุดกับข้อมูล D ควรสังหรณ์ใจไม่ไกลจากเครื่องหมาย:

(*)x~:=argmaxxp(Dx).
นี่คือตัวประมาณโอกาสสูงสุด

ตัวประมาณค่านี้เลือกจุดบนพารามิเตอร์ต่างๆดังนั้นจึงไม่ขึ้นอยู่กับระบบพิกัดใด ๆ ระบุไว้เป็นอย่างอื่น: แต่ละจุดของพารามิเตอร์มีความสัมพันธ์กับตัวเลข: ความน่าจะเป็นสำหรับข้อมูล ; เรากำลังเลือกจุดที่มีจำนวนที่เกี่ยวข้องสูงสุด ตัวเลือกนี้ไม่จำเป็นต้องมีระบบพิกัดหรือการวัดพื้นฐาน ด้วยเหตุผลนี้เองที่ตัวประมาณค่านี้เป็นพารามิเตอร์ที่ไม่แปรเปลี่ยนและคุณสมบัตินี้บอกเราว่ามันไม่น่าจะเป็น - ตามที่ต้องการ ความไม่แปรเปลี่ยนนี้ยังคงอยู่หากเราพิจารณาการเปลี่ยนแปลงพารามิเตอร์ที่ซับซ้อนมากขึ้นและความน่าจะเป็นของโปรไฟล์ที่กล่าวถึงโดยซีอานนั้นสมเหตุสมผลจากมุมมองนี้D

ลองมาดูจุดคชกรรมของมุมมอง
จากมุมมองนี้มันก็ทำให้ความรู้สึกที่จะพูดถึงความเป็นไปได้สำหรับพารามิเตอร์อย่างต่อเนื่องถ้าเรามีความไม่แน่นอนเกี่ยวกับเรื่องเงื่อนไขในข้อมูลและอื่น ๆ หลักฐานDเราเขียนสิ่งนี้เป็น ตามที่ระบุไว้ในตอนต้นความน่าจะเป็นนี้หมายถึงช่วงเวลาของพารามิเตอร์ต่าง ๆ ไม่ใช่จุดเดียวD

(**)p(xD)dxp(Dx)p(x)dx.

โดยหลักการแล้วเราควรรายงานความไม่แน่นอนของเราโดยระบุการแจกแจงความน่าจะเป็นแบบเต็มสำหรับพารามิเตอร์ ดังนั้นแนวคิดเรื่องตัวประมาณจึงเป็นเรื่องรองจากมุมมองแบบเบย์p(xD)dx

แนวคิดนี้ปรากฏขึ้นเมื่อเราต้องเลือกจุดหนึ่งจุดบนพารามิเตอร์ที่หลากหลายเพื่อวัตถุประสงค์หรือเหตุผลเฉพาะบางอย่างแม้ว่าจะไม่ทราบจุดที่แท้จริง ตัวเลือกนี้เป็นขอบเขตของทฤษฎีการตัดสินใจ [1] และค่าที่เลือกคือนิยามที่เหมาะสมของ "ตัวประมาณค่า" ในทฤษฎีแบบเบย์ ทฤษฎีการตัดสินใจบอกว่าเราจะต้องแนะนำฟังก์ชั่นยูทิลิตี้ ซึ่งบอกเราว่าเราได้รับมากเพียงใดโดยการเลือกจุดในพารามิเตอร์นานาเมื่อจุดที่แท้จริงคือ (หรือ เราพูดถึงฟังก์ชั่นการสูญเสียในแง่ร้ายได้) ฟังก์ชั่นนี้จะมีการแสดงออกที่แตกต่างกันในแต่ละระบบพิกัดเช่นและ(P0,P)G(P0;P)P0P(x0,x)Gx(x0;x)(y0,y)Gy(y0;y); หากการแปลงพิกัดเป็นนิพจน์ทั้งสองจะสัมพันธ์กันโดย [2]y=f(x)Gx(x0;x)=Gy[f(x0);f(x)]

ให้ฉันเครียดทันทีที่เมื่อเราพูดพูดของฟังก์ชั่นยูทิลิตี้กำลังสองเราได้เลือกระบบพิกัดเฉพาะโดยปริยายโดยปกติจะเป็นระบบธรรมชาติสำหรับพารามิเตอร์ ในระบบพิกัดอื่นการแสดงออกของฟังก์ชั่นยูทิลิตี้โดยทั่วไปจะไม่เป็นกำลังสอง แต่มันก็ยังคงเป็นฟังก์ชั่นยูทิลิตี้เดียวกันในพารามิเตอร์นานา

ประมาณการเกี่ยวข้องกับฟังก์ชั่นยูทิลิตี้เป็นจุดที่เพิ่มยูทิลิตี้ที่คาดว่าจะได้รับข้อมูลของเราDในระบบพิกัดพิกัดของมันคือ คำจำกัดความนี้เป็นอิสระจากการเปลี่ยนแปลงพิกัด: ในพิกัดใหม่พิกัดของตัวประมาณคือ}) สิ่งนี้ติดตามได้จากความเป็นอิสระของพิกัดของและของอินทิกรัลP^GDx

(***)x^:=argmaxx0Gx(x0;x)p(xD)dx.
y=f(x)y^=f(x^)G

คุณจะเห็นว่าค่าความไม่แปรเปลี่ยนนี้เป็นคุณสมบัติในตัวประมาณค่าแบบเบย์

ตอนนี้เราสามารถถามได้: มีฟังก์ชั่นยูทิลิตี้ที่นำไปสู่การประมาณเท่ากับโอกาสสูงสุด? เนื่องจากตัวประมาณค่าความน่าจะเป็นสูงสุดนั้นไม่แปรเปลี่ยนฟังก์ชันอาจมีอยู่ จากมุมมองนี้โอกาสสูงสุดจะไร้สาระจากมุมมองแบบเบย์ถ้ามันไม่คงที่!

ฟังก์ชั่นยูทิลิตี้ที่เฉพาะในระบบพิกัดเท่ากับเดลต้า Dirac, , ดูเหมือนว่าจะทำงาน [3] สมการให้ผลและหากก่อนหน้านี้ในเป็นชุดเดียวกันในพิกัดเรา ได้รับการประมาณการโอกาสสูงสุด{} อีกทางเลือกหนึ่งเราสามารถพิจารณาลำดับของฟังก์ชั่นยูทิลิตี้ด้วยการสนับสนุนที่เล็กลงเช่นถ้าและ ที่อื่นสำหรับ [4]xGx(x0;x)=δ(x0x)(***)x^=argmaxxp(xD)(**)x(*)Gx(x0;x)=1|x0x|<ϵGx(x0;x)=0ϵ0

ดังนั้นใช่ตัวประมาณความน่าจะเป็นสูงสุดและความไม่แปรเปลี่ยนของมันสามารถทำให้เข้าใจได้จากมุมมองแบบเบย์หากเรามีความใจกว้างทางคณิตศาสตร์และยอมรับฟังก์ชั่นทั่วไป แต่ความหมายบทบาทและการใช้ตัวประมาณในมุมมองแบบเบย์นั้นแตกต่างจากมุมมองแบบประจำอย่างสิ้นเชิง

ให้ฉันเพิ่มว่าดูเหมือนว่าจะมีการจองในวรรณกรรมเกี่ยวกับว่าฟังก์ชั่นยูทิลิตี้ที่กำหนดไว้ข้างต้นทำให้รู้สึกทางคณิตศาสตร์ [5] ในกรณีใด ๆ ประโยชน์ของฟังก์ชั่นยูทิลิตี้นั้นค่อนข้าง จำกัด : เมื่อเจย์เนส [3] ชี้ให้เห็นก็หมายความว่า "เราใส่ใจเพียงแค่โอกาสที่ถูกต้องและถ้าเราผิดเราก็ไม่สนใจ เราผิดแค่ไหน ".

ตอนนี้ให้พิจารณาคำแถลงว่า "ความเป็นไปได้สูงสุดคือกรณีพิเศษของคนหลังสุดที่มีเครื่องแบบเหมือนกันก่อน" เป็นสิ่งสำคัญที่จะต้องทราบว่าเกิดอะไรขึ้นภายใต้การเปลี่ยนแปลงพิกัดทั่วไป : 1. ฟังก์ชันยูทิลิตี้ด้านบนจะถือว่านิพจน์อื่น ; 2. ความหนาแน่นก่อนหน้าในพิกัดไม่เหมือนกันเนื่องจากปัจจัยจาโคเบียน 3. ตัวประมาณค่าไม่ได้มีความหนาแน่นสูงสุดด้านหลังในพิกัดเนื่องจากเดลต้า Dirac ได้รับปัจจัยคูณแบบพิเศษy=f(x)
Gy(y0;y)=δ[f1(y0)f1(y)]δ(y0y)|f[f1(y0)]|
y
y
4. ตัวประมาณยังคงได้รับโดยโอกาสสูงสุดในพิกัดใหม่ การเปลี่ยนแปลงเหล่านี้รวมกันเพื่อให้จุดประมาณยังคงเหมือนเดิมในพารามิเตอร์นานาy

ดังนั้นข้อความข้างต้นถือว่าเป็นระบบพิกัดพิเศษ ประโยคที่ชัดเจนและชัดเจนมากขึ้นน่าจะเป็นเช่นนี้: "ตัวประมาณค่าความน่าจะเป็นสูงสุดนั้นมีค่าเท่ากับตัวเลขตัวประมาณแบบเบย์ซึ่งในระบบพิกัดบางระบบนั้นมีฟังก์ชันยูทิลิตี้เดลต้าและชุดเครื่องแบบมาก่อน"

ความคิดเห็นสุดท้าย
การสนทนาข้างต้นนั้นไม่เป็นทางการ แต่สามารถทำให้แม่นยำโดยใช้ทฤษฎีการวัดและการรวมกลุ่มของ Stieltjes

ในวรรณคดีเบย์เราสามารถหาแนวความคิดที่ไม่เป็นทางการมากขึ้นเกี่ยวกับตัวประมาณค่า: มันเป็นตัวเลขที่ "สรุป" การแจกแจงความน่าจะเป็นโดยเฉพาะอย่างยิ่งเมื่อมันไม่สะดวกหรือเป็นไปไม่ได้ที่จะระบุความหนาแน่นเต็ม ; ดูเช่น Murphy [6] หรือ MacKay [7] ความคิดนี้มักจะแยกออกจากทฤษฎีการตัดสินใจและดังนั้นจึงอาจขึ้นอยู่กับการประสานงานหรือสมมติว่าระบบพิกัดโดยเฉพาะ แต่ในนิยามการตัดสินใจเชิงทฤษฎีของตัวประมาณค่าสิ่งที่ไม่แปรเปลี่ยนไม่สามารถเป็นตัวประมาณได้p(xD)dx

[1] ตัวอย่างเช่น H. Raiffa, R. Schlaifer: ทฤษฎีการตัดสินใจทางสถิติประยุกต์ (Wiley 2000)
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: การวิเคราะห์, Manifolds และฟิสิกส์ ส่วนที่ 1: พื้นฐาน (เอลส์เวียร์ 1996) หรือหนังสือที่ดีอื่น ๆ เกี่ยวกับเรขาคณิตเชิงอนุพันธ์
[3] ET Jaynes: ทฤษฎีความน่าจะเป็น: ตรรกะของวิทยาศาสตร์ (Cambridge University Press 2003), §13.10
[4] เจ. Bernardo, AF Smith: ทฤษฎีแบบเบย์ (Wiley 2000), §5.1.5
[5] IH Jermyn: การประมาณค่าแบบเบย์แบบแปรผันบนแมนิโฟลด์ https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: สูงสุดตัวประมาณหลังซึ่งเป็นขีด จำกัด ของตัวประมาณ Bayes https://doi.org/10.1007/s10107-018-1241-0
[6] KP Murphy: การเรียนรู้ของเครื่อง: มุมมองที่น่าจะเป็น (MIT Press 2012) โดยเฉพาะอย่างยิ่ง 5.
[7] DJC แมคเคย์: ทฤษฎีสารสนเทศ, การอนุมานและการเรียนรู้ขั้นตอนวิธี (Cambridge University Press 2003) http://www.inference.phy.cam.ac.uk/mackay/itila/


1
มีวิธีการกำหนดตัวประมาณค่า Bayes ที่ไม่แปรเปลี่ยนในความหมายข้างต้นโดยการสร้างฟังก์ชันการสูญเสียการทำงานเช่นการแยกความแตกต่างระหว่าง Kullback-Leibler ระหว่างสองความหนาแน่น ผมเรียกว่าสูญเสียเหล่านี้ภายในการสูญเสียในกระดาษ 1996
ซีอาน

8

จากจุดชมวิวที่ไม่ใช่แบบเบย์ไม่มีคำจำกัดความของปริมาณเช่น เพราะเป็นพารามิเตอร์คงที่และสัญกรณ์การปรับสภาพไม่ ไม่สมเหตุสมผล ทางเลือกที่คุณเสนอนั้นขึ้นอยู่กับการกระจายก่อนหน้าซึ่งเป็นวิธีการที่แม่นยำเช่นที่Casella และ Bergerต้องการเสนอให้หลีกเลี่ยง คุณสามารถตรวจสอบความเป็นไปได้ของโปรไฟล์คำหลักเพื่อดูรายการเพิ่มเติม (และไม่มีความหมายหรือมี)

p(x|θ=ηθ=η)
θrightwrong

สิ่งนี้ขัดแย้งกับสิ่งที่ฉันพูดได้อย่างไร ประเด็นของผมก็คือว่ามันไร้สาระจากมุมมองของเบส์ ปัญหาที่ฉันมีกับโซลูชันของ Casella และ Berger ก็คือโดยทั่วไปแล้วพวกเขาได้สร้างคำจำกัดความใหม่เกี่ยวกับความเป็นไปได้ที่จะเกิดข้อสรุปตามที่พวกเขาต้องการ หากใครจะนิยามความน่าจะเป็นที่สอดคล้องกันนั่นคือสิ่งที่ฉันให้ไว้ข้างต้นข้อสรุปจะแตกต่างกัน แน่นอนว่า Casella และ Berger อาจต้องการหลีกเลี่ยงการให้รางวัลแก่นักบวช แต่วิธีเดียวที่จะทำได้คือการเปลี่ยนคำนิยามความน่าจะเป็นแบบเฉพาะกิจ
user56834

3
หากคุณต้องการรักษามุมมองแบบเบย์คำถามก็คือความสงสัยเนื่องจากผลลัพธ์ที่ไม่ใช่แบบเบย์ส่วนใหญ่จะไม่สมเหตุสมผลหรือ "สอดคล้อง" กับหลักการแบบเบย์
ซีอาน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.