Bayesian และผู้ประเมินจุดประจำใช้เงื่อนไขอะไรได้บ้าง?


17

เมื่อพิจารณาก่อนหน้านี้ค่า ML (ความถี่ - ความเป็นไปได้สูงสุด) และ MAP (Bayesian - ค่าสูงสุดด้านหลัง) จะตรงกัน

อย่างไรก็ตามโดยทั่วไปแล้วฉันกำลังพูดถึงตัวประมาณค่าที่ได้จากการเพิ่มประสิทธิภาพของฟังก์ชันการสูญเสีย กล่าวคือ

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

โดยที่คือโอเปอเรเตอร์ความคาดหวังคือฟังก์ชันการสูญเสีย (ย่อเล็กสุดที่ศูนย์),คือตัวประมาณให้ข้อมูล , ของพารามิเตอร์และตัวแปรสุ่มจะแสดงด้วยตัวอักษรตัวพิมพ์ใหญ่ .ELx^(y)yx

ไม่มีใครรู้เงื่อนไขใด ๆ เกี่ยวกับ , pdf ของและ , ความเป็นเส้นตรงที่กำหนดและ / หรือความเป็นกลางซึ่งตัวประมาณจะตรงกันหรือไม่?Lxy

แก้ไข

ดังที่ระบุไว้ในความคิดเห็นข้อกำหนดที่เป็นกลางเช่นความเป็นกลางจะต้องทำให้เกิดปัญหาที่มีความหมายบ่อย นักบวชแบนอาจเป็นคนธรรมดาสามัญ

นอกจากนี้การอภิปรายทั่วไปให้โดยบางคำตอบคำถามที่มันยังเกี่ยวกับการให้บริการที่เกิดขึ้นจริงตัวอย่าง ฉันคิดว่าสิ่งสำคัญมาจากการถดถอยเชิงเส้น:

  • ที่ OLS x^=(DD)1Dyคือฟ้า ( เกาส์ - มาร์คอฟทฤษฎีบท ) คือมันลด MSE ที่ใช้บ่อยในหมู่ผู้ประมาณค่าแบบไม่เอนเอียง
  • ถ้า(X,Y)คือเกาส์และก่อนหน้านี้คือแบนx^=(DD)1Dyคือ"ด้านหลัง" หมายถึงการลดการสูญเสียค่าเฉลี่ยเบย์สำหรับฟังก์ชั่นการสูญเสียนูนใด ๆ

ที่นี่Dดูเหมือนจะเป็นที่รู้จักกันในชื่อ data matrix / การออกแบบในบ่อยครั้ง / Bayesian lingo ตามลำดับ


ฉันคิดว่าคุณต้องการคำตอบที่จะถือว่าแบนก่อนหรือไม่ มิฉะนั้นแน่นอนว่าไม่มีวิธีใดที่การประมาณการอาจสมเหตุสมผลในกรณีทั่วไปที่น่าสนใจ
user56834

2
ไม่ใช่คำถามง่าย ๆ ที่จะตอบคำถามทั่วไปที่คุณวางไว้ แต่ปัจจุบันเป็นหัวข้อการวิจัยที่น่าสนใจลองดูตัวอย่างงานของ Judith Rousseau ในพื้นที่นี้: ceremade.dauphine.fr/~rousseau/publi.html
Jeremias K

@ JeremiasK บางทีคุณสามารถอธิบายบางสิ่งเกี่ยวกับสิ่งนั้นได้ในคำตอบ?
user56834

1
@ Programmer2134 ฉันจะถ้าฉันรู้สึกสะดวกสบายเพียงพอกับวัสดุ แต่ฉันไม่ ฉันรู้ว่าสิ่งที่พวกเขาทำคือการหาค่า Bayesian ของ CLT ด้วย 'อัตราความเข้มข้นหลัง' บางอย่างที่บอกคุณว่าพารามิเตอร์หลังมุ่งเน้นไปที่จุดใดในพื้นที่พารามิเตอร์ของคุณเมื่อคุณเพิ่มขนาดตัวอย่างจากนั้นคุณก็จบ การค้นหาการรับประกันความสอดคล้องประเภทประจำสำหรับตัวประมาณค่าแบบเบย์ของคุณ
Jeremias K

คำตอบ:


7

คำถามน่าสนใจ แต่ค่อนข้างสิ้นหวังเว้นแต่ความเห็นของผู้ประมาณค่าความถี่ถูกสร้างขึ้นมาอย่างแม่นยำ มันไม่แน่นอนหนึ่งชุดในคำถาม x ( ตั้งแต่คำตอบของการลดคือ x ( Y ) = xสำหรับทุก Y 's เป็นแหลมออกมาในคำตอบของ Programmer2134 ปัญหาพื้นฐานคือไม่มีตัวประมาณความถี่เดียวสำหรับปัญหาการประมาณค่าโดยไม่มีข้อ จำกัด เพิ่มเติมหรือคลาสของตัวประมาณค่า หากไม่มีสิ่งเหล่านี้ตัวประมาณค่าแบบเบย์ทั้งหมดก็เป็นตัวประมาณแบบความถี่

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

ตามที่ระบุไว้ในความคิดเห็นความเป็นกลางอาจเป็นข้อ จำกัด ในกรณีที่ไม่รวมตัวประมาณ Bayes แต่ความคิดที่พบบ่อยนี้ขัดแย้งกับความคิดอื่น ๆ ที่พบบ่อยเช่น

  1. การยอมรับเนื่องจากปรากฏการณ์เจมส์ - สไตน์แสดงให้เห็นว่าตัวประมาณค่าที่เป็นกลางอาจไม่สามารถยอมรับได้ (ขึ้นอยู่กับฟังก์ชันการสูญเสียและมิติของปัญหา);
  2. invariance ภายใต้ reparameterisation เนื่องจากความเป็นกลางไม่ได้อยู่ภายใต้การแปลง

บวกกับความเป็นกลางจะใช้กับปัญหาการประมาณชั้นที่ จำกัด เท่านั้น จากนี้ฉันหมายความว่าระดับของการประมาณค่าเป็นกลางของพารามิเตอร์บางหรือของแปลงชั่วโมง( θ )เป็นส่วนใหญ่ของเวลาที่ว่างเปล่าθh(θ)

การพูดถึงการยอมรับความคิดอื่นที่พบบ่อยมีการตั้งค่าที่ตัวประมาณค่าที่ยอมรับได้เพียงตัวเดียวคือตัวประมาณแบบเบย์และแบบตรงกันข้าม การตั้งค่าประเภทนี้เกี่ยวข้องกับทฤษฎีบทคลาสที่สมบูรณ์ซึ่งก่อตั้งโดย Abraham Wald ในปี 1950 (เช่นเดียวกับตัวประมาณค่าคงที่ที่ดีที่สุดซึ่งก็คือ Bayes ภายใต้มาตรการ Haar ที่เหมาะสม)


1
มีวิธีอื่นที่เป็นที่ยอมรับในการ จำกัด คลาสของตัวประมาณเพื่อให้ปัญหาการย่อขนาดถูกกำหนดไว้อย่างดีและไม่เสื่อมโทรม (นอกเหนือจากที่ต้องการความเป็นกลาง) ซึ่งใกล้กับ Bayesian มากที่สุด?
user56834

3

โดยทั่วไปตัวประมาณค่าแบบความถี่และแบบเบย์ไม่เหมือนกันเว้นแต่คุณจะใช้แบบความเสื่อมก่อน เหตุผลหลักคือ: ตัวประมาณบ่อยครั้งพยายามที่จะไม่เอนเอียง ตัวอย่างเช่นผู้ที่พบบ่อยมักจะพยายามหาค่าความแปรปรวนขั้นต่ำที่ไม่เอนเอียง ( http://en.wikipedia.org/wiki/Minimum-variance_unbiased_estimator ) ในขณะเดียวกันตัวประมาณค่าที่ไม่เสื่อมโทรมของเบย์ทั้งหมดจะลำเอียง (ในแง่ของความลำเอียง) ดูตัวอย่างเช่นhttp://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdfทฤษฎีบท 5

เพื่อสรุป: ตัวประมาณค่านิยมประจำส่วนใหญ่พยายามที่จะไม่เอนเอียงในขณะที่ตัวประมาณ Bayes ทั้งหมดจะลำเอียง ดังนั้น Bayes และตัวประมาณที่ใช้บ่อยจึงไม่ค่อยตรงกัน


5
ฉันสงสัยเกี่ยวกับความถูกต้องของการยืนยันเหล่านี้เนื่องจาก "ตัวประมาณค่านิยมผู้นิยมทั่วไป" ส่วนใหญ่เป็น ML และพวกเขามักจะเอนเอียง (ขึ้นอยู่กับการกำหนดพารามิเตอร์) ยิ่งกว่านั้นนักถี่ที่ดียังมีความกังวลอย่างมากเกี่ยวกับการสูญเสียและการยอมรับ ส่วนสำคัญของทฤษฎีนี้ยอมรับว่ากระบวนการที่ยอมรับได้นั้นมาจากกระบวนการของเบย์ดังนั้นอย่างน้อยก็ในแง่กว้างนั่นคือหัวใจสำคัญของทฤษฎีที่ใช้กันบ่อยต้องพึ่งพาตัวประมาณค่าของเบย์ ฉันอาจถูกโน้มน้าวใจในมุมมองของคุณหากคุณชัดเจนเกี่ยวกับ "บ่อยครั้ง" "ส่วนใหญ่" และ "ไม่ค่อย" และสำรองด้วยหลักฐาน
whuber

@whuber จุดดี - คำตอบของฉันอาจจะง่ายนิดหน่อย ผู้ใช้ที่ใช้บ่อยมักใช้วิธีการเอนเอียง (เช่น L1 หรือ L2 ลงโทษการถดถอย) หรืออาจใช้ขั้นตอนแบบเบย์อย่างเป็นทางการ อย่างไรก็ตามฉันคิดว่าตัวประมาณที่ไม่เอนเอียงเป็นจุดเริ่มต้นสำหรับการวิเคราะห์ที่พบบ่อยที่สุด ยกตัวอย่างเช่นบทเนื้อบทแรกของทฤษฎีการประมาณค่าโดยเลห์มันน์ & คาเซลลา (หนึ่งในตำรามาตรฐานเกี่ยวกับการประเมินบ่อยครั้ง) ล้วนเกี่ยวกับความเป็นกลาง
Stefan Wager

5
ก็โอเค (+1) แต่ฉันพบว่าการโต้เถียงครั้งสุดท้ายของคุณน่าขบขัน: ท้ายที่สุดแล้วหนังสือจะต้องเริ่มต้นที่ไหนสักแห่งและโดยปกติแล้วจุดเริ่มต้นจะถูกเลือกสำหรับความเรียบง่ายและการเข้าถึงได้ไม่ใช่เพื่อความสำคัญในทางปฏิบัติ ด้วยเหตุผลเดียวกันคุณสามารถอ้างได้ว่าคณิตศาสตร์สมัยใหม่ส่วนใหญ่เกี่ยวข้องกับตรรกะและทฤษฎีเซตเป็นหลักเพราะสิ่งเหล่านี้มักจะสร้างบทแรกในตำราคณิตศาสตร์จำนวนมาก! การไตร่ตรองทางสถิติที่ดีขึ้นอาจเป็นครึ่งหลังของเลห์มันน์ & คาเซลล่า - ดูสิ่งที่กล่าวถึงที่นั่น :-)
whuber

"ถ้าคุณไม่ใช้แผ่นแบนก่อนที่จะเสื่อม" นี่เป็นกรณีพิเศษที่น่าสนใจที่จะคิดใช่มั้ย
user56834

นอกจากนี้คำถามของเขาเกี่ยวกับว่าพวกเขาจะสอดคล้องกันในทางทฤษฎีภายใต้เงื่อนไขบางประการหรือไม่ไม่ว่าตัวประมาณที่ใช้ในการฝึกสอดคล้องกันหรือไม่
user56834

3

นี้ไม่ได้เป็นคำตอบที่เต็มรูปแบบ แต่ในขณะที่ทั้งสอง 's ลักษณะคล้ายกันมากพวกเขามีพื้นฐานที่แตกต่างในทางที่: เบส์หนึ่งลดขนาดการแสดงออกที่เกี่ยวกับค่าเดียว (ซึ่งก็คือค่าของx ( Y )ขึ้นอยู่กับy )argminx^(y)y

แต่ frequentist หนึ่งที่มีฟังก์ชั่นเพื่อลดการสูญเสียที่เกี่ยวกับค่าเดียวสำหรับค่าว่าทุกอาจจะใช้เวลาโดยไม่ทราบx เพราะนี่คือต่ำสุดของฟังก์ชันF ( x , x ) = E ( L ( x - x ( Y ) ) | x )ขึ้นอยู่กับxแม้ว่าเราจะต้องลดความมันโดยไม่ทราบว่าx (หมายเหตุว่าถ้าเราก็จะลด( x , x )xxf(x,x^)=E(L(xx^(Y))|x)xxf(x,x^)WRT xเราก็จะได้รับการลดค่าของx = x .) ปัญหา frequentist จึงจะไม่ได้กำหนด ฉันไม่แน่ใจว่ามันเป็นไปได้ที่จะทำให้มันชัดเจนx^x^=x


1
จุดที่ดี ฉันคิดว่าคุณพูดถูกเกี่ยวกับปัญหาที่พบบ่อย วิธีที่จะทำให้มันถูกวางเป็นอย่างดีคือการ จำกัด ชั้นของการประมาณ จาก Lehmann & Casella: "จนถึงตอนนี้เรามีความกังวลเกี่ยวกับการหาตัวประมาณที่ลดความเสี่ยง R (θ, at) ที่ค่าทุกค่าของθนี่เป็นไปได้โดยการ จำกัด คลาสของตัวประมาณที่ต้องได้รับการพิจารณาโดยข้อกำหนดที่เป็นกลางเช่น เป็นความเป็นกลางหรือความไม่เท่าเทียมกัน "
แพทริค

1

อาจไม่มีคำตอบสำหรับคำถามนี้

อีกทางเลือกหนึ่งคือการขอวิธีการในการประเมินสองประมาณการอย่างมีประสิทธิภาพสำหรับปัญหาใด ๆ ในมือ วิธีการแบบเบย์นั้นค่อนข้างใกล้เคียงกับอุดมคตินี้ อย่างไรก็ตามแม้ว่าวิธีการ minimax สามารถใช้ในการกำหนดการประเมินจุดบ่อยโดยทั่วไปการใช้วิธีการ minimax ยังคงเป็นเรื่องยากและมีแนวโน้มที่จะไม่ใช้ในทางปฏิบัติ

อีกทางเลือกหนึ่งคือการใช้ถ้อยคำใหม่สำหรับคำถามเกี่ยวกับเงื่อนไขภายใต้ตัวประมาณค่าแบบเบย์และแบบประจำให้ผลลัพธ์ที่ "สม่ำเสมอ" และพยายามระบุวิธีการในการคำนวณตัวประมาณเหล่านั้นอย่างมีประสิทธิภาพ ที่นี่ "สอดคล้องกัน" ถูกนำมาใช้เพื่อแสดงให้เห็นว่าตัวประมาณแบบเบย์และความถี่มาจากทฤษฎีทั่วไปและมีการใช้เกณฑ์เดียวกันของการมองโลกในแง่ดีสำหรับตัวประมาณค่าทั้งสอง สิ่งนี้แตกต่างจากการพยายามคัดค้านสถิติแบบเบย์และบ่อยครั้งและอาจทำให้คำถามข้างต้นไม่จำเป็น วิธีการหนึ่งที่เป็นไปได้คือการตั้งเป้าหมายทั้งในกรณีที่พบบ่อยและคดีเบย์ในชุดการตัดสินใจที่จะลดการสูญเสียสำหรับขนาดที่กำหนดนั่นคือตามที่เสนอโดย

Schafer, Chad M และ Philip B Stark "การสร้างขอบเขตความเชื่อมั่นในขนาดที่เหมาะสมที่สุด" วารสารสมาคมสถิติอเมริกัน 104.487 (2009): 1080-1089

ปรากฎว่าสิ่งนี้เป็นไปได้ - ทั้งสำหรับผู้ใช้งานประจำและกรณีเบย์ - โดยรวมถึงการสังเกตการตั้งค่าและพารามิเตอร์ที่มีข้อมูลร่วมกันที่มีขนาดใหญ่ ชุดการตัดสินใจจะไม่เหมือนกันเนื่องจากคำถามที่ถามนั้นแตกต่างกัน:

  • เป็นอิสระจากสิ่งที่เป็นพารามิเตอร์ที่แท้จริงจำกัดความเสี่ยงของการตัดสินใจที่ผิดพลาด (มุมมองที่พบบ่อย)
  • ให้ข้อสังเกตบางอย่างจำกัดความเสี่ยงของการรวมพารามิเตอร์ที่ไม่ถูกต้องในชุดการตัดสินใจ (มุมมองแบบเบย์)

อย่างไรก็ตามฉากจะทับซ้อนกันอย่างมากและเหมือนกันในบางสถานการณ์หากใช้นักบวชแบนราบ แนวคิดนี้ถูกกล่าวถึงอย่างละเอียดยิ่งขึ้นพร้อมกับการใช้ที่มีประสิทธิภาพ

Bartels, Christian (2015): ความเชื่อมั่นโดยทั่วไปและต่อเนื่องและภูมิภาคที่น่าเชื่อถือ figshare https://doi.org/10.6084/m9.figshare.1528163

สำหรับนักบวชที่มีข้อมูลการตัดสินใจจะเบี่ยงเบนไปมากกว่า (ดังที่ทราบกันทั่วไปและชี้ให้เห็นในคำถามและคำตอบข้างต้น) อย่างไรก็ตามภายใต้กรอบการทำงานที่สอดคล้องกันเราได้รับการทดสอบเป็นประจำเพื่อรับประกันความครอบคลุมของผู้ใช้บ่อย แต่ต้องคำนึงถึงความรู้เดิมด้วย

Bartels, Christian (2017): การใช้ความรู้เดิมในการทดสอบบ่อยครั้ง figshare https://doi.org/10.6084/m9.figshare.4819597

วิธีการที่นำเสนอยังขาดการใช้งานอย่างมีประสิทธิภาพของมาร์จิ้น


คุณช่วยอธิบายคำถามของคุณให้ละเอียดมากขึ้นเมื่อพวกเขาจะ "สอดคล้องกัน"
user56834

@ Programmer2134 ขอบคุณพยายามชี้แจงในคำตอบ
user36160
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.