มีตัวอย่างใดบ้างที่ช่วงเวลาที่น่าเชื่อถือของเบย์นั้นต่ำกว่าช่วงความเชื่อมั่นที่ใช้บ่อย


81

คำถามล่าสุดเกี่ยวกับความแตกต่างระหว่างความมั่นใจและช่วงเวลาที่น่าเชื่อถือทำให้ฉันเริ่มอ่านบทความของ Edwin Jaynes อีกครั้งในหัวข้อนั้น:

Jaynes, ET, 1976 `ช่วงเวลาความเชื่อมั่นกับช่วงเวลาแบบเบย์, 'ในรากฐานของทฤษฎีความน่าจะเป็น, การอนุมานเชิงสถิติและทฤษฎีทางสถิติเชิงวิทยาศาสตร์, WL Harper และ CA Hooker (บรรณาธิการ), D. Reidel, Dordrecht, p. 175; ( pdf )

ในนามธรรม Jaynes เขียน:

... เราแสดงวิธีแก้ปัญหาแบบเบย์และออร์โธด็อกซ์ถึงหกปัญหาทางสถิติทั่วไปที่เกี่ยวข้องกับช่วงความเชื่อมั่น (รวมถึงการทดสอบที่สำคัญตามเหตุผลเดียวกัน) ในทุกกรณีเราพบว่าสถานการณ์นั้นตรงกันข้ามกันเช่นวิธีการแบบเบย์นั้นง่ายต่อการใช้และให้ผลลัพธ์ที่เหมือนกันหรือดีกว่า อันที่จริงผลลัพธ์ออร์โธดอกซ์เป็นที่น่าพอใจก็ต่อเมื่อพวกเขาเห็นด้วยอย่างใกล้ชิดกับผลลัพธ์ของเบย์ ยังไม่มีตัวอย่างที่ตรงกันข้าม

(เน้นที่เหมือง)

กระดาษถูกตีพิมพ์ในปี 1976 ดังนั้นสิ่งที่อาจจะย้ายไป คำถามของฉันคือมีตัวอย่างที่ช่วงความเชื่อมั่นบ่อยกว่าช่วงที่เชื่อถือได้แบบเบย์อย่างชัดเจน (ตามความท้าทายโดยนัยโดย Jaynes)

ตัวอย่างที่ใช้สมมติฐานที่ไม่ถูกต้องก่อนหน้านั้นไม่สามารถยอมรับได้เนื่องจากพวกเขาไม่ได้พูดอะไรเกี่ยวกับความสอดคล้องภายในของวิธีการต่าง ๆ


21
ภายใต้สมมติฐานที่ค่อนข้างอ่อนโยน (a) ขั้นตอนการประมาณค่าแบบเบย์นั้นยอมรับได้และ (b) ทั้งหมดหรือเกือบทั้งหมดตัวประมาณค่าที่ยอมรับได้คือแบบเบย์ที่มีความเคารพมาก่อน ดังนั้นจึงไม่น่าแปลกใจที่ช่วงความเชื่อมั่นแบบเบย์ "ให้ผลลัพธ์ที่เหมือนกันหรือดีกว่า" โปรดทราบว่าข้อความของฉัน (a) และ (b) เป็นส่วนหนึ่งของการวิเคราะห์บ่อยครั้งของทฤษฎีการตัดสินใจอย่างมีเหตุผล ในกรณีที่ บริษัท ร่วมกับ Bayesians ไม่ได้อยู่เหนือคณิตศาสตร์หรือแม้แต่ขั้นตอนทางสถิติ แต่เกี่ยวข้องกับความหมายการให้เหตุผลและการใช้งานที่ถูกต้องของปัญหาก่อนหน้านี้
whuber

1
ดังนั้นความคิดเห็นข้างต้นบ่งบอกว่าคำตอบของคำถาม OP คือ 'ไม่สามารถสร้างตัวอย่างได้'? หรือบางทีตัวอย่างทางพยาธิวิทยาที่มีอยู่ซึ่งละเมิดสมมติฐานที่อยู่เบื้องหลังการยอมรับได้?

1
@Srikant: เป็นคำถามที่ดี ฉันคิดว่าสถานที่ที่จะเริ่มการสอบสวนคือสถานการณ์ที่มีตัวประมาณค่าที่ไม่ยอมรับ Bayes - ไม่จำเป็นต้องเป็น "พยาธิวิทยา" แต่อย่างน้อยก็มีอย่างน้อยหนึ่งที่ให้โอกาสในการหา "ตัวอย่างที่ตรงกันข้าม"
whuber

2
ฉันจะเพิ่มความชัดเจนให้กับ "ข้อสันนิษฐานที่ไม่ถูกต้องก่อน ... " โดยระบุว่าคำตอบแบบเบย์และคำตอบที่พบบ่อยต้องใช้ประโยชน์จากข้อมูลเดียวกันมิฉะนั้นคุณเพียงแค่เปรียบเทียบคำตอบกับคำถามสองข้อ แม้ว่าจะเป็นคำถามที่ดี (+1 จากฉัน)
ความน่าจะเป็นเชิง

3
พยาธิวิทยาหรือไม่มันอาจจะเป็นคนแรกของชนิด ฉันกระตือรือร้นที่จะเห็นตัวอย่างนี้สำหรับ "พยาธิวิทยา" เหล่านี้มักจะมีองค์ประกอบการเรียนรู้ที่ดีสำหรับพวกเขา
ความน่าจะเป็นทาง

คำตอบ:


52

ฉันพูดก่อนหน้านี้ว่าฉันจะตอบคำถามดังนั้นนี่ไป ...

เจย์เนสรู้สึกซุกซนเล็กน้อยในรายงานของเขาว่าช่วงความมั่นใจบ่อยครั้งไม่ได้ถูกกำหนดเป็นช่วงเวลาที่เราอาจคาดหวังว่าคุณค่าที่แท้จริงของสถิติจะอยู่กับความน่าจะเป็นสูง (ที่ระบุ) ดังนั้นจึงไม่น่าแปลกใจเลยว่าความขัดแย้ง เกิดขึ้นหากพวกเขาถูกตีความราวกับว่าพวกเขา ปัญหาคือสิ่งนี้มักจะเป็นวิธีที่ใช้ช่วงความเชื่อมั่นในการปฏิบัติเนื่องจากช่วงเวลามีแนวโน้มสูงที่จะมีค่าจริง (จากสิ่งที่เราสามารถอนุมานจากตัวอย่างข้อมูลของเรา) คือสิ่งที่เราต้องการบ่อยครั้ง

ประเด็นสำคัญสำหรับฉันคือเมื่อคำถามถูกวางมันเป็นการดีที่สุดที่จะมีคำตอบโดยตรงกับคำถามนั้น การมีช่วงเวลาที่น่าเชื่อถือของเบย์นั้นแย่กว่าช่วงความเชื่อมั่นที่พบบ่อยหรือไม่ หากคำถามที่ถามคือ:

(a) "ให้ช่วงเวลาที่ค่าที่แท้จริงของสถิติอยู่กับความน่าจะเป็น p" จากนั้นดูเหมือนว่านักประจำไม่สามารถตอบคำถามนั้นได้โดยตรง (และนี่เป็นการแนะนำปัญหาที่เจย์นพูดถึงในบทความของเขา) แต่ Bayesian can ซึ่งเป็นเหตุผลว่าทำไมช่วงเวลาที่น่าเชื่อถือของ Bayesian นั้นเหนือกว่าช่วงความเชื่อมั่นที่พบบ่อยในตัวอย่างที่ Jaynes ให้ไว้ แต่นี่เป็นเพียงเพราะมันเป็น "คำถามที่ไม่ถูกต้อง" สำหรับผู้ใช้บ่อย

(b) "ให้ช่วงเวลาหนึ่งกับฉันซึ่งการทดลองซ้ำหลายครั้งมูลค่าที่แท้จริงของสถิติจะอยู่ในช่วง * 100% ของช่วงเวลาดังกล่าว" จากนั้นคำตอบที่พบบ่อยคือสิ่งที่คุณต้องการ ชาวเบย์อาจให้คำตอบโดยตรงกับคำถามนี้ (แม้ว่าอาจไม่ใช่เพียงช่วงเวลาที่น่าเชื่อถือเท่านั้น) ความเห็นของ Whuber เกี่ยวกับคำถามนี้แสดงให้เห็นว่าเป็นจริง

ดังนั้นโดยพื้นฐานแล้วมันเป็นเรื่องของการระบุคำถามอย่างถูกต้องและแทรกซึมเข้าไปในคำตอบอย่างถูกต้อง หากคุณต้องการถามคำถาม (a) ให้ใช้ช่วงเวลาที่น่าเชื่อถือแบบเบย์หากคุณต้องการถามคำถาม (b) ให้ใช้ช่วงความมั่นใจเป็นประจำ


2
พูดได้ดีโดยเฉพาะเกี่ยวกับคำถามที่ CI ตอบ อย่างไรก็ตามในบทความของ Jaynes เขากล่าวถึง CI ของ (และขั้นตอนที่ใช้บ่อยที่สุด) ได้รับการออกแบบมาเพื่อให้ทำงานได้ดี "ในระยะยาว" (เช่นคุณเห็นหรือ "สำหรับการกระจาย n ขนาดใหญ่บ่อยเพียงใด .. "สมมติฐานในวิธีการประจำ?) แต่มีวิธีการมากมายที่สามารถทำได้ ฉันคิดว่านี่เป็นที่ที่เทคนิคบ่อย ๆ (ความสม่ำเสมอความลำเอียงการบรรจบกัน ฯลฯ ) สามารถนำมาใช้ในการประเมินขั้นตอนต่าง ๆ ของเบย์ซึ่งยากต่อการตัดสินใจ n
ความน่าจะเป็นที่เป็นไปได้

1
"เจย์เนสรู้สึกซุกซนเล็กน้อยในกระดาษของเขา ... " ฉันคิดว่าประเด็นที่เจย์เนสพยายามที่จะทำ (หรือประเด็นที่ฉันได้รับจากมัน) คือช่วงเวลาความเชื่อมั่นใช้เพื่อตอบคำถามก) จำนวนมาก กรณี (ฉันจะคาดเดาว่าทุกคนที่มีการฝึกอบรมเป็นประจำเท่านั้นจะใช้ CI เพื่อตอบคำถาม a) และพวกเขาจะคิดว่าพวกเขาเป็นคำตอบที่เหมาะสมบ่อยครั้ง)
ความเป็นไปได้ที่จะเกิดขึ้น

2
ใช่โดย "ซุกซนเล็ก ๆ น้อย ๆ " ฉันแค่ตั้งใจว่า Jaynes กำลังทำให้ประเด็นในลักษณะที่ค่อนข้างคาดคั้น (แต่ก็สนุกสนาน) ด้วยความตั้งใจ (หรืออย่างน้อยก็นั่นคือวิธีที่ฉันอ่าน) แต่ถ้าเขาไม่ทำเช่นนั้นมันคงไม่ส่งผลกระทบอะไรเลย
Dikran Marsupial

23

นี่เป็นตัวอย่าง "เนื้อออก" ในหนังสือที่เขียนโดย Larry Wasserman สถิติทั้งหมดในหน้า 216 ( 12.8 จุดแข็งและจุดอ่อนของการอนุมานแบบเบย์ ) โดยทั่วไปฉันจะให้สิ่งที่ Wasserman ไม่ได้อยู่ในหนังสือของเขา 1) คำอธิบายสำหรับสิ่งที่เกิดขึ้นจริงมากกว่าที่จะทิ้งสาย; 2) คำตอบสำหรับคำถามที่พบบ่อยซึ่ง Wasserman สะดวกไม่ให้; และ 3) การสาธิตที่ความมั่นใจเทียบเท่าคำนวณโดยใช้ข้อมูลเดียวกันที่ได้รับความเดือดร้อนจากปัญหาเดียวกัน

ในตัวอย่างนี้เขาระบุสถานการณ์ต่อไปนี้

  1. การสังเกต, X, ด้วยการแจกแจงตัวอย่าง: (X|θ)~ยังไม่มีข้อความ(θ,1)
  2. กระจายก่อน (จริง ๆ แล้วเขาใช้ทั่วไปτ 2สำหรับแปรปรวน แต่แผนภาพของเขามีความเชี่ยวชาญในการτ 2 = 1 )(θ)~ยังไม่มีข้อความ(0,1)τ2τ2=1

จากนั้นเขาก็จะแสดงให้เห็นว่าการใช้ช่วงเวลาที่เชื่อถือได้ของเบย์ 95% ในการตั้งค่านี้ในที่สุดก็มีการรายงานข่าวเป็นประจำ 0% เมื่อมูลค่าที่แท้จริงของกลายเป็นขนาดใหญ่โดยพลการ ตัวอย่างเช่นเขาให้กราฟของความครอบคลุม (p218) และตรวจสอบด้วยตาเมื่อค่าจริงของθคือ 3 ความครอบคลุมประมาณ 35% จากนั้นเขาก็พูดต่อไปว่า:θθ

... เราควรสรุปอะไรทั้งหมดนี้? สิ่งสำคัญคือต้องเข้าใจว่าวิธีการแบบประจำและแบบเบย์กำลังตอบคำถามต่าง ๆ ในการรวมความเชื่อก่อนหน้าเข้ากับข้อมูลอย่างมีหลักการใช้การอนุมานแบบเบย์ ในการสร้างโพรซีเดอร์ที่รับประกันประสิทธิภาพการทำงานระยะยาวเช่นช่วงความมั่นใจให้ใช้วิธีการที่ใช้บ่อย (p217)

และจากนั้นก็เดินหน้าต่อไปโดยไม่มีการตัดคำอธิบายใด ๆว่าทำไมวิธีการแบบเบย์จึงทำงานได้ไม่ดีนัก นอกจากนี้เขาไม่ได้ให้คำตอบจากวิธีการที่ใช้บ่อยเพียงคำสั่งแปรงกว้างเกี่ยวกับ "ระยะยาว" - กลยุทธ์ทางการเมืองแบบคลาสสิก (เน้นความแข็งแรงของคุณ + จุดอ่อนอื่น ๆ

ผมจะแสดงให้เห็นว่าปัญหาที่เกิดขึ้นตามที่ระบุไว้ ได้สูตรในแง่ frequentist / ดั้งเดิมและจากนั้นแสดงให้เห็นว่าผลที่ได้ใช้ช่วงความเชื่อมั่นให้ได้อย่างแม่นยำคำตอบเช่นเดียวกับเบส์หนึ่ง ดังนั้นข้อบกพร่องใด ๆ ใน Bayesian (จริงหรือรับรู้) ไม่ได้รับการแก้ไขโดยใช้ช่วงความเชื่อมั่นτ=1

เอาละไปเลย คำถามแรกที่ผมถามคือสิ่งที่รัฐของความรู้อธิบายโดยก่อน ? หากหนึ่งก็คือ "โง่เขลา" เกี่ยวกับθแล้ววิธีการที่เหมาะสมในการแสดงนี้คือP ( θ ) α 1 ตอนนี้สมมติว่าเราไม่รู้และเราสังเกตY ~ N ( θ , 1 )เป็นอิสระจากX สิ่งหลังของเราสำหรับθจะเป็นอย่างไรθ~ยังไม่มีข้อความ(0,1)θพี(θ)α1Y~ยังไม่มีข้อความ(θ,1)Xθ

พี(θ|Y)αพี(θ)พี(Y|θ)αอีxพี(-12(Y-θ)2)

ดังนั้น ) ซึ่งหมายความว่าการกระจายก่อนกำหนดใน Wassermans ตัวอย่างเช่นจะเทียบเท่ากับการที่มีการตั้งข้อสังเกตสำเนา IID ของXเท่ากับ0 วิธีการ frequentist ไม่สามารถจัดการกับก่อน แต่ก็สามารถจะคิดว่าเป็นที่ได้ทำ 2 ข้อสังเกตจากการกระจายการสุ่มตัวอย่างหนึ่งเท่ากับ0และหนึ่งเท่ากับX ปัญหาทั้งสองนี้มีความเท่าเทียมกันอย่างแท้จริงและเราสามารถให้คำตอบสำหรับคำถามที่พบบ่อยได้(θ|Y)~ยังไม่มีข้อความ(Y,1)X00X

เพราะเราจะจัดการกับการแจกแจงแบบปกติที่มีความแปรปรวนรู้จักความหมายเป็นสถิติที่เพียงพอสำหรับการสร้างความเชื่อมั่นสำหรับθค่าเฉลี่ยเท่ากับ¯ x = 0 + Xθและมีการแจกแจงตัวอย่างx¯=0+X2=X2

(x¯|θ)N(θ,12)

ดังนั้นจะได้รับ CI โดย:(1α)%

12X±Zα/212

แต่ใช้ผลของตัวอย่าง 12.8 สำหรับ Wasserman เขาแสดงให้เห็นว่าหลังช่วงเวลาที่น่าเชื่อถือสำหรับθจะได้รับโดย:(1-α)%θ

2

cX±cZα/2

โดยที่ 2 ดังนั้นการเสียบค่าที่τ2=1จะให้c=1=τ21+τ2τ2=1และช่วงเวลาที่น่าเชื่อถือกลายเป็น:=12

12X±Zα/212

ซึ่งเหมือนกับช่วงความมั่นใจ! ดังนั้นข้อบกพร่องใด ๆ ในการรายงานข่าวที่แสดงโดยวิธี Bayesian จะไม่ได้รับการแก้ไขโดยใช้ช่วงความมั่นใจบ่อย! [หากผู้ถกเถียงเลือกที่จะเพิกเฉยก่อนหน้านั้นเพื่อเป็นการเปรียบเทียบที่ยุติธรรม Bayesian ก็ควรเพิกเฉยต่อเรื่องนี้มาก่อนและใช้ความไม่รู้ก่อนและช่วงเวลาทั้งสองจะยังคงเท่ากัน - ทั้งX ± Z α / 2 ) ]พี(θ)α1X±Zα/2)

แล้วมันเกิดอะไรขึ้นที่นี่? ปัญหานั้นเป็นหนึ่งในความไม่มั่นคงของการกระจายตัวตัวอย่างแบบปกติ เพราะปัญหาที่เกิดขึ้นจะเทียบเท่ากับการมีอยู่แล้วสังเกตสำเนา IID, 0 หากคุณสังเกตเห็น0นี่จะไม่เกิดขึ้นอย่างแน่นอนหากค่าจริงคือθ = 4 (ความน่าจะเป็นที่X 0เมื่อθ = 4คือ 0.000032) นี้อธิบายว่าทำไมความคุ้มครองที่ไม่ดีเพื่อให้มีขนาดใหญ่ "คุณค่าที่แท้จริง" เพราะพวกเขาได้อย่างมีประสิทธิภาพทำให้การสังเกตโดยนัยที่มีอยู่ในก่อนค่าผิดปกติX=00θ=4X0θ=4. ในความเป็นจริงคุณสามารถแสดงให้เห็นว่าตัวอย่างนี้โดยทั่วไปเทียบเท่ากับการแสดงว่าค่าเฉลี่ยเลขคณิตมีฟังก์ชันอิทธิพลที่ไม่ จำกัด

ลักษณะทั่วไป ตอนนี้บางคนอาจพูดว่า "แต่คุณพิจารณาเพียงซึ่งอาจเป็นกรณีพิเศษ" สิ่งนี้ไม่เป็นความจริง: ค่าใด ๆ ของτ 2 = 1τ=1 (N=0,1,2,3,)สามารถตีความได้ว่าเป็นการสังเกตการณ์สำเนาNiid ของXซึ่งเท่ากับ0ทั้งหมดนอกเหนือจากXของคำถาม ช่วงความเชื่อมั่นจะมีเหมือนกัน "เลวร้าย" ครอบคลุมคุณสมบัติสำหรับขนาดใหญ่θ แต่นี้จะกลายเป็นไม่น่ามากขึ้นถ้าคุณเก็บค่าสังเกตของ0(และไม่มีบุคคลใดที่มีเหตุผลจะยังคงกังวลเกี่ยวกับขนาดใหญ่θเมื่อคุณให้เห็น0)τ2=1ยังไม่มีข้อความ (ยังไม่มีข้อความ=0,1,2,3,...)ยังไม่มีข้อความX0Xθ0θ0


1
ขอบคุณสำหรับการวิเคราะห์ AFAICS นี่เป็นเพียงตัวอย่างของปัญหาที่เกิดจากข้อสันนิษฐานก่อนหน้านี้ที่ไม่ถูกต้อง (ข้อมูล) และไม่ได้พูดอะไรเกี่ยวกับความสอดคล้องภายในของวิธีการแบบเบย์?
Dikran Marsupial

1
ไม่ก่อนหน้านี้ไม่จำเป็นต้องไม่ถูกต้องเว้นแต่จะไม่มีใครสังเกตเห็นค่าก่อนทำการทดลอง (หรือได้รับความรู้ที่เทียบเท่า) มันก็หมายความว่าโดยทั่วไปเมื่อความจริงθมีขนาดใหญ่โดยพลการความน่าจะเป็นของการสังเกตการณ์โดยปริยายเหล่านี้จะน้อยมาก (เช่นได้รับ "ตัวอย่างที่โชคร้าย") 0θ
ความน่าจะเป็นที่เป็นไปได้

คุณสามารถดูจากการสังเกตว่ากลุ่มตัวอย่างประกอบด้วยการสังเกตที่และอีกคนหนึ่งที่X 0ได้รับการแก้ไข (เพราะได้รับการสังเกต) แต่Xจะเป็น "ปิด" ถึงθในกรณีส่วนใหญ่ ดังนั้นในขณะที่θจะมีขนาดใหญ่เฉลี่ยของกลุ่มตัวอย่างที่ได้รับต่อไปและห่างไกลจากทั้งXและ0และเพราะความแปรปรวนได้รับการแก้ไขความกว้างของ CI ที่ได้รับการแก้ไขจึงจะในที่สุดก็ไม่ได้มีทั้งXหรือ0และด้วยเหตุนี้ไม่เป็น ซึ่งอยู่ใกล้กับทั้งสองค่าที่มีแนวโน้มของθ (หนึ่งของพวกเขาเป็นค่าผิดปกติเมื่อพวกเขากลายเป็นห่างกันสำหรับการแก้ไขθ )0X0XθθX0X0θθ
ความน่าจะเป็นที่จะเกิดขึ้น

10

Keith Winstein

แก้ไข: เพื่อชี้แจงคำตอบนี้อธิบายตัวอย่างที่ให้ไว้ใน Keith Winstein Answer on the King กับเกมสถิติโหดร้าย ชาวเบย์และผู้ตอบคำถามประจำใช้ทั้งข้อมูลที่เหมือนกันซึ่งเป็นการเพิกเฉยข้อมูลจำนวนเหรียญที่ยุติธรรมและไม่เป็นธรรมเมื่อสร้างช่วงเวลา หากข้อมูลนี้ไม่ได้ถูกละเว้นผู้ใช้ควรใช้โอกาสเบต้า - ทวินามแบบรวมเป็นตัวกระจายตัวอย่างในการสร้างช่วงความเชื่อมั่นซึ่งในกรณีนี้ช่วงความเชื่อมั่นแบบ Clopper-Pearson ไม่เหมาะสมและจำเป็นต้องแก้ไข การปรับที่คล้ายกันควรเกิดขึ้นในโซลูชัน Bayesian

แก้ไข: ฉันยังชี้แจงการใช้งานครั้งแรกของ Clopper Pearson Interval

แก้ไข: อนิจจาอัลฟาของฉันเป็นวิธีที่ผิดรอบและช่วงเวลาที่ลูกแพร์ของฉันเสื้อคลุมไม่ถูกต้อง คำขอโทษที่อ่อนน้อมถ่อมตนของฉันต่อ @whuber ผู้ซึ่งชี้ให้เห็นอย่างถูกต้อง แต่ในขั้นต้นฉันไม่เห็นด้วยและไม่สนใจ

CI ใช้วิธี Clopper Pearson เป็นวิธีที่ดีมาก

หากคุณได้รับการสังเกตเพียงครั้งเดียวก็สามารถประเมินค่า Clopper Pearson Interval ได้ สมมติว่าเหรียญขึ้นมาเป็น "ความสำเร็จ" (หัว) คุณต้องเลือกเช่นนั้นθ

[PR(Bผม(1,θ)X)α2][PR(Bผม(1,θ)X)α2]

เมื่อน่าจะเป็นเหล่านี้เป็นพีอาร์( B ฉัน( 1 , θ ) 1 ) = θและP R ( B ฉัน( 1 , θ ) 1 ) = 1ดังนั้น Clopper เพียร์สัน CI หมายความว่าθ อัลฟ่าX=1Pr(Bi(1,θ)1)=θPr(Bi(1,θ)1)=1 (นิด ๆ และเป็นจริงเสมอ1อัลฟ่าθα2 ) เมื่อX=1 เมื่อX=0ความน่าจะเป็นเหล่านี้คือPr(Bi(1,θ)0)=1และPr(Bi(1,θ)0)=1-θดังนั้น Clopper Pearson CI จึงมีความหมายว่า1-θอัลฟ่า1α2X=1X=0Pr(Bi(1,θ)0)=1Pr(Bi(1,θ)0)=1θหรือθ1-α1-θα2เมื่อX=0 ดังนั้นสำหรับ 95% CI เราได้รับ[0.025,1]เมื่อX=1และ[0,0.975]เมื่อX=0θ1-α2X=0[0.025,1]X=1[0,0.975]X=0

ดังนั้นผู้ที่ใช้ Clopper Pearson Confidence Interval จะไม่ถูกตัดหัวเลย เมื่อสังเกตช่วงเวลามันเป็นพื้นที่พารามิเตอร์ทั้งหมด แต่ช่วงเวลา CP ทำเช่นนี้โดยให้ความคุ้มครอง 100% กับช่วงเวลา 95% ที่คาดคะเน! โดยพื้นฐานแล้วผู้ที่ใช้บ่อย ๆ "กลโกง" โดยให้ช่วงความมั่นใจ 95% ครอบคลุมมากกว่าที่เขา / เธอถูกขอให้ให้ (แม้ว่าใครจะไม่โกงในสถานการณ์เช่นนี้หรือไม่ถ้าเป็นฉันฉันจะให้ทั้งหมด [0, 1] ช่วงเวลา) หากพระราชาถามหา95% CI ที่แน่นอนวิธีการนี้บ่อยครั้งจะล้มเหลวโดยไม่คำนึงถึงสิ่งที่เกิดขึ้นจริง (อาจเป็นวิธีที่ดีกว่าอยู่แล้ว)

สิ่งที่เกี่ยวกับช่วงเวลาที่เบย์ (โดยเฉพาะช่วงหลังสุด (HPD) Bayesian ช่วง)

เนื่องจากเรารู้ว่านิรนัยที่ทั้งหัวและก้อยสามารถเกิดขึ้นได้ชุดก่อนจึงเป็นตัวเลือกที่สมเหตุสมผล นี้จะช่วยให้การกระจายหลังของ ) ตอนนี้สิ่งที่เราต้องทำตอนนี้คือการสร้างช่วงเวลาที่มีความน่าจะเป็นหลัง 95% คล้ายกับ clopper เพียร์สัน CI, การกระจายเบต้า Cummulative คือการวิเคราะห์ที่นี่ยังเพื่อให้พีอาร์( θ θ อี | x = 1 ) = 1 -(θ|X)~Bอีเสื้อa(1+X,2-X)และ P R ( θ θ อี | x = 0 ) = 1 - ( 1 - θ E ) 2การตั้งค่าเหล่านี้เพื่อให้ 0.95 θ E = PR(θθอี|x=1)=1-(θอี)2PR(θθอี|x=0)=1-(1-θอี)2เมื่อX=1และθ E =1-θอี=0.050.224X=1เมื่อX=0 ดังนั้นสองช่วงเวลาที่น่าเชื่อถือคือ(0,0.776)เมื่อX=0และ(0.224,1)เมื่อX=1θอี=1-0.050.776X=0(0,0.776)X=0(0.224,1)X=1

ดังนั้น Bayesian จะถูกตัดหัวสำหรับช่วง HPD ที่น่าเชื่อถือของเขาในกรณีที่เขาได้รับเหรียญที่ไม่ดีและเหรียญที่ไม่ดีจะเกิดขึ้นซึ่งจะเกิดขึ้นเมื่อมีโอกาส011012+1×1100

การสังเกตครั้งแรกช่วง Bayesian นั้นเล็กกว่าช่วงความมั่นใจ อีกสิ่งหนึ่งคือ Bayesian จะใกล้เคียงกับความครอบคลุมจริงตามที่ระบุไว้ 95% มากกว่าผู้ใช้บ่อย ในความเป็นจริง Bayesian นั้นใกล้เคียงกับความคุ้มครอง 95% มากพอ ๆ กับที่จะได้รับจากปัญหานี้ และตรงกันข้ามกับคำแถลงของ Keith หากเลือกเหรียญที่ไม่ดี 10 Bayesians จาก 100 โดยเฉลี่ยจะสูญเสียหัวของพวกเขา (ไม่ใช่ทั้งหมดเพราะเหรียญที่ไม่ดีจะต้องขึ้นหัวในช่วงเวลาที่ไม่มี ) 0.1

ที่น่าสนใจถ้าใช้ CP-interval สำหรับการสังเกต 1 ครั้งซ้ำ ๆ (ดังนั้นเราจึงมี N ช่วงเวลาดังกล่าวตามการสังเกต 1 ครั้ง) และสัดส่วนที่แท้จริงคืออะไรระหว่างถึง0.975ดังนั้นการครอบคลุม 95% CI จะเป็น 100 เสมอ % และไม่ใช่ 95%! ชัดเจนขึ้นอยู่กับมูลค่าที่แท้จริงของพารามิเตอร์! ดังนั้นนี่คืออย่างน้อยหนึ่งกรณีที่การใช้ช่วงความเชื่อมั่นซ้ำ ๆ ไม่ได้นำไปสู่ระดับความมั่นใจที่ต้องการ0.0250.975

การพูดของแท้ช่วงความเชื่อมั่น 95% แล้วโดยมีความหมายว่าควรจะมีบางกรณี (เช่นอย่างน้อยหนึ่ง) ของช่วงสังเกตซึ่งไม่ได้มีมูลค่าที่แท้จริงของพารามิเตอร์ มิฉะนั้นจะปรับแท็ก 95% ให้เหมาะสมได้อย่างไร มันจะไม่ถูกต้องหรือไม่ถูกต้องที่จะเรียกมันว่าช่วง 90%, 50%, 20% หรือแม้กระทั่ง 0%?

ฉันไม่เห็นว่าการระบุเพียง "จริง ๆ แล้วหมายถึง 95% หรือมากกว่า" โดยไม่มีข้อ จำกัด ฟรีเป็นที่น่าพอใจ นี่เป็นเพราะวิธีการแก้ปัญหาทางคณิตศาสตร์ที่เห็นได้ชัดคือพื้นที่พารามิเตอร์ทั้งหมดและปัญหาเล็กน้อย สมมติว่าฉันต้องการ CI 50%? ถ้ามัน จำกัด ขอบเขตเชิงลบเท็จเท่านั้นพื้นที่พารามิเตอร์ทั้งหมดคือ CI ที่ถูกต้องโดยใช้เกณฑ์นี้เท่านั้น

บางทีเกณฑ์ที่ดีกว่าคือ (และนี่คือสิ่งที่ฉันเชื่อว่าเป็นนัยในคำจำกัดความของ Kieth) "ใกล้ถึง 95% ที่สุดเท่าที่จะเป็นไปได้โดยไม่ต่ำกว่า 95%" The Bayesian Interval จะมีความคุ้มครองใกล้เคียงกับ 95% มากกว่าผู้ใช้บ่อย (แม้ว่าจะไม่มากนัก) และจะไม่อยู่ภายใต้การคุ้มครอง 95% (ความคุ้มครองเมื่อX = 0 , และ100 × 10 12 + 9100%X=0ความคุ้มครองเมื่อX=1)100×1012+9101012+1%>95%X=1

ในการปิด, มันดูค่อนข้างแปลกที่จะถามหาช่วงเวลาของความไม่แน่นอน, แล้วประเมินช่วงเวลานั้นโดยการใช้ค่าจริงที่เราไม่แน่ใจ การเปรียบเทียบ "ธรรม" สำหรับทั้งความเชื่อมั่นและช่วงเวลาที่มีความน่าเชื่อถือให้ฉันดูเหมือนว่าความจริงของคำสั่งของความไม่แน่นอนที่ได้รับกับช่วงเวลา


ในวรรคหลักของคุณแรกที่คุณดูเหมือนจะมีความสับสนและ1 - α คุณค่าของ 10 ^ 12 + 1 เข้ามาอยู่ที่ไหน "beheaded" หมายถึงอะไร? ข้อความนี้ดูเหมือนว่าต้องการการพิสูจน์อักษรและการแก้ไข α1α
whuber

สำหรับเหรียญยุติธรรมล้านล้านและ 1 สำหรับเหรียญที่ไม่ยุติธรรม และฉันไม่ได้สับสน αและ 1 - αช่วง Clopper Pearson ที่ระบุไว้ [ที่นี่] [1]1012α1-α
ความน่าจะเป็นที่จะเกิดขึ้น

[ขอโทษทีพิมพ์ผิด] (แก้ไข TeX) สำหรับเหรียญยุติธรรมล้านล้านและ 1 สำหรับเหรียญที่ไม่ยุติธรรมหนึ่งในนี้คือประมาณคร่าวๆ ความน่าจะเป็นของการมีเหรียญ "ไม่ดี" หัวเป็นผลมาจากการให้ช่วงความมั่นใจที่ไม่ถูกต้อง และฉันไม่ได้สับสนαและ1 - αช่วง Clopper Pearson ที่ระบุไว้ในหน้า wiki (ช่วงค้นหาความมั่นใจในสัดส่วนทวินาม) สิ่งที่เกิดขึ้นเป็นส่วนหนึ่งของช่วง CP เป็นซ้ำซาก1 อัลฟ่า1012α1αเมื่อหนึ่ง 1 สังเกต ด้าน "พลิก" เมื่อ X = 1 X = 0 ซึ่งเป็นเหตุผลที่มี1-θและθ 1α21θθ
ความน่าจะเป็นทางการ

คุณหมายถึงคำตอบของ @Keith Winstein หรือไม่
whuber

@whuber ใช่ฉันหมายถึงคำตอบของ keith winstein
ความน่าจะเป็นที่เป็นไปได้

9

ปัญหาเริ่มต้นด้วยประโยคของคุณ:

ตัวอย่างที่ใช้สมมติฐานที่ไม่ถูกต้องก่อนหน้านั้นไม่สามารถยอมรับได้เนื่องจากพวกเขาไม่ได้พูดอะไรเกี่ยวกับความสอดคล้องภายในของวิธีการต่าง ๆ

ใช่แล้วคุณรู้ได้อย่างไรว่าสิ่งที่คุณทำก่อนหน้านี้ถูกต้อง?

ใช้กรณีของการอนุมานแบบเบย์ในสายวิวัฒนาการ ความน่าจะเป็นของการเปลี่ยนแปลงอย่างน้อยหนึ่งครั้งเกี่ยวข้องกับเวลาวิวัฒนาการ (ความยาวสาขา t) โดยสูตร

P=1-อี-43ยูเสื้อ

เมื่อคุณเป็นอัตราของการทดแทน

ตอนนี้คุณต้องการสร้างแบบจำลองของวิวัฒนาการขึ้นอยู่กับการเปรียบเทียบลำดับดีเอ็นเอ ในสาระสำคัญคุณพยายามประเมินต้นไม้ที่คุณพยายามจำลองปริมาณการเปลี่ยนแปลงระหว่างลำดับ DNA ใกล้เคียงที่สุด P ด้านบนเป็นโอกาสของการเปลี่ยนแปลงอย่างน้อยหนึ่งครั้งในสาขาที่กำหนด แบบจำลองวิวัฒนาการอธิบายถึงโอกาสในการเปลี่ยนแปลงระหว่างนิวคลีโอไทด์สองอันใด ๆ และจากแบบจำลองวิวัฒนาการเหล่านี้ฟังก์ชันการประมาณค่าจะได้มาโดยมี p เป็นพารามิเตอร์หรือด้วย t เป็นพารามิเตอร์

คุณไม่มีความรู้ที่เหมาะสมและคุณเลือกแบนก่อนสำหรับ p นี่เป็นการบอกเป็นนัยถึงการลดลงแบบทวีคูณก่อนหน้าสำหรับ t (มันจะกลายเป็นปัญหามากขึ้นถ้าคุณต้องการตั้งค่าแฟลตก่อนหน้า t โดยนัยก่อนหน้านี้ขึ้นอยู่กับ p ที่คุณตัดช่วงของ t)

ในทางทฤษฎีแล้ว t สามารถเป็นอนันต์ได้ แต่เมื่อคุณอนุญาตให้มีช่วงอนันต์พื้นที่ภายใต้ฟังก์ชันความหนาแน่นของมันจะเท่ากับอินฟินิตี้เช่นกันดังนั้นคุณต้องกำหนดจุดตัดของจุดก่อนหน้า ตอนนี้เมื่อคุณเลือกจุดตัดขนาดใหญ่พอมันก็ไม่ยากที่จะพิสูจน์ว่าปลายทั้งสองของช่วงเวลาที่น่าเชื่อถือเพิ่มขึ้นและ ณ จุดหนึ่งค่าจริงไม่ได้อยู่ในช่วงเวลาที่น่าเชื่อถืออีกต่อไป หากคุณไม่มีความคิดที่ดีมากเกี่ยวกับวิธีการก่อนหน้านี้ไม่รับประกันว่าจะเท่ากับหรือเหนือกว่าวิธีอื่น ๆ

ref: Joseph Felsenstein: การอนุมาน Phylogenies, บทที่ 18

ในบันทึกด้านข้างฉันรู้สึกเบื่อที่ทะเลาะกับ Bayesian / Frequentist มันเป็นทั้งกรอบงานที่แตกต่างกันและไม่มีความจริงแบบสัมบูรณ์ ตัวอย่างคลาสสิกวิธีโปรแบบเบย์มาจากการคำนวณความน่าจะเป็นแบบคงที่และไม่มีผู้ใดบ่อยครั้งที่จะโต้แย้งพวกเขา การโต้แย้งแบบคลาสสิกกับวิธีการแบบเบย์มีส่วนเกี่ยวข้องกับการเลือกโดยพลการของสิ่งก่อน และนักบวชที่มีเหตุผลก็เป็นไปได้อย่างแน่นอน

ทั้งหมดนี้นำไปสู่การใช้วิธีการอย่างถูกต้องในเวลาที่เหมาะสม ฉันเห็นข้อโต้แย้ง / การเปรียบเทียบน้อยมากซึ่งทั้งสองวิธีใช้อย่างถูกต้อง สมมติฐานของวิธีการใด ๆ ที่ underrated มากและมักจะถูกมองข้าม

แก้ไข: เพื่อชี้แจงปัญหาอยู่ในความจริงที่ว่าการประเมินตาม p แตกต่างจากการประมาณการตาม t ในกรอบ Bayesian เมื่อทำงานกับ priin uninformative (ซึ่งในหลายกรณีวิธีแก้ปัญหาที่เป็นไปได้เท่านั้น) สิ่งนี้ไม่เป็นความจริงในกรอบงาน ML สำหรับการอนุมานเชิงวิวัฒนาการ มันไม่ได้เป็นเรื่องของความผิดพลาดมาก่อนมันมีอยู่ในวิธีการ


3
มันเป็นไปได้ที่จะให้ความสนใจในความแตกต่างระหว่างสถิติแบบเบย์และบ่อยครั้งโดยไม่ต้องทะเลาะกัน มันเป็นสิ่งสำคัญที่จะรู้ข้อบกพร่องเช่นเดียวกับผลประโยชน์ของวิธีการที่ต้องการ ฉันได้ยกเว้นนักบวชเป็นพิเศษเนื่องจากนั่นไม่ใช่ปัญหากับกรอบการทำงาน แต่เป็นเรื่องของ GIGO สิ่งเดียวกันนี้นำไปใช้กับสถิติผู้ใช้บ่อยเช่นโดยการสมมติและการกระจายพารามิเตอร์แบบไม่ถูกต้องสำหรับข้อมูล ที่จะไม่วิจารณ์ของวิธีการบ่อยเพียงวิธีเฉพาะ BTW ฉันไม่มีปัญหาโดยเฉพาะกับนักบวชที่ไม่เหมาะสม
Dikran Marsupial

3
ตัวอย่างแรกของเจย์นส์: ไม่มีนักสถิติคนหนึ่งในใจที่ถูกต้องของเขาที่จะใช้การทดสอบ F และการทดสอบ T บนชุดข้อมูลนั้น นอกเหนือจากนั้นเขาเปรียบเทียบการทดสอบแบบสองด้านกับ P (b> a) ซึ่งไม่เหมือนกับการทดสอบสมมติฐาน ดังนั้นตัวอย่างของเขาจึงไม่ยุติธรรมซึ่งโดยพื้นฐานแล้วเขายอมรับในภายหลัง ถัดจากนั้นคุณไม่สามารถเปรียบเทียบ "เฟรมเวิร์ก" แล้วเรากำลังพูดถึงอะไรกัน? ML, REML, LS, วิธีลงโทษ,? ช่วงเวลาสำหรับค่าสัมประสิทธิ์สถิติการคาดการณ์ ... ? คุณสามารถถามด้วยว่าบริการ Lutheran นั้นเทียบเท่าหรือดีกว่าบริการของ Shiite พวกเขาพูดถึงพระเจ้าองค์เดียวกัน
Joris Meys

คุณช่วยให้ชัดเจนว่าข้อมูลของคุณคืออะไรและสิ่งที่เป็นพารามิเตอร์ที่คุณจะประเมินในแบบจำลองของคุณ? ฉันสับสนเล็กน้อยในจุดนี้ นอกจากนี้คุณสามารถใช้ $$ แทน $ เพื่อจัดกึ่งกลางสูตรได้หรือไม่ ขนาดตัวอักษรเล็กมากในตอนนี้

@Srikant: ตัวอย่างในหนังสือ Felsensteins มีพื้นฐานมาจากแบบจำลอง Jukes-Cantor สำหรับวิวัฒนาการดีเอ็นเอ Data เป็นลำดับดีเอ็นเอ คุณต้องการประมาณความน่าจะเป็นของการเปลี่ยนแปลงในลำดับของคุณซึ่งสัมพันธ์กับความยาวสาขาของคุณตามสูตรที่กล่าวถึง ความยาวสาขาถูกกำหนดให้เป็นช่วงเวลาแห่งการวิวัฒนาการยิ่งมีโอกาสเปลี่ยนแปลงมากเท่าใดยิ่งมีเวลามากขึ้นที่จะผ่านระหว่างบรรพบุรุษและสถานะปัจจุบัน ขออภัย แต่ฉันไม่สามารถสรุปทฤษฎีทั้งหมดที่อยู่เบื้องหลัง ML และ Bayesian phylogenetic อนุมานในการโพสต์เดียว Felsenstein ต้องการหนังสือครึ่งเล่มสำหรับเรื่องนี้
Joris Meys

ฉันเดาว่าฉันแค่อยากให้คุณอธิบายว่าตัวแปรในสมการของคุณคือข้อมูลอะไรและตัวไหนเป็นพารามิเตอร์เพราะมันไม่ชัดเจนจากโพสต์ของคุณโดยเฉพาะกับคนอย่างฉันที่เป็นคนนอก ฉันยังหลงทางอยู่ แต่ฉันเดาว่าฉันจะต้องอ่านหนังสือเพื่อหาข้อมูลเพิ่มเติม

8

ช่วงความเชื่อมั่นของผู้ใช้บ่อยจะ จำกัด อัตราของผลบวกปลอม (ข้อผิดพลาดประเภท I) และรับประกันความครอบคลุมของพวกเขาจะถูก จำกัด ไว้ด้านล่างด้วยพารามิเตอร์ความมั่นใจแม้ในกรณีที่เลวร้ายที่สุด ช่วงเวลาความน่าเชื่อถือแบบเบส์ไม่ได้

ดังนั้นหากสิ่งที่คุณใส่ใจนั้นเป็นผลบวกที่ผิดพลาดและคุณจำเป็นต้องผูกมัดพวกเขาช่วงความเชื่อมั่นคือวิธีการที่คุณต้องการใช้

ตัวอย่างเช่นสมมติว่าคุณมีราชาผู้ชั่วร้ายที่มีศาล 100 คนและผู้พิทักษ์และเขาต้องการเล่นเกมทางสถิติที่โหดร้ายกับพวกเขา กษัตริย์มีเหรียญยุติธรรมหนึ่งล้านล้านเหรียญและเหรียญที่ไม่ยุติธรรมหนึ่งใบซึ่งมีความเป็นไปได้ 10% เขาจะเล่นเกมต่อไปนี้ ก่อนอื่นเขาจะวาดเหรียญอย่างสม่ำเสมอโดยการสุ่มจากกระเป๋า

จากนั้นเหรียญจะถูกส่งผ่านไปที่ห้อง 100 คนและแต่ละคนจะถูกบังคับให้ทำการทดลองกับมันแบบส่วนตัวและจากนั้นแต่ละคนจะระบุช่วงเวลาที่ไม่แน่นอน 95% สำหรับสิ่งที่พวกเขาคิดว่าน่าจะเป็นหัวของเหรียญ

ทุกคนที่ให้ช่วงเวลาที่แสดงถึงการบวกเท็จ - เช่นช่วงเวลาที่ไม่ครอบคลุมค่าที่แท้จริงของความน่าจะเป็นหัว - จะถูกตัดหัว

ถ้าเราต้องการแสดง / a หลัง / ฟังก์ชั่นการกระจายความน่าจะเป็นของน้ำหนักเหรียญแน่นอนว่าช่วงเวลาความน่าเชื่อถือคือสิ่งที่ทำ คำตอบจะเป็นช่วงเวลา [0.5, 0.5] โดยไม่คำนึงถึงผลลัพธ์ แม้ว่าคุณจะพลิกศูนย์เป็นศูนย์หรือหนึ่งหัวคุณจะยังคงพูดว่า [0.5, 0.5] เพราะมันมีความเป็นไปได้มากกว่าที่กษัตริย์ดึงเหรียญที่ยุติธรรมและคุณมีเวลา 1/1024 วันที่ได้รับสิบหัวติดต่อกัน กว่าที่กษัตริย์ดึงเหรียญที่ไม่ยุติธรรม

ดังนั้นนี่ไม่ใช่ความคิดที่ดีสำหรับผู้กำหนดและผู้ใช้! เพราะเมื่อดึงเหรียญที่ไม่เป็นธรรมออกทั้งห้อง (ทั้ง 100 คน) จะผิดและพวกเขาทั้งหมดจะถูกตัดหัว

ในโลกนี้ที่สิ่งที่สำคัญที่สุดคือผลบวกปลอมสิ่งที่เราต้องการคือการรับประกันแบบสัมบูรณ์ว่าอัตราของผลบวกปลอมจะน้อยกว่า 5% ไม่ว่าจะวาดเหรียญอะไรก็ตาม จากนั้นเราจำเป็นต้องใช้ช่วงความมั่นใจเช่น Blyth-Still-Casella หรือ Clopper-Pearson ที่ทำงานและให้ความคุ้มครองอย่างน้อย 95%โดยไม่คำนึงถึงมูลค่าที่แท้จริงของพารามิเตอร์แม้ในกรณีที่เลวร้ายที่สุด หากทุกคนใช้วิธีนี้แทนไม่ว่าจะมีการดึงเหรียญออกมาในตอนท้ายของวันเราสามารถรับประกันได้ว่าจำนวนคนผิดที่คาดหวังจะไม่เกินห้า

ดังนั้นประเด็นก็คือ: หากเกณฑ์ของคุณต้องการขอบเขตบวกเท็จ (หรือเทียบเท่ารับประกันความครอบคลุม) คุณต้องไปด้วยช่วงความมั่นใจ นั่นคือสิ่งที่พวกเขาทำ ช่วงเวลาความน่าเชื่อถืออาจเป็นวิธีที่ใช้งานง่ายกว่าในการแสดงความไม่แน่นอนพวกเขาอาจทำงานได้ค่อนข้างดีจากการวิเคราะห์แบบประจำ

(แน่นอนว่าถ้าคุณใส่ใจในแง่ลบที่ผิดคุณจะต้องมีวิธีที่รับประกันในเรื่องเหล่านั้นด้วย ... )


6
อาหารสำหรับความคิดอย่างไรก็ตามตัวอย่างเฉพาะนั้นไม่ยุติธรรมเนื่องจากอนุญาตให้ใช้วิธีการแบบเป็นประจำเพื่อพิจารณาต้นทุนสัมพัทธ์ของค่าใช้จ่ายที่เป็นเท็จบวกและค่าลบที่เป็นเท็จ แต่วิธีการแบบเบย์ไม่ได้ สิ่งที่ถูกต้องที่จะทำตามทฤษฎีการตัดสินใจแบบเบย์คือให้ช่วงเวลา [0,1] เนื่องจากไม่มีการลงโทษที่เกี่ยวข้องกับการลบเชิงลบ ดังนั้นในการเปรียบเทียบกรอบการทำงานเหมือนไม่มีใครใน Bayesians จะถูกตัดหัวอย่างใดอย่างหนึ่ง ปัญหาเกี่ยวกับการ จำกัด ขอบเขตบวก แต่ทำให้ฉันมีทิศทางที่จะมองหาคำตอบสำหรับความท้าทายของเจย์เนส
Dikran Marsupial

1
โปรดทราบด้วยว่าหากเหรียญที่เลือกพลิกบ่อยพอในที่สุดช่วงความเชื่อมั่นแบบเบย์จะถูกจัดให้อยู่กึ่งกลางความถี่ของระยะยาวของหัวสำหรับเหรียญเฉพาะแทนที่จะเป็นในช่วงก่อนหน้า หากชีวิตของฉันขึ้นอยู่กับช่วงเวลาที่มีความน่าจะเป็นที่แท้จริงของหัวฉันจะไม่พลิกเหรียญเพียงครั้งเดียว!
Dikran Marsupial

1
แม้ว่าจะมีมากกว่านี้เล็กน้อยตัวอย่างนี้ไม่ถูกต้องตามเกณฑ์ที่ใช้ในการวัดความสำเร็จไม่เหมือนกับที่ระบุโดยคำถามที่กษัตริย์ตั้งขึ้น ปัญหาอยู่ใน "ไม่ว่าจะวาดเหรียญใด" ประโยคที่ออกแบบมาเพื่อค้นหาวิธีการที่ใช้ความรู้ก่อนหน้านี้เกี่ยวกับความหายากของเหรียญเอนเอียง ในขณะที่มันเกิดขึ้น Bayesains สามารถรับขอบเขตเช่นกัน (เช่นขอบเขต PAC) และหากถูกถามว่าจะทำเช่นนั้นและฉันสงสัยว่าคำตอบจะเหมือนกับช่วงเวลาของ Clopper-Pearson ในการทดสอบอย่างเป็นธรรมจะต้องให้ข้อมูลเดียวกันกับทั้งสองวิธี
Dikran Marsupial

1
Dikran ไม่จำเป็นต้องมี "Bayesians" และ "Frequentists" พวกเขาไม่ได้เป็นโรงเรียนแห่งปรัชญาที่เข้ากันไม่ได้ซึ่งอาจจะสมัครเป็นหนึ่งเดียว! เป็นเครื่องมือทางคณิตศาสตร์ที่สามารถแสดงให้เห็นถึงประสิทธิภาพในกรอบทั่วไปของทฤษฎีความน่าจะเป็น ประเด็นของฉันคือถ้าหากความต้องการนั้นมีผลผูกพันแน่นอนกับผลบวกเท็จไม่ว่ามูลค่าที่แท้จริงของพารามิเตอร์จะมีช่วงความมั่นใจเป็นวิธีการที่ทำให้สำเร็จ แน่นอนว่าเราทุกคนเห็นด้วยกับสัจพจน์เดียวกันของความน่าจะเป็นและคำตอบเดียวกันนั้นสามารถเกิดขึ้นได้หลายวิธี
Keith Winstein

1
[0.1,0.5]0.10.5100%95%
probabilityislogic

0

มีตัวอย่างที่ช่วงความเชื่อมั่นของผู้ใช้งานประจำชัดเจนเหนือกว่าช่วงเวลาที่น่าเชื่อถือแบบเบย์ (ตามการท้าทายของเจย์เนส)

θ10θ1θ

เบอร์นาร์โดเสนอ "การอ้างอิงก่อนหน้า" เพื่อใช้เป็นมาตรฐานสำหรับการสื่อสารทางวิทยาศาสตร์ [และแม้แต่ "ช่วงเวลาที่น่าเชื่อถืออ้างอิง" ( เบอร์นาร์โด - ภูมิภาคที่น่าเชื่อถือตามวัตถุประสงค์ )] สมมติว่านี่คือ "วิธี" แบบเบย์ตอนนี้คำถามคือ: เมื่อช่วงเวลาใดจะเหนือกว่าอีกช่วงหนึ่ง? คุณสมบัติประจำของช่วงเวลาแบบเบย์นั้นไม่ได้ดีที่สุดเสมอไป แต่ไม่มีคุณสมบัติแบบเบย์ของ "ช่วงเวลา" ประจำ "
(โดยวิธีคือ" ช่วงเวลา "เป็นประจำคืออะไร)


ฉันคาดเดา แต่ฉันสงสัยว่าคำตอบนี้จะต้องได้รับการรักษาแบบเดียวกับที่คนอื่นมี บางคนอาจโต้แย้งว่านี่เป็นปัญหาของการเลือกที่ไม่ดีมาก่อนและไม่ใช่จุดอ่อนโดยธรรมชาติของกระบวนการเบย์ซึ่งในมุมมองของฉันบางส่วนพยายามที่จะหลบเลี่ยงการวิจารณ์ที่ถูกต้อง
พระคาร์ดินัล

ความคิดเห็นของ @ cardinal ค่อนข้างถูกต้อง ก่อนหน้านี้ถูกปิดโดยลำดับความสำคัญทำให้การวิจารณ์อ่อนแอมาก ข้อมูลก่อนหน้านี้มีความสำคัญต่อผู้ใช้บ่อยเช่นกัน สิ่งที่ผู้รู้เบื้องต้นควรกำหนดเช่นการประมาณการและสถิติการทดสอบที่ใช้ หากตัวเลือกเหล่านี้ขึ้นอยู่กับข้อมูลที่ไม่ถูกต้องตามลำดับความสำคัญควรคาดหวังผลลัพธ์ที่ไม่ดี การเป็นคนเบย์หรือผู้ที่พบบ่อยไม่ได้เกิดขึ้น
แขกที่เข้าพัก

"ตัวอย่าง" ของฉันไม่ใช่ส่วนสำคัญของคำตอบของฉัน แต่เป็นทางเลือกที่ดีของก่อนคืออะไร? มันง่ายที่จะจินตนาการว่าก่อนหน้านี้ที่มีการสนับสนุนประกอบด้วยพารามิเตอร์ที่แท้จริง แต่ด้านหลังไม่ได้ดังนั้นช่วงเวลาประจำที่ดีกว่า?
Stéphane Laurent

พระคาร์ดินัลและแขกถูกต้องคำถามของฉันรวมไว้อย่างชัดเจน "ตัวอย่างตามข้อสันนิษฐานที่ไม่ถูกต้องก่อนหน้านี้ไม่เป็นที่ยอมรับเพราะพวกเขาไม่ได้พูดอะไรเกี่ยวกับความสอดคล้องภายในของวิธีการต่าง ๆ " ด้วยเหตุผลที่ดี การทดสอบเป็นประจำอาจขึ้นอยู่กับสมมติฐานที่ไม่ถูกต้องเช่นเดียวกับการทดสอบแบบเบย์ (กรอบการทำงานแบบเบส์ระบุสมมติฐานอย่างชัดเจนมากขึ้น); คำถามคือกรอบการทำงานมีจุดอ่อนหรือไม่ หากว่าคุณค่าที่แท้จริงนั้นเป็นสิ่งที่เกิดขึ้นก่อนหน้านี้ แต่ไม่ใช่ด้านหลังนั่นก็หมายความว่าการสังเกตการณ์ตัดความเป็นไปได้ของมูลค่าที่แท้จริงที่ถูกต้อง!
Dikran Marsupial

1
บางทีฉันควรแก้ไขคำตอบและลบ "ตัวอย่าง" ของฉัน - นี่ไม่ใช่ส่วนสำคัญของคำตอบของฉัน คำตอบของฉันส่วนใหญ่เกี่ยวกับความหมายของ "วิธี" แบบเบย์ คุณเรียกวิธีการแบบเบย์ว่าอะไร? วิธีการนี้ต้องการตัวเลือกของผู้กระทำก่อนหรือใช้วิธีอัตโนมัติในการเลือกแบบที่ไม่เป็นมาก่อน? ในกรณีที่สองมันเป็นสิ่งสำคัญที่จะพูดถึงการทำงานของเบอร์นาร์โด ประการที่สองคุณยังไม่ได้กำหนดความสัมพันธ์ "เหนือกว่า" ระหว่างช่วงเวลา: เมื่อใดที่คุณบอกว่าช่วงเวลานั้นยอดเยี่ยมกว่าช่วงเวลาอื่น?
Stéphane Laurent
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.