การโต้วาทีแบบ Bayesian เกิดขึ้นที่ไหน


59

โลกของสถิติถูกแบ่งระหว่างผู้ใช้บ่อยและเบย์ วันนี้ดูเหมือนว่าทุกคนทำทั้งสองอย่าง สิ่งนี้จะเป็นอย่างไร หากวิธีการที่แตกต่างกันเหมาะสำหรับปัญหาที่แตกต่างกันเหตุใดบรรพบุรุษของผู้ก่อตั้งสถิติจึงไม่เห็นสิ่งนี้ อีกทางเลือกหนึ่งการถกเถียงกันได้รับรางวัลจากการถกเถียงกันบ่อยครั้งและ Bayesians ส่วนตัวที่แท้จริงย้ายไปอยู่กับทฤษฎีการตัดสินใจ?


13
ฉันทำ CW นี้ในหลักฐานว่าไม่มีคำตอบที่เชื่อถือได้หรือมีคำตอบที่ดีที่สุด (อย่าลังเลที่จะโน้มน้าวโมเดอเรเตอร์อย่างอื่นหากคุณไม่เห็นด้วย!) ใคร ๆ ก็เถียงกันว่าการปิดคำถามโดยอ้างว่ามันอาจเป็นเรื่องที่ถกเถียงกัน แต่ (IMHO) เป็นเรื่องที่น่าสนใจ อย่างไรก็ตามคำตอบที่ถกเถียงกันอย่างถกเถียงหรือไม่สนับสนุนหากปรากฏว่าปรากฏขึ้นจะถูกลบโดยไม่มีคำอธิบายเพิ่มเติม
whuber

คำตอบ:


58

จริง ๆ แล้วฉันไม่เห็นด้วยอย่างอ่อนโยนกับหลักฐาน ทุกคนเป็น Bayesian ถ้าพวกเขามีการแจกแจงความน่าจะเป็นให้พวกเขาเหมือนก่อน ปัญหาเกิดขึ้นเมื่อพวกเขาไม่ทำและฉันคิดว่ายังคงมีการแบ่งหัวข้อที่ค่อนข้างดีอยู่

แม้ว่าจะกล่าวว่าฉันยอมรับว่ามีผู้คนจำนวนมากขึ้นที่จะต่อสู้กับสงครามศักดิ์สิทธิ์และเริ่มทำสิ่งที่ดูเหมือนว่าเหมาะสมในสถานการณ์ที่กำหนด

ฉันจะบอกว่าในขณะที่อาชีพขั้นสูงทั้งสองฝ่ายตระหนักว่ามีข้อดีในแนวทางของด้านอื่น ๆ Bayesians ตระหนักว่าการประเมินว่าขั้นตอนแบบเบย์จะใช้อย่างไรหากใช้ซ้ำแล้วซ้ำอีก (เช่น 95% ช่วงเวลาที่น่าเชื่อถือ (CI) นี้มีพารามิเตอร์จริงประมาณ 95% ของเวลาจริงหรือไม่) จำเป็นต้องมีมุมมองแบบประจำ หากไม่มีสิ่งนี้จะไม่มีการสอบเทียบ "95%" สำหรับหมายเลขโลกแห่งความเป็นจริง ทนทาน? สร้างแบบจำลองผ่านการทำซ้ำที่เหมาะสมเป็นต้น? ความคิดที่เกิดขึ้นในโลกที่ใช้บ่อยและถูกดัดแปลงโดย Bayesians เริ่มในช่วงปลายยุค 80 หรือมากกว่านั้น ผู้ใช้บ่อยตระหนักว่าการทำให้เป็นมาตรฐานนั้นดีและใช้กันอย่างแพร่หลายในทุกวันนี้และนักบวชแบบเบย์สามารถตีความได้อย่างง่ายดายว่าเป็นการทำให้เป็นระเบียบ การสร้างแบบจำลองที่ไม่ใช่พารามิเตอร์ผ่านทางเส้นโค้งด้วยฟังก์ชันลงโทษ? โทษของคุณคือฉันก่อน! ตอนนี้เราทุกคนสามารถเข้ากันได้แล้ว

ฉันเชื่อว่าอิทธิพลที่สำคัญอื่น ๆ คือการปรับปรุงซอฟต์แวร์ที่มีคุณภาพสูงซึ่งทำให้คุณสามารถวิเคราะห์ได้อย่างรวดเร็ว สิ่งนี้มาในสองส่วน - อัลกอริธึมเช่นการสุ่มตัวอย่างของกิ๊บส์และเมโทรโพลิส - แฮสติ้งและซอฟต์แวร์เอง R, SAS, ... ฉันอาจเป็น Bayesian ที่บริสุทธิ์มากกว่าถ้าฉันต้องเขียนโค้ดทั้งหมดใน C (ฉันเพียงแค่ จะไม่มีเวลาลองสิ่งอื่น) แต่อย่างที่เป็นฉันจะใช้ gam ในแพ็คเกจ mgcv ใน R เมื่อใดก็ตามที่แบบจำลองของฉันดูเหมือนว่าฉันสามารถใส่ลงในกรอบนั้นโดยไม่ต้องบีบมากเกินไปและฉัน สถิติที่ดีกว่าสำหรับมัน ทำความคุ้นเคยกับวิธีการของฝ่ายตรงข้ามและตระหนักถึงความสามารถในการประหยัด / คุณภาพที่ดีขึ้นที่สามารถให้เพื่อใช้ในบางสถานการณ์แม้ว่าพวกเขาอาจจะไม่พอดี 100% ในกรอบเริ่มต้นของคุณสำหรับการคิดเกี่ยวกับปัญหา


5
@Dikran: ผมเห็นด้วยกับข้อแม้ที่ว่าผมเองจะพูดเล่นลิ้นกับทางเลือกที่คำพูดของฝ่ายตรงข้าม :)
สำคัญ

2
@ cardinal ฉันไม่รู้เลิกกับเพื่อนร่วมงานคนไหนที่จะสนุก (ตราบใดที่คุณทั้งคู่ต่างก็รู้ดีกว่าที่จะพูดแบบนั้นจริงๆ!! o)
Dikran Marsupial

3
@Dikran - ขอบคุณสำหรับความเข้าใจ! ฉันไม่ได้รู้สึกว่า "คู่ต่อสู้" เป็นคำที่ถูกต้องเช่นกัน แต่ฉันติดอยู่ที่นั่นเพื่อความสนุกและอีกส่วนหนึ่งเพราะฉันไม่สามารถนึกถึงคำที่ดีกว่าที่ยังรักษาความรู้สึกบางอย่างของฝ่ายค้านไว้ได้
jbowman

5
@jbowman: โปรดทราบว่าสถิติแบบเบย์ a-la Good, Lindley หรือ DeFinetti หมายถึงสิ่งที่ก่อนหน้านี้เป็นแบบอัตนัย / จิตและไม่ใช่วัตถุประสงค์ / ทางกายภาพ ด้วยเหตุนี้ฉันจึงไม่เห็นด้วยกับ: "... ทุกคนเป็นชาว Bayesian" นี่คือเหตุผลที่ Robbins ต้องใช้คำว่า "Empirical Bayes" เมื่อแนะนำแนวคิด "นวนิยาย" ของผู้ที่เคยใช้บ่อย ฉันจะเห็นด้วยว่าในวันนี้ว่าใช้แผนการสุ่มตัวอย่างหลายระดับดังนั้นการมีผู้ใช้งานบ่อยมาก่อนจะพอเพียงที่จะมีคุณสมบัติเป็น "สถิติแบบเบย์"
JohnRos

2
@JohnRos - สิ่งที่ฉันคิดคือคลาสสิคมากกว่า "ความเป็นไปได้ที่คุณมีวัณโรคเป็นอย่างไรเพราะคุณคิดบวกกับการทดสอบวัณโรค?" สถานการณ์. (ฉันสันนิษฐานว่า) นักสถิติจำนวนน้อยจะคัดค้านการใช้สิ่งที่อัตรา TB พื้นฐานที่เหมาะสมจะเป็นความน่าจะเป็นก่อนหน้านี้และอัปเดตด้วยโอกาสในการทดสอบ แน่นอนว่าพวกเขายังคงคัดค้านความคิดของพวกเขาก่อนที่จะเป็นอัตนัยและฉันสามารถเห็นบรรทัดของการให้เหตุผลในด้านอื่น ๆ ที่จะอ้างว่ามันเป็นอัตนัยแม้จะมีข้อมูลอยู่ด้านหลัง
jbowman

35

นี่เป็นคำถามที่ตอบยาก จำนวนคนที่ทำทั้งสองอย่างแท้จริงยังมี จำกัด มาก Bayesians แกนกลางดูถูกผู้ใช้สถิติกระแสหลักสำหรับการใช้ค่าซึ่งเป็นสถิติไร้สาระภายในที่ไม่สอดคล้องกันสำหรับ Bayesians และนักสถิติหลักก็ไม่รู้วิธีการแบบเบย์ดีพอที่จะให้ความเห็นได้ ในแง่นี้คุณจะเห็นการวิพากษ์วิจารณ์จำนวนมากเกี่ยวกับการทดสอบสมมติฐานสำคัญในวรรณคดีเบย์ (จนถึงเท่าที่เกือบจะบริสุทธิ์ชีววิทยาหรือวารสารจิตวิทยาบริสุทธิ์) โดยไม่มีการตอบสนองจากกระแสหลักp

มีการประกาศที่ขัดแย้งกันว่า "ใครชนะการอภิปราย" ในวิชาชีพสถิติ ในอีกด้านหนึ่งการจัดองค์ประกอบของแผนกสถิติเฉลี่ยคือในสถานที่ส่วนใหญ่คุณจะพบกับหน่วยประมวลผล 10-15 คนเทียบกับ 1-2 เบย์เซียนถึงแม้ว่าบางแผนกจะเป็นเบย์เซียนล้วนๆโดยไม่มีผู้มีตำแหน่งทางหลักเลยยกเว้นตำแหน่งที่ปรึกษา (Harvard, Duke, Carnegie Mellon, British Columbia, Montreal ในอเมริกาเหนือฉันไม่ค่อยคุ้นเคยกับฉากในยุโรป) ในทางกลับกันคุณจะเห็นว่าในวารสารเช่น JASA หรือ JRSS อาจเป็น 25-30% ของเอกสารที่เป็นแบบเบย์ ในทางที่ Bayesian ยุคฟื้นฟูศิลปวิทยาอาจเป็นบางสิ่งบางอย่างเช่นการระเบิดของเอกสาร ANOVA ในปี 1950: ก่อนหน้านี้ผู้คนคิดว่าปัญหาสถิติใด ๆ สามารถถูกจัดเป็นปัญหา ANOVA ได้ ตอนนี้

ความรู้สึกของฉันคือพื้นที่ใช้ไม่ต้องกังวลกับรายละเอียดทางปรัชญาและไปกับสิ่งที่ง่ายต่อการทำงานด้วย วิธีการแบบเบย์นั้นซับซ้อนเกินไป: คุณต้องเรียนรู้ศิลปะการคำนวณด้วย (ด้านบนของตัวอย่าง, การบล็อค, การวินิจฉัยการลู่เข้าหากัน, blah-blah-blah) และเตรียมพร้อมที่จะปกป้องนักบวชของคุณ (ถ้าคุณใช้ นักบวชที่มีวัตถุประสงค์หรือคุณควรใช้นักบวชที่มีข้อมูลถ้าสนามได้ตัดสินความเร็วของแสงที่ระดับ 3e8 m / s หรือแม้กระทั่งว่าการเลือกก่อนหน้านั้นจะส่งผลกระทบต่อผู้ชมของคุณหรือไม่ก็ตาม) ดังนั้นในการใช้งานด้านการแพทย์หรือจิตวิทยาหรือเศรษฐศาสตร์ส่วนใหญ่คุณจะเห็นแนวทางหลัก ๆ ในเอกสารที่เขียนโดยนักวิจัยที่สำคัญ

ฉันคิดว่าพื้นที่หนึ่งที่กรอบของ Bayesian กำลังจะเกิดขึ้นในระยะสั้นคือการวินิจฉัยแบบจำลอง - และนั่นเป็นพื้นที่สำคัญสำหรับผู้ปฏิบัติงาน ในโลกของ Bayesian เพื่อวินิจฉัยแบบจำลองคุณจะต้องสร้างแบบจำลองที่ซับซ้อนมากขึ้นและเลือกว่าแบบใดที่เหมาะสมกับ Bayesian factor หรือ BIC ดังนั้นหากคุณไม่ชอบสมมติฐานปกติสำหรับการถดถอยเชิงเส้นของคุณคุณสามารถสร้างการถดถอยด้วยข้อผิดพลาดของนักเรียนและปล่อยให้ข้อมูลสร้างการประมาณระดับของอิสรภาพหรือคุณอาจกลายเป็นคนที่มีจินตนาการ ข้อผิดพลาดและทำการกระโดดข้าม MH ระหว่างรุ่นที่แตกต่างกัน วิธีการที่สำคัญคือการสร้างโครงเรื่อง QQ ของนักเรียนที่เหลือและกำจัดค่าผิดปกติและนี่ก็เป็นอีกครั้งที่ง่ายกว่ามาก

ฉันแก้ไขบทในหนังสือเกี่ยวกับเรื่องนี้ด้วย - เห็นhttp://onlinelibrary.wiley.com/doi/10.1002/9780470583333.ch5/summary มันเป็นกระดาษที่มีเนื้อหาตามแบบฉบับซึ่งให้การอ้างอิงประมาณ 80 เรื่องเกี่ยวกับการถกเถียงครั้งนี้ทั้งหมดสนับสนุนมุมมองของเบย์ (ฉันขอให้ผู้เขียนขยายออกไปในเวอร์ชันที่แก้ไขซึ่งพูดถึงมันเยอะมาก :)) Jim Bergerจาก Duke ซึ่งเป็นหนึ่งในนักทฤษฎี Bayesian ชั้นนำได้บรรยายจำนวนหนึ่งและเขียนบทความที่น่าสนใจเป็นจำนวนมากในหัวข้อ


14

มีเหตุผลที่ดีสำหรับการมีทั้งคู่ซึ่งก็คือช่างฝีมือดีจะต้องการเลือกเครื่องมือที่ดีที่สุดสำหรับงานในมือและวิธีการแบบเบย์และวิธีการที่ใช้กันบ่อยมีแอปพลิเคชั่นที่เป็นเครื่องมือที่ดีที่สุดสำหรับงาน

อย่างไรก็ตามบ่อยครั้งที่มีการใช้เครื่องมือที่ผิดสำหรับงานเพราะสถิติผู้ใช้งานมักจะคล้อยตามวิธีการ "ตำราอาหาร" ซึ่งทำให้ง่ายต่อการใช้งานในสาขาวิทยาศาสตร์และวิศวกรรมมากกว่าวิธีแบบเบส์แม้ว่าวิธีการแบบเบส์จะให้คำตอบโดยตรงมากกว่า คำถามที่ถูกวาง (ซึ่งโดยทั่วไปคือสิ่งที่เราสามารถอนุมานจากตัวอย่างเฉพาะของข้อมูลที่เรามี) ฉันไม่ค่อยเห็นด้วยกับสิ่งนี้เนื่องจากวิธีการ "ตำรา" นำไปสู่การใช้สถิติโดยไม่เข้าใจสิ่งที่คุณกำลังทำจริง ๆ ซึ่งเป็นสาเหตุที่สิ่งต่าง ๆ เช่นการเข้าใจผิด p-value เกิดขึ้นซ้ำแล้วซ้ำอีก

อย่างไรก็ตามเมื่อเวลาผ่านไปเครื่องมือซอฟต์แวร์สำหรับวิธี Bayesian จะปรับปรุงและพวกเขาจะใช้บ่อยขึ้นตามที่ jbowman พูดถูกต้อง

ฉันเป็นชาว Bayesian โดยความชอบ (ดูเหมือนว่าจะทำให้ฉันมีความรู้สึกมากกว่าวิธีการแบบผู้ใช้บ่อย) แต่ฉันจบลงด้วยการใช้สถิติแบบสม่ำเสมอในเอกสารของฉันส่วนหนึ่งเป็นเพราะฉันจะมีปัญหากับผู้ตรวจสอบหากฉันใช้สถิติแบบชาวเบย์ จะเป็น "ที่ไม่ได้มาตรฐาน"

ในที่สุด (ลิ้นค่อนข้างแก้ม; o) เพื่ออ้างถึง Max Plank "ความจริงทางวิทยาศาสตร์แบบใหม่ไม่สามารถเอาชนะคู่แข่งได้และทำให้พวกเขาเห็นแสงสว่าง แต่เป็นเพราะฝ่ายตรงข้ามตายในที่สุดและคนรุ่นใหม่เติบโตขึ้นที่คุ้นเคย กับมัน "


10

ฉันไม่คิดว่าผู้ใช้บ่อยและชาวเบย์ให้คำตอบที่ต่างกันสำหรับคำถามเดียวกัน ฉันคิดว่าพวกเขาพร้อมที่จะตอบคำถามต่างๆ ดังนั้นฉันไม่คิดว่ามันสมเหตุสมผลที่จะพูดถึงการชนะฝ่ายเดียวหรือพูดคุยเกี่ยวกับการประนีประนอม

พิจารณาคำถามทั้งหมดที่เราอาจต้องการถาม คำถามมากมายเป็นไปไม่ได้ ("คุณค่าที่แท้จริงของคืออะไร") การพิจารณาชุดย่อยของคำถามเหล่านี้มีประโยชน์มากกว่าสำหรับการตอบคำถามตามสมมติฐานต่างๆ เซตย่อยที่ใหญ่กว่าคือคำถามที่สามารถตอบได้ในที่ที่คุณอนุญาตให้คุณใช้นักบวช เรียก BF ชุดนี้ มีส่วนย่อยของ BF ซึ่งเป็นชุดคำถามที่ไม่ได้ขึ้นอยู่กับก่อนหน้านี้ เรียกเซตย่อยที่สองนี้ F F เป็นเซตย่อยของ BF กำหนด B = BF \ Bθ

อย่างไรก็ตามเราไม่สามารถเลือกคำถามที่จะตอบได้ เพื่อให้การอ้างถึงมีประโยชน์เกี่ยวกับโลกบางครั้งเราต้องตอบคำถามที่เป็น B และนั่นหมายถึงการใช้ก่อนหน้า

เป็นการดีที่ได้รับการประเมินคุณจะทำการวิเคราะห์อย่างละเอียด คุณอาจใช้ก่อนหน้านี้ แต่มันก็เจ๋งถ้าคุณสามารถพิสูจน์สิ่งดีๆเกี่ยวกับตัวประมาณของคุณซึ่งไม่ได้ขึ้นอยู่กับก่อนหน้านี้ นั่นไม่ได้หมายความว่าคุณสามารถทิ้งคำถามไว้ก่อนหน้านี้บางทีคำถามที่น่าสนใจอาจต้องมีคำถามก่อน

ทุกคนเห็นด้วยกับวิธีการตอบคำถามใน F. ความกังวลคือคำถามที่ 'น่าสนใจ' จริงๆใน F หรือ B หรือไม่?

ตัวอย่าง: ผู้ป่วยเดินเข้าไปหาแพทย์และมีสุขภาพดี (H) หรือป่วย (S) มีการทดสอบที่เราเรียกใช้ซึ่งจะส่งกลับค่าบวก (+) หรือลบ (-) การทดสอบไม่เคยให้ปลอมเนกาทีฟ - คือ0 แต่บางครั้งมันจะให้ผลบวกปลอม -P(|S)=0P(+|H)=0.05

เรามีการ์ดหนึ่งชิ้นและเครื่องทดสอบจะเขียน + หรือ - ที่ด้านหนึ่งของการ์ด ลองนึกภาพถ้าคุณต้องการเรามีนักทำนายที่รู้ความจริงและพยากรณ์นี้เขียนสถานะที่แท้จริง H หรือ S ที่อีกด้านหนึ่งของการ์ดก่อนใส่การ์ดลงในซอง

ในฐานะแพทย์ที่ผ่านการฝึกอบรมทางสถิติเราจะพูดอะไรเกี่ยวกับไพ่ใน Envolope ก่อนที่เราจะเปิดไพ่ คำสั่งต่อไปนี้สามารถทำได้ (เหล่านี้อยู่ใน F ด้านบน):

  • ถ้า S ที่ด้านหนึ่งของการ์ดแล้วอีกด้านหนึ่งจะเป็น + P(+|S)=1
  • ถ้า H, อีกด้านจะเป็น + กับความน่าจะเป็น 5% - กับความน่าจะเป็น 95% P(|H)=0.95
  • (สรุปสองจุดที่ผ่านมา) น่าจะเป็นว่าทั้งสองฝ่ายจับคู่เป็นอย่างน้อย 95% P((,S)(+,H))0.95

เราไม่ทราบว่าหรือคืออะไร เราไม่สามารถจริงๆตอบว่าไม่มีการเรียงลำดับของก่อนบางอย่างสำหรับ(S) แต่เราสามารถสร้างแถลงการณ์เกี่ยวกับผลรวมของความน่าจะเป็นที่สองP((,S))P((+,H))P(S)

นี่คือเท่าที่เราจะไปได้ ก่อนที่จะเปิดซองจดหมายเราสามารถสร้างข้อความเชิงบวกอย่างมากเกี่ยวกับความถูกต้องของการทดสอบ มีอย่างน้อยน่าจะเป็น 95% ที่ผลการทดสอบตรงกับความจริง

แต่จะเกิดอะไรขึ้นเมื่อเราเปิดการ์ดจริง เนื่องจากผลการทดสอบเป็นค่าบวก (หรือค่าลบ) เราจะพูดอะไรได้ว่าพวกมันมีสุขภาพดีหรือไม่ดี?

หากการทดสอบเป็นค่าบวก (+) ไม่มีอะไรที่เราสามารถพูดได้ บางทีพวกเขามีสุขภาพดีและอาจจะไม่ ขึ้นอยู่กับความชุกของโรคในปัจจุบัน ( ) อาจเป็นกรณีที่ผู้ป่วยส่วนใหญ่ที่ทดสอบเป็นบวกมีสุขภาพดีหรืออาจเป็นกรณีที่ป่วยส่วนใหญ่ เราไม่สามารถวางขอบเขตบนสิ่งนี้ได้โดยไม่ยอมให้ตัวเองวางบนก่อนP(S)P(S)

ในตัวอย่างง่ายๆนี้มันชัดเจนว่าทุกคนที่มีผลการทดสอบเชิงลบจะมีสุขภาพดี ไม่มีเชิงลบที่ผิดและด้วยเหตุนี้นักสถิติทุกคนจะส่งผู้ป่วยกลับบ้านอย่างมีความสุข ดังนั้นมันทำให้รู้สึกไม่ที่จะจ่ายสำหรับคำแนะนำของสถิติเว้นแต่ผลการทดสอบได้รับการบวก

สัญลักษณ์สามหัวข้อด้านบนนั้นถูกต้องและค่อนข้างง่าย แต่พวกมันไร้ประโยชน์เช่นกัน! คำถามที่น่าสนใจจริงๆในแบบจำลองที่ประดิษฐ์ขึ้นนี้คือ:

P(S|+)

และสิ่งนี้ไม่สามารถตอบได้โดยไม่มี (เช่นก่อนหน้าหรืออย่างน้อยบางขอบเขตในก่อนหน้า)P(S)

ฉันไม่ปฏิเสธว่านี่อาจเป็นแบบจำลองที่มีขนาดใหญ่เกินไป แต่ก็แสดงให้เห็นว่าถ้าเราต้องการสร้างข้อความที่เป็นประโยชน์เกี่ยวกับสุขภาพของผู้ป่วยเหล่านั้นเราต้องเริ่มต้นด้วยความเชื่อก่อนหน้านี้เกี่ยวกับสุขภาพของพวกเขา


2
คุณเป็นอย่างไรในการปรับคำแถลงว่า "ถ้าแล้วอีกด้านหนึ่งจะเป็นกับความน่าจะเป็นกับความน่าจะเป็น " เมื่อคุณยืนยันก่อนหน้านี้ว่าในย่อหน้าเริ่มต้น "ตัวอย่าง:" H+5%95%P(|S)=0.95P(|S)=0
Dilip Sarwate

1
สะกดผิด ขอขอบคุณที่ติดตาม @DipipSarwate ฉันหมายถึงพูดไม่ใช่P(|H)=0.95P(|S)=0.95
แอรอน McDaid

2
โปรดทราบว่าเราสามารถแม่นยำกว่าที่คุณอ้างได้โดยไม่ทราบว่าและบอกว่าการทดสอบเพิ่มโอกาสในการป่วยและสุขภาพโดยเท่า อย่างไรก็ตามในแง่ของการตัดสินใจ (เช่นการรักษาหรือไม่ปฏิบัติ) เราจำเป็นต้องมี (และฟังก์ชั่นการสูญเสีย) P(S)+20P(S)
ความน่าจะเป็นเชิง

1
มันจะยุติธรรมที่จะบอกว่าถ้าถูกประเมินจากการสำรวจก่อนจากประชากร (เทียบกับการคาดเดาการศึกษา) แล้วสถิติด้านบ่อยครั้งจะกลายเป็นสิ่งสำคัญโดยเฉพาะอย่างยิ่งถ้านักวิจัยต้องการประเมินความแม่นยำของ ? P(S)P(S)
RobertF

6

อย่างที่คุณจะเห็นมีการถกเถียงกันอย่างมากในเรื่อง Bayesian ในความเป็นจริงฉันคิดว่ามันร้อนกว่าที่เคยและดันทุรังน้อยลง คุณอาจสนใจบล็อกของฉัน: http://errorstatistics.com


2
ฉันคุ้นเคยกับงานของคุณผ่านงานเขียนของ Shalizi & Gelman ฉันจะติดตามบล็อกอย่างแน่นอน และถึงกระนั้นฉันก็สงสัยว่าเป็น "Bayes" ของ Gelman เช่นเดียวกับ "Bayes" ของ DeFinetti .... ....
JohnRos

1

หลายคน (นอกผู้เชี่ยวชาญผู้เชี่ยวชาญ) ที่คิดว่าพวกเขาเป็นประจำอยู่ในความเป็นจริงเบย์ นี่ทำให้การถกเถียงกันอย่างไร้จุดหมาย ฉันคิดว่า Bayesianism ชนะแล้ว แต่ยังมีชาว Bayesians หลายคนที่คิดว่าพวกเขาเป็นพวกประจำ มีบางคนที่คิดว่าพวกเขาไม่ได้ใช้นักบวชและด้วยเหตุนี้พวกเขาคิดว่าพวกเขาเป็นประจำ นี่คือตรรกะที่อันตราย สิ่งนี้ไม่เกี่ยวกับนักบวช (นักบวชเหมือนกันหรือไม่เหมือนกัน) ความแตกต่างที่แท้จริงนั้นลึกซึ้งยิ่งกว่า

(ฉันไม่เป็นทางการในแผนกสถิติพื้นหลังของฉันคือคณิตศาสตร์และวิทยาการคอมพิวเตอร์ฉันกำลังเขียนเพราะความยากลำบากที่ฉันได้พยายามอภิปรายเรื่องนี้ 'อภิปราย' กับคนอื่นที่ไม่ใช่นักสถิติและแม้กระทั่งในช่วงต้นอาชีพ สถิติ.)

MLE เป็นวิธีการแบบเบย์ บางคนจะพูดว่า "ฉันเป็นประจำเพราะฉันใช้ MLE เพื่อประเมินพารามิเตอร์ของฉัน" ฉันเคยเห็นสิ่งนี้ในวรรณคดีที่ผ่านการตรวจสอบโดยเพื่อน นี่เป็นเรื่องไร้สาระและมีพื้นฐานมาจากตำนานนี้ (ยังไม่ได้กล่าวถึง แต่บอกเป็นนัย ๆ ) ว่าผู้ที่ใช้บ่อยเป็นผู้ใช้เครื่องแบบมาก่อนแทนที่จะเป็นเครื่องแบบที่ไม่ได้ใส่มาก่อน)

ลองวาดตัวเลขหนึ่งตัวจากการแจกแจงแบบปกติด้วยค่าเฉลี่ยที่รู้จักและความแปรปรวนที่ไม่รู้จัก โทรแปรปรวนนี้\μ=0θ

XN(μ=0,σ2=θ)

พิจารณาฟังก์ชันความน่าจะเป็น ฟังก์ชั่นนี้มีสองพารามิเตอร์และและผลตอบแทนที่น่าจะได้รับของxxθθx

f(x,θ)=Pσ2=θ(X=x)=12πθex22θ

คุณสามารถจินตนาการการพล็อตเรื่องนี้ในแผนที่ความร้อนโดยมีบนแกน x และบนแกน y และใช้สี (หรือแกน z) นี่คือพล็อตที่มีเส้นชั้นความสูงและสีxθ

แผนที่ความร้อน

ก่อนสังเกตสองสาม หากคุณแก้ไขค่าเพียงค่าเดียวคุณสามารถนำส่วนแนวนอนที่สอดคล้องกันมาใช้ในแผนผังความร้อน ชิ้นนี้จะให้รูปแบบไฟล์ PDF สำหรับค่าที่\เห็นได้ชัดว่าพื้นที่ใต้เส้นโค้งในชิ้นส่วนนั้นจะเป็น 1 ในทางกลับกันหากคุณกำหนดค่าหนึ่งค่าเป็นแล้วดูที่ชิ้นส่วนแนวตั้งที่สอดคล้องกันดังนั้นจึงไม่มีการรับประกันดังกล่าวเกี่ยวกับพื้นที่ใต้เส้นโค้ง .θθx

ความแตกต่างระหว่างชิ้นนอนและแนวตั้งนี้เป็นสิ่งสำคัญและผมพบว่าการเปรียบเทียบนี้ช่วยให้ผมเข้าใจวิธีการ frequentist ที่จะมีอคติ

เบส์เป็นคนที่พูดว่า

สำหรับค่าของ x ซึ่งค่าของให้ 'สูงพอ' ค่าของ ?θf(x,θ)

อีกทางหนึ่งเบย์อาจรวมถึงก่อนหน้าแต่พวกเขายังคงพูดถึงg(θ)

สำหรับค่าของ x ซึ่งค่าของให้ค่าสูงพอของ ?f ( x , θ ) g ( θ )θf(x,θ)g(θ)

ดังนั้น Bayesian จะแก้ไข x และดูที่ชิ้นส่วนแนวตั้งที่สอดคล้องกันในโครงร่างของเส้นนั้น ในส่วนนี้พื้นที่ใต้เส้นโค้งไม่จำเป็นต้องเป็น 1 (ดังที่ฉันพูดไปก่อนหน้านี้) Bayesian 95% ช่วงเวลาที่น่าเชื่อถือ (CI) คือช่วงเวลาซึ่งมี 95% ของพื้นที่ที่มี ตัวอย่างเช่นหากพื้นที่เป็น 2 พื้นที่ที่อยู่ภายใต้ Bayesian CI ต้องเป็น 1.9

ในทางกลับกันผู้ใช้บ่อยจะไม่สนใจ x และก่อนอื่นให้พิจารณาแก้ไขและจะถามว่า:θ

สำหรับสิ่งนี้ค่าใดของ x ที่จะปรากฏบ่อยที่สุด?θ

ในตัวอย่างนี้ด้วยหนึ่งคำตอบสำหรับคำถามที่พบบ่อยนี้คือ: "สำหรับ 95% ของจะปรากฏขึ้นระหว่างและ "θ x - 3 N(μ=0,σ2=θ)θx +33θ+3θ

ดังนั้น frequentist มีความกังวลมากขึ้นด้วยแนวเส้นที่สอดคล้องกับค่าคงที่ของ\θ

นี่ไม่ใช่วิธีเดียวในการสร้าง CI ที่ใช้บ่อยมันไม่ใช่สิ่งที่ดี (แคบ) แต่ให้อดทนกับฉันสักครู่

วิธีที่ดีที่สุดในการตีความคำว่า 'interval' ไม่ใช่ช่วงเวลาใน 1-d line แต่ให้คิดว่ามันเป็นพื้นที่บนระนาบ 2-d ด้านบน 'interval' เป็นเซตย่อยของระนาบ 2-d ไม่ใช่เส้น 1-d ใด ๆ หากมีคนเสนอ 'ช่วงเวลา' เราต้องทดสอบว่า 'ช่วงเวลา' นั้นถูกต้องที่ระดับความเชื่อมั่น / ความน่าเชื่อถือ 95%

นักความถี่จะตรวจสอบความถูกต้องของ 'ช่วงเวลา' นี้โดยพิจารณาจากการแบ่งแนวนอนแต่ละครั้งและดูที่พื้นที่ใต้เส้นโค้ง อย่างที่ฉันพูดไปก่อนหน้านี้พื้นที่ใต้เส้นโค้งนี้จะเป็นพื้นที่หนึ่งเสมอ ความต้องการที่สำคัญคือพื้นที่ภายใน 'ช่วงเวลา'มีค่าอย่างน้อย 0.95

ชาวเบย์จะตรวจสอบความถูกต้องโดยดูที่ชิ้นส่วนแนวตั้งแทน อีกครั้งพื้นที่ใต้เส้นโค้งจะถูกเปรียบเทียบกับพื้นที่ย่อยที่อยู่ภายใต้ช่วงเวลา หากหลังเป็นอย่างน้อย 95% ของอดีตดังนั้น 'ช่วงเวลา' คือช่วงเวลาที่น่าเชื่อถือ 95% แบบเบย์

ตอนนี้เรารู้วิธีการทดสอบว่าช่วงเวลาใดช่วงหนึ่งเป็น 'ถูกต้อง' คำถามคือเราจะเลือกตัวเลือกที่ดีที่สุดในตัวเลือกที่ถูกต้องได้อย่างไร นี่อาจเป็นงานศิลปะสีดำ แต่โดยทั่วไปคุณต้องการช่วงเวลาที่แคบที่สุด ทั้งสองแนวทางมีแนวโน้มที่จะเห็นด้วยที่นี่ - ชิ้นส่วนแนวตั้งถูกพิจารณาและเป้าหมายคือทำให้ช่วงเวลาแคบที่สุดเท่าที่จะทำได้ภายในแต่ละชิ้นแนวตั้ง

ฉันไม่ได้พยายามกำหนดช่วงความเชื่อมั่นที่เป็นไปได้ที่แคบที่สุดในตัวอย่างข้างต้น ดูความคิดเห็นโดย @cardinal ด้านล่างสำหรับตัวอย่างของช่วงเวลาที่แคบลง เป้าหมายของฉันคือไม่หาช่วงเวลาที่ดีที่สุด แต่เน้นความแตกต่างระหว่างชิ้นส่วนแนวนอนและแนวตั้งในการพิจารณาความถูกต้อง ช่วงเวลาที่เป็นไปตามเงื่อนไขของช่วงความเชื่อมั่นที่พบบ่อย 95% จะไม่เป็นไปตามเงื่อนไขของช่วงเวลาที่น่าเชื่อถือ 95% ของเบย์และในทางกลับกัน

ทั้งสองวิธีต้องการช่วงเวลาที่แคบนั่นคือเมื่อพิจารณาชิ้นส่วนแนวตั้งหนึ่งชุดเราต้องการสร้างช่วงเวลา (1-d) ในชิ้นนั้นให้แคบที่สุดเท่าที่จะทำได้ ความแตกต่างคือวิธีการบังคับใช้ 95% - ผู้ใช้บ่อยจะดูเฉพาะช่วงเวลาที่เสนอซึ่ง 95% ของพื้นที่ฝานแนวนอนแต่ละแห่งอยู่ภายใต้ช่วงเวลาในขณะที่ Bayesian จะยืนยันว่าแต่ละส่วนแนวตั้งนั้นเป็น 95% ของพื้นที่นั้น ภายใต้ช่วงเวลา

นักสถิติที่ไม่เข้าใจหลายคนไม่เข้าใจสิ่งนี้และพวกเขามุ่งเน้นไปที่ชิ้นส่วนแนวตั้งเท่านั้น สิ่งนี้ทำให้พวกเขาเป็นชาวเบย์แม้ว่าพวกเขาจะคิดเป็นอย่างอื่น


3
(-1) ฉันเชื่อว่าโพสต์นี้แสดงให้เห็นถึงความเข้าใจผิดบางประการในหลายประเด็น มันยากที่จะรู้ว่าจะเริ่มจากตรงไหน
พระคาร์ดินัล

1
มาพูดถึงที่อยู่ที่ปรากฏเป็นส่วนใหญ่ของโพสต์นี้ ในตัวอย่างที่กำหนดและดังนั้นจึงเป็นปริมาณการพิจาณาขึ้นอยู่กับสถิติเพียงพอที่สมบูรณ์แบบสำหรับ\ผู้ CIเป็นสิ่งที่สนองสม่ำเสมอในและความเข้าใจที่เป็นไปได้ทั้งหมดของXเนื่องจากคุณสมบัติดังกล่าวของมันเป็นผู้สมัครตามธรรมชาติที่ฐาน CI (ต่อ) θX2/θχ12θ(θ^,θ^u)P(θ(θ^,θ^u))=1α θXX2/θ
สำคัญ

1
(ต่อ.) หนึ่งในทางเลือกที่เป็นที่หมายถึง TH quantile ของกระจาย ผู้ที่ใช้บ่อยจะใช้แทนถูกต้องเท่ากันเนื่องจากมันแคบลงและสร้างได้ง่าย อย่างไรก็ตามช่วงหลังนี้ไม่ได้เป็นช่วงเวลาที่สั้นที่สุดซึ่งสามารถพบได้โดยขั้นตอนการคำนวณอย่างง่าย โดยสรุปหลักฐานหลักของการโต้แย้งในคำตอบนั้นดูเหมือนจะพลาดประเด็นไปอย่างสิ้นเชิง [X2/q1α,)qbbχ12[X2/q1α/2,X2/qα/2]
พระคาร์ดินัล

สวัสดี @ cardinal ฉันเข้าใจคะแนนของคุณในความคิดเห็นสองรายการสุดท้ายของคุณ ในความเป็นจริงฉันคิดว่าคะแนนของคุณสอดคล้องกับสิ่งที่ฉันได้กล่าวไว้ :-) ตกลงมีหลายวิธีในการสร้างช่วงความมั่นใจเป็นประจำ คุณยอมรับวิธีที่ฉันอธิบายไว้ถูกต้อง และคุณ (สมเหตุสมผล) ชี้ให้เห็นว่าวิธีการของฉันไม่ใช่วิธีที่แคบที่สุด ฉันคิดว่าความคิดเห็นแรกของคุณไม่ได้มีประโยชน์มาก
Aaron McDaid

2
@ cardinal ในความคิดที่สองฉันยอมรับว่าจุดจบของคำตอบของฉันไม่เป็นประโยชน์และเป็นความผิดโดยทั่วไปฉันจะจัดระเบียบขึ้น มันเบี่ยงเบนความสนใจจากประเด็นหลักของฉันซึ่งก็คือหลายคนที่อยู่นอกแผนกสถิติที่มีความคิดเห็นดีเกี่ยวกับเรื่องนี้ไม่ได้ชื่นชมความแตกต่างพื้นฐานระหว่างสองแนวทาง: ทั้งสองแนวทางมีพื้นที่ที่ดีภายใต้เส้นโค้ง (อย่างน้อย 95%) ) แต่ความแตกต่างคือว่าจะใช้แนวนอน (Frequentist) หรือแนวตั้ง (Bayesian) ผ่านแผนที่ความร้อน ฉันอยู่ตรงนี้และคุ้มค่าไหมที่จะทำประเด็นนี้ที่นี่?
Aaron McDaid
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.