ทำไมบางคนจะใช้วิธีการแบบเบย์กับวิธีการที่ 'ไม่เป็นทางการ' ก่อนหน้าแทนที่จะเป็นวิธีแบบดั้งเดิม?


44

หากความสนใจเป็นเพียงการประมาณค่าพารามิเตอร์ของแบบจำลอง (การประมาณค่าแบบจุดและ / หรือช่วงเวลา) และข้อมูลก่อนหน้านี้ไม่น่าเชื่อถืออ่อนแอ (ฉันรู้ว่านี่เป็นบิตที่คลุมเครือ แต่ฉันพยายามสร้างสถานการณ์ที่เลือก ก่อนหน้านี้เป็นเรื่องยาก) ... ทำไมบางคนเลือกที่จะใช้วิธีการแบบเบย์กับนักบวชที่ไม่เหมาะสมแทนที่จะเป็นแบบดั้งเดิม


1
ขอบคุณทุกท่านสำหรับความคิดที่น่าสนใจเกี่ยวกับส่วนที่ขัดแย้งนี้ของสถิติแบบเบย์ ฉันอ่านและเปรียบเทียบคะแนนของคุณแล้ว มีข้อโต้แย้งที่น่าสนใจที่ตรวจสอบการใช้งานในแง่ของกฎอย่างเป็นทางการการปฏิบัติจริงและการตีความ ฉันจะเลือกคำตอบในบางจุด แต่ฉันกลัวว่านี่จะเป็นงานที่ยากมาก

คำตอบ:


24

สองเหตุผลหนึ่งอาจเป็นไปได้ด้วยวิธีการแบบเบย์แม้ว่าคุณจะใช้นักบวชที่ไม่มีข้อมูลสูงก็ตาม:

  • ปัญหาการลู่เข้า มีการแจกแจงบางส่วน (ทวินาม, ทวินามลบและแกมม่าทั่วไปคือสิ่งที่ฉันคุ้นเคยมากที่สุด) ที่มีการลู่เข้าหากันในเวลาที่ไม่สำคัญ คุณสามารถใช้เฟรมเวิร์ก "Bayesian" - และวิธีการเฉพาะของมาร์คอฟเชนมอนติคาร์โล (MCMC) เพื่อที่จะไถลผ่านปัญหาการลู่เข้าด้วยกันเหล่านี้ด้วยพลังการคำนวณและรับการประมาณการที่เหมาะสมจากพวกเขา
  • การตีความ. การประมาณแบบเบย์ + ช่วงเวลาที่น่าเชื่อถือ 95% มีการตีความที่เข้าใจง่ายกว่าการประมาณความถี่แบบปกติ + 95% ช่วงความเชื่อมั่นดังนั้นบางคนอาจต้องการรายงานเพียงอย่างเดียว

3
MCMC ไม่ใช่วิธีเบย์จริงๆ คุณสามารถวาดประมาณการจากความเป็นไปได้เป้าหมายของคุณ (ไม่ใช่ด้านหลัง) หากการบรรจบกันเป็นปัญหา
scottyaz

16

แม้ว่าผลลัพธ์จะใกล้เคียงกันมาก แต่การตีความของพวกเขาต่างกัน

ช่วงความเชื่อมั่นแสดงถึงความคิดในการทำซ้ำการทดสอบหลายครั้งและสามารถจับพารามิเตอร์ที่แท้จริง 95% ของเวลา แต่คุณไม่สามารถบอกได้ว่าคุณมีโอกาส 95% ในการจับมัน

ในทางตรงกันข้ามช่วงเวลาที่น่าเชื่อถือ (Bayesian) ช่วยให้คุณสามารถบอกได้ว่ามี "โอกาส" 95% ที่ช่วงเวลาจะจับมูลค่าที่แท้จริง อัปเดต: วิธีการแบบเบย์อีกวิธีหนึ่งก็คือคุณสามารถมั่นใจได้ 95% เกี่ยวกับผลลัพธ์ของคุณ

นี่เป็นเพียงเพราะคุณเปลี่ยนจากเป็นโดยใช้กฎของ BayeP(Data|Hypothesis)P(Hypothesis|Data)


1
ฉันอาจจะสับสนที่นี่ แต่ "คุณค่าที่แท้จริง" เข้ากับกรอบการทำงานแบบเบย์ได้อย่างไร? บางทีคุณกำลังอ้างถึงโหมดหลัง (หรือหมายถึงหรือ .. ฯลฯ )?
มาโคร

ฉันหมายถึงพารามิเตอร์อะไรก็ตาม (ค่าประชากร) ที่คุณประมาณด้วยคุณเป็นสถิติตัวอย่างไม่ว่าจะเป็นค่าเฉลี่ยความแตกต่างเฉลี่ยความชันการถดถอย ... โดยสังเขปสิ่งที่คุณตามมา
Dominic Comtois

1
ใช่ แต่ไม่ใช่ "ค่าจริง" ระบุว่าพารามิเตอร์นั้นเป็นค่าคงที่ (เช่นการกระจายของมันคือมวลจุด)? แนวคิดทั้งหมดของการดูการกระจายตัวหลังดูเหมือนจะไม่เห็นด้วยกับการคิดถึงพารามิเตอร์ในวิธีนั้น
มาโคร

9

ฉันเชื่อว่าเหตุผลหนึ่งที่ต้องทำคือการวิเคราะห์แบบเบย์ช่วยให้คุณมีการแจกแจงแบบเต็มหลัง ซึ่งจะส่งผลในช่วงเวลาที่มีรายละเอียดมากขึ้นกว่าปกติ frequentist\ การเสนอราคาที่เกี่ยวข้องจาก Reis และ Stedinger 2005 คือ:±2σ

การให้การกระจายพารามิเตอร์แบบหลังเต็มรูปแบบเป็นข้อได้เปรียบของวิธีการแบบเบส์ classical โอเวอร์คลาสสิกวิธีซึ่งมักจะให้เพียงประมาณจุดของพารามิเตอร์ที่แสดงโดยโหมดของฟังก์ชั่นความน่าจะเป็น ของฟังก์ชั่นบันทึกความน่าจะเป็นเพื่ออธิบายความไม่แน่นอน ด้วยกรอบการทำงานแบบเบย์ใคร ๆ ก็ไม่จำเป็นต้องใช้การประมาณใด ๆ เพื่อประเมินความไม่แน่นอนเพราะการแจกแจงแบบเต็มหลังของพารามิเตอร์นั้นมีอยู่ นอกจากนี้การวิเคราะห์แบบเบย์สามารถให้ช่วงเวลาที่น่าเชื่อถือสำหรับพารามิเตอร์หรือฟังก์ชันใด ๆ ของพารามิเตอร์ที่ตีความได้ง่ายกว่าแนวคิดช่วงความเชื่อมั่นในสถิติแบบดั้งเดิม (Congdon, 2001)

ตัวอย่างเช่นคุณสามารถคำนวณช่วงเวลาที่น่าเชื่อถือสำหรับความแตกต่างระหว่างสองพารามิเตอร์


6

เซอร์ฮาโรลด์เจฟฟรีย์เป็นผู้สนับสนุนที่แข็งแกร่งของวิธีการแบบเบย์ เขาแสดงให้เห็นว่าถ้าคุณใช้นักบวชที่ไม่เหมาะสมนักการอนุมานแบบเบย์ที่ได้นั้นจะเหมือนกับวิธีการอนุมานแบบทวีคูณบ่อยครั้ง Bayesians ส่วนใหญ่สนับสนุนนักบวชที่ให้ข้อมูลที่เหมาะสม มีปัญหากับนักบวชที่ไม่เหมาะสมและบางคนอาจโต้แย้งว่าไม่มีผู้ให้ข้อมูลมาก่อน ฉันคิดว่าชาว Bayesians ที่ใช้ Jeffreys 'ก่อนหน้านี้ทำมันเป็นสาวกของ Jeffreys เดนนิสลินด์ลีย์หนึ่งในผู้สนับสนุนที่แข็งแกร่งที่สุดของวิธีการแบบเบย์มีความเคารพนับถืออย่างมากสำหรับเจฟฟรีย์ แต่ก็สนับสนุนนักบวชที่ให้ข้อมูล


1
+1 สำหรับคำตอบแรกของคุณ ในความคิดของฉันเหตุผลที่เลือก Jeffreys ก่อนหน้า "ไม่ใช่ข้อมูล" ไม่ใช่เพียงเป็นผู้ติดตามของ Jeffreys มันเป็นเพราะมันเหมือนไม่มีการตั้งสมมติฐานในขณะที่สิ่งที่เรียกว่าไม่ใช่ข้อมูลก่อนหน้านี้คือการทำให้สมมติฐานเกี่ยวกับการ parametrization
Neil G

1
@ NeilG ฉันยังพบว่ามีคนบางคนที่ชอบใช้พวกเขาเป็นหลัก "Fail Frequentist" (ในลักษณะเดียวกับ Fail Safe) เมื่อใช้นักบวชที่ไม่ให้ข้อมูลซึ่งพวกเขาสามารถตีความได้โดยผู้อ่านที่ไร้เดียงสา
Fomite

@EpiGrad: คุณหมายถึงอะไร (ฉันขอโทษความเข้าใจของฉันเกี่ยวกับสถิติที่ใช้บ่อยนั้นแย่มาก)
Neil G

1
@NeilG โดยพื้นฐานแล้วการเอารัดเอาเปรียบที่เจฟฟรีย์ก่อนหน้านี้จะให้สิ่งที่คนที่ฝึกฝนในสาขาบ่อยๆคาดว่าจะเห็น มันเป็นพื้นที่ตรงกลางที่ดีเมื่อทำงานในวิธีการแบบเบย์ที่ไม่ได้แทรกซึมมากนัก
Fomite

@ NeilG ฉันก็ลืมไปเช่นเดียวกับในคำตอบของฉันถ้าคุณใช้ MCMC เพื่อทำการวิเคราะห์เป็นประจำการพูดคุยเกี่ยวกับประเด็นลู่เข้าหากันก่อนหน้านี้เจฟฟรีย์ก็มีประโยชน์เช่นกัน
Fomite

6

วิธีการแบบเบย์มีข้อได้เปรียบในทางปฏิบัติ มันช่วยในการประมาณค่าซึ่งมักถูกบังคับ และช่วยให้ตระกูลแบบจำลองนวนิยายและช่วยในการสร้างแบบจำลองที่ซับซ้อนมากขึ้น (ลำดับชั้น, หลายระดับ)

ตัวอย่างเช่นมีรูปแบบผสม (รวมถึงผลกระทบที่สุ่มที่มีพารามิเตอร์แปรปรวน) หนึ่งได้รับการประมาณการที่ดีกว่าถ้าพารามิเตอร์แปรปรวนประมาณการโดย marginalizing พารามิเตอร์กว่าระดับที่ต่ำกว่า (ค่าสัมประสิทธิ์รูปแบบนี้จะเรียกว่าREML ) วิธีการแบบเบย์ทำตามธรรมชาติ สำหรับโมเดลเหล่านี้แม้จะมี REML การประมาณค่าความน่าจะเป็นสูงสุด (ML) ของพารามิเตอร์ความแปรปรวนมักจะเป็นศูนย์หรือเอนเอียงลง ที่เหมาะสมมาก่อนสำหรับพารามิเตอร์แปรปรวนช่วย

แม้ว่าจะใช้การประมาณค่าจุด ( MAP , สูงสุดหลัง) จะใช้ Priors เปลี่ยนตระกูลของโมเดล การถดถอยเชิงเส้นที่มีชุดของตัวแปร collinear ค่อนข้างใหญ่ไม่เสถียร การทำให้เป็นมาตรฐาน L2 ใช้เป็นวิธีการรักษา แต่สามารถตีความได้ว่าเป็นแบบจำลองแบบเบย์ที่มีแบบเกาส์ (ไม่ใช่ข้อมูล) มาก่อนและการประมาณค่า MAP (การทำให้เป็นมาตรฐาน L1 แตกต่างกันก่อนและให้ผลลัพธ์ที่แตกต่างกันจริง ๆ แล้วที่นี่ก่อนหน้าอาจมีข้อมูลบ้าง แต่เป็นเรื่องเกี่ยวกับคุณสมบัติโดยรวมของพารามิเตอร์ไม่ใช่เกี่ยวกับพารามิเตอร์เดียว)

ดังนั้นจึงมีบางรุ่นทั่วไปและค่อนข้างง่ายที่จำเป็นต้องมีวิธีการแบบเบย์เพียงเพื่อให้ได้สิ่งที่ทำ!

สิ่งต่าง ๆ มีความสอดคล้องกับแบบจำลองที่มีความซับซ้อนมากขึ้นเช่นการจัดสรร Dirichlet (LDA) แฝงที่ใช้ในการเรียนรู้ของเครื่อง และบางรุ่นเป็นอย่างโดยเนื้อแท้คชกรรมเช่นผู้ที่อยู่ตามกระบวนการ Dirichlet


6

เราสามารถโต้เถียงกันตลอดไปเกี่ยวกับรากฐานของการอนุมานเพื่อปกป้องทั้งสองวิธี แต่ขอให้ฉันเสนอบางสิ่งที่แตกต่าง Aเหตุผลที่จะสนับสนุนการวิเคราะห์แบบเบย์มากกว่าแบบดั้งเดิมแสดงให้เห็นอย่างชัดเจนว่าวิธีการทั้งสองวิธีจัดการกับการทำนายอย่างไร สมมติว่าเรามีกรณี iid ตามปกติ คลาสสิกความหนาแน่นของการทำนายถูกกำหนดให้เสียบค่าของการประมาณค่าพารามิเตอร์ลงในความหนาแน่นตามเงื่อนไขtheta) ความหนาแน่นของการทำนายแบบดั้งเดิมนี้ไม่ได้คำนึงถึงความไม่แน่นอนของการประมาณpracticalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^: การประมาณสองจุดที่เท่ากันพร้อมช่วงความเชื่อมั่นที่แตกต่างกันโดยสิ้นเชิงทำให้คุณมีความหนาแน่นในการทำนายเท่ากัน ในทางตรงกันข้ามความหนาแน่นของการทำนายแบบเบย์คำนึงถึงความไม่แน่นอนเกี่ยวกับพารามิเตอร์ที่ได้รับข้อมูลในตัวอย่างของการสังเกตโดยอัตโนมัติเนื่องจาก

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.

6
มันคุ้มค่าที่ชี้ให้เห็นว่าในบริบทของการถดถอยเชิงเส้นที่มีข้อผิดพลาดปกติช่วงเวลาที่ทำนาย frequentist ตามข้อมูลทางสถิติที่สำคัญมากกว่า plug-in ที่ประมาณค่าและมีความเหมือนกันกับช่วงเวลาที่เบส์ภายใต้ไพรเออร์ noninformative ทั่วไป (ร่วมราบกับ s และ ) l o g ( σ 2 )βlog(σ2)
สีฟ้า

เกี่ยวข้องกับความคิดเห็นของ @ Cyan

4

มีสาเหตุหลายประการ:

  1. ในหลาย ๆ สถานการณ์การสร้างสถิติทดสอบหรือช่วงความมั่นใจนั้นค่อนข้างยากเนื่องจากการประมาณปกติ - แม้หลังจากใช้ฟังก์ชั่นลิงค์ที่เหมาะสม - การทำงานกับมักจะทำงานได้ไม่ดีนักสำหรับข้อมูลที่กระจัดกระจาย ด้วยการใช้การอนุมานแบบเบย์กับนักบวชที่ไม่ได้ดำเนินการผ่าน MCMC คุณจะได้รับสิ่งนี้ (สำหรับคำเตือนที่ดูด้านล่าง)±SE
  2. คุณสมบัติตัวอย่างขนาดใหญ่มักจะเหมือนกับวิธีการที่ใช้กันทั่วไป
  3. บ่อยครั้งที่มีความลังเลใจอย่างมากที่จะเห็นด้วยกับนักบวชไม่ว่าเราจะรู้จริงเพียงใดเนื่องจากกลัวว่าจะถูกกล่าวหาว่า“ ไม่เป็นเป้าหมาย” ด้วยการใช้นักบวชที่ไม่รู้เรื่อง (“ ไม่มีนักบวช”) เราสามารถแสร้งว่าไม่มีปัญหาเช่นนี้ซึ่งจะหลีกเลี่ยงการวิจารณ์จากนักวิจารณ์บางคน

ตอนนี้สำหรับข้อเสียของการใช้นักบวชที่ไม่ได้เป็นคนเริ่มต้นด้วยสิ่งที่ฉันคิดว่าสำคัญที่สุดและจากนั้นก็มุ่งสู่ประเด็นทางเทคนิคที่สำคัญเช่นกัน:

  1. การตีความสิ่งที่คุณได้รับนั้นค่อนข้างตรงไปตรงมากเหมือนกับการอนุมานบ่อยๆ คุณไม่สามารถติดฉลากการอนุมานโอกาสสูงสุดประจำของคุณอีกครั้งเนื่องจากการอนุมานแบบ a-posteriori การอนุมานแบบเบย์และอ้างว่าสิ่งนี้ช่วยให้คุณไม่ต้องกังวลเกี่ยวกับการเปรียบเทียบหลาย ๆ ครั้งดูข้อมูลหลายรายการและให้คุณตีความงบทั้งหมดในแง่ของความน่าจะเป็น เป็นความจริง. แน่นอนว่าข้อผิดพลาดประเภทที่ 1 และต่อ ๆ ไปเป็นแนวคิดที่ใช้กันบ่อย แต่เราควรเป็นนักวิทยาศาสตร์ที่ให้ความสำคัญกับการอ้างสิทธิ์ที่ผิดพลาดและเรารู้ว่าการทำตามข้างต้นเป็นสาเหตุของปัญหา ปัญหาเหล่านี้จำนวนมากหายไป (หรืออย่างน้อยก็มีปัญหาน้อยกว่า) ถ้าคุณฝังสิ่งต่าง ๆ ลงในแบบจำลองลำดับชั้น / ทำบางสิ่งบางอย่างเชิงประจักษ์เบย์ แต่โดยปกติแล้วจะลดลงเพื่อสร้างนักบวชโดยปริยายผ่านขั้นตอนการวิเคราะห์โดยรวมถึงพื้นฐานสำหรับรุ่นก่อนหน้าของคุณในรูปแบบของคุณ (และอีกทางเลือกหนึ่งคือ การพิจารณาเหล่านี้มักถูกเพิกเฉยในความเห็นของฉันส่วนใหญ่จะทำการ Bayesian p-hacking (เช่นแนะนำ multiplicity แต่ไม่สนใจ) ด้วยรูปใบของข้อแก้ตัวที่ว่านี้จะไม่มีปัญหาเมื่อคุณใช้วิธี Bayesian (ไม่ใช้เงื่อนไขทั้งหมดที่จะ ต้องทำให้สำเร็จ)
  2. ในอีกด้านหนึ่ง "ด้านเทคนิค" นักบวชที่ไม่ชำนาญนั้นมีปัญหาเพราะคุณไม่ได้รับประกันว่าจะเป็นคนหลังที่เหมาะสม หลายคนติดตั้งโมเดลของ Bayesian พร้อมกับนักบวชที่ไม่รู้เรื่องและไม่รู้ว่าตัวหลังนั้นไม่เหมาะสม เป็นผลให้ตัวอย่าง MCMC ถูกสร้างขึ้นโดยไม่มีความหมาย

จุดสุดท้ายคือการโต้แย้งเพื่อเลือกนักบวชที่ค่อนข้างคลุมเครือ เป็นที่ยอมรับว่าบางครั้งก็ยากที่จะรับตัวอย่างจากสิ่งเหล่านี้เช่นกันและอาจเป็นเรื่องยากที่จะสังเกตว่าหลังทั้งหมดไม่ได้รับการสำรวจ อย่างไรก็ตามวิธีการแบบเบย์พร้อมกับนักบวชที่คลุมเครือ (แต่เหมาะสม) มีอยู่ในหลายสาขาที่แสดงให้เห็นว่ามีคุณสมบัติตัวอย่างขนาดเล็กที่ดีจริง ๆ จากมุมมองของนักเล่นแร่แปรธาตุและแน่นอนคุณอาจเห็นว่า ความแตกต่างกับวิธีการต่าง ๆ กับนักบวชที่ไม่รู้ตัว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.