เมื่อใดวิธีการแบบเบย์จึงเป็นที่นิยมสำหรับผู้นิยมใช้บ่อย


18

ฉันต้องการเรียนรู้เกี่ยวกับเทคนิคแบบเบย์ดังนั้นฉันจึงพยายามสอนตัวเองเล็กน้อย อย่างไรก็ตามฉันมีช่วงเวลาที่ยากลำบากในการดูเมื่อใช้เทคนิคแบบเบย์ที่เคยได้รับประโยชน์มากกว่าวิธีการแบบใช้บ่อย ตัวอย่างเช่น: ฉันเคยเห็นในงานวรรณกรรมมาบ้างเกี่ยวกับวิธีที่บางคนใช้นักบวชที่ให้ข้อมูลในขณะที่คนอื่นใช้วิธีที่ไม่ให้ข้อมูลมาก่อน แต่ถ้าคุณใช้แบบไม่ให้ข้อมูลมาก่อน (ซึ่งดูเหมือนว่าเป็นเรื่องธรรมดาจริง ๆ ?) และคุณพบว่าการแจกแจงแบบหลังนั้นคือการแจกแจงแบบเบต้า ... คุณจะไม่พอดีกับการแจกแจงแบบเบต้าในตอนแรกและเรียกว่า มันดี? ฉันไม่เห็นวิธีการสร้างการกระจายก่อนหน้านี้ที่บอกอะไรคุณไม่ได้ ... สามารถบอกอะไรคุณได้จริงเหรอ?

มันกลับกลายเป็นว่าวิธีการบางอย่างที่ฉันใช้ใน R ใช้วิธีผสมระหว่างแบบเบย์และแบบผู้ใช้ประจำ (ผู้เขียนยอมรับว่านี่ค่อนข้างไม่สอดคล้องกัน) และฉันไม่สามารถแยกแยะว่าส่วนใดเป็นแบบเบส์ นอกเหนือจากการกระจายตัวที่เหมาะสมฉันไม่สามารถเข้าใจวิธีที่คุณจะใช้วิธีการแบบเบย์ มี "การถดถอยแบบเบย์" หรือไม่? มันจะมีหน้าตาเป็นอย่างไร? ทั้งหมดที่ฉันจินตนาการได้คือการเดาว่ามีการแจกแจงพื้นฐานซ้ำแล้วซ้ำอีกในขณะที่นักคิดประจำคิดเกี่ยวกับข้อมูลบางอย่างมองมันเห็นการกระจายของปัวซองและเรียกใช้ GLM (นี่ไม่ใช่คำวิจารณ์ ... ฉันแค่ไม่เข้าใจจริงๆ!)

ดังนั้น .. บางทีตัวอย่างเบื้องต้นบางอย่างอาจช่วยได้? และถ้าคุณรู้ถึงการอ้างอิงที่ใช้ได้จริงสำหรับผู้เริ่มต้นตัวจริงเช่นฉันนั่นก็จะเป็นประโยชน์เช่นกัน!


ซ้ำเป็นไปได้ของเรื่องนี้ ?
Glen_b -Reinstate Monica

เอ่อดูเหมือนว่า? ยินดีต้อนรับสู่การปิดตั้งแต่นั้นมาใกล้กับการตอบคำถามของฉัน ฉันยังคงสงสัยเกี่ยวกับสถานการณ์ที่ง่ายกว่าที่ฉันอธิบาย (เนื่องจากฉันไม่เคยได้ยินเกี่ยวกับเทคนิคที่ระบุไว้ในหัวข้อนั้น) แต่ฉันคิดว่าคำตอบของฉันคือคนไม่ใช้เทคนิคแบบเบส์สำหรับการถดถอย / อื่น ๆ
HFBrowning

2
คนจะใช้เทคนิคแบบเบย์สำหรับการถดถอย แต่เนื่องจากวิธีการที่ใช้บ่อยเป็นวิธีที่สะดวกมากและหลาย ๆ คนใช้วิธีการที่พวกเขาใช้บ่อยคนที่มีความสุขที่จะใช้ก็จะใช้การถดถอยแบบธรรมดาหากไม่ต้องการอะไรที่ซับซ้อนกว่า แต่ทันทีที่คุณต้องจัดการกับความซับซ้อนเพิ่มขึ้นอีกเล็กน้อยหรือรวมข้อมูลก่อนหน้านี้อย่างเป็นทางการหรือด้วยเหตุผลอื่น ๆ จำนวนมากการทำงานเพิ่มเติมเล็กน้อยในวิธีการแบบเบย์เริ่มดูดี
Glen_b -Reinstate Monica

นั่นทำให้รู้สึกขอบคุณ อ่านรอบ ๆ หัวข้ออื่น ๆ ได้ชี้แจงการใช้สำหรับฉันเช่นกัน
HFBrowning

อย่างอื่นที่เกี่ยวข้อง .. สำหรับการถดถอยในการตั้งค่าแบบเบย์ผู้ที่ใช้ค่าสัมประสิทธิ์มากที่สุดสำหรับค่าสัมประสิทธิ์คือ Normal และ Multivariate Laplace การใช้นักบวชเหล่านี้ทำงานเพื่อวางบทลงโทษการหดตัวลงบนสัมประสิทธิ์ทำให้เทียบเท่ากับการใช้สันเขาถดถอยหรือ LASSO ตามลำดับหากมีการประเมินค่า MAP ของสัมประสิทธิ์หลังจากอัลกอริธึมแบบเบส์ มันประหยัดกว่ามากในการคำนวณผลลัพธ์เหล่านี้ในแบบที่ไม่เต็ม Bayesian และถ้าพวกเขาเสมอกัน .. ทำไมต้องรำคาญ

คำตอบ:


11

นี่คือลิงค์บางส่วนที่คุณอาจสนใจเปรียบเทียบวิธีการแบบประจำและแบบเบย์:

โดยสรุปแล้ววิธีการที่ฉันเข้าใจมันเนื่องจากชุดข้อมูลเฉพาะผู้ที่เชื่อว่ามีการแจกแจงพื้นฐานที่แท้จริงซึ่งข้อมูลดังกล่าวถูกสร้างขึ้น การไร้ความสามารถในการรับพารามิเตอร์ที่แน่นอนคือฟังก์ชันของขนาดตัวอย่างที่ จำกัด ในทางตรงกันข้าม Bayesian คิดว่าเราเริ่มต้นด้วยการสันนิษฐานเกี่ยวกับพารามิเตอร์ (แม้ว่าจะไม่รู้) และใช้ข้อมูลเพื่อปรับแต่งความคิดเห็นเกี่ยวกับพารามิเตอร์เหล่านั้น ทั้งคู่พยายามพัฒนาแบบจำลองที่สามารถอธิบายการสังเกตและทำการทำนายได้ ความแตกต่างอยู่ในสมมติฐาน (ทั้งจริงและปรัชญา) ในฐานะที่เป็นสาระสำคัญไม่เข้มงวดคำสั่งหนึ่งสามารถพูดได้บ่อยครั้งเชื่อว่าพารามิเตอร์ได้รับการแก้ไขและข้อมูลที่เป็นแบบสุ่ม; Bayesian เชื่อว่าข้อมูลได้รับการแก้ไขและพารามิเตอร์เป็นแบบสุ่ม ไหนดีกว่าหรือดีกว่า เพื่อตอบว่าคุณต้องขุดและตระหนักเพียงสมมติฐานแต่ละข้อมีสิ่งใดบ้าง (เช่นพารามิเตอร์ปกติเชิงเส้นกำกับ?)


2
คำตอบที่ดีและน่าสนใจมากมาย แต่นี่ตอบคำถามของฉันโดยตรงมากที่สุด ขอบคุณ
HFBrowning

@Avraham ลิงก์แรกใช้งานไม่ได้
Erik Hambardzumyan

1
@ErikHambardzumyan ขอบคุณ พบรุ่นที่บันทึกไว้ในเครื่อง wayback
Avraham

10

หนึ่งในแง่มุมที่น่าสนใจของความแตกต่างระหว่างสองวิธีคือมันยากมากที่จะมีการตีความอย่างเป็นทางการสำหรับปริมาณมากที่เราได้รับในโดเมนที่ใช้บ่อย ตัวอย่างหนึ่งคือความสำคัญที่เพิ่มมากขึ้นของวิธีการลงโทษ (การหดตัว) เมื่อมีใครได้รับการประเมินความเป็นไปได้สูงสุดที่ถูกลงโทษการประเมินจุดที่มีอคติและ "ช่วงความเชื่อมั่น" นั้นยากต่อการตีความ ในทางกลับกันการกระจายตัวหลังของ Bayesian สำหรับพารามิเตอร์ที่ถูกปรับไปทางศูนย์โดยใช้การแจกแจงก่อนหน้าซึ่งมีความเข้มข้นประมาณศูนย์จะมีการตีความมาตรฐานอย่างสมบูรณ์


1
นี่เป็นจุดที่ดี ฉันสงสัยว่ามันเป็นความจริงเป็นหลักเมื่อแลมบ์ดาถูกเลือกมาก่อน บ่อยครั้งที่หนึ่งอาจเลือกแลมบ์ดาโดยใช้การตรวจสอบข้ามเพื่อเพิ่มประสิทธิภาพข้อผิดพลาดการทำนายตัวอย่าง ในกรณีนี้มันกระทบฉันอย่างประหลาดที่จะบอกว่าแลมบ์ดานั้นเทียบเท่ากับ 'ข้อมูลก่อนหน้า' ที่คุณนำมาวิเคราะห์
gung - Reinstate Monica

1
ถ้าการลงโทษนั้นเป็นกำลังสองนี่เท่ากับ Gaussian ก่อนด้วยค่าเฉลี่ยศูนย์และฉันเชื่อ λ=σ-2. [อย่าใช้ข้อผิดพลาดในการทำนายเพื่อปรับให้เหมาะสม; ใช้ความน่าจะเป็นบันทึกการลงทัณฑ์หรือ AIC ที่มีประสิทธิภาพ] ผู้ใช้บ่อยมักไม่รู้วิธีการบัญชีสำหรับความไม่แน่นอนλ.
Frank Harrell

3
ฉันจะบอกว่าแลมบ์ดาเป็นพารามิเตอร์แบบไฮเปอร์ของรุ่นก่อนหน้า (ซึ่งเป็นแบบเบย์มากขึ้นคุณอาจมีไฮเปอร์ก่อนหน้าและลดความสำคัญมากกว่านั้นได้เช่นกันjmlr.org/papers/volume8/cawley07a/cawley07a.pdf )
Dikran Marsupial

5

ฉันกำลังขโมยขายส่งจากกลุ่มผู้ใช้สแตน Michael Betancourt ได้ให้การสนทนาที่ดีเกี่ยวกับการระบุตัวตนในการอนุมานแบบเบย์ซึ่งผมเชื่อว่าการร้องขอของคุณนั้นแตกต่างจากโรงเรียนสถิติสองแห่ง

ความแตกต่างแรกกับการวิเคราะห์แบบเบย์คือการปรากฏตัวของนักบวชซึ่งแม้จะอ่อนแอก็จะ จำกัด มวลหลังสำหรับพารามิเตอร์ทั้ง 4 เหล่านั้นไว้ในพื้นที่ จำกัด (ไม่เช่นนั้นคุณจะไม่ถูกต้องก่อน อย่างไรก็ตามเรื่องนี้คุณยังสามารถมีความสามารถในการระบุตัวตนที่ไม่สามารถระบุตัวตนได้ในแง่ที่ว่าคนหลังจะไม่มาบรรจบกันเป็นมวลจุดในขีด จำกัด ของข้อมูลที่ไม่มีที่สิ้นสุด ในความเป็นจริงอย่างมากอย่างไรก็ตามนั่นไม่สำคัญเพราะ (a) ขีด จำกัด ของข้อมูลที่ไม่สิ้นสุดนั้นไม่ได้เกิดขึ้นจริงและ (b) การอนุมานแบบเบย์ไม่ได้รายงานการประมาณจุด แต่เป็นการกระจายค่อนข้างมาก ในทางปฏิบัติการไม่สามารถระบุตัวตนได้นั้นจะส่งผลให้เกิดความสัมพันธ์อย่างมากระหว่างพารามิเตอร์ (อาจไม่ใช่แบบนูน) แต่การวิเคราะห์แบบเบย์ที่เหมาะสมจะระบุความสัมพันธ์เหล่านั้น แม้ว่าคุณจะรายงานระยะขอบพารามิเตอร์เดียวคุณก็ตาม

ตัวอย่างง่ายๆ: พิจารณาโมเดลที่มีพารามิเตอร์ μ1 และ μ2 ด้วยความเป็นไปได้ ยังไม่มีข้อความ(x|μ1+μ2,σ). ไม่ว่าคุณจะเก็บรวบรวมข้อมูลไปได้มากแค่ไหนโอกาสที่จะไม่ได้มาบรรจบกันที่จุดใดจุดหนึ่งμ1+μ2=0. ความแปรปรวนแบบมีเงื่อนไขของμ1 และ μ2 ณ จุดใด ๆ บนบรรทัดนั้นจะมีขนาดเล็กมากแม้ว่าจะไม่สามารถระบุพารามิเตอร์ได้

นักบวชชาวเบย์ จำกัด การกระจายด้านหลังจากบรรทัดนั้นไปสู่การกระจายแบบยาวของซิการ์ ไม่ง่ายที่จะตัวอย่างจาก แต่อย่างน้อยกะทัดรัด การวิเคราะห์แบบเบย์ที่ดีจะสำรวจความสมบูรณ์ของซิการ์นั้นไม่ว่าจะเป็นการระบุความสัมพันธ์ระหว่างμ1 และ μ2 หรือคืนค่าความแปรปรวนที่สอดคล้องกับประมาณการของซิการ์ยาวเข้าสู่ μ1 หรือ μ2 แกนซึ่งให้การสรุปความไม่แน่นอนในพารามิเตอร์ได้อย่างซื่อสัตย์มากกว่าความแปรปรวนแบบมีเงื่อนไข


3

ความแตกต่างที่สำคัญระหว่าง Bayesian และแนวทางแบบประจำคือความหมายของความน่าจะเป็นดังนั้นหากจำเป็นต้องปฏิบัติความน่าจะเป็นอย่างเข้มงวดในฐานะความถี่ระยะยาวแนวทางแบบผู้ใช้บ่อยนั้นสมเหตุสมผลถ้าไม่ใช่คุณควรใช้วิธีแบบเบย์ หากการตีความใด ๆ เป็นที่ยอมรับก็เป็นไปได้ว่าชาวเบย์

Another way of putting it, is if you want to know what inferences you can draw from a particular experiment, you probably want to be Bayesian; if you want to draw conclusions about some population of experiments (e.g. quality control) then frequentist methods are well suited.

Essentially, the important thing is to know what question you want answered, and choose the form of analysis that answers the question most directly.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.