การเชื่อมต่อระหว่างสถิติแบบเบย์และแบบจำลองกำเนิด


15

ใครสามารถแนะนำฉันอ้างอิงที่ดีที่อธิบายการเชื่อมต่อระหว่างสถิติแบบเบย์และเทคนิคการสร้างแบบจำลองกำเนิด? ทำไมเรามักจะใช้แบบจำลองกำเนิดกับเทคนิคแบบเบย์?

ทำไมมันจึงเป็นเรื่องน่าสนใจเป็นพิเศษที่จะใช้สถิติแบบเบย์ในกรณีที่ไม่มีข้อมูลที่สมบูรณ์ถ้าเลย?

โปรดทราบว่าฉันมาจากมุมมองการเรียนรู้ของเครื่องมากขึ้นและฉันสนใจที่จะอ่านเพิ่มเติมเกี่ยวกับมันจากชุมชนสถิติ

การอ้างอิงที่ดีที่กล่าวถึงประเด็นเหล่านี้จะได้รับการชื่นชมอย่างมาก ขอบคุณ


ฉันได้รับการสำรวจเกี่ยวกับความแตกต่างพื้นฐานระหว่างโหมดการปรับตัวและการกำเนิดการเปลี่ยนแปลง ดูเหมือนว่า Bayesian นั้นเหมาะสมกับแบบจำลองทางสถิติเพื่อศึกษาการปรับตัว แต่ไม่ได้กำเนิด จำเป็นต้องมาถึงข้อสรุปนี้อย่างมั่นใจมากขึ้น

1
สวัสดี Srinidhi ยินดีต้อนรับสู่เว็บไซต์ นี่คือคำถามและคำตอบไซต์ คุณช่วยกรุณากำหนดความคิดเห็นของคุณใหม่เป็นคำถามได้หรือไม่ ยิ่งคำถามมีความเฉพาะเจาะจงมากเท่าใดก็ยิ่งมีโอกาสมากขึ้นเท่านั้นที่จะได้รับคำตอบที่เป็นประโยชน์
naught101

คำตอบ:


12

ในการเรียนรู้เครื่องจักรแบบเต็มความน่าจะเป็นแบบ p (x, y) เรียกว่า generative เพราะมันสามารถใช้ในการสร้างข้อมูลในขณะที่แบบจำลองเงื่อนไข p (y | x) เรียกว่า discriminative เพราะมันไม่ได้ระบุแบบจำลองความน่าจะเป็นสำหรับ p (x ) และสามารถสร้าง y ที่ให้ x เท่านั้น ทั้งสองสามารถประมาณในแบบเบย์

การประมาณแบบเบย์นั้นโดยเนื้อแท้เกี่ยวกับการระบุแบบจำลองความน่าจะเป็นแบบเต็มและทำการอนุมานเงื่อนไขตามแบบจำลองและข้อมูล นั่นทำให้โมเดลเบย์หลายคนมีความรู้สึกกำเนิด อย่างไรก็ตามสำหรับชาวเบย์ความแตกต่างที่สำคัญไม่มากนักเกี่ยวกับวิธีการสร้างข้อมูล แต่เพิ่มเติมเกี่ยวกับสิ่งที่จำเป็นเพื่อให้ได้การกระจายหลังของพารามิเตอร์ที่น่าสนใจที่ไม่รู้จัก

discriminative model p (y | x) เป็นส่วนหนึ่งของแบบจำลองขนาดใหญ่ที่ p (y, x) = p (y | x) p (x) ในหลาย ๆ กรณี p (x) ไม่เกี่ยวข้องกับการกระจายหลังของพารามิเตอร์ในโมเดล p (y | x) โดยเฉพาะถ้าพารามิเตอร์ของ p (x) แตกต่างจาก p (y | x) และ priors เป็นอิสระจากนั้นโมเดล p (x) ไม่มีข้อมูลเกี่ยวกับพารามิเตอร์ที่ไม่รู้จักของโมเดลเงื่อนไข p (y | x) ดังนั้น Bayesian จึงไม่จำเป็นต้องสร้างแบบจำลอง


ในระดับที่เข้าใจง่ายยิ่งขึ้นมีการเชื่อมโยงที่ชัดเจนระหว่าง "การสร้างข้อมูล" และ "การคำนวณการกระจายด้านหลัง" Rubin (1984) ให้คำอธิบายที่ยอดเยี่ยมเกี่ยวกับลิงค์นี้:

ป้อนคำอธิบายรูปภาพที่นี่


สถิติแบบเบย์มีประโยชน์เนื่องจากได้รับข้อมูลที่ขาดหายไปเป็นหลักเนื่องจากเป็นวิธีการที่เป็นเอกภาพในการกำจัดพารามิเตอร์ที่สร้างความรำคาญ - การรวมเข้าด้วยกัน ข้อมูลที่ขาดหายไปสามารถพิจารณาได้ว่าเป็นพารามิเตอร์สร้างความรำคาญ (มาก) ข้อเสนอทางเลือกเช่นการเสียบค่าที่คาดไว้มักจะทำงานได้ไม่ดีนักเนื่องจากเราไม่สามารถประมาณเซลล์ข้อมูลที่ขาดหายไปซึ่งมีความแม่นยำระดับสูง ที่นี่การบูรณาการดีกว่าการทำให้ใหญ่สุด

discriminative model เช่น p (y | x) ก็กลายเป็นปัญหาเช่นกันหาก x มีข้อมูลที่ขาดหายไปเนื่องจากเรามีข้อมูลที่จะประมาณ p (y | x_obs) เท่านั้น แต่โมเดลที่มีเหตุผลส่วนใหญ่เขียนด้วยความเคารพต่อข้อมูลที่สมบูรณ์ p (y | x) หากคุณมีโมเดลความน่าจะเป็นอย่างเต็มที่ p (y, x) และ Bayesian คุณก็สามารถทำได้เพราะคุณสามารถรวมข้อมูลที่ขาดหายไปเช่นเดียวกับปริมาณอื่น ๆ ที่คุณไม่ทราบ


2

@Tristan: หวังว่าคุณจะไม่ตอบ reworking ของฉันในขณะที่ฉันกำลังทำงานเกี่ยวกับวิธีการที่จะทำให้จุดทั่วไปที่โปร่งใสที่สุด

ให้ฉันหลักข้อมูลเชิงลึกในเชิงสถิติคือการกำหนดแนวคิดการสังเกตซ้ำ ๆ ที่แตกต่างกัน - ซึ่งถูกสร้างขึ้นโดยโมเดลการสร้างความน่าจะเป็นเช่น Normal (mu, sigma) ในช่วงต้นของปี 1800 รูปแบบการสร้างความน่าจะเป็นที่ได้รับความบันเทิงมักจะเป็นเพียงข้อผิดพลาดของการวัดกับบทบาทของพารามิเตอร์เช่น mu และ sigma และ priors สำหรับพวกเขาสับสน วิธีการที่ใช้บ่อย ๆ ทำให้พารามิเตอร์ต่างๆเป็นแบบคงที่และไม่เป็นที่รู้จัก วิธีการแบบเบย์ (พร้อมกับนักบวชที่เหมาะสม) มีความเป็นไปได้ในการสร้างแบบจำลองสำหรับพารามิเตอร์ที่ไม่รู้จักที่เป็นไปได้และการสังเกตที่เป็นไปได้ รูปแบบการสร้างความน่าจะเป็นร่วมเหล่านี้ครอบคลุมบัญชีทั้งหมดเพื่อที่จะนำมาซึ่งความไม่รู้ที่เป็นไปได้ (เช่นพารามิเตอร์) และที่รู้จัก (เช่นการสังเกต) ในลิงก์จาก Rubin ที่คุณให้

นี่เป็นภาพที่ชัดเจนมากโดย Galton ในสองขั้นตอน quincunx ในปลายปี 1800 ดูรูปที่ 5> Stigler, Stephen M. 2010 ดาร์วิน, กัลตันและสถิติ

การตรัสรู้ วารสารของสมาคมสถิติ: รุ่น A 173 (3): 469-482 .

มันเทียบเท่า แต่อาจจะโปร่งใสกว่า

posterior = before (ไม่ทราบที่ไม่ทราบ | รู้จักได้ = รู้จักได้)

กว่าหลัง ~ ก่อนหน้า (ไม่ทราบที่เป็นไปได้) * p (เป็นไปได้ที่รู้จัก = รู้จัก | ไม่ทราบที่เป็นไปได้)

ไม่มีอะไรใหม่สำหรับค่าที่หายไปในอดีตเมื่อเพิ่มค่าไม่ทราบค่าที่เป็นไปได้สำหรับแบบจำลองความน่าจะเป็นสร้างค่าที่หายไป

เมื่อเร็ว ๆ นี้การคำนวณแบบเบย์ (ABC) โดยประมาณได้ใช้วิธีการจำลองแบบสองขั้นตอนนี้อย่างจริงจังเมื่อ p (รู้จักได้ = รู้จักได้ | รู้จักได้ไม่ทราบ) ไม่สามารถทำงานได้ แต่ถึงแม้จะสามารถทำงานออกมาได้และการหาตัวอย่างด้านหลังได้อย่างง่ายดายจากการสุ่มตัวอย่าง MCMC (หรือแม้กระทั่งเมื่อหลังพร้อมใช้งานโดยตรงเนื่องจากก่อนหน้านี้รวมกัน) จุดของรูบินเกี่ยวกับโครงสร้างการสุ่มตัวอย่างสองขั้นตอนนี้ทำให้เข้าใจง่ายขึ้น

ตัวอย่างเช่นฉันแน่ใจว่ามันจะจับสิ่งที่ @ Zen ทำที่นี่Bayesians: ทาสของฟังก์ชั่นความน่าจะเป็น? เพราะเราจะต้องดึง c ที่ไม่รู้จักที่เป็นไปได้จากก่อนหน้านี้ (ระยะที่หนึ่ง) แล้วจึงดึงที่เป็นไปได้ที่รู้จัก (ข้อมูล) เนื่องจาก c (ระยะที่ 2) ซึ่งจะไม่ได้รับการสุ่มรุ่นเป็น p (อาจเป็นที่รู้จัก | c) ไม่ได้เป็นความน่าจะเป็นยกเว้นเพียงหนึ่งเดียวเท่านั้น

Xผม|(|)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.