ทำไมฉันถึงต้องเป็น Bayesian เมื่อแบบจำลองของฉันผิด


68

แก้ไข:ฉันได้เพิ่มเป็นตัวอย่างง่ายๆอนุมานของค่าเฉลี่ยของx_iฉันยังได้ชี้แจงด้วยเล็กน้อยว่าทำไมช่วงเวลาที่น่าเชื่อถือและไม่ตรงกับช่วงความมั่นใจไม่ดีXผม

ฉันเป็นคนเบย์เซียนที่มีใจศรัทธาอย่างยุติธรรมฉันกำลังอยู่ในช่วงวิกฤตการณ์แห่งศรัทธาแปลก ๆ

ปัญหาของฉันคือต่อไปนี้ สมมติว่าผมต้องการที่จะวิเคราะห์ข้อมูล IID บางx_iสิ่งที่ฉันจะทำคือ:Xผม

  • ก่อนเสนอแบบจำลองตามเงื่อนไข:

    พี(X|θ)
  • จากนั้นเลือกก่อนหน้าบน : θ

    พี(θ)
  • ในที่สุดใช้กฎของเบย์คำนวณหลัง: (หรือประมาณโดยประมาณถ้ามันไม่ควรคำนวณได้) และตอบคำถามทั้งหมดที่ฉันมีเกี่ยวกับθพี(θ|X1...Xn)θ

นี่เป็นวิธีการที่สมเหตุสมผล: ถ้าแบบจำลองที่แท้จริงของข้อมูลเป็น "ข้างใน" ของเงื่อนไขของฉัน (มันสอดคล้องกับค่าบางอย่างθ 0 ) จากนั้นฉันสามารถเรียกทฤษฎีการตัดสินใจทางสถิติเพื่อบอกว่าวิธีการของฉันเป็นที่ยอมรับ (ดู Robert's "ตัวเลือก Bayesian" สำหรับรายละเอียด; "สถิติทั้งหมด" ยังให้ข้อมูลที่ชัดเจนในบทที่เกี่ยวข้องด้วย)Xผมθ0

อย่างไรก็ตามอย่างที่ทุกคนรู้ว่าสมมติว่าแบบจำลองของฉันถูกต้องค่อนข้างหยิ่ง: ทำไมธรรมชาติควรอยู่ในกล่องแบบจำลองที่ฉันได้พิจารณาอย่างเป็นธรรมชาติ มันเป็นจริงมากขึ้นที่จะคิดว่ารูปแบบที่แท้จริงของข้อมูลที่แตกต่างจากP ( X | θ )สำหรับทุกค่าของθ ซึ่งมักเรียกว่าแบบจำลอง "misspecified"พีเสื้อRยูอี(X)พี(X|θ)θ

ปัญหาของฉันคือว่าในกรณีที่สะกดผิดพลาดเหมือนจริงมากขึ้นฉันไม่มีข้อโต้แย้งที่ดีสำหรับการเป็น Bayesian (เช่นการคำนวณการกระจายหลัง) กับการคำนวณค่าประมาณความน่าจะเป็นสูงสุด (MLE):

θ^ML=หาเรื่องสูงสุดθ[พี(X1...Xn|θ)]

อันที่จริงตามKleijn, vd Vaart (2012)ในกรณีที่สะกดผิดการกระจายหลัง:

  • รวมเป็นกับการกระจาย dirac ที่ศูนย์กลางที่θ M Lnθ^ML

  • ไม่ได้มีความแปรปรวนที่ถูกต้อง (ยกเว้นกรณีที่สองค่าเพียงเกิดขึ้นจะเหมือนกัน) ในการสั่งซื้อเพื่อให้แน่ใจว่าช่วงเวลาที่มีความน่าเชื่อถือของช่วงความเชื่อมั่นหลังการแข่งขันสำหรับ\(โปรดทราบว่าในขณะที่ช่วงความเชื่อมั่นเป็นสิ่งที่เห็นได้ชัดว่า Bayesians ไม่สนใจมากเกินไปในเชิงคุณภาพนี้หมายความว่าการกระจายหลังเป็นเรื่องที่ผิดอย่างยิ่งเพราะมันหมายถึงว่าช่วงเวลาที่น่าเชื่อถือไม่ได้มีความคุ้มครองที่ถูกต้อง)θ

ดังนั้นเราจึงชำระเบี้ยประกันภัยโดยทั่วไป (การอนุมานแบบเบย์โดยทั่วไปมีราคาแพงกว่า MLE) โดยไม่มีคุณสมบัติเพิ่มเติม

ดังนั้นในที่สุดคำถามของฉัน: มีข้อโต้แย้งใด ๆ ไม่ว่าจะเป็นทางทฤษฎีหรือเชิงประจักษ์สำหรับการใช้การอนุมานแบบเบย์กับทางเลือก MLE ที่ง่ายกว่าเมื่อแบบจำลองนี้ถูกพลาด

(เนื่องจากฉันรู้ว่าคำถามของฉันมักจะไม่ชัดเจนโปรดแจ้งให้เราทราบหากคุณไม่เข้าใจบางสิ่ง: ฉันจะพยายามใช้ถ้อยคำใหม่)

แก้ไข:ลองพิจารณาตัวอย่างง่ายๆ: อนุมานค่าเฉลี่ยของภายใต้แบบจำลองเกาส์เซียน (ด้วยความแปรปรวนที่รู้จักเพื่อทำให้ง่ายขึ้นยิ่งขึ้น) เราพิจารณาเกาส์ก่อนที่เราแสดงค่าเฉลี่ยก่อนแปรปรวนผกผันของก่อน Letเป็นค่าเฉลี่ยเชิงประจักษ์ของx_iสุดท้ายหมายเหตุ:2}) σ μ 0 β 0 ˉ X X ฉัน μ = ( βXผมσμ0β0X¯Xผมμ=(β0μ0+nσ2X¯)/(β0+nσ2)

การกระจายหลังคือ:

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

ในกรณีที่ระบุอย่างถูกต้อง (เมื่อมีการแจกแจงแบบเกาส์จริง ๆ ) ด้านหลังนี้มีคุณสมบัติที่ดีดังต่อไปนี้Xi

  • หากถูกสร้างขึ้นจากโมเดลลำดับชั้นที่เลือกค่าเฉลี่ยที่ใช้ร่วมกันจากการแจกแจงก่อนหน้านั้นช่วงเวลาหลังที่น่าเชื่อถือจะมีความครอบคลุมที่แน่นอน เงื่อนไขกับข้อมูลความน่าจะเป็นของอยู่ในช่วงเวลาใด ๆ เท่ากับความน่าจะเป็นที่ผู้หลังกำหนดช่วงเวลานี้ θXiθ

  • แม้ว่าก่อนหน้านี้จะไม่ถูกต้องช่วงเวลาที่น่าเชื่อถือมีความครอบคลุมที่ถูกต้องในวงเงินซึ่งก่อนหน้านี้มีอิทธิพลต่อหายไปหลังn

  • ด้านหลังมีคุณสมบัติที่ดีบ่อย ๆ : ตัวประมาณแบบเบย์ใด ๆ ที่สร้างขึ้นจากด้านหลังนั้นรับรองว่าสามารถยอมรับได้ค่าเฉลี่ยหลังนั้นเป็นตัวประมาณที่มีประสิทธิภาพ

ในกรณีที่ระบุผิดพลาดคุณสมบัติส่วนใหญ่ไม่ได้รับการประกันโดยทฤษฎี เพื่อที่จะแก้ไขความคิดลองสมมุติว่าตัวแบบที่แท้จริงสำหรับนั้นคือพวกเขาแทนการแจกแจงแบบนักเรียน คุณสมบัติเดียวที่เราสามารถรับประกัน (Kleijn, et al) คือการกระจายหลังมุ่งเน้นที่ความหมายที่แท้จริงของในวงเงิน\ โดยทั่วไปคุณสมบัติการครอบคลุมทั้งหมดจะหายไป โดยทั่วไปแล้วเราสามารถรับประกันได้ว่าในขอบเขตที่ จำกัด คุณสมบัติการรายงานข่าวนั้นผิดขั้นพื้นฐาน: การแจกแจงด้านหลังอธิบายความน่าจะเป็นที่ผิดไปยังพื้นที่ต่างๆของพื้นที่X i n XiXin


2
เบย์เข้าหาวิธีทำให้เป็นปกติ นั่นคือสิ่งที่จะช่วยป้องกันไม่ให้เกิดการ overfitting - ไม่ว่าแบบจำลองของคุณจะได้รับการผิดพลาดหรือไม่ แน่นอนว่าเพียงนำไปสู่คำถามที่เกี่ยวข้องเกี่ยวกับการโต้เถียงสำหรับการอนุมานแบบเบย์กับวิธีการแบบดั้งเดิมที่มีการปรับให้เป็นมาตรฐาน
S. Kolassa - Reinstate Monica

3
คุณอาจจะสนใจงานนี้และญาติของมัน
Dougal

7
เมื่อแบบจำลองของคุณไม่ได้รับการระบุในแง่ของการใช้ฟังก์ชันความน่าจะเป็นที่ไม่ถูกต้องค่าประมาณของ MLE และ Bayesian จะไม่ถูกต้อง ...
ทิม

5
@Tim: การอนุมาน MLE และ Bayesian นั้นไม่มีความหมายในกรณีที่สะกดผิด: พวกเขาทั้งสองพยายามกู้คืนค่าพารามิเตอร์ซึ่งให้ข้อมูลบัญชีที่ดีที่สุดภายในโมเดลที่มีเงื่อนไข แม่นยำยิ่งขึ้นคืออาร์กิวเมนต์ของโดยที่ KL คือการเบี่ยงเบนKullback Leibler ภายใต้สมมติฐานที่ไม่รุนแรงทั้ง MLE และ Bayesian อนุมานได้อย่างถูกต้องระบุเมื่อให้ข้อมูลจำนวนเพียงพอ ˜ θ 0KL[p(X),p(X|θ)] ˜ θ 0θ~0θ~0KL[p(X),p(X|θ)]θ~0
Guillaume Dehaene

3
@amoeba ฉันจินตนาการ hard-core Bayesian ดูและทำตัวเหมือน comandante Che
Aksakal

คำตอบ:


31

ฉันพิจารณาวิธีการแบบเบย์เมื่อชุดข้อมูลของฉันไม่ใช่ทุกสิ่งที่เป็นที่รู้จักเกี่ยวกับหัวเรื่องและต้องการรวมความรู้จากภายนอกเข้ากับการคาดการณ์ของฉัน

ตัวอย่างเช่นลูกค้าของฉันต้องการการคาดการณ์ของค่าเริ่มต้นสินเชื่อในพอร์ตโฟลิโอของพวกเขา พวกเขามี 100 เงินกู้กับข้อมูลประวัติไตรมาสไม่กี่ปี มีการกระทำผิดเกิดขึ้นสองสามครั้ง (ชำระล่าช้า) และมีค่าเริ่มต้นเพียงสองสามรายการ ถ้าฉันพยายามประเมินโมเดลการเอาตัวรอดในชุดข้อมูลนี้มันจะเป็นข้อมูลน้อยมากที่จะประเมินและมีความไม่แน่นอนในการคาดการณ์มากเกินไป

ในทางกลับกันผู้จัดการพอร์ตโฟลิโอเป็นคนที่มีประสบการณ์บางคนอาจใช้เวลาหลายทศวรรษในการจัดการความสัมพันธ์กับผู้ยืม พวกเขามีแนวคิดเกี่ยวกับอัตราเริ่มต้นที่ควรเป็น ดังนั้นพวกเขาจึงสามารถมากับนักบวชที่มีเหตุผลได้ หมายเหตุไม่ไพรเออร์ที่มีคุณสมบัติทางคณิตศาสตร์ที่ดีและดูน่าสนใจสติปัญญาให้ฉัน ฉันจะพูดคุยกับพวกเขาและดึงประสบการณ์และความรู้ของพวกเขาในรูปแบบของนักบวชเหล่านั้น

ตอนนี้กรอบการทำงานของ Bayesian จะให้กลไกกับฉันในการแต่งงานกับความรู้ภายนอกในรูปแบบของนักบวชพร้อมกับข้อมูลและได้รับหลังที่เหนือกว่าทั้งการตัดสินเชิงคุณภาพที่บริสุทธิ์และการพยากรณ์ที่บริสุทธิ์จากข้อมูล นี่ไม่ใช่ปรัชญาและฉันไม่ใช่ Bayesian ฉันแค่ใช้เครื่องมือแบบเบย์เพื่อรวมความรู้จากผู้เชี่ยวชาญอย่างต่อเนื่องเข้ากับการประมาณค่าด้วยข้อมูล


3
เป็นจุดที่ดีมาก การอนุมานแบบเบย์เสนอกรอบการทำงานสำหรับการแก้ปัญหาอย่างที่คุณนำเสนอ ขอขอบคุณ.
Guillaume Dehaene

5
นี่เป็นข้อโต้แย้งทั่วไปสำหรับการสร้างแบบจำลองแบบเบย์ แต่มันเกี่ยวข้องกับกรณีที่เฉพาะเจาะจงของแบบจำลองที่ไม่มีการระบุได้อย่างไร ฉันไม่เห็นการเชื่อมต่อ
Richard Hardy

4
มันเกี่ยวข้องกับคำถามของฉัน: แม้ในกรณีที่สะกดผิดการอนุมานแบบเบย์จะจัดการกับข้อมูลเชิงคุณภาพได้ดีขึ้น (เช่น: ในแบบที่มีหลักการมากขึ้น) ผ่านวิธีก่อนกว่าวิธี MLE ซึ่งจะต้องทำงานกับ regularizers มันเป็นรูปแบบหนึ่งของการโต้แย้งเชิงประจักษ์ว่าเหตุใดการอนุมานแบบเบย์จึงดีกว่า MLE เล็กน้อย
Guillaume Dehaene

2
@ Aksakal ไม่ว่าจะเป็นรูปแบบที่มีการผิดพลาดอยู่นอกเหนือจุด สิ่งที่ฉันกังวลคือคุณไม่ตอบคำถาม (ถ้า OP ไม่เห็นด้วยฉันคิดว่าเขาทำงานได้ไม่ดีในการกำหนดคำถาม) แต่ฉันเห็นว่ามีการแก้ไขล่าสุดดังนั้นอาจมีการเปลี่ยนแปลงคำถามในตอนนี้
Richard Hardy

4
@RichardHardy ฉันคิดว่าคำตอบของฉันอยู่ในหัวใจของวิกฤตศรัทธาของ OP ซึ่งขับเคลื่อนโดยความคิดที่ว่าหากแบบจำลองตามเงื่อนไขของคุณถูกสะกดผิดแล้วมันจะเอาชนะก่อนหน้าด้วยขนาดตัวอย่างที่เพิ่มขึ้นและหลังของคุณจะถูกผลักไปผิด . ในกรณีนี้ทำไมต้องกังวลเกี่ยวกับ Bayesian ที่จะเริ่มต้นด้วยทำไมไม่เพียง แต่พูดตรง MLE เขาถาม ตัวอย่างของฉันไม่ใช่เรื่องเกี่ยวกับปรัชญา แต่เป็นเรื่องจริง: คุณต้องจัดการไม่ใช่แค่ตัวอย่างที่ จำกัด แต่เป็นตัวอย่างเล็ก ๆ ดังนั้นข้อมูลของคุณจะไม่ลากหลังที่ไกลเกินไปจากก่อนหน้าซึ่งแสดงถึงความรู้ภายนอก
Aksakal

25

คำถามที่น่าสนใจมาก ... ที่อาจไม่มีคำตอบ (แต่นั่นไม่ทำให้น่าสนใจน้อยลง!)

ความคิดเล็ก ๆ น้อย ๆ (และลิงก์จำนวนมากไปยังรายการบล็อกของฉัน!) เกี่ยวกับ meme นั้นว่าทุกรุ่นผิด :

  1. ในขณะที่แบบจำลองสมมุติฐานนั้นเกือบจะผิดพลาดและไม่สามารถแก้ไขได้อย่างถาวรแต่ก็ยังคงสมเหตุสมผลที่จะกระทำในลักษณะที่มีประสิทธิภาพหรือเชื่อมโยงกับแบบจำลองนี้หากเป็นสิ่งที่ดีที่สุดที่จะทำได้ การอนุมานที่เกิดขึ้นจะสร้างการประเมินของโมเดลที่เป็นทางการซึ่งเป็น "ที่ใกล้เคียงที่สุด" กับโมเดลการสร้างข้อมูลจริง (ถ้ามี)
  2. มีวิธีการแบบเบย์อยู่ที่สามารถทำได้โดยไม่มีแบบจำลองตัวอย่างล่าสุดคือBissiri และคณะ (ด้วยความคิดเห็นของฉัน ) และโดยวัตสันและโฮล์มส์ (ซึ่งฉันได้พูดคุยกับจูดิ ธ รูสโซส์ );
  3. ในทางที่เชื่อมโยงกันมีสถิติของ Bayesian ทั้งหมดที่เกี่ยวข้องกับการอนุมาน M-open ;
  4. และอีกแนวทางหนึ่งที่ฉันชอบมากก็คือแนวทางSafeBayesของPeter Grünwaldซึ่งคำนึงถึงรูปแบบการสะกดคำผิดเพื่อแทนที่โอกาสที่จะเกิดขึ้นด้วยรุ่นที่มีระดับต่ำลงซึ่งแสดงว่าเป็นพลังของโอกาสดั้งเดิม
  5. กระดาษอ่านล่าสุดโดย Gelman และ Hennigแก้ไขปัญหานี้แม้ว่าในลักษณะที่มีการเข้าสุหนัต (และฉันได้เพิ่มความคิดเห็นในบล็อกของฉัน ) ฉันคิดว่าคุณสามารถรวบรวมเนื้อหาสำหรับการสนทนาจากรายการเกี่ยวกับคำถามของคุณ
  6. ในแง่หนึ่ง Bayesians ควรมีความกังวลน้อยที่สุดในบรรดานักสถิติและ modellers เกี่ยวกับแง่มุมนี้เนื่องจากรูปแบบการสุ่มตัวอย่างจะต้องถูกนำมาเป็นหนึ่งในข้อสันนิษฐานก่อนหน้านี้หลายประการและผลลัพธ์นั้นมีเงื่อนไขหรือสัมพันธ์กับสมมติฐานก่อนหน้าทั้งหมด

2
เป็นเรื่องดีมากที่มีความคิดเห็นของคุณเกี่ยวกับเรื่องนี้ ประเด็นแรกของคุณสมเหตุสมผล: หากโมเดลไม่ผิดเกินไปผลลัพธ์ของการอนุมานของเราควรจะโอเค อย่างไรก็ตามมีใครเคยพิสูจน์ผลลัพธ์เช่นนั้น (หรือสำรวจคำถามเชิงประจักษ์) บ้างไหม? ประเด็นสุดท้ายของคุณ (ซึ่งฉันอาจเข้าใจผิด) ทำให้ฉันงุนงง: รูปแบบการสุ่มตัวอย่างเป็นตัวเลือกที่สำคัญ ความจริงที่ว่าเรายังมีตัวเลือกไม่ได้หมายความว่าข้อผิดพลาดในการเลือกแบบจำลองตัวอย่างไม่สามารถทำให้แบบจำลองทั้งหมดมัวหมอง ขอบคุณสำหรับการอ้างอิงและบล็อกที่ยอดเยี่ยม
Guillaume Dehaene

สำหรับประเด็นที่ 1 ทำไมไม่แบบจำลองแบบเบย์เฉลี่ย? ทำไมต้องใช้รุ่น 'ดีที่สุด'
innisfree

@ ไม่เป็นอิสระ: ทั้งหมดขึ้นอยู่กับสิ่งที่คุณวางแผนที่จะทำกับผลลัพธ์ที่ฉันไม่มีศาสนาเกี่ยวกับรูปแบบเฉลี่ยเมื่อเทียบกับรุ่นที่ดีที่สุด
ซีอาน

1
คุณดูเหมือนจะบอกว่ามีแง่มุมการตัดสินใจเชิงทฤษฎีของความไม่แน่นอนของแบบจำลองเฉลี่ยเมื่อเทียบกับการเลือกรุ่นที่ดีที่สุดเท่านั้น แน่นอนว่ามันได้เปรียบเสมอนั่นคือช่วยในการตัดสินใจที่ดีกว่าเพื่อรวมความไม่แน่นอนทั้งหมดรวมถึงความไม่แน่นอนของแบบจำลอง
innisfree

2
การคัดค้านหลักของฉันต่อการไม่ใช้พาราเมตริกคือการปฏิบัติ: มันมีราคาที่คำนวณได้โดยคำสั่งของขนาดต่าง ๆ เมื่อเทียบกับทางเลือกที่ง่ายกว่า นอกจากนี้เรายังไม่พบปัญหากับพารามิเตอร์ที่ไม่ได้ใช้เพราะเกือบจะเป็นไปไม่ได้ที่การกระจายก่อนหน้านี้สองครั้งจะได้รับการสนับสนุนทั่วไป นั่นหมายความว่าก่อนหน้านี้จะมีอิทธิพลอย่างมากและเป็นไปไม่ได้ (เกือบ) สำหรับนักสถิติแบบเบย์ที่จะเห็นด้วยเมื่อเริ่มต้นจากนักบวชที่แตกต่างกัน
Guillaume Dehaene

12

การแก้ไข:เพิ่มการอ้างอิงไปยังกระดาษนี้ในร่างกายตามที่ร้องขอโดย OP


ฉันให้คำตอบในฐานะเบย์เซียนเชิงประจักษ์ที่ไร้เดียงสาที่นี่

ขั้นแรกการกระจายหลังอนุญาตให้คุณทำการคำนวณที่คุณไม่สามารถทำได้ด้วย MLE ที่ไม่ซับซ้อน กรณีที่ง่ายที่สุดคือที่หลังของวันนี้คือวันพรุ่งนี้ก่อน การอนุมานแบบเบย์นั้นโดยปกติจะอนุญาตให้มีการอัปเดตตามลำดับหรือมากกว่านั้นโดยทั่วไปทางออนไลน์หรือการรวมกันของแหล่งข้อมูลที่ล่าช้าหลายแห่ง ทฤษฎีการตัดสินใจแบบเบย์ที่มีฟังก์ชั่นการสูญเสียที่ไม่น่าสนใจเป็นอีกตัวอย่างหนึ่ง ฉันก็ไม่รู้จะทำยังไงดี

ประการที่สองด้วยคำตอบนี้ฉันจะพยายามและยืนยันว่ามนต์ที่ปริมาณของความไม่แน่นอนโดยทั่วไปดีกว่าไม่มีความไม่แน่นอนเป็นคำถามเชิงประจักษ์อย่างมีประสิทธิภาพตั้งแต่ทฤษฎีบท (ตามที่คุณกล่าวถึงและเท่าที่ฉันรู้) ไม่รับประกัน

การเพิ่มประสิทธิภาพเป็นรูปแบบของเล่นของความพยายามทางวิทยาศาสตร์

โดเมนที่ผมรู้สึกว่าอย่างเต็มที่จับความซับซ้อนของปัญหาที่เป็นจริงมากขรึมหนึ่งในการเพิ่มประสิทธิภาพของการเป็นกล่องดำฟังก์ชั่น R เราคิดว่าเราตามลำดับสามารถสอบถามจุดx Xและได้รับอาจจะมีเสียงดังสังเกตY = F ( x ) + εกับε ~ N ( 0 , σ 2 ) เป้าหมายของเราคือการได้รับใกล้เคียงเป็นไปได้ที่จะx * = หาเรื่องนาทีxf:XRDRxXy=f(x)+εεN(0,σ2)ด้วยจำนวนการประเมินฟังก์ชันขั้นต่ำx=argminxf(x)

วิธีที่มีประสิทธิภาพโดยเฉพาะอย่างยิ่งในการดำเนินการตามที่คุณคาดหวังคือการสร้างแบบจำลองการคาดการณ์ของสิ่งที่จะเกิดขึ้นถ้าฉันสอบถามใด ๆและใช้ข้อมูลนี้เพื่อตัดสินใจว่าจะทำอย่างไรต่อไป ดูRios และ Sahinidis (2013)สำหรับการทบทวนวิธีการเพิ่มประสิทธิภาพระดับโลกที่ปราศจากอนุพันธ์ เมื่อรูปแบบที่มีความซับซ้อนพอนี้เรียกว่าเมตาแบบหรือตัวแทนฟังก์ชั่นหรือพื้นผิวตอบสนองต่อวิธีการ แบบจำลองอาจเป็นจุดประมาณของf (เช่นความพอดีของฟังก์ชันเครือข่ายพื้นฐานรัศมีกับการสังเกตของเรา) หรือเราอาจเป็นแบบเบย์และก็ได้รับการแจกแจงแบบเต็มหลังxXf (เช่นผ่านกระบวนการ Gaussian)f

การปรับให้เหมาะสมแบบเบส์ ใช้ส่วนหลังของ (โดยเฉพาะค่าเฉลี่ยหลังความแปรปรวนร่วมและความแปรปรวน ณ จุดใดก็ได้) เพื่อเป็นแนวทางในการค้นหาของ (ทั่วโลก) ที่เหมาะสมผ่านวิธีแก้ปัญหาแบบบางหลักการ ตัวเลือกแบบคลาสสิกคือการเพิ่มการปรับปรุงที่คาดไว้ให้มากที่สุดในจุดที่ดีที่สุดในปัจจุบัน แต่ก็มีวิธีการที่ดีกว่าเช่นการลดเอนโทรปีที่คาดหวังไว้ในตำแหน่งที่น้อยที่สุด (ดูที่นี่ด้วย )f

ผลลัพธ์เชิงประจักษ์ที่นี่คือการเข้าถึงคนหลังแม้ว่าการสะกดผิดบางส่วนโดยทั่วไปจะให้ผลลัพธ์ที่ดีกว่าวิธีอื่น ๆ (มีข้อแม้และสถานการณ์ที่การปรับให้เหมาะสมแบบเบส์นั้นไม่ดีไปกว่าการค้นหาแบบสุ่มเช่นในมิติที่สูง) ในบทความนี้เราทำการประเมินเชิงประจักษ์ของวิธี BO แบบใหม่เปรียบเทียบกับอัลกอริธึมการเพิ่มประสิทธิภาพอื่น ๆ ในทางปฏิบัติด้วยผลลัพธ์ที่มีแนวโน้ม

เมื่อคุณถาม - สิ่งนี้มีค่าใช้จ่ายในการคำนวณสูงกว่าวิธีอื่น ๆ ที่ไม่ใช่แบบเบย์และคุณสงสัยว่าทำไมเราควรเป็นแบบเบย์ สมมติฐานที่นี่คือค่าใช้จ่ายที่เกี่ยวข้องในการประเมินจริง (เช่นในสถานการณ์จริงที่ซับซ้อนวิศวกรรมหรือการเรียนรู้เครื่องทดลอง) มีขนาดใหญ่กว่าค่าใช้จ่ายในการคำนวณสำหรับการวิเคราะห์คชกรรมดังนั้นความคชกรรมจ่ายออกf

เราเรียนรู้อะไรจากตัวอย่างนี้

ครั้งแรกทำไมการเพิ่มประสิทธิภาพแบบเบย์ทำงานเลย? ฉันเดาว่าแบบจำลองนั้นผิด แต่ไม่ใช่แบบนั้นผิดและความผิดปกติขึ้นอยู่กับแบบจำลองของคุณ ตัวอย่างเช่นรูปร่างที่แน่นอนของไม่เกี่ยวข้องกับการปรับให้เหมาะสมเนื่องจากเราสามารถปรับการแปลง monotonic ใด ๆ ให้เหมาะสม ฉันคิดว่าธรรมชาติเต็มไปด้วยการรุกรานเช่นนี้ ดังนั้นการค้นหาที่เราทำอาจไม่เหมาะสม (กล่าวคือเรากำลังทิ้งข้อมูลที่ดี) แต่ก็ยังดีกว่าโดยไม่มีข้อมูลที่ไม่แน่นอนf

ประการที่สองตัวอย่างของเราเน้นว่าเป็นไปได้ว่าการใช้ประโยชน์จากการเป็นแบบเบย์หรือไม่ขึ้นอยู่กับบริบทเช่นค่าใช้จ่ายสัมพัทธ์และปริมาณของทรัพยากร (คำนวณ) ที่มีอยู่ (แน่นอนถ้าคุณเป็นเบย์เชี่ยนไม่ยอมใครง่ายๆคุณเชื่อว่าการคำนวณทุกอย่างเป็นการอนุมานแบบเบย์ภายใต้การคาดการณ์ก่อนหน้าและ / หรือการประมาณ)

ในที่สุดคำถามใหญ่ก็คือ - ทำไมแบบจำลองที่เราใช้จึงไม่เลวหลังจากทั้งหมดในแง่ที่ว่าผู้โพสต์ยังคงมีประโยชน์และไม่ใช่ขยะเชิงสถิติ? ถ้าเราใช้ทฤษฎีบทไม่มีอาหารกลางวันฟรีเห็นได้ชัดว่าเราไม่ควรจะสามารถที่จะพูดมาก แต่โชคดีที่เราไม่ได้อยู่ในโลกของแบบสุ่มสมบูรณ์ (หรือadversarially ได้รับการแต่งตั้ง ) ฟังก์ชั่น

โดยทั่วไปมากขึ้นเนื่องจากคุณใส่แท็ก "ปรัชญา" ... ฉันคิดว่าเรากำลังเข้าสู่ขอบเขตของปัญหาของการเหนี่ยวนำหรือประสิทธิภาพที่ไม่มีเหตุผลของคณิตศาสตร์ในวิทยาศาสตร์ทางสถิติ (โดยเฉพาะของสัญชาตญาณทางคณิตศาสตร์ของเราและความสามารถในการระบุรูปแบบ ทำงานในทางปฏิบัติ) - ในแง่ที่ว่าจากจุดยืนล้วนๆไม่มีเหตุผลว่าทำไมการคาดเดาของเราควรจะดีหรือมีการรับประกันใด ๆ (และแน่นอนว่าคุณสามารถสร้างตัวอย่างทางคณิตศาสตร์ในสิ่งที่ผิดพลาด) แต่พวกเขากลับ ออกไปทำงานได้ดีในทางปฏิบัติ


2
คำตอบที่ยอดเยี่ยม ขอบคุณมากสำหรับการสนับสนุนของคุณ มีการทบทวน / เปรียบเทียบใด ๆ ของการปรับให้เหมาะสมแบบเบย์กับเทคนิคการปรับให้เหมาะสมแบบปกติที่เน้นว่ารุ่นเบย์นั้นดีกว่าที่คุณอ้างหรือไม่ (ฉันค่อนข้างสบายใจที่จะบอกคุณ แต่การอ้างอิงจะมีประโยชน์)
Guillaume Dehaene

1
ขอบคุณ! ฉันคิดว่าตัวเลขความน่าจะเป็นแบบเรียกร้องให้มีข้อโต้แย้งทางทฤษฎีและเชิงประจักษ์หลายประการ ฉันไม่ได้ตระหนักถึงมาตรฐานที่เปรียบเทียบวิธี BO กับวิธีมาตรฐานอย่างแท้จริง แต่ [ คำเตือนทริกเกอร์: ปลั๊กไร้ยางอาย ] ฉันกำลังทำงานกับบางสิ่งบางอย่างตามบรรทัดเหล่านี้ภายในสาขาประสาทวิทยาศาสตร์การคำนวณ ฉันวางแผนที่จะนำผลลัพธ์บางอย่างไปใช้กับ arXiv หวังว่าภายในไม่กี่สัปดาห์ข้างหน้า
lacerbi

อย่างน้อยรูปที่ 2 มีการเปรียบเทียบที่ชัดเจน คุณช่วยเพิ่มคุณทำงานคำถามหลักของคุณเมื่อมันออกมา? ฉันรู้สึกว่ามันจะเป็นการเพิ่มที่มีคุณค่า
Guillaume Dehaene

ใช่ - นั่นคือวิธีของพวกเขาสำหรับการสร้างพื้นที่สี่เหลี่ยมจัตุรัสแบบเบส์ซึ่งเป็นแนวคิดที่ค่อนข้างดี (ในทางปฏิบัติประสิทธิภาพของมันขึ้นอยู่กับว่าการประมาณค่า GP ทำงานได้หรือไม่ซึ่งมักจะใกล้เคียงกันเพื่อบอกว่า ฉันจะเพิ่มลิงก์ไปยังคำตอบเมื่องานของฉันพร้อมใช้งานขอบคุณ
lacerbi

1
@IMA: ขอโทษฉันไม่คิดว่าฉันจะได้คะแนน 100% ฉันใช้กล่องดำปรับให้เหมาะสมเป็นแบบจำลองของเล่นของความพยายามทางวิทยาศาสตร์ ฉันเชื่อว่าคุณสามารถทำแผนที่หลายขั้นตอนและปัญหาของ "วิทยาศาสตร์" กับโดเมนที่เรียบง่าย (แต่ยังคงซับซ้อนอย่างเหลือเชื่อ) ไม่จำเป็นต้องมีข้อสมมติฐาน "เสียงเกาส์เซียน" สำหรับข้อโต้แย้งของฉันมันเป็นเพียงความเรียบง่าย ปัญหาการทำให้เกิดประโยชน์สูงสุดในโลกแห่งความเป็นจริง (เช่นในงานวิศวกรรม) อาจได้รับความเสียหายจากเสียงที่ไม่ใช่แบบเกาส์เซียนและนั่นคือสิ่งที่ต้องได้รับการจัดการ และกระบวนการแบบเกาส์ไม่ต้องการเสียงการสังเกตแบบเกาส์เซียน (แม้ว่ามันจะทำให้การอนุมานเป็นเรื่องง่าย)
lacerbi

10

ฉันเห็นสิ่งนี้ในวันนี้เท่านั้น แต่ฉันคิดว่าฉันควรชิปเพราะฉันเป็นผู้เชี่ยวชาญและอย่างน้อยสองคำตอบ (nr 3 และ 20 (ขอบคุณสำหรับการอ้างอิงถึงการทำงานของฉันซีอาน!) พูดถึงงานของฉันใน SafeBayes - โดยเฉพาะ G. และ van Ommen "ความไม่สอดคล้องของการอนุมานแบบเบย์สำหรับตัวแบบเชิงเส้นที่ขาดการระบุและข้อเสนอสำหรับการซ่อม" (2014) และฉันต้องการเพิ่มบางสิ่งเพื่อแสดงความคิดเห็น 2:

2 กล่าวว่า: (ข้อดีของ Bayes ภายใต้การสะกดผิดคือ ... ) "ดี Bayesian เข้าสู่การทำให้เป็นปกตินั่นคือสิ่งที่จะช่วยป้องกันการ overfitting - ไม่ว่าแบบจำลองของคุณจะพลาดหรือไม่แน่นอนว่านั่นเป็นเพียงคำถามที่เกี่ยวข้อง ข้อโต้แย้งสำหรับการอนุมานแบบเบย์กับวิธีแบบดั้งเดิมที่ทำให้เป็นมาตรฐาน (lasso ฯลฯ ) "

นี่เป็นเรื่องจริง แต่มีความสำคัญอย่างยิ่งที่ต้องเพิ่มว่าวิธีการแบบเบย์อาจไม่ทำให้เป็นปกติมากพอ ถ้าแบบจำลองนั้นผิด นี่คือประเด็นหลักของการทำงานกับ Van Ommen - เราเห็นว่ามี Bayes มาตรฐานมากกว่าค่อนข้างมากในบริบทการถดถอยที่มีโมเดลที่ผิด แต่มีประโยชน์มาก ไม่เลวเท่า MLE แต่ก็มีประโยชน์มากเกินไป มีการทำงานทั้งหมดในการเรียนรู้ด้วยเครื่องจักร (นักทฤษฎีและทฤษฎีเกม) โดยที่พวกเขาใช้วิธีการที่คล้ายกับ Bayes แต่ด้วย 'อัตราการเรียนรู้' ที่น้อยกว่ามาก - ทำให้ข้อมูลมีความสำคัญน้อยลง วิธีการเหล่านี้ได้รับการออกแบบมาให้ทำงานได้ดีในสถานการณ์ที่เลวร้ายที่สุด (การผิดพลาดและยิ่งกว่านั้นคือข้อมูลที่เป็นอันตราย) - วิธี SafeBayes ออกแบบมาเพื่อ 'เรียนรู้อัตราการเรียนรู้ที่ดีที่สุด' จากข้อมูลเอง - และอัตราการเรียนรู้ที่เหมาะสมที่สุด ของการทำให้เป็นมาตรฐาน

ที่เกี่ยวข้องมีทฤษฎีบทพื้นบ้าน (กล่าวถึงโดยหลายข้างต้น) บอกว่า Bayes จะมีสมาธิหลังในการกระจายที่ใกล้เคียงที่สุดใน KL แตกต่างกับ 'ความจริง' แต่สิ่งนี้มีอยู่ภายใต้เงื่อนไขที่เข้มงวดมาก - เข้มงวดมากกว่าเงื่อนไขที่จำเป็นสำหรับการบรรจบกันในกรณีที่ระบุไว้อย่างดี หากคุณกำลังจัดการกับโมเดลพารามิเตอร์และมิติข้อมูลขนาดต่ำมาตรฐานนั้นเป็นไปตามการกระจายบางส่วน (ไม่ใช่ในโมเดล) จากนั้นผู้หลังจะมีสมาธิรอบจุดในโมเดลที่ใกล้เคียงกับความจริงใน KL divergence แน่นอน ตอนนี้ถ้าคุณกำลังจัดการกับโมเดลที่ไม่ใช่พารามิเตอร์ขนาดใหญ่และโมเดลนั้นถูกต้องแล้ว (โดยหลัก) หลังของคุณจะยังคงมุ่งเน้นไปที่การกระจายที่แท้จริงที่ได้รับข้อมูลที่เพียงพอ ตราบใดที่คุณยังมีมวลที่เพียงพอในลูกบอล KL ขนาดเล็กรอบการแจกแจงที่แท้จริง นี้เป็นเงื่อนไขอ่อนที่จำเป็นสำหรับการบรรจบกันในกรณีที่ไม่ใช่พารามิเตอร์ถ้าแบบจำลองนั้นถูกต้อง

แต่ถ้าแบบจำลองของคุณไม่ใช่พารามิเตอร์ยังไม่ถูกต้องผู้หลังอาจไม่สนใจรอบจุด KL ที่ใกล้ที่สุดแม้ว่าก่อนหน้าของคุณจะทำให้มวลใกล้เคียงกับ 1 (!) ที่นั่น - หลังของคุณอาจยังสับสนตลอดไปจดจ่อกับการแจกแจงที่แตกต่างกัน เมื่อเวลาผ่านไป แต่จะไม่มีวันดีที่สุด ในเอกสารของฉันฉันมีหลายตัวอย่างของเหตุการณ์นี้ เอกสารที่แสดงการบรรจบกันภายใต้การสะกดผิด (เช่น Kleijn และ van der Vaart) ต้องการเงื่อนไขเพิ่มเติมมากมายเช่นตัวแบบต้องนูนหรือก่อนหน้านั้นต้องเชื่อฟังคุณสมบัติบางอย่างที่ซับซ้อน นี่คือสิ่งที่ฉันหมายถึงโดยเงื่อนไข 'เข้มงวด'

ในทางปฏิบัติเรามักจะจัดการกับตัวแบบพารามิเตอร์ที่มีมิติสูงมาก (คิดว่าการถดถอยสันเขาแบบเบย์เป็นต้น) ถ้าโมเดลผิดในที่สุดหลังโปสเตอร์ของคุณจะมุ่งเน้นไปที่การกระจาย KL ที่ดีที่สุดในรุ่น แต่รุ่นเล็ก ๆ ของความไม่สอดคล้องกันที่ไม่ใช่พารามิเตอร์ยังคงมีอยู่: มันอาจต้องใช้ข้อมูลจำนวนมากขึ้นก่อนที่การบรรจบกันจะเกิดขึ้นอีกครั้ง Van Ommen ยกตัวอย่าง

วิธี SafeBayes ปรับเปลี่ยน Bayes มาตรฐานในแบบที่รับประกันการลู่เข้าในโมเดลที่ไม่ใช่พารามิเตอร์ภายใต้ (เป็นหลัก) ภายใต้เงื่อนไขเดียวกันกับในกรณีที่ระบุไว้อย่างดีนั่นคือมวลก่อนหน้าเพียงพอใกล้กับการกระจาย KL ที่เหมาะสมที่สุดในโมเดล (G. และ Mehta, 2014 )

มีคำถามว่าเบย์มีเหตุผลภายใต้การสะกดผิดหรือไม่ IMHO (และตามที่หลายคนพูดถึงข้างต้น), เหตุผลมาตรฐานของ Bayes (การยอมรับ, Savage, De Finetti, Cox และอื่น ๆ ) ไม่ได้อยู่ที่นี่ (เพราะถ้าคุณรู้ตัวว่าแบบจำลองของคุณถูกพลาดความน่าจะเป็นของคุณไม่ได้เป็นตัวแทน !) อย่างไรก็ตามวิธีการ Bayes จำนวนมากยังสามารถตีความได้ว่า 'วิธีการอธิบายความยาวขั้นต่ำ (MDL)' - MDL เป็นวิธีการทางทฤษฎีข้อมูลซึ่งเท่ากับ 'การเรียนรู้จากข้อมูล' กับ 'พยายามบีบอัดข้อมูลให้มากที่สุด' การตีความการบีบอัดข้อมูลของวิธีการแบบเบย์บางส่วนยังคงใช้ได้ภายใต้การสะกดผิด ดังนั้นยังมีบางส่วนการตีความพื้นฐานที่อยู่ภายใต้การสะกดผิด - อย่างไรก็ตามมีปัญหาเป็นกระดาษของฉันกับ Van Ommen (และช่วงความเชื่อมั่น / ปัญหาชุดที่น่าเชื่อถือที่กล่าวถึงในโพสต์ต้นฉบับ) แสดง

และจากนั้นคำพูดสุดท้ายเกี่ยวกับโพสต์ต้นฉบับ: คุณพูดถึงเหตุผล 'การยอมรับ' ของ Bayes (กลับไปที่ thm ชั้นสมบูรณ์ของ Wald of the 1940s / 50s) ไม่ว่าสิ่งนี้จะเป็นข้อพิสูจน์ที่แท้จริงของ Bayes หรือไม่นั้นขึ้นอยู่กับคำนิยามที่ชัดเจนของ 'การอนุมานแบบเบย์' (ซึ่งแตกต่างจากนักวิจัยถึงนักวิจัย ... ) เหตุผลก็คือผลลัพธ์การยอมรับเหล่านี้อนุญาตให้มีความเป็นไปได้ที่สิ่งใดสิ่งหนึ่งจะใช้ก่อนหน้านั้นขึ้นอยู่กับลักษณะของปัญหาเช่นขนาดตัวอย่างและฟังก์ชันการสูญเสียดอกเบี้ยเป็นต้น Bayesians ที่แท้จริงส่วนใหญ่ไม่ต้องการเปลี่ยนก่อน ข้อมูลที่พวกเขาต้องดำเนินการเปลี่ยนแปลงหรือหากฟังก์ชันการสูญเสียความสนใจเปลี่ยนแปลงทันที ตัวอย่างเช่นฟังก์ชั่นการสูญเสียนูนอย่างเคร่งครัด ตัวประมาณค่าขั้นต่ำสุดก็ยอมรับได้เช่นกัน - แม้ว่าจะไม่ได้คิดว่าเป็นแบบเบย์! เหตุผลก็คือสำหรับแต่ละขนาดตัวอย่างคงที่พวกเขาจะเท่ากับ Bayes กับก่อนหน้านี้โดยเฉพาะ แต่ก่อนหน้านี้แตกต่างกันไปสำหรับแต่ละขนาดตัวอย่าง

หวังว่านี่จะเป็นประโยชน์!


2
ยินดีต้อนรับสู่ CrossValidated และขอขอบคุณสำหรับการตอบคำถามนี้ โน้ตเล็กน้อย - คุณไม่สามารถพึ่งพาคำตอบที่เรียงตามลำดับเดียวกับที่คุณเห็น คนที่แตกต่างกันสามารถเรียงลำดับที่แตกต่างกัน (มีตัวเลือกของเกณฑ์การเรียงลำดับที่แตกต่างกันที่ด้านบนของคำตอบที่วางไว้สูงสุด) และเกณฑ์สองข้อนั้นเปลี่ยนไปตามเวลา นั่นคือถ้าคุณอ้างถึงพวกเขาว่าคน "nr 3 และ 20" จะไม่รู้ว่าคำตอบของคุณหมายถึงอะไร [ฉันสามารถหาคำตอบได้สิบคำเท่านั้น]
Glen_b

1
ขอบคุณสำหรับคำตอบที่ดี Peter ฉันสับสนเกี่ยวกับความคิดเห็นของคุณว่าการอนุมานแบบเบย์ในกรณีที่สะกดผิดต้องใช้สมมติฐานที่แข็งแกร่งมาก คุณอ้างถึงข้อสมมติฐานใดอย่างชัดเจน คุณกำลังพูดถึงเงื่อนไขที่คนหลังต้องการมาบรรจบกันกับการแจกแจงแบบไดแรคด้วยค่าพารามิเตอร์ที่ดีที่สุดหรือไม่? หรือคุณกำลังพูดถึงเงื่อนไขทางเทคนิคเพิ่มเติมเกี่ยวกับความเป็นไปได้ที่ทำให้มั่นใจได้ว่าเป็นเรื่องปกติ
Guillaume Dehaene

โอเคขอบคุณ Glen B (ผู้ดำเนินรายการ) - ฉันจะจำไว้ตั้งแต่นี้เป็นต้นไป
Peter Grünwald

Guillaume - ฉันกำลังอัปเดตข้อมูลข้างต้นเพื่อพิจารณาความคิดเห็นของคุณ
Peter Grünwald

7

มีการแลกเปลี่ยนอคติแปรปรวนตามปกติ การอนุมานแบบเบย์สมมติว่ากรณี M-closed [1,2], มีความแปรปรวนน้อยกว่า [3] แต่ในกรณีของการสะกดผิดแบบจำลองความเอนเอียงจะเพิ่มขึ้นอย่างรวดเร็ว [4] นอกจากนี้ยังเป็นไปได้ที่จะทำการอนุมานแบบเบส์สมมติว่ากรณี M-open [1,2] ซึ่งมีความแปรปรวนสูงกว่า [3] แต่ในกรณีของรูปแบบการสะกดผิดที่มีอคติน้อยกว่า [4] การแยกแยะการเบี่ยงเบนอคติความไม่เท่าเทียมระหว่าง Bayesian M-open และ M-open เคสปรากฏในการอ้างอิงบางส่วนที่รวมอยู่ในการอ้างอิงด้านล่าง แต่มีความต้องการอย่างชัดเจน

[1] เบอร์นาร์โดกับสมิ ธ (1994) ทฤษฎีเบย์ John Wiley \ & บุตร

[2] Vehtari และ Ojanen (2012) การสำรวจวิธีการทำนายแบบเบย์สำหรับการประเมินแบบจำลองการเลือกและการเปรียบเทียบ การสำรวจสถิติ, 6: 142-228 http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen และ Aki Vehtari (2017) เปรียบเทียบวิธีการทำนายแบบเบย์สำหรับการเลือกแบบจำลอง สถิติและคอมพิวเตอร์ 27 (3): 711-735 http://dx.doi.org/10.1007/s11222-016-9649-y

[4] Yao, Vehtari, Simpson และ Andrew Gelman (2017) ใช้การกระจายแบบกระจายแบบเบย์ไปเป็นค่าเฉลี่ยการทำนาย พิมพ์ล่วงหน้า arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030


7

ต่อไปนี้เป็นวิธีการอื่น ๆ ของการอนุมาน Bayesian ในแบบจำลองที่ไม่ได้ระบุ

  • คุณสามารถสร้างช่วงความมั่นใจในค่าเฉลี่ยหลังโดยใช้สูตรแซนวิช (เช่นเดียวกับที่คุณทำกับ MLE) ดังนั้นแม้ว่าชุดที่น่าเชื่อถือจะไม่ครอบคลุม แต่คุณยังสามารถสร้างช่วงความเชื่อมั่นที่ถูกต้องกับตัวประมาณค่าได้ถ้านั่นคือสิ่งที่คุณสนใจ

  • คุณสามารถ rescale การกระจายหลังเพื่อให้แน่ใจว่าชุดที่น่าเชื่อถือมีความคุ้มครองซึ่งเป็นวิธีการใน:

Müller, Ulrich K. "ความเสี่ยงของการอนุมานแบบเบย์ในแบบจำลองที่ขาดคุณสมบัติและเมทริกซ์ความแปรปรวนแบบแซนด์วิช" Econometrica 81.5 (2013): 1805-1849

  • p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)

ขอบคุณสำหรับกระดาษมุลเลอร์: ฉันคิดว่ามันตอบคำถามมากมายที่ฉันมี
Guillaume Dehaene

6

พีเสื้อRยูอี(X)พี(X|θ)θ

φφ0φ0พี(X|θ,φ=φ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

A,¬Ap(θ|X,ϕ=ϕ0)=0

p(B|E)E=(E1,E2,,En)Eโปรแกรมคอมพิวเตอร์จะพัง เราค้นพบสิ่งนี้, สังเกตุ, '' และหลังจากความคิดบางอย่างตระหนักว่ามันไม่ใช่เหตุผลของความกลัว แต่เป็นเครื่องมือวินิจฉัยที่มีค่าที่เตือนเราถึงกรณีพิเศษที่ไม่คาดฝันซึ่งการกำหนดปัญหาของเราสามารถทำลายลงได้

กล่าวอีกนัยหนึ่งหากการกำหนดปัญหาของคุณไม่ถูกต้อง - หากแบบจำลองของคุณไม่ถูกต้องสถิติแบบเบย์สามารถช่วยคุณค้นหาว่าเป็นกรณีนี้และสามารถช่วยคุณค้นหาว่าแบบจำลองใดเป็นสาเหตุของปัญหา

ในทางปฏิบัติอาจไม่ชัดเจนว่าความรู้นั้นเกี่ยวข้องกับอะไรและควรรวมไว้ในที่มาหรือไม่ เทคนิคการตรวจสอบแบบจำลองต่างๆ (บทที่ 6 และ 7 ใน Gelman et al., 2013, ให้ภาพรวม) จะถูกนำมาใช้เพื่อค้นหาและระบุการกำหนดปัญหาที่ไม่ถูกต้อง

Gelman, A. , Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A. , & Rubin, DB (2013) การวิเคราะห์ข้อมูลแบบเบย์รุ่นที่สาม แชปแมน & ฮอล / CRC

Jaynes, ET (2003) ทฤษฎีความน่าจะเป็น: ตรรกะของวิทยาศาสตร์ สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์


1
XiXi

1
@GillaillaumeDehaene คำถามของคุณคือว่ามีข้อโต้แย้งบางอย่างสำหรับการใช้ Bayes เมื่อแบบจำลองไม่ได้ระบุไว้หรือไม่ เห็นได้ชัดว่าแบบจำลองที่ได้รับการผิดพลาดอย่างมหันต์นั้นได้ระบุไว้อย่างไม่ถูกต้อง นอกจากนี้คุณไม่สามารถรู้ apriori ได้ว่าแบบจำลองของคุณนั้นผิดพลาดอย่างมากหรือไม่ได้ระบุไว้ ในความเป็นจริงเบย์สามารถบอกคุณได้อย่างแม่นยำว่าซึ่งทำให้มีประโยชน์และคำตอบของฉันชี้ให้เห็นว่า
matus

1-α

p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0

5

MLE ยังคงเป็นตัวประมาณสำหรับพารามิเตอร์ในรูปแบบที่คุณระบุและถือว่าถูกต้อง สัมประสิทธิ์การถดถอยใน OLS ที่ใช้บ่อยสามารถประเมินได้ด้วย MLE และคุณสมบัติทั้งหมดที่คุณต้องการแนบ (ไม่เอนเอียงความแปรปรวนเชิงซีโมติกเฉพาะ) ยังคงถือว่าโมเดลเชิงเส้นเฉพาะของคุณนั้นถูกต้อง

ฉันจะทำขั้นตอนนี้ต่อไปและบอกว่าทุกครั้งที่คุณต้องการกำหนดความหมายและคุณสมบัติให้กับตัวประมาณคุณต้องใช้แบบจำลอง แม้ว่าคุณจะใช้ค่าเฉลี่ยตัวอย่างอย่างง่าย แต่คุณกำลังสมมติว่าข้อมูลนั้นสามารถแลกเปลี่ยนได้และอาจเกิด IID บ่อยครั้ง

ตอนนี้ตัวประมาณแบบเบย์มีคุณสมบัติที่ต้องการมากมายที่ MLE อาจไม่มี ยกตัวอย่างเช่นการรวมกำไรบางส่วนการทำให้เป็นปกติและการตีความของผู้อยู่ด้านหลังซึ่งทำให้เป็นที่ต้องการในหลาย ๆ สถานการณ์


คุณไม่จำเป็นต้องสมมติ IID สำหรับค่าเฉลี่ยเพื่อให้ความหมาย ก็พอที่จะรับแลกเปลี่ยน (แต่ใช่ว่ายังคงเป็นข้อสันนิษฐาน ... )
kjetil b halvorsen

@kjetil b halvorsen ขอบคุณฉันได้แก้ไขเพื่อความชัดเจนแล้ว
TrynnaDoStat

4

ผมขอแนะนำให้ Gelman & Shalizi ของปรัชญาและการปฏิบัติของสถิติคชกรรม พวกเขามีคำตอบที่สอดคล้องกันอย่างละเอียดและเป็นประโยชน์สำหรับคำถามเหล่านี้

เราคิดว่ามุมมองส่วนใหญ่ที่ได้รับจากการอนุมานแบบเบย์นั้นผิด วิธีการแบบเบย์นั้นไม่มีการเหนี่ยวนำมากกว่าโหมดการอนุมานเชิงสถิติอื่น ๆ การวิเคราะห์ข้อมูลแบบเบย์เป็นที่เข้าใจกันดีมากจากมุมมอง hypothetico-นิรนัย โดยนัยในการปฏิบัติแบบเบย์ที่ดีที่สุดคือจุดยืนที่เหมือนกันมากกับวิธีการผิดพลาดทางสถิติของ Mayo (1996) แม้จะมีการปฐมนิเทศบ่อยครั้งหลัง อันที่จริงชิ้นส่วนที่สำคัญของการวิเคราะห์ข้อมูลแบบเบย์เช่นการตรวจสอบแบบจำลองสามารถเข้าใจได้ว่าเป็น 'ข้อผิดพลาด' ในแง่ของ Mayo

เราดำเนินการโดยการรวมกันของการตรวจสอบกรณีที่เป็นรูปธรรมของการวิเคราะห์ข้อมูลแบบเบย์ในการวิจัยทางสังคมศาสตร์เชิงประจักษ์และผลทางทฤษฎีเกี่ยวกับความสอดคล้องและการบรรจบกันของการปรับปรุงแบบเบย์ การวิเคราะห์ข้อมูลทางวิทยาศาสตร์สังคมนั้นมีความสำคัญอย่างยิ่งสำหรับวัตถุประสงค์ของเราเนื่องจากมีข้อตกลงทั่วไปว่าในรูปแบบนี้ทุกรูปแบบที่ใช้นั้นไม่ถูกต้องไม่เพียง แต่เป็นเท็จ แต่เป็นเท็จจริง ด้วยข้อมูลที่เพียงพอและบ่อยครั้งที่มีปริมาณพอสมควรนักวิเคราะห์ใด ๆ สามารถปฏิเสธแบบจำลองใด ๆ ที่ใช้งานอยู่ในระดับความมั่นใจที่ต้องการ การทำโมเดลให้เหมาะสมนั้นเป็นกิจกรรมที่มีค่าและแน่นอนว่าการวิเคราะห์ข้อมูล เพื่อให้เข้าใจว่าทำไมจึงเป็นเช่นนี้เราต้องตรวจสอบว่าแบบจำลองนั้นถูกสร้างขึ้นติดตั้งใช้งานและตรวจสอบแล้วรวมถึงผลกระทบของการสะกดคำผิดในแบบจำลอง

...

ในมุมมองของเราบัญชีของย่อหน้าสุดท้าย [ของมุมมองแบบเบย์มาตรฐาน] นั้นผิดพลาดอย่างยิ่ง กระบวนการวิเคราะห์ข้อมูล - แบบเบย์หรืออย่างอื่น - ไม่ได้จบด้วยการคำนวณค่าพารามิเตอร์หรือการกระจายหลัง แต่สามารถตรวจสอบตัวแบบได้โดยเปรียบเทียบความเกี่ยวข้องของแบบจำลองที่พอดีกับหลักฐานเชิงประจักษ์. เราถามคำถามเช่นว่าการจำลองจากโมเดลที่ติดตั้งนั้นคล้ายกับข้อมูลต้นฉบับหรือไม่นั้นโมเดลที่ได้รับการติดตั้งนั้นสอดคล้องกับข้อมูลอื่น ๆ ที่ไม่ได้ใช้ในการปรับแบบจำลองหรือไม่และตัวแปรที่ตัวแบบบอกว่าเป็นเสียงรบกวน ความจริงแสดงรูปแบบที่ตรวจพบได้อย่างง่ายดาย ความแตกต่างระหว่างแบบจำลองและข้อมูลสามารถใช้เพื่อเรียนรู้เกี่ยวกับวิธีการที่แบบจำลองไม่เพียงพอสำหรับวัตถุประสงค์ทางวิทยาศาสตร์ในมือและทำให้เกิดการขยายตัวและการเปลี่ยนแปลงแบบจำลอง (ส่วนที่ 4)


2

xdม.

พี(x|d,ม.),
ม.x
p(x|d)=mp(x|d,m)p(m|d)

xmxม.


3
การหาค่าเฉลี่ยของแบบจำลองไม่สามารถช่วยเราได้ แต่ก็ยังคงเป็นเรื่องโง่ที่จะสมมติว่าตัวแบบที่แท้จริงตกอยู่ในขอบเขตของแบบจำลองที่ใหญ่กว่าของเรา ด้วยการเปรียบเทียบแบบจำลองเราสามารถกำหนดได้ว่าแบบจำลองใดที่ให้ข้อมูลบัญชีที่ดีที่สุด แต่เพียงคืนค่าแบบจำลองที่ผิดที่ผิดน้อยกว่ารุ่นอื่น ๆ
Guillaume Dehaene

มันสามารถช่วยให้คุณทำการอนุมาน / ประมาณค่าเกี่ยวกับปริมาณที่ไม่รู้จักซึ่งรวมความไม่แน่นอนของโมเดลไว้ด้วยกัน แม้ว่ามันจะไม่สามารถสร้างสมมติฐานใหม่สำหรับคุณได้ หากมีเครื่องจักรทางสถิติที่คิดค้นแบบจำลองในแง่ของข้อมูลเช่นวิทยาศาสตร์จะง่ายขึ้นมาก
innisfree

1

คุณจะกำหนดรูปแบบ "ระบุผิด" ได้อย่างไร นี่หมายความว่าแบบจำลอง ...

  • คาดคะเน "ไม่ดี" หรือไม่
  • พีT(x)
  • พารามิเตอร์หายไปหรือไม่
  • นำไปสู่ข้อสรุป "ไม่ดี"?

หากคุณนึกถึงวิธีการที่แบบจำลองที่ระบุสามารถระบุผิดคุณจะต้องดึงข้อมูลเกี่ยวกับวิธีสร้างแบบจำลองที่ดีขึ้น รวมข้อมูลพิเศษนั้นไว้ในแบบจำลองของคุณ!

ถ้าคุณคิดเกี่ยวกับสิ่งที่ "รูปแบบ" อยู่ในกรอบ Bayesian คุณสามารถเสมอทำให้รูปแบบที่ไม่สามารถผิดพลาดระบุ วิธีหนึ่งในการทำเช่นนี้คือการเพิ่มพารามิเตอร์เพิ่มเติมให้กับโมเดลปัจจุบันของคุณ ด้วยการเพิ่มพารามิเตอร์เพิ่มเติมคุณจะทำให้โมเดลของคุณมีความยืดหยุ่นและปรับเปลี่ยนได้มากขึ้น วิธีการเรียนรู้ของเครื่องใช้ประโยชน์จากแนวคิดนี้อย่างเต็มที่ สิ่งนี้รองรับสิ่งต่าง ๆ เช่น "เครือข่าย nueral" และ "ต้นไม้ถดถอย" คุณต้องคิดเกี่ยวกับนักบวช (คล้ายกับการทำให้เป็นมาตรฐานสำหรับ ML)


แบบ 1: xผม=θ+σอีผม
อีผม~ยังไม่มีข้อความ(0,1)
รุ่น 2: xผม=θ+σอีผมWผม

อีผม~ยังไม่มีข้อความ(0,1)θ

Wผม~ยังไม่มีข้อความ(0,1)


x(x)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.