เป็นจริงหรือไม่ที่ Bayesians ไม่ต้องการชุดทดสอบ?


9

ฉันเพิ่งดูการพูดคุยนี้โดยเอริคเจ Maและการตรวจสอบของเขารายการบล็อกที่เขาพูดราดโอนีลว่ารูปแบบเบส์ไม่ overfit ( แต่พวกเขาสามารถ overfit ) และเมื่อใช้พวกเขาเราไม่จำเป็นต้องใช้ชุดทดสอบสำหรับการตรวจสอบพวกเขา (สำหรับ ฉันพูดดูเหมือนจะพูดค่อนข้างเกี่ยวกับการใช้ชุดการตรวจสอบเพื่อปรับพารามิเตอร์) ความจริงแล้วข้อโต้แย้งนั้นไม่ทำให้ฉันและฉันไม่สามารถเข้าถึงหนังสือได้ดังนั้นคุณจะให้ข้อโต้แย้งที่ละเอียดและเข้มงวดมากขึ้นหรือคัดค้านข้อความดังกล่าวหรือไม่?

ในขณะเดียวกัน Eric Ma ได้ชี้ให้ฉันสนทนาในหัวข้อเดียวกัน


3
หนึ่งช่องสำคัญในการโต้แย้งนี้เกี่ยวกับการพูดคุยนั้น: หากคุณกำลังทำ MCMC หากคุณไม่สำรวจเบื้องหลังอย่างเต็มที่การอนุมานของคุณนั้นไม่ถูกต้องทั้งหมด หากคุณกำลังอนุมานบน Bayesian Neural Network คุณแทบจะไม่ได้สำรวจส่วนหลังขนาดใหญ่มากโดยใช้ MCMC ดังนั้นคุณควรแยกข้อมูลของคุณออกเป็นสองเท่าเพื่อตรวจสอบการอนุมานของคุณ!
Cliff AB

สิ่งหนึ่งที่ต้องพิจารณาคือสิ่งที่เราประเมินหรือตรวจสอบ? อาจเป็นไปได้ว่าเราไม่ได้ใช้ข้อมูลทั้งหมดที่เรามี (ไม่ว่าจะก่อนหรือโอกาส) การตรวจสอบรูปแบบที่เหมาะสมสามารถช่วยตอบคำถามนี้ได้
ความน่าจะเป็นที่เป็นไปได้

คำตอบ:


5

หากเราใช้ "โมเดลจริงหนึ่งตัว" และ "นักบวชที่แท้จริง" ซึ่งสะท้อนข้อมูลบางอย่างที่ถูกบันทึกไว้อย่างเหมาะสมแล้วเท่าที่ฉันทราบว่า Bayesian ไม่มีปัญหามากเกินไปและการกระจายการทำนายหลังที่ได้รับข้อมูลน้อยมากจะไม่แน่นอนอย่างเหมาะสม . อย่างไรก็ตามถ้าเราใช้แบบจำลองที่ได้รับการเลือกอย่างจริงจังบางชนิด (เช่นเราได้ตัดสินใจแล้วว่าเช่นอัตราความเป็นอันตรายคงที่ตลอดเวลาและตัวแบบเอกซ์โปเนนเชียลนั้นเหมาะสมหรือเช่น covariate บางตัวไม่อยู่ในรูปแบบ = จุดก่อนสัมประสิทธิ์ศูนย์) ค่าเริ่มต้นไม่เป็นทางการหรือเป็นมาตรฐานแล้วเราไม่ทราบว่าสิ่งนี้ยังคงใช้อยู่หรือไม่ ในกรณีนั้นการเลือก (ไฮเปอร์ -) นักบวชมีความเด็ดขาดในเรื่องนี้ซึ่งอาจหรือไม่อาจส่งผลให้เกิดการคาดการณ์ตัวอย่างที่ดี

ดังนั้นจึงมีเหตุผลมากที่จะถามคำถามว่าตัวเลือก hyperparameter (= พารามิเตอร์ของ hyperpriors) รวมกับความน่าจะเป็นที่เลือกจะทำงานได้ดีหรือไม่ ในความเป็นจริงคุณสามารถตัดสินใจได้ง่าย ๆ ว่าควรปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์เพื่อให้ได้ประสิทธิภาพการทำนายที่ต้องการ จากมุมมองนั้นชุดการตรวจสอบความถูกต้อง (หรือการตรวจสอบความถูกต้องข้าม) เพื่อปรับแต่งพารามิเตอร์ไฮเปอร์พารามิเตอร์และชุดการทดสอบเพื่อยืนยันประสิทธิภาพที่เหมาะสม

ผมคิดว่านี่เป็นเรื่องที่เกี่ยวข้องอย่างใกล้ชิดกับจำนวนของการอภิปรายของแอนดรู Gelman ในบล็อกของเขา (ดูเช่นรายการบล็อก 1 , บล็อกของรายการ 2 , บล็อกรายการ 3 LOO สำหรับสแตนและ discusions ในการตรวจสอบการทำนายหลัง) ที่เขากล่าวถึงความกังวลของเขาไปรอบ ๆ (ในบางแง่ที่ถูกต้อง) อ้างว่าชาวเบย์ไม่ควรตรวจสอบว่าแบบจำลองของพวกเขาเหมาะสมหรือไม่

แน่นอนว่าเรามักจะสนใจวิธีใช้แบบเบย์มากที่สุดในการตั้งค่าซึ่งมีข้อมูลน้อยก่อนหน้านี้และเราต้องการใช้นักบวชที่มีข้อมูลค่อนข้างมาก ณ จุดนี้มันอาจจะค่อนข้างยุ่งยากที่จะมีข้อมูลเพียงพอที่จะไปได้ทุกที่ด้วยการตรวจสอบและประเมินผลในชุดทดสอบ


2

ดังนั้นฉันจึงตอบคำถามเกี่ยวกับการอ้างสิทธิ์เกินจริงที่คุณอ้างอิงและฉันดูวิดีโอและอ่านโพสต์บล็อก Radford Neal ไม่ได้บอกว่านางแบบชาว Bayesian นั้นไม่เหมาะสม ขอให้เราจำไว้ว่าการ overfitting นั้นเป็นปรากฏการณ์ของเสียงที่ถูกใช้เป็นสัญญาณและยึดไว้กับการประมาณค่าพารามิเตอร์ นั่นไม่ใช่ข้อผิดพลาดในการเลือกรุ่นที่มาเท่านั้น การสนทนาของโอนีลนั้นกว้างกว่าโดยการเข้าไปคิดเรื่องตัวอย่างขนาดเล็กที่เขากล้าพูดถึงเรื่องการ overfitting

ให้ฉันแก้ไขการโพสต์ก่อนหน้าของฉันบางส่วนว่าแบบจำลอง Bayesian สามารถทำให้พอดีกับแบบจำลอง Bayesian ทั้งหมดได้ แต่จะทำในลักษณะที่ปรับปรุงการทำนาย อีกครั้งกลับไปที่คำจำกัดความของสัญญาณที่สับสนด้วยเสียงความไม่แน่นอนในวิธีเบย์การกระจายหลังคือการหาปริมาณของความไม่แน่นอนนั้นว่าเป็นสัญญาณและเสียงอะไร ในการทำเช่นนั้นวิธีการแบบเบย์กำลังดังกึกก้องไปยังการประมาณค่าสัญญาณขณะที่ด้านหลังทั้งหมดใช้ในการอนุมานและการทำนาย ข้อผิดพลาดมากเกินไปและแหล่งที่มาอื่น ๆ ของการจำแนกประเภทของแบบจำลองเป็นปัญหาประเภทอื่นในวิธีการแบบเบย์

เพื่อให้ง่ายขึ้นเราขอนำโครงสร้างของการพูดของมาม่าและมุ่งเน้นไปที่การถดถอยเชิงเส้นและหลีกเลี่ยงการอภิปรายเชิงลึกเพราะในขณะที่เขาชี้ให้เห็นวิธีการทางเลือกที่เขากล่าวถึงเป็นเพียงองค์ประกอบของหน้าที่และมีการเชื่อมโยงโดยตรงระหว่างตรรกะเชิงเส้น การถดถอยและการเรียนรู้อย่างลึกซึ้ง

พิจารณาแบบจำลองที่มีศักยภาพต่อไปนี้ ให้สร้างกลุ่มตัวอย่างขนาดกว้างที่ประกอบด้วย 2 ตัวอย่างคือโดยที่เป็นชุดฝึกอบรมและเป็นชุดตรวจสอบความถูกต้อง เราจะเห็นว่าทำไมวิธีการแบบเบย์จึงไม่จำเป็นต้องมีชุดการฝึกอบรมและการตรวจสอบแยกต่างหาก

y=β0+β1x1+β2x2+β3x3.
Nn1,n2n1n2

สำหรับการสนทนานี้เราจำเป็นต้องสร้างพารามิเตอร์อีกแปดพารามิเตอร์สำหรับแต่ละรุ่น พวกเขาเป็น{_8} พวกเขาติดตามการแจกแจงพหุนามและมีนักบวชที่เหมาะสมเช่นเดียวกับสัมประสิทธิ์การถดถอย โมเดลแปดแบบคือและ m18

y=β0+β1x1+β2x2+β3x3,
y=β0,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3,
y=β0+β1x1+β2x2,
y=β0+β1x1+β3x3,
y=β0+β2x2+β3x3,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3.

ตอนนี้เราจำเป็นต้องเข้าใจถึงวัชพืชของความแตกต่างระหว่างวิธีการแบบเบย์และแบบผู้นิยมใช้บ่อย ในชุดการฝึกอบรมผู้สร้างแบบจำลองที่ใช้วิธีการของผู้ใช้บ่อยเลือกเพียงแบบเดียว ผู้สร้างโมเดลที่ใช้วิธีการแบบเบย์ไม่ได้ถูก จำกัด แม้ว่าผู้สร้างแบบจำลอง Bayesian สามารถใช้เกณฑ์การเลือกรูปแบบเพื่อค้นหาแบบจำลองเดียวพวกเขายังสามารถใช้ค่าเฉลี่ยของแบบจำลองได้ฟรี ตัวสร้างแบบจำลองแบบเบย์ยังมีอิสระที่จะเปลี่ยนแบบจำลองที่เลือกในช่วงกลางคันในส่วนการตรวจสอบความถูกต้อง Moreso ผู้สร้างแบบจำลองที่ใช้วิธีการแบบเบย์สามารถผสมและจับคู่ระหว่างการเลือกและค่าเฉลี่ยn1,

เพื่อเป็นตัวอย่างในโลกแห่งความจริงฉันได้ทดสอบการล้มละลาย 78 แบบ จาก 78 โมเดลความน่าจะเป็นด้านหลังที่รวมกันของ 76 โมเดลอยู่ที่ประมาณหนึ่งในหมื่นของหนึ่งเปอร์เซ็นต์ อีกสองรุ่นมีประมาณร้อยละ 54 และ 46 ตามลำดับ โชคดีที่พวกเขายังไม่ได้แชร์ตัวแปรใด ๆ นั่นทำให้ฉันสามารถเลือกทั้งสองรุ่นและไม่สนใจอีก 76 เมื่อฉันมีจุดข้อมูลทั้งหมดสำหรับทั้งสองฉันเฉลี่ยการทำนายของพวกเขาขึ้นอยู่กับความน่าจะเป็นหลังของทั้งสองรุ่นโดยใช้เพียงหนึ่งรุ่นเมื่อฉันขาดจุดข้อมูลที่ทำให้ อื่น ๆ ในขณะที่ฉันมีชุดฝึกอบรมและชุดการตรวจสอบความถูกต้อง แต่ก็ไม่ใช่เหตุผลเดียวกันที่ผู้ใช้ประจำจะมีพวกเขา นอกจากนี้ในตอนท้ายของทุกวันในรอบธุรกิจสองรอบฉันได้อัปเดตผู้โพสต์ของฉันด้วยข้อมูลของแต่ละวัน นั่นหมายความว่าแบบจำลองของฉันในตอนท้ายของชุดการตรวจสอบความถูกต้องไม่ใช่แบบจำลองในตอนท้ายของชุดการฝึกอบรม แบบเบย์ไม่หยุดเรียนรู้ในขณะที่ตัวแบบประจำ

หากต้องการให้ลึกยิ่งขึ้นขอให้เรานำเสนอโมเดลของเราอย่างเป็นรูปธรรม ขอให้เราสมมติว่าในระหว่างการฝึกซ้อมตัวอย่างแบบจำลองที่เหมาะสมที่สุดและแบบจำลองเบย์โดยใช้การเลือกแบบที่ตรงกันหรืออีกวิธีหนึ่งว่าน้ำหนักแบบจำลองในการหาค่าเฉลี่ยของแบบจำลองนั้นยอดเยี่ยมจนเกือบจะไม่สามารถแยกแยะได้ เราจะจินตนาการว่าโมเดลนี้เป็น ลองจินตนาการว่าโมเดลจริงในธรรมชาติคือ

y=β0+β1x1+β2x2+β3x3.
y=β0+β1x1+β3x3.

ตอนนี้ลองมาพิจารณาความแตกต่างในชุดการตรวจสอบ โมเดล Frequentist มีการติดตั้งข้อมูลมากเกินไป สมมติว่าในบางจุดว่าการเลือกรูปแบบหรือขั้นตอนการตรวจสอบความถูกต้องได้เปลี่ยนการเลือกเป็นรูปแบบจริงตามธรรมชาติ นอกจากนี้หากใช้ค่าเฉลี่ยของแบบจำลองโมเดลที่แท้จริงในธรรมชาติจะมีน้ำหนักในการทำนายนานก่อนที่ตัวเลือกของโมเดลจะถูกตัดอย่างชัดเจน ET Jaynes จากทฤษฎีความน่าจะเป็นใช้เวลาพูดคุยเรื่องนี้ ฉันมีหนังสือในที่ทำงานดังนั้นฉันไม่สามารถรับการอ้างอิงที่ดี แต่คุณควรอ่าน มันคือไอ 978-0521592710n2i

แบบจำลองเป็นพารามิเตอร์ในการคิดแบบเบย์และเป็นแบบสุ่มหรือหากคุณต้องการความไม่แน่นอน ความไม่แน่นอนนั้นไม่สิ้นสุดในระหว่างกระบวนการตรวจสอบ มีการปรับปรุงอย่างต่อเนื่อง

เนื่องจากความแตกต่างระหว่างวิธีการแบบเบย์และวิธีการเป็นประจำจึงมีหลายกรณีที่ต้องพิจารณาด้วย สิ่งแรกมาจากการอนุมานพารามิเตอร์ซึ่งเป็นครั้งที่สองจากการคาดการณ์อย่างเป็นทางการ พวกมันไม่เหมือนกันในวิธีการแบบเบย์ วิธีการแบบเบย์อย่างเป็นทางการแยกการอนุมานและการตัดสินใจออกมาอย่างเป็นทางการ พวกเขายังแยกการประมาณค่าพารามิเตอร์และการทำนาย

ลองนึกภาพโดยไม่สูญเสียความสามารถทั่วไปแบบจำลองที่จะประสบความสำเร็จถ้าและความล้มเหลวเป็นอย่างอื่น เราจะเพิกเฉยต่อพารามิเตอร์อื่น ๆ เพราะมันจะเป็นงานพิเศษมากมายที่จะได้รับความคิดที่เรียบง่าย สำหรับผู้สร้างแบบจำลองที่ใช้วิธีการแบบเบย์นี่เป็นคำถามประเภทอื่นที่แตกต่างจากแบบจำลองที่ใช้วิธีการแบบผู้ใช้เป็นประจำσ2^<k

สำหรับผู้ที่มาเป็นประจำจะทำการทดสอบสมมติฐานตามชุดฝึกอบรม สร้างแบบจำลองโดยใช้วิธีการ frequentist จะทดสอบว่าความแปรปรวนประมาณมากกว่าหรือเท่ากับและพยายามที่จะปฏิเสธ null มากกว่ากลุ่มตัวอย่างที่มีขนาดโดยกำหนดพารามิเตอร์ให้กับผู้ที่ค้นพบในn_1kn2n1

สำหรับการสร้างแบบจำลองโดยใช้วิธีการแบบเบย์พวกเขาจะเป็นประมาณการพารามิเตอร์ในช่วงจากตัวอย่างและความหนาแน่นหลังของจะกลายเป็นตัวอย่างก่อนสำหรับn_2สมมติว่าคุณสมบัติการแลกเปลี่ยนสามารถถือได้ดังนั้นจึงมั่นใจได้ว่าการประเมินหลังของนั้นเท่ากันในทุกประสาทสัมผัสของคำว่าการประมาณความน่าจะเป็นที่เกิดขึ้นจากตัวอย่างร่วมกัน การแยกพวกมันออกเป็นสองตัวอย่างนั้นมีค่าเทียบเท่าโดยการบังคับของคณิตศาสตร์ที่จะไม่แยกพวกมันออกเลยn1n1n2n2

สำหรับการคาดการณ์ปัญหาที่คล้ายกันจะเกิดขึ้น วิธีการแบบเบย์มีการกระจายการทำนายที่มีการปรับปรุงด้วยการสังเกตแต่ละขณะที่ frequentist หนึ่งถูกแช่แข็งในตอนท้ายของกลุ่มตัวอย่างn_1ความหนาแน่นของการทำนายสามารถเขียนเป็น{X}) ถ้าเป็นการคาดคะเนและเป็นตัวอย่างจากนั้นพารามิเตอร์ที่เราจะแสดงถึงn1Pr(x~=k|X)x~Xθ? แม้ว่าระบบการคาดการณ์ของนักถานจะมีอยู่จริง แต่คนส่วนใหญ่ก็มองว่าการประมาณจุดเป็นพารามิเตอร์ที่แท้จริงและการคำนวณเศษซาก วิธีการแบบเบย์จะให้คะแนนการทำนายแต่ละครั้งกับความหนาแน่นที่คาดการณ์ไว้แทนที่จะเป็นเพียงจุดเดียว การคาดการณ์เหล่านี้ไม่ได้ขึ้นอยู่กับพารามิเตอร์ที่แตกต่างจากวิธีการจุดที่ใช้ในการแก้ปัญหาบ่อย

ในฐานะที่เป็นบันทึกด้านความหนาแน่นของการทำนายผลอย่างเป็นทางการมีอยู่โดยใช้ข้อผิดพลาดมาตรฐานและการให้คะแนนสามารถทำได้ แต่สิ่งเหล่านี้เป็นเรื่องยากในทางปฏิบัติ หากไม่มีความรู้เฉพาะก่อนหน้านี้ชุดการทำนายทั้งสองควรเหมือนกันสำหรับชุดข้อมูลจุดเดียวกัน พวกเขาจะจบลงแตกต่างกันเนื่องจากและดังนั้นวิธีการแก้ปัญหาแบบเบย์จะกักข้อมูลเพิ่มเติมn1+n2>n1

หากไม่มีข้อมูลก่อนและหากมีการใช้ความหนาแน่นเชิงพยากรณ์แบบพยากรณ์บ่อยมากกว่าการประมาณจุดดังนั้นสำหรับตัวอย่างแบบคงที่ผลลัพธ์ของวิธี Bayesian และ Frequentist จะเหมือนกันหากเลือกแบบจำลองเดียว หากมีข้อมูลก่อนหน้านี้วิธีการแบบเบย์จะมีแนวโน้มที่จะสร้างการทำนายที่แม่นยำยิ่งขึ้น ความแตกต่างนี้อาจมีขนาดใหญ่มากในทางปฏิบัติ ยิ่งไปกว่านั้นถ้ามีค่าเฉลี่ยของแบบจำลองมันก็มีแนวโน้มว่าวิธีการแบบเบย์จะค่อนข้างแข็งแกร่ง หากคุณใช้การเลือกแบบจำลองและตรึงการทำนายแบบเบย์แล้วจะไม่มีความแตกต่างในการใช้แบบจำลองของผู้ใช้ประจำซึ่งใช้การคาดการณ์ของผู้ใช้บ่อย

ฉันใช้ชุดการทดสอบและการตรวจสอบความถูกต้องเนื่องจากข้อมูลของฉันไม่สามารถแลกเปลี่ยนได้ เป็นผลให้ฉันต้องแก้ปัญหาสองปัญหา วิธีแรกคล้ายกับวิธีเบิร์นอินในวิธี MCMC ฉันต้องการชุดการประมาณค่าพารามิเตอร์ที่ดีเพื่อเริ่มต้นลำดับการทดสอบของฉันและดังนั้นฉันจึงใช้ข้อมูลก่อนหน้านี้ห้าสิบปีเพื่อรับความหนาแน่นก่อนหน้านี้ที่ดีในการเริ่มการทดสอบการตรวจสอบความถูกต้อง ปัญหาที่สองคือฉันต้องการรูปแบบของช่วงเวลามาตรฐานในการทดสอบเพื่อที่จะไม่ถูกถาม ฉันใช้วงจรธุรกิจก่อนหน้านี้สองรอบตามวันที่ NBER


แต่จากนั้นบอกว่าคุณประเมิน MAP สำหรับตัวแบบการถดถอยเชิงเส้นพร้อมกับ "ไม่ทราบแน่ชัด" นี่จะเท่ากับการได้รับการประเมินความเป็นไปได้สูงสุดสำหรับโมเดลดังนั้น ML ไม่จำเป็นต้องมีชุดทดสอบอย่างใดอย่างหนึ่ง
ทิม

"overfitting เป็นปรากฏการณ์ของเสียงที่ได้รับการปฏิบัติเป็นสัญญาณและยึดไว้ในการประมาณค่าพารามิเตอร์" ฉันเชื่อว่าคำจำกัดความนี้มีความเฉพาะเจาะจงต่อแบบจำลองเสียงรบกวนเพิ่มเติม ไม่อย่างนั้นการกำหนดค่า overfitting vs underfitting นั้นไม่ดีนัก
Cagdas Ozgenc

@CagdasOzgenc ขอบคุณ คุณมีการแก้ไขที่แนะนำหรือไม่
เดฟแฮร์ริส

@Tim ฉันไม่เคยพูดถึงตัวประมาณค่า MAP หากคุณลดปัญหาลงไปที่ตัวประมาณค่า MAP คุณจะต้องยอมจำนนความแข็งแกร่ง ตัวประมาณค่า MAP เป็นจุดที่ลดฟังก์ชั่นค่าใช้จ่ายลงบนความหนาแน่น นี่อาจเป็นปัญหาสำหรับการคาดการณ์หากความหนาแน่นไม่มีสถิติเพียงพอ ตัวประมาณค่า MAP จะสูญเสียข้อมูลภายใน หากคุณใช้ตัวประมาณค่า MAP ซึ่งไม่ได้อยู่ในคำถามเดิมและไม่ชัดเจนเป็นส่วนหนึ่งของงานนำเสนอของ Ma คุณต้องสร้างปัญหาต่าง ๆ ให้กับตัวเอง
เดฟแฮร์ริส

@Tim ตัวประมาณค่า MAP มาจากทฤษฎีการตัดสินใจแบบเบย์และเป็นการซ้อนทับบนการประมาณค่าแบบเบส์และการอนุมาน แผนที่สะดวก มีราคาที่ต้องชำระเมื่อเลือกความสะดวก นอกจากฟังก์ชั่นค่าใช้จ่ายทั้งหมดหรือไม่มีค่าใด ๆ เป็นฟังก์ชั่นค่าใช้จ่ายที่แท้จริงของคุณคุณกำลังยอมจำนนทั้งข้อมูลและความถูกต้อง นอกจากนี้คุณยังพบปัญหาด้านระเบียบวิธีที่แตกต่างจากที่เสนอไว้ในงานนำเสนอของ Ma
Dave Harris
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.