การเลือกแบบเบส์และช่วงเวลาที่น่าเชื่อถือ


10

ฉันมีชุดข้อมูลที่มีสามตัวแปรโดยที่ตัวแปรทั้งหมดเป็นเชิงปริมาณ อนุญาตเรียกว่า ,และx_2ฉันเหมาะสมกับโมเดลการถดถอยในมุมมองแบบเบย์ผ่าน MCMC ด้วยyx1x2rjags

ฉันทำการวิเคราะห์เชิงสำรวจและสแกตเตอร์ล็อตของแนะนำว่าควรใช้เทอมกำลังสอง จากนั้นฉันติดตั้งสองรุ่นy×x2

(1)y=β0+β1x1+β2x2

(2)y=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

ในรูปแบบที่ 1 ขนาดผลของแต่ละพารามิเตอร์ไม่เล็กและช่วงเวลาที่มีความน่าเชื่อถือ 95% ไม่ได้มีค่าที่00

ในรูปแบบที่ 2 ขนาดของผลของพารามิเตอร์และมีขนาดเล็กและแต่ละช่วงเวลาที่น่าเชื่อถือสำหรับพารามิเตอร์ทั้งหมดมี0β3β40

ความจริงที่ว่าช่วงเวลาที่น่าเชื่อถือมีเพียงพอที่จะบอกได้ว่าพารามิเตอร์นั้นไม่มีนัยสำคัญใช่หรือไม่0

จากนั้นฉันปรับรูปแบบต่อไปนี้

(3)y=β0+β1x1+β2x2+β3x22

ขนาดผลของแต่ละพารามิเตอร์ไม่เล็ก แต่มีข้อยกเว้นของช่วงเวลาที่น่าเชื่อถือว่ามี0β10

วิธีใดที่เหมาะสมในการเลือกตัวแปรในสถิติแบบเบย์

แก้ไข:ฉันสามารถใช้ Lasso ในรูปแบบการถดถอยใด ๆ เช่นรุ่นเบต้าหรือไม่ ฉันใช้โมเดลที่มีการกระจายตัวแปรโดยที่ โดยที่เป็นเวกเตอร์ ฉันควรใช้ Laplace ก่อนหน้าในด้วยหรือไม่

log(σ)=δδX
δδδδ

EDIT2:ฉันติดตั้งสองรุ่นโดยหนึ่งมี Gaussian Priori สำหรับ ,และอีกรุ่นด้วย Laplace (เลขชี้กำลังสองเท่า)βjδj

ค่าประมาณสำหรับแบบเกาส์เซคือ

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

ค่าประมาณสำหรับโมเดล Lasso คือ

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

ค่าประมาณสำหรับและลดลงมากในแบบจำลอง Lasso นั่นหมายความว่าฉันควรลบตัวแปรนี้ออกจากตัวแบบหรือไม่δ2δ4

EDIT3:แบบจำลองที่มีเลขชี้กำลังสองเท่าก่อนหน้า (Lasso) ให้ค่า Deviance, BIC และ DIC ที่ใหญ่กว่าแบบจำลองกับ Priors แบบเกาส์และฉันได้รับค่าที่น้อยลงหลังจากลบสัมประสิทธิ์การกระจายในแบบจำลอง Gaussianδ2


2
ส่วนที่ 18.4 ของ DBDA2E * เป็นเรื่องเกี่ยวกับการเลือกตัวแปรในการถดถอยหลายครั้ง ด้วยความระมัดระวังอย่างยิ่งคุณสามารถใส่ตัวบ่งชี้การรวมกับสัมประสิทธิ์แต่ละค่าและดูความน่าจะเป็นด้านหลังของการรวม เมื่อตีความการกระจายของพารามิเตอร์หลัง HDI 95% รวมถึงศูนย์ไม่ได้บ่งบอกถึงความเท่าเทียมกับศูนย์ * DBDA2E = กำลังทำการวิเคราะห์ข้อมูลแบบเบย์รุ่นที่ 2
John K. Kruschke

2
วิธีธรรมชาติในการเปรียบเทียบแบบจำลองในกรอบการทำงานแบบเบย์คือผ่านความเป็นไปได้เล็กน้อยซึ่งไม่ใช่ช่วงเวลาที่น่าเชื่อถือ อีกทางเลือกหนึ่งที่เกี่ยวข้องกับการหาค่าเฉลี่ยของแบบจำลองคือการใช้การเป็นตัวแทนของส่วนผสมและอนุมานจากน้ำหนักของแต่ละรุ่น / ส่วนประกอบซึ่งเป็นที่นิยมของข้อมูล
ซีอาน

@ ซีอาน แต่การเปรียบเทียบสองรุ่นขึ้นไปผ่านความเป็นไปได้ที่จะไม่เหมือนกับการใช้ปัจจัย Bayes หากทุกรุ่นมีความน่าจะเป็นเหมือนกันหรือไม่
DeltaIV

เรียนศาสตราจารย์ Kruschke ฉันมีข้อสงสัยเกี่ยวกับการคำนวณระยะเวลา crdible สิ่งที่ฉันเข้าใจว่าอาจมีช่วงเวลาที่น่าเชื่อถือได้หลายอย่าง แต่นี่เป็นวิธีการตัดสินใจว่านักบวชคนใดที่มีความน่าเชื่อถือมากที่สุด อีกคำถามหนึ่งคือฉันใช้ Variational Inference (VI) สำหรับการคำนวณผู้โพสต์และในที่สุดก็คำนวณขอบเขตล่างของแบบจำลองหลักฐาน จะคำนวณช่วงเวลาที่น่าเชื่อถือสำหรับผู้โพสต์ในกรณี VI ได้อย่างไร? นอกจากนี้วิธีการดำเนินการกับปัจจัย Bayes ในกรณีของ VI?
Sandipan Karmakar

คำตอบ:


9

เป็นที่ทราบกันดีว่าการสร้างแบบจำลองนั้นขึ้นอยู่กับสิ่งที่สำคัญ (หรือเกณฑ์อื่น ๆ เช่น AIC ไม่ว่าช่วงเวลาที่น่าเชื่อถือที่มี 0 และอื่น ๆ ) นั้นค่อนข้างมีปัญหาโดยเฉพาะอย่างยิ่งถ้าคุณทำการอนุมานราวกับว่าคุณไม่ได้สร้างแบบจำลอง การวิเคราะห์แบบเบย์นั้นไม่ได้เปลี่ยนแปลงสิ่งนั้น (ดูที่https://stats.stackexchange.com/a/201931/86652 ) นั่นคือคุณไม่ควรเลือกตัวแปร แต่ควรทำแบบจำลองเฉลี่ย (หรือบางสิ่งบางอย่างที่อาจทำให้คุณมีค่าสัมประสิทธิ์เป็นศูนย์ แต่สะท้อนถึงกระบวนการสร้างแบบจำลองทั้งหมดเช่น LASSO หรือเครือข่ายอีลาสติก)

ตัวเลือกแบบจำลองแบบเบย์นั้นมีกรอบมากกว่าแบบเฉลี่ยแบบเบย์ คุณมีโมเดลที่แตกต่างกันโดยแต่ละรุ่นมีความน่าจะเป็นก่อนหน้านี้แตกต่างกัน หากความน่าจะเป็นแบบหลังสำหรับแบบจำลองนั้นต่ำพอคุณจะละทิ้งแบบจำลองทั้งหมด สำหรับน้ำหนักก่อนหน้าเท่ากันสำหรับรุ่นแต่ละรุ่นและรุ่นแบนราบค่าเฉลี่ยโมเดลที่มีน้ำหนักตามสัดส่วนสำหรับแต่ละรุ่นมีความใกล้เคียงกันexp(BIC/2)

คุณสามารถเลือกแสดงค่าเฉลี่ยของแบบจำลองก่อนหน้านี้ซึ่งเป็นส่วนผสมระหว่างมวลจุด (น้ำหนักของมวลจุดคือความน่าจะเป็นก่อนหน้านี้ของผลกระทบที่เป็นศูนย์ = ผลกระทบไม่ได้อยู่ในรูปแบบ) และการกระจายแบบต่อเนื่อง (เช่น นักปราชญ์ การสุ่มตัวอย่าง MCMC อาจทำได้ค่อนข้างยากสำหรับรุ่นก่อน

Carvalho และคณะ กระตุ้นการหดตัวของเกือกม้าก่อนโดยแนะนำว่ามันทำงานเหมือนการประมาณอย่างต่อเนื่องเพื่อขัดขวางและแผ่นพื้นก่อน มันเป็นกรณีของการฝังปัญหาในโมเดลลำดับชั้นที่ขนาดและการปรากฏตัวของผลกระทบต่อตัวแปรบางอย่างผ่อนคลายหลักฐานที่จำเป็นสำหรับคนอื่น ๆ เล็กน้อย (ผ่านพารามิเตอร์การหดตัวทั่วโลกนี้เป็นบิตเช่นการค้นพบเท็จ การควบคุมอัตรา) และในทางกลับกันอนุญาตให้เอฟเฟ็กต์ของแต่ละคนยืนอยู่คนเดียวได้หากหลักฐานชัดเจนเพียงพอ มีการดำเนินงานที่สะดวกสบายของมันใช้ได้จากเป็นBRMsแพคเกจ R ที่สร้างขึ้นบนสแตน / rstan มีนักบวชที่คล้ายกันอีกจำนวนมากเช่นเกือกม้า + ก่อนหน้านี้และหัวข้อทั้งหมดเป็นพื้นที่ของการวิจัยอย่างต่อเนื่อง


Bayesian Lasso เป็นเช่นนี้stats.stackexchange.com/questions/28609/… ? ฉันเป็นรุ่นที่มีตัวแปรการกระจายตัวฉันควรใช้เลขชี้กำลังสองเท่าก่อนหน้าสำหรับพารามิเตอร์เหล่านั้นด้วยหรือไม่

2

มีวิธีการมากมายสำหรับการเลือกตัวแปรแบบเบย์ บทวิจารณ์ที่ล้าสมัยเล็กน้อยของวิธีการเลือกตัวแปรแบบเบย์นำเสนอใน:

การทบทวนวิธีการเลือกตัวแปรแบบเบย์: อะไรอย่างไรและอย่างไร

การทบทวนล่าสุดซึ่งรวมถึงการเปรียบเทียบวิธีการต่างๆและประสิทธิภาพของแพ็คเกจ R ที่ใช้งานคือ:

วิธีการและเครื่องมือสำหรับการเลือกตัวแปรแบบเบส์และแบบจำลองเฉลี่ยในการถดถอยเชิงเส้นแบบไม่แปร

การอ้างอิงนี้มีประโยชน์อย่างยิ่งในการที่จะนำคุณไปยังแพ็คเกจ R เฉพาะซึ่งคุณต้องเสียบการตอบสนองและค่า covariate (และในบางกรณีค่าพารามิเตอร์ hyperparameter) เพื่อเรียกใช้การเลือกตัวแปร

อีกวิธีที่รวดเร็วและสกปรกและไม่แนะนำวิธีการดำเนินการเลือกตัวแปร "Bayesian" คือการใช้การเลือกแบบขั้นตอน (ไปข้างหน้าถอยหลังทั้งคู่) โดยใช้ BIC และคำสั่ง R stepAIC () ซึ่งสามารถ tweaked เพื่อทำการเลือกในแง่ของ BIC

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

อีกวิธีที่รวดเร็วและสกปรกในการทดสอบคือการใช้อัตราส่วนความหนาแน่น Savage-Dickey และการจำลองหลังที่คุณได้รับ:β4=0

https://arxiv.org/pdf/0910.1452.pdf


ฉันคิดว่าคำถามถามว่าทำไมพารามิเตอร์สามตัวในโมเดล 3 ทั้งหมดมีพื้นที่ที่น่าเชื่อถือที่มี 0 และไม่ใช่หรือไม่คือ 0β4
Michael R. Chernick

@MichaelChernick แล้วทำไม OP ขอ"In this case is reasonable say that $\beta_4\neq 0$"? และ"Which is the right way to do variable selection in Bayesian statistics"?
CTHULHU

ฉันพลาดคำถามนั้นไปส่วนหนึ่ง แต่ฉันไม่คิดว่ามันเป็นปัญหาหลัก
Michael R. Chernick

1
@MichaelChernick ดีฉันเดา OP มีคำพูดสุดท้ายที่นี่ ...
ธู

1

แนวคิดทั้งหมดของสถิติแบบเบย์นั้นแตกต่างจากวิธีการที่ใช้บ่อย ด้วยวิธีนี้ฉันคิดว่าการใช้เงื่อนไขของความสำคัญไม่ถูกต้อง ผมคิดว่ามันขึ้นอยู่กับผู้อ่านที่จะตัดสินใจว่าผล (กระจาย) คุณจะได้รับจากแบบจำลองของคุณสำหรับคุณ 's มีให้เขามีความน่าเชื่อถือหรือไว้ใจ มันขึ้นอยู่กับการกระจายตัวเองเสมอ ความกว้างและความเบ้ของพื้นที่น้อยกว่าศูนย์β

คุณสามารถค้นหาการบรรยายที่ดีเกี่ยวกับหัวข้อที่นี่ได้ที่ 41:55:

https://vimeo.com/14553953


ฉันเพิ่มตัวอย่างของฮิสโตแกรมของตัวแปรหนึ่งซึ่งช่วงเวลาที่น่าเชื่อถือมีคุณสามารถดูได้หรือไม่ 0

1
กลับมาจากสุดสัปดาห์ เราจะหาฮิสโตแกรมได้ที่ไหน
burton030
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.