การแจกแจงก่อนหน้าอย่างไม่ทราบข้อมูลสำหรับพารามิเตอร์มาตราส่วน


21

ฉันใช้การแจกแจงแบบปกติของล็อกเป็นการแจกแจงก่อนหน้าสำหรับพารามิเตอร์สเกล (สำหรับการแจกแจงแบบปกติ, การแจกแจงแบบอื่น ๆ ) เมื่อฉันมีความคิดคร่าวๆเกี่ยวกับสิ่งที่สเกลควรจะเป็น แต่ต้องการทำผิดด้าน มากเกี่ยวกับมัน ฉันใช้เพราะการใช้นั้นทำให้ฉันเข้าใจได้ง่าย แต่ฉันไม่ได้เห็นคนอื่นใช้ มีอันตรายซ่อนอยู่หรือไม่?


1
ปกติมีไพรเออร์คอนจูเกต: en.wikipedia.org/wiki/Normal-gamma_distribution คุณอาจพบว่าใช้งานง่ายกว่ามาก
whuber

น่าสนใจ ฉันกำลังทำสิ่งที่เป็นตัวเลขมีความได้เปรียบจากการกระจายเหล่านี้นอกเหนือจากการเป็นคนเจ้าหรือไม่?
John Salvatier

5
ไม่ใช่พื้นที่ของฉันจริงๆ แต่นี่อาจจะเกี่ยวข้อง Gelman A. การแจกแจงก่อนหน้าสำหรับพารามิเตอร์ความแปรปรวนในโมเดลลำดับชั้น การวิเคราะห์แบบเบย์ 2549; 1: 515-533 dx.doi.org/10.1214/06-BA117A
onestop

ฉันได้พบนี้สเกลเบต้ากระจายเสนอโดยPérezและ Pericchi 2

Conjugate Priors สำหรับการแจกแจงแบบเฉพาะเช่นปกติเป็นเพียงนักบวชที่นำไปสู่การแจกแจงแบบนั้นหลังการแจกแจงหลังให้ชุดของข้อมูล หากคุณใช้คอนจูเกตก่อนคุณไม่จำเป็นต้องยุ่งกับการรวมกลุ่มเพื่อคำนวณคนหลัง มันทำให้สิ่งต่าง ๆ สะดวก แต่วันนี้ MCMC ทำให้ง่ายต่อการใช้นักบวชที่หลากหลาย
Michael R. Chernick

คำตอบ:


20

ฉันจะแนะนำให้ใช้ "การกระจายเบต้าประเภทที่สอง" (Beta 2สำหรับระยะสั้น) สำหรับข้อมูลอย่างอ่อนโยนการจัดจำหน่ายและการใช้การกระจายผันผกผันแกมมาถ้าคุณมีความแข็งแรงความเชื่อก่อน เหตุผลที่ฉันพูดแบบนี้คือคอนจูเกตก่อนหน้านั้นไม่มั่นคงในแง่ที่ว่าหากความขัดแย้งก่อนหน้าและข้อมูลที่ขัดแย้งกันก่อนหน้านี้มีอิทธิพลมากมายในการกระจายหลัง พฤติกรรมดังกล่าวเป็นสิ่งที่ฉันจะเรียกว่า "ดื้อรั้น" และไม่เป็นธรรมโดยข้อมูลก่อนหน้าเล็กน้อย

คุณสมบัติที่กำหนดความทนทานเป็นพฤติกรรมหางของก่อนและความน่าจะเป็น บทความที่ดีมากการสรุปรายละเอียดทางเทคนิคเป็นที่นี่ ตัวอย่างเช่นสามารถเลือกความน่าจะเป็นได้ (พูดว่าการแจกแจงแบบ t) เช่นการสังเกต (เช่นมีขนาดใหญ่ตามอำเภอใจ) มันจะถูกละทิ้งจากการวิเคราะห์พารามิเตอร์ตำแหน่ง (ในลักษณะเดียวกับที่คุณต้องการ สังหรณ์ใจทำกับการสังเกตดังกล่าว) อัตราของ "การละทิ้ง" ขึ้นอยู่กับความหนักของการกระจายYผม

สไลด์บางอย่างที่แสดงให้เห็นการประยุกต์ใช้ในบริบทของการสร้างแบบจำลองลำดับชั้นสามารถพบได้ที่นี่ (แสดงให้เห็นว่ารูปแบบทางคณิตศาสตร์ของเบต้า2กระจาย) กับกระดาษที่นี่

หากคุณไม่ได้อยู่ในบริบทการสร้างแบบจำลองลำดับชั้นฉันขอแนะนำให้เปรียบเทียบด้านหลัง (หรือผลลัพธ์ใด ๆ ที่คุณกำลังสร้าง) แต่ใช้Jeffreys ก่อนหน้าสำหรับพารามิเตอร์สเกลซึ่งกำหนดโดยซิก} สิ่งนี้สามารถสร้างเป็นขีด จำกัด ของความหนาแน่นเบต้า2เนื่องจากพารามิเตอร์ทั้งสองมาบรรจบกันเป็นศูนย์ สำหรับการประมาณคุณสามารถใช้ค่าเล็กน้อย แต่ฉันจะพยายามหาทางวิเคราะห์ถ้าเป็นไปได้ (และถ้าไม่ใช่วิธีการวิเคราะห์ที่สมบูรณ์ให้นำโซลูชันการวิเคราะห์ไปไกลเท่าที่คุณจะทำได้) เพราะคุณจะไม่เพียง แต่ช่วยตัวเองประหยัดเวลา แต่คุณ มีแนวโน้มที่จะเข้าใจสิ่งที่เกิดขึ้นในแบบจำลองของคุณดีขึ้นพี(σ)α1σ

อีกทางเลือกหนึ่งคือการระบุข้อมูลก่อนหน้าของคุณในรูปแบบของข้อ จำกัด (หมายถึงเท่ากับความแปรปรวนเท่ากับV , IQR เท่ากับ I Q Rและอื่น ๆ ด้วยค่าของ M , V , I Q R ที่ระบุด้วยตัวคุณเอง) จากนั้นใช้การกระจายเอนโทรปีสูงสุด(ค้นหางานใด ๆ โดย Edwin Jaynes หรือ Larry Bretthorst สำหรับคำอธิบายที่ดีของ เอนโทรปีสูงสุดคืออะไรและมันคืออะไร) ด้วยความเคารพต่อ Jeffreys '"invariant measure" m ( σ ) = 1MVผมQRM,V,ผมQRσ m(σ)=1σ

MaxEnt เป็นรุ่น "Rolls Royce" ในขณะที่ Beta 2เป็นรุ่น "sedan" มากกว่า เหตุผลนี้คือการกระจาย MaxEnt "ถือว่าน้อย" ภายใต้ข้อ จำกัด ที่คุณใส่ไว้ (เช่นไม่มีข้อ จำกัด หมายความว่าคุณเพิ่งได้รับ Jeffreys ก่อน) ในขณะที่การกระจายBeta 2อาจมีคุณสมบัติ "ซ่อน" ซึ่ง อาจหรืออาจไม่เป็นที่ต้องการในกรณีเฉพาะของคุณ (เช่นหากข้อมูลก่อนหน้านั้นมีความน่าเชื่อถือมากกว่าข้อมูล Beta 2นั้นไม่ดี)

สถานที่ให้บริการที่ดีอื่น ๆ ของการกระจาย Maxent คือว่าถ้าไม่มีข้อ จำกัด ที่ไม่ระบุการดำเนินงานในกลไกการสร้างข้อมูลแล้วการกระจาย Maxent เป็นขาดลอยการกระจายส่วนใหญ่มีแนวโน้มที่คุณจะเห็น (เรากำลังพูดถึงวิธีการต่อรองมากกว่าพันล้านและล้านล้านถึงหนึ่ง) ดังนั้นหากการกระจายที่คุณเห็นไม่ใช่ MaxEnt อาจมีข้อ จำกัด เพิ่มเติมซึ่งคุณไม่ได้ระบุว่าปฏิบัติการในกระบวนการจริงและค่าที่สังเกตได้สามารถให้เบาะแสว่าข้อ จำกัด นั้นคืออะไร


@probabilityislogic คำตอบที่ดี คุณรู้หรือไม่ว่าฉันสามารถหาเอกสารที่คุณพูดถึง int วรรคสามได้ที่ไหน ลิงก์ไม่ทำงาน

1
หนึ่งที่ทำงานสำหรับกระดาษเป็นที่นี่ มันอยู่ในการประชุม "เว็บไซต์เป้าหมาย Bayes 09" (การประชุมวาเลนเซีย) ฉันไม่คิดว่าสไลด์จะพร้อมใช้งานอีกต่อไปเนื่องจากเว็บไซต์สำหรับการประชุมถูกลบ ... :( น่าเสียดายมันเป็นชุดของสไลด์ที่ดี Horshoe ก่อนหน้านี้ดูน่าสนใจในลิงก์ที่คุณให้ไว้
ความเป็นไปได้ที่จะเกิดขึ้น

@probabilityislogic บางทีฉันหายไปบางอย่าง แต่ฉันไม่พบการอ้างอิงถึงในเอกสาร BA Beta2

@Procrastinator ฉันถูกต้องที่จะคิดว่าคุณต้องการเพียงนักบวชที่เหมาะสมหรือไม่ คุณไม่ได้พูด แต่ถ้าคุณยอมให้นักบวชที่ไม่เหมาะสมนักบวชของ Jeffreys ที่กล่าวถึงแล้วจะทำงานได้และฉันสามารถอ้างถึงทฤษฎีความน่าจะเป็นของ Jeffreys ได้หนังสือของ Dennis Lindley หรือสารานุกรมสถิติ วิธีที่คำขอสามารถตรวจสอบได้โดยใช้ Google เพื่อค้นหาคำตอบและหากไม่พบอาจมีสิ่งใดในวรรณกรรมที่นอกเหนือจากที่คุณได้อ่านออกมา
Michael R. Chernick

@MichaelChernick ใช่คุณพูดถูกฉันสนใจเฉพาะนักบวชที่เหมาะสมเท่านั้น เหตุผลสำหรับเรื่องนี้ก็คือสำหรับนักบวชที่เหมาะสม (1) การมีอยู่ของคนหลังนั้นไม่ จำกัด เฉพาะบางรุ่นและ (2) ฉันต้องการตรวจสอบว่าฉันไม่พลาดข้อเสนอที่น่าสนใจอื่นอีกหรือไม่ ฉันเห็นด้วยกับคุณว่าดูเหมือนว่า Gelman, Pericchi และ Gamma Priors จะได้รับความนิยมมากที่สุดในวรรณคดี แต่ฉันก็ยังสังเกตเห็นว่ามีแนวโน้มที่จะเสนอนักบวชชั้นสูงเพื่อสร้างการอนุมาน 'ที่แข็งแกร่ง'

13

บทความต่อไปนี้โดย Daniels เปรียบเทียบความหลากหลายของการหดตัวอันหลากหลายสำหรับความแปรปรวน เหล่านี้เป็นนักบวชที่เหมาะสม แต่ฉันไม่แน่ใจว่าจะมีคนจำนวนเท่าใดที่เรียกว่าไม่มีข้อมูลหากมี แต่เขายังให้รายชื่อของนักบวชที่ไม่ใช่คนธรรมดา (ไม่ใช่ทุกคนที่เหมาะสม) ด้านล่างนี้เป็นข้อมูลอ้างอิง

MJ Daniels (1999), ก่อนหน้านี้สำหรับความแปรปรวนในโมเดลลำดับชั้น , Canadian J. Stat ฉบับ 27 หมายเลข 3, pp. 567–578

ไพรเออร์

  1. K
  2. τ2
  3. τ1
  4. 1/(σ2+τ2)
  5. σ/(2(σ2+τ2)3/2)
  6. Uniform shrinkage: σ2/(σ2+τ2)
  7. DuMouchel: σ/(2τ(σ+τ)2)

Another more recent paper in a related vein is the following.

A. Gelman (2006), Prior distributions for variance parameters in hierarchical models, Bayesian Analysis, vol. 1, no. 3, pp. 515–533.


2
(+1) This is a good find. I've added a stable link to the Daniels paper as well as another reference that seems to complement it.
cardinal

4

(The question is stale, but the issue is not)

Personally, I think your intuition makes some sense. That is to say, if you don't need the mathematical tidiness of conjugacy, then whatever distribution you would use for a location parameter, you should use the same one for the log of a scale parameter. So, what you're saying is: use the equivalent of a normal prior.

Would you actually use a normal prior for a location parameter? Most people would say that, unless you make the variance huge, that's probably a bit "too dogmatic", for reasons explained in the other answers here (unbounded influence). An exception would be if you're doing empirical bayes; that is, using your data to estimate the parameters of your prior.

If you want to be "weakly informative", you'd probably choose a distribution with fatter tails; the obvious candidates are t distributions. Gelman's latest advice seems to be to use a t with df of 3-7. (Note that the link also supports my suggestion that you want to do the same thing for log of scale that you would do for location) So instead of a lognormal, you could use a log-student-t. To accomplish this in stan, you might do something like:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

However, I think that if the code above is too complex for you, you could probably get away with a lognormal prior, with two caveats. First, make the variance of that prior a few times wider than your rough guess of how "unsure you are"; you want a weakly informative prior, not a strongly informative one. And second, once you fit your model, check the posterior median of the parameter, and make sure the log of it is not too far from the center of the lognormal. "Not too far" probably means: less than two standard deviations, and preferably not much more than one SD.


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.