การแจกแจงก่อนหน้าอย่างไม่ทราบข้อมูลสำหรับพารามิเตอร์มาตราส่วน

21

ฉันใช้การแจกแจงแบบปกติของล็อกเป็นการแจกแจงก่อนหน้าสำหรับพารามิเตอร์สเกล (สำหรับการแจกแจงแบบปกติ, การแจกแจงแบบอื่น ๆ ) เมื่อฉันมีความคิดคร่าวๆเกี่ยวกับสิ่งที่สเกลควรจะเป็น แต่ต้องการทำผิดด้าน มากเกี่ยวกับมัน ฉันใช้เพราะการใช้นั้นทำให้ฉันเข้าใจได้ง่าย แต่ฉันไม่ได้เห็นคนอื่นใช้ มีอันตรายซ่อนอยู่หรือไม่?

— John Salvatier
แหล่งที่มา

1

ปกติมีไพรเออร์คอนจูเกต: en.wikipedia.org/wiki/Normal-gamma_distribution คุณอาจพบว่าใช้งานง่ายกว่ามาก

— whuber

น่าสนใจ ฉันกำลังทำสิ่งที่เป็นตัวเลขมีความได้เปรียบจากการกระจายเหล่านี้นอกเหนือจากการเป็นคนเจ้าหรือไม่?

— John Salvatier

5

ไม่ใช่พื้นที่ของฉันจริงๆ แต่นี่อาจจะเกี่ยวข้อง Gelman A. การแจกแจงก่อนหน้าสำหรับพารามิเตอร์ความแปรปรวนในโมเดลลำดับชั้น การวิเคราะห์แบบเบย์ 2549; 1: 515-533 dx.doi.org/10.1214/06-BA117A

— onestop

ฉันได้พบนี้สเกลเบต้ากระจายเสนอโดยPérezและ Pericchi

_{2}

$_2$

Conjugate Priors สำหรับการแจกแจงแบบเฉพาะเช่นปกติเป็นเพียงนักบวชที่นำไปสู่การแจกแจงแบบนั้นหลังการแจกแจงหลังให้ชุดของข้อมูล หากคุณใช้คอนจูเกตก่อนคุณไม่จำเป็นต้องยุ่งกับการรวมกลุ่มเพื่อคำนวณคนหลัง มันทำให้สิ่งต่าง ๆ สะดวก แต่วันนี้ MCMC ทำให้ง่ายต่อการใช้นักบวชที่หลากหลาย

— Michael R. Chernick

20

ฉันจะแนะนำให้ใช้ "การกระจายเบต้าประเภทที่สอง" (Beta ₂สำหรับระยะสั้น) สำหรับข้อมูลอย่างอ่อนโยนการจัดจำหน่ายและการใช้การกระจายผันผกผันแกมมาถ้าคุณมีความแข็งแรงความเชื่อก่อน เหตุผลที่ฉันพูดแบบนี้คือคอนจูเกตก่อนหน้านั้นไม่มั่นคงในแง่ที่ว่าหากความขัดแย้งก่อนหน้าและข้อมูลที่ขัดแย้งกันก่อนหน้านี้มีอิทธิพลมากมายในการกระจายหลัง พฤติกรรมดังกล่าวเป็นสิ่งที่ฉันจะเรียกว่า "ดื้อรั้น" และไม่เป็นธรรมโดยข้อมูลก่อนหน้าเล็กน้อย

คุณสมบัติที่กำหนดความทนทานเป็นพฤติกรรมหางของก่อนและความน่าจะเป็น บทความที่ดีมากการสรุปรายละเอียดทางเทคนิคเป็นที่นี่ ตัวอย่างเช่นสามารถเลือกความน่าจะเป็นได้ (พูดว่าการแจกแจงแบบ t) เช่นการสังเกต (เช่นมีขนาดใหญ่ตามอำเภอใจ) มันจะถูกละทิ้งจากการวิเคราะห์พารามิเตอร์ตำแหน่ง (ในลักษณะเดียวกับที่คุณต้องการ สังหรณ์ใจทำกับการสังเกตดังกล่าว) อัตราของ "การละทิ้ง" ขึ้นอยู่กับความหนักของการกระจาย $y_i \rightarrow \infty$

สไลด์บางอย่างที่แสดงให้เห็นการประยุกต์ใช้ในบริบทของการสร้างแบบจำลองลำดับชั้นสามารถพบได้ที่นี่ (แสดงให้เห็นว่ารูปแบบทางคณิตศาสตร์ของเบต้า₂กระจาย) กับกระดาษที่นี่

หากคุณไม่ได้อยู่ในบริบทการสร้างแบบจำลองลำดับชั้นฉันขอแนะนำให้เปรียบเทียบด้านหลัง (หรือผลลัพธ์ใด ๆ ที่คุณกำลังสร้าง) แต่ใช้Jeffreys ก่อนหน้าสำหรับพารามิเตอร์สเกลซึ่งกำหนดโดยซิก} สิ่งนี้สามารถสร้างเป็นขีด จำกัด ของความหนาแน่นเบต้า₂เนื่องจากพารามิเตอร์ทั้งสองมาบรรจบกันเป็นศูนย์ สำหรับการประมาณคุณสามารถใช้ค่าเล็กน้อย แต่ฉันจะพยายามหาทางวิเคราะห์ถ้าเป็นไปได้ (และถ้าไม่ใช่วิธีการวิเคราะห์ที่สมบูรณ์ให้นำโซลูชันการวิเคราะห์ไปไกลเท่าที่คุณจะทำได้) เพราะคุณจะไม่เพียง แต่ช่วยตัวเองประหยัดเวลา แต่คุณ มีแนวโน้มที่จะเข้าใจสิ่งที่เกิดขึ้นในแบบจำลองของคุณดีขึ้น $p(\sigma)\propto\frac{1}{\sigma}$

อีกทางเลือกหนึ่งคือการระบุข้อมูลก่อนหน้าของคุณในรูปแบบของข้อ จำกัด (หมายถึงเท่ากับความแปรปรวนเท่ากับ , IQR เท่ากับและอื่น ๆ ด้วยค่าของระบุด้วยตัวคุณเอง) จากนั้นใช้การกระจายเอนโทรปีสูงสุด(ค้นหางานใด ๆ โดย Edwin Jaynes หรือ Larry Bretthorst สำหรับคำอธิบายที่ดีของ เอนโทรปีสูงสุดคืออะไรและมันคืออะไร) ด้วยความเคารพต่อ Jeffreys '"invariant measure" $M$ $V$ $IQR$ $M,V,IQR$ σ $m(\sigma)=\frac{1}{\sigma}$

MaxEnt เป็นรุ่น "Rolls Royce" ในขณะที่ Beta ₂เป็นรุ่น "sedan" มากกว่า เหตุผลนี้คือการกระจาย MaxEnt "ถือว่าน้อย" ภายใต้ข้อ จำกัด ที่คุณใส่ไว้ (เช่นไม่มีข้อ จำกัด หมายความว่าคุณเพิ่งได้รับ Jeffreys ก่อน) ในขณะที่การกระจายBeta ₂อาจมีคุณสมบัติ "ซ่อน" ซึ่ง อาจหรืออาจไม่เป็นที่ต้องการในกรณีเฉพาะของคุณ (เช่นหากข้อมูลก่อนหน้านั้นมีความน่าเชื่อถือมากกว่าข้อมูล Beta ₂นั้นไม่ดี)

สถานที่ให้บริการที่ดีอื่น ๆ ของการกระจาย Maxent คือว่าถ้าไม่มีข้อ จำกัด ที่ไม่ระบุการดำเนินงานในกลไกการสร้างข้อมูลแล้วการกระจาย Maxent เป็นขาดลอยการกระจายส่วนใหญ่มีแนวโน้มที่คุณจะเห็น (เรากำลังพูดถึงวิธีการต่อรองมากกว่าพันล้านและล้านล้านถึงหนึ่ง) ดังนั้นหากการกระจายที่คุณเห็นไม่ใช่ MaxEnt อาจมีข้อ จำกัด เพิ่มเติมซึ่งคุณไม่ได้ระบุว่าปฏิบัติการในกระบวนการจริงและค่าที่สังเกตได้สามารถให้เบาะแสว่าข้อ จำกัด นั้นคืออะไร

— probabilityislogic
แหล่งที่มา

@probabilityislogic คำตอบที่ดี คุณรู้หรือไม่ว่าฉันสามารถหาเอกสารที่คุณพูดถึง int วรรคสามได้ที่ไหน ลิงก์ไม่ทำงาน

1

หนึ่งที่ทำงานสำหรับกระดาษเป็นที่นี่ มันอยู่ในการประชุม "เว็บไซต์เป้าหมาย Bayes 09" (การประชุมวาเลนเซีย) ฉันไม่คิดว่าสไลด์จะพร้อมใช้งานอีกต่อไปเนื่องจากเว็บไซต์สำหรับการประชุมถูกลบ ... :( น่าเสียดายมันเป็นชุดของสไลด์ที่ดี Horshoe ก่อนหน้านี้ดูน่าสนใจในลิงก์ที่คุณให้ไว้

— ความเป็นไปได้ที่จะเกิดขึ้น

@probabilityislogic บางทีฉันหายไปบางอย่าง แต่ฉันไม่พบการอ้างอิงถึง

ในเอกสาร BA

B e t a_{2}

$Beta_2$

@Procrastinator ฉันถูกต้องที่จะคิดว่าคุณต้องการเพียงนักบวชที่เหมาะสมหรือไม่ คุณไม่ได้พูด แต่ถ้าคุณยอมให้นักบวชที่ไม่เหมาะสมนักบวชของ Jeffreys ที่กล่าวถึงแล้วจะทำงานได้และฉันสามารถอ้างถึงทฤษฎีความน่าจะเป็นของ Jeffreys ได้หนังสือของ Dennis Lindley หรือสารานุกรมสถิติ วิธีที่คำขอสามารถตรวจสอบได้โดยใช้ Google เพื่อค้นหาคำตอบและหากไม่พบอาจมีสิ่งใดในวรรณกรรมที่นอกเหนือจากที่คุณได้อ่านออกมา

— Michael R. Chernick

@MichaelChernick ใช่คุณพูดถูกฉันสนใจเฉพาะนักบวชที่เหมาะสมเท่านั้น เหตุผลสำหรับเรื่องนี้ก็คือสำหรับนักบวชที่เหมาะสม (1) การมีอยู่ของคนหลังนั้นไม่ จำกัด เฉพาะบางรุ่นและ (2) ฉันต้องการตรวจสอบว่าฉันไม่พลาดข้อเสนอที่น่าสนใจอื่นอีกหรือไม่ ฉันเห็นด้วยกับคุณว่าดูเหมือนว่า Gelman, Pericchi และ Gamma Priors จะได้รับความนิยมมากที่สุดในวรรณคดี แต่ฉันก็ยังสังเกตเห็นว่ามีแนวโน้มที่จะเสนอนักบวชชั้นสูงเพื่อสร้างการอนุมาน 'ที่แข็งแกร่ง'

13

บทความต่อไปนี้โดย Daniels เปรียบเทียบความหลากหลายของการหดตัวอันหลากหลายสำหรับความแปรปรวน เหล่านี้เป็นนักบวชที่เหมาะสม แต่ฉันไม่แน่ใจว่าจะมีคนจำนวนเท่าใดที่เรียกว่าไม่มีข้อมูลหากมี แต่เขายังให้รายชื่อของนักบวชที่ไม่ใช่คนธรรมดา (ไม่ใช่ทุกคนที่เหมาะสม) ด้านล่างนี้เป็นข้อมูลอ้างอิง

MJ Daniels (1999), ก่อนหน้านี้สำหรับความแปรปรวนในโมเดลลำดับชั้น , Canadian J. Stat ฉบับ 27 หมายเลข 3, pp. 567–578

ไพรเออร์

$K$
$\tau^{-2}$
$\tau^{-1}$
$1/(\sigma^2 + \tau^2)$
$\sigma / (2(\sigma^2 + \tau^2)^{3/2})$
Uniform shrinkage: $\sigma^2 / (\sigma^2 + \tau^2)$
DuMouchel: $\sigma/(2\tau(\sigma+\tau)^2)$

Another more recent paper in a related vein is the following.

A. Gelman (2006), Prior distributions for variance parameters in hierarchical models, Bayesian Analysis, vol. 1, no. 3, pp. 515–533.

— Michael R. Chernick
แหล่งที่มา

2

(+1) This is a good find. I've added a stable link to the Daniels paper as well as another reference that seems to complement it.

— cardinal

4

(The question is stale, but the issue is not)

Personally, I think your intuition makes some sense. That is to say, if you don't need the mathematical tidiness of conjugacy, then whatever distribution you would use for a location parameter, you should use the same one for the log of a scale parameter. So, what you're saying is: use the equivalent of a normal prior.

Would you actually use a normal prior for a location parameter? Most people would say that, unless you make the variance huge, that's probably a bit "too dogmatic", for reasons explained in the other answers here (unbounded influence). An exception would be if you're doing empirical bayes; that is, using your data to estimate the parameters of your prior.

If you want to be "weakly informative", you'd probably choose a distribution with fatter tails; the obvious candidates are t distributions. Gelman's latest advice seems to be to use a t with df of 3-7. (Note that the link also supports my suggestion that you want to do the same thing for log of scale that you would do for location) So instead of a lognormal, you could use a log-student-t. To accomplish this in stan, you might do something like:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

However, I think that if the code above is too complex for you, you could probably get away with a lognormal prior, with two caveats. First, make the variance of that prior a few times wider than your rough guess of how "unsure you are"; you want a weakly informative prior, not a strongly informative one. And second, once you fit your model, check the posterior median of the parameter, and make sure the log of it is not too far from the center of the lognormal. "Not too far" probably means: less than two standard deviations, and preferably not much more than one SD.

— Jameson Quinn
แหล่งที่มา

2

For hierarchical model scale parameters, I have mostly ended up using Andrew Gelman's suggestion of using a folded, noncentral t-distribution. This has worked pretty decently for me.

— John Salvatier
แหล่งที่มา