การประมาณพารามิเตอร์ของการแจกแจงแบบสม่ำเสมอ: ไม่เหมาะสมมาก่อน


10

เรามีตัวอย่าง Nจากการแจกแจงแบบสม่ำเสมอโดยที่ไม่ทราบประมาณจากข้อมูลXi[0,θ]θθ

ดังนั้นกฎของเบย์ ...

f(θ|Xi)=f(Xi|θ)f(θ)f(Xi)

และโอกาสก็คือ:

f(Xi|θ)=i=1N1θ (แก้ไข: เมื่อ0Xiθสำหรับiทั้งหมดiและ 0 เป็นอย่างอื่น - ขอบคุณ whuber)

แต่ไม่มีข้อมูลอื่น ๆ เกี่ยวกับθดูเหมือนว่าก่อนหน้านี้ควรมีสัดส่วน1 (เช่นรูปแบบเดียวกัน) หรือ1L (Jeffreys ก่อนหน้า?) ใน[0,]แต่อินทิกรัลของฉันไม่ มาบรรจบกันและฉันไม่แน่ใจว่าจะดำเนินการอย่างไร ความคิดใด ๆ


2
ความน่าจะเป็นของคุณไม่ถูกต้องมันจะเป็นศูนย์เมื่อใดก็ตามที่น้อยกว่าที่ใหญ่ที่สุดx_iθXi
whuber

คุณสามารถแสดงให้เห็นว่าคุณกำลังรวมอินทิเกรตหรือไม่?

ใช่แล้วฉันเดาว่าฉันไม่รู้วิธีจัดการกับสิ่งที่ไม่เหมาะสมมาก่อน เช่นฉันต้องการเขียนf[Xi]=Θf(Xi|θ)f(θ)dθ
จะ

1
สำหรับสิ่งที่ไม่เหมาะสมก่อน = =และสำหรับคุณได้รับเนื่องจากเกือบแน่นอนเป็นไปได้ว่าอินทิเกรตจะมาบรรจบกัน f[Xi]=Θf(Xi|θ)f(θ)dθmax(Xi)θNdθmax(Xi)1N/(N1)f(θ)1/θmax(Xi)N/N.maxXi>0
whuber

1
หลังอ้างอิงจากเบอร์นาร์โดคือพาเรโต - ดูแคตตาล็อกของนักบวชที่ไม่เกี่ยวกับศาสนา
Stéphane Laurent

คำตอบ:


4

สิ่งนี้ได้สร้างการอภิปรายที่น่าสนใจ แต่โปรดทราบว่าจริงๆแล้วมันไม่ได้สร้างความแตกต่างให้กับคำถามที่น่าสนใจ โดยส่วนตัวฉันคิดว่าเพราะเป็นพารามิเตอร์มาตราส่วนอาร์กิวเมนต์กลุ่มการเปลี่ยนแปลงมีความเหมาะสมนำไปสู่ก่อนหน้าθ

p(θ|I)=θ1log(UL)θ1L<θ<U

การแจกจ่ายนี้มีรูปแบบเดียวกันภายใต้การลดขนาดของปัญหา (ความน่าจะเป็นยังคงเป็น "ไม่เปลี่ยนแปลง" ภายใต้การลดขนาด) เคอร์เนลนี้ก่อนสามารถจะได้มาโดยการแก้สมการทำงาน(y) ค่าขึ้นอยู่กับปัญหาและสำคัญมากถ้าขนาดตัวอย่างเล็กมาก (เช่น 1 หรือ 2) ด้านหลังเป็นพาเรโตที่ถูกตัดทอนโดย:f(y)=y1af(ay)=f(y)L,U

p(θ|DI)=NθN1(L)NUNL<θ<UwhereL=max(L,X(N))
โดยที่คือ Nth สถิติการสั่งซื้อหรือมูลค่าสูงสุดของตัวอย่าง เราได้ค่าเฉลี่ยด้านหลังของ ถ้าเรา ชุดและที่เราได้รับ exression ง่าย(N)}X(N)
E(θ|DI)=N((L)1NU1N)(N1)((L)NUN)=NN1L(1[LU]N11[LU]N)
ยูL0E(θ|Dผม)=ยังไม่มีข้อความยังไม่มีข้อความ-1X(ยังไม่มีข้อความ)

แต่ตอนนี้สมมติว่าเราใช้ข้อมูลทั่วไปที่มากกว่าก่อนกำหนดโดย (โปรดทราบว่าเรารักษาขีด จำกัดเพื่อให้แน่ใจว่าทุกอย่างเหมาะสม - ไม่มีคณิตศาสตร์เอกพจน์แล้ว ) หลังนั้นก็เป็นเช่นเดียวกับข้างต้น แต่มีแทนที่ด้วย - ให้0 ทำซ้ำการคำนวณข้างต้นเราเป็นค่าเฉลี่ยด้านหลังของพี(θ|ผม)αθ--1L,ยูยังไม่มีข้อความ+ยังไม่มีข้อความ+ยังไม่มีข้อความ0

E(θ|Dผม)=ยังไม่มีข้อความ+ยังไม่มีข้อความ+-1X(ยังไม่มีข้อความ)

ดังนั้นเครื่องแบบก่อนหน้า ( ) จะให้การประมาณโดยมีเงื่อนไขว่า (หมายถึงไม่มีที่สิ้นสุดสำหรับ ) นี่แสดงให้เห็นว่าการถกเถียงที่นี่เป็นเพียงเล็กน้อยว่าจะใช้หรือเป็นตัวหารในการประมาณค่าความแปรปรวนหรือไม่=-1ยังไม่มีข้อความ-1ยังไม่มีข้อความ-2X(ยังไม่มีข้อความ)ยังไม่มีข้อความ2ยังไม่มีข้อความ=2ยังไม่มีข้อความยังไม่มีข้อความ-1

อาร์กิวเมนต์หนึ่งกับการใช้งานของชุดที่ไม่เหมาะสมก่อนในกรณีนี้ก็คือว่าหลังเป็นที่ไม่เหมาะสมเมื่อมันเป็นสัดส่วนกับ1} แต่สิ่งนี้สำคัญถ้าหรือมีขนาดเล็กมากยังไม่มีข้อความ=1θ-1ยังไม่มีข้อความ=1


1

เนื่องจากจุดประสงค์ที่นี่น่าจะได้รับการประมาณที่ถูกต้องและเป็นประโยชน์ของการกระจายก่อนหน้าควรสอดคล้องกับข้อกำหนดการกระจายของประชากรที่มาจากตัวอย่าง สิ่งนี้ไม่ได้หมายความว่าเรา "คำนวณ" การใช้ตัวอย่างก่อนหน้า - สิ่งนี้จะทำให้ความถูกต้องของกระบวนการทั้งหมดเป็นโมฆะ เราจะรู้ว่าประชากรจากการที่กลุ่มตัวอย่างมาเป็นประชากรของตัวแปรสุ่ม IID เครื่องแบบแต่ละตั้งแต่ในtheta] นี่คือสมมติฐานที่ได้รับการบำรุงรักษาและเป็นส่วนหนึ่งของข้อมูลก่อนหน้านี้ที่เรามี (และไม่มีส่วนเกี่ยวข้องกับตัวอย่างกล่าวคือมีการรับรู้ส่วนย่อยของตัวแปรสุ่มเหล่านี้)θ[0,θ]

ทีนี้สมมติว่าประชากรนี้ประกอบด้วยตัวแปรสุ่ม (ในขณะที่ตัวอย่างของเราประกอบด้วยสำนึกของตัวแปรสุ่ม ) การบำรุงรักษาสมมติฐานบอกเราว่า ม.n<ม.n

สูงสุดผม=1,...,n{Xผม}สูงสุดJ=1,...,ม.{XJ}θ

แสดงว่าแน่น * จากนั้นเรามีซึ่งสามารถเขียน สูงสุดผม=1,...,n{Xผม}X* * * *θX* * * *

θ=X* * * *1

ฟังก์ชันความหนาแน่นของของ iid Uniform rv มีค่าเป็นคือ สูงสุดยังไม่มีข้อความ[0,θ]

X* * * *(x* * * *)=ยังไม่มีข้อความ(x* * * *)ยังไม่มีข้อความ-1θยังไม่มีข้อความ

สำหรับการสนับสนุนและศูนย์อื่น ๆ จากนั้นโดยใช้และการใช้สูตรการเปลี่ยนแปลงของตัวแปรเราได้รับการแจกแจงก่อนหน้าสำหรับที่สอดคล้องกับสมมติฐานที่เก็บรักษาไว้: [0,θ]θ=X* * * *θ

fp(θ)=N(θc)N1θN1c=NcNθ1θ[x,]

ซึ่งอาจไม่เหมาะสมหากเราไม่ระบุค่าคงที่อย่างเหมาะสม แต่ความสนใจของเราอยู่ที่การมีหลังที่เหมาะสมสำหรับและเราไม่ต้องการ จำกัด ค่าที่เป็นไปได้ของ (นอกเหนือจากข้อ จำกัด โดยนัยจากสมมติฐานที่เก็บรักษาไว้) ดังนั้นเราจึงปล่อยไม่ตั้งใจ จากนั้นเขียนด้านหลังคือcθθc
X={x1,..,xn}

f(θ|X)αθ-ยังไม่มีข้อความยังไม่มีข้อความยังไม่มีข้อความθ-1(θ|X)=Aยังไม่มีข้อความยังไม่มีข้อความθ-(ยังไม่มีข้อความ+1)

สำหรับค่าคงที่ normalizing A เราต้องการ

Sθ(θ|X)dθ=1x* * * *Aยังไม่มีข้อความยังไม่มีข้อความθ-(ยังไม่มีข้อความ+1)dθ=1

Aยังไม่มีข้อความยังไม่มีข้อความ1-ยังไม่มีข้อความθ-ยังไม่มีข้อความ|x* * * *=1A=(x* * * *)ยังไม่มีข้อความ

การแทรกเข้าไปด้านหลัง

(θ|X)=(x* * * *)ยังไม่มีข้อความยังไม่มีข้อความยังไม่มีข้อความθ-(ยังไม่มีข้อความ+1)=ยังไม่มีข้อความ(x* * * *)ยังไม่มีข้อความθ-(ยังไม่มีข้อความ+1)

โปรดทราบว่าคงบึกบึนของการกระจายก่อนได้ยกเลิกการอำนวยความสะดวกจาก

หลังสรุปข้อมูลทั้งหมดที่ว่ากลุ่มตัวอย่างที่เฉพาะเจาะจงสามารถให้เราเกี่ยวกับค่าของ\ถ้าเราต้องการได้ค่าเฉพาะสำหรับเราสามารถคำนวณค่าที่คาดหวังของ posterior ได้อย่างง่ายดาย θθ

E(θ|X)=x* * * *θยังไม่มีข้อความ(x* * * *)ยังไม่มีข้อความθ-(ยังไม่มีข้อความ+1)dθ=-ยังไม่มีข้อความยังไม่มีข้อความ-1(x* * * *)ยังไม่มีข้อความθ-ยังไม่มีข้อความ+1|x* * * *=ยังไม่มีข้อความยังไม่มีข้อความ-1x* * * *

มีปรีชาในผลลัพธ์นี้ไหม? เมื่อจำนวนการเพิ่มขึ้นของมีโอกาสมากขึ้นที่การรับรู้สูงสุดในหมู่พวกเขาจะใกล้ชิดกับขอบเขตบนของพวกเขา - ซึ่งเป็นสิ่งที่ค่าเฉลี่ยหลังของสะท้อน: ถ้าพูด ,แต่ถ้า . นี่แสดงให้เห็นว่ากลยุทธ์ของเราเกี่ยวกับการเลือกก่อนหน้านี้มีเหตุผลและสอดคล้องกับปัญหาในมือ แต่ไม่จำเป็นต้อง "ดีที่สุด" ในบางแง่มุมXθθN=2E(θX)=2xN=10E(θX)=109x


1
การอ้างอิงข้อมูลก่อนหน้านี้ฟังดูแปลกสำหรับฉัน คุณจะปรับวิธีนี้ได้อย่างไร
whuber

2
ฉันไม่มีอะไรขัดกับความจริงที่ว่าก่อนหน้านี้ของคุณไม่ใช่ "ดีที่สุด" ฉันพูดอะไรแบบนั้นที่ไหน? ฉันแค่พยายามที่จะเข้าใจแนวทางของคุณ ฉันยังไม่เข้าใจความเท่าเทียมกันนี้ หากมีค่าคงที่ในความเสมอภาคนั่นหมายความว่าทั้งและนั้นไม่ใช่แบบสุ่มหรือไม่? โดยวิธีที่คุณไม่ได้ใช้ความจริงที่ว่าในการสืบทอดมาจากก่อนหน้านี้คุณ? (cc @whuber)cθ=cXXθc1
Stéphane Laurent

1
และการสนับสนุนของคุณก่อนขึ้นอยู่กับข้อมูลหรือไม่ ( )θ[x,[
Stéphane Laurent

3
ก่อนขึ้น (แม้ว่านี้เป็นเพียงผ่านการสนับสนุน) กับข้อมูลเสียงผิด: คุณไม่สามารถรู้สูงสุดของกลุ่มตัวอย่างก่อนที่กลุ่มตัวอย่างได้รับการสร้าง ยิ่งกว่านั้นคุณอ้างว่านั้นเกือบจะเท่าเทียมกันแน่นอนโดยมีทั้งและสุ่ม (ดังนั้นจึงมีความสัมพันธ์ ) แต่นี่ก็หมายความว่าการกระจายหลังของ (ซึ่งเป็นเงื่อนไขการจำหน่ายของรับตัวอย่าง) คือมวล Dirac ที่ * และนี่ขัดแย้งกับการกระจายตัวแบบหลังของคุณ ... (ไม่มีตัวอักษรเหลือ ... )θ=cXθX1θθcx
Stéphane Laurent

1
การกระจายหลังของเป็นแรคที่หมายความว่ามี * ทฤษฎีบทของเบย์ไม่ใช่สาเหตุ คุณทำลายทุกอย่างด้วยการสมมติว่า * นี่หมายถึงดังนั้นการแจกแจงแบบมีเงื่อนไขของได้รับคือมวล Dirac ที่ในขณะที่สมมติฐานดั้งเดิมคือการกระจายนี้คือการกระจายแบบสม่ำเสมอบน . θcxθ cxθ=cXX=θ/cXθθ/c(0,θ)
Stéphane Laurent

0

ทฤษฎีบทการกระจายก่อนหน้าแบบสม่ำเสมอ (กรณีช่วงเวลา):

"ถ้าผลรวมของข้อมูลของคุณเกี่ยวกับภายนอกไปยังข้อมูลถูกจับโดยข้อเสนอเดียว จากนั้นสเปคก่อนหน้านี้ที่เป็นไปได้ภายในทางตรรกะของคุณคือ θD

B={{Possible values for θ}={the interval (a,b)},a<b}
f(θ)=Uniform(a,b)

ดังนั้นข้อมูลจำเพาะก่อนหน้าของคุณควรสอดคล้องกับของเจฟฟรีย์ก่อนหากคุณเชื่อในทฤษฎีบทข้างต้นอย่างแท้จริง "

ไม่ได้เป็นส่วนหนึ่งของทฤษฎีบทการกระจายก่อนหน้าของเครื่องแบบ:

อีกทางหนึ่งคุณสามารถระบุการกระจายก่อนหน้าของคุณเป็นการกระจายแบบ Pareto ซึ่งเป็นการกระจายแบบคอนจูเกตสำหรับเครื่องแบบ อย่างไรก็ตามหากคุณใช้การแจกแจงแบบ Pareto คุณจะต้องระบุพารามิเตอร์ของการแจกแจงแบบ Pareto ในบางวิธีf(θ)


4
ก่อนอื่นคุณพูดว่า "คำตอบที่เป็นไปได้ทางตรรกะเท่านั้นที่เป็นไปได้" คือการแจกแจงแบบเดียวกันแล้วคุณจะเสนอทางเลือกอื่นต่อไป นั่นฟังดูไร้เหตุผลและไม่สอดคล้องกับฉัน :-)
whuber

2
ฉันไม่เห็นด้วย ตัวอย่างเช่นเป็น setเมื่อ PDF ของคือสำหรับ 3 แต่ตามทฤษฎีบท "ซึ่งมี pdf เป็นในช่วงเวลานั้น กล่าวโดยย่อแม้ว่าข้อเสนอจะไม่ได้ขึ้นอยู่กับว่าปัญหาได้รับการแปรสภาพเป็นอย่างไรบทสรุปของ "ทฤษฎีบท" ก็ขึ้นอยู่กับการแปรสภาพด้วยเหตุที่มันไม่ชัดเจน B{θ|θ3(a3,b3)}.ΘUniform(a,b),Ψ=Θ31/(3ψ2/3(ba))a3<ψ<b3ΨUniform(a3,b3)1/(b3a3)
whuber

2
BabakP: ใครจะพูดได้ว่านี่เป็นทฤษฎีบท ? ทฤษฎีบทเป็นข้ออ้างทางคณิตศาสตร์พร้อมหลักฐานทางคณิตศาสตร์ "ทฤษฎีบท" นี้จะเรียกว่า "หลักการ" ที่เหมาะสมกว่า แต่มันไม่สมเหตุสมผลเพราะมันขัดแย้งกันดังที่แสดงโดย @whuber
Stéphane Laurent

2
ขอบคุณสำหรับการอ้างอิง BabakP ฉันต้องการจะชี้ให้เห็นว่า "ภาพร่างหลักฐาน" เป็นของปลอม เดรเปอร์แบ่งช่วงเวลาเป็นจำนวน จำกัด ของค่าที่เว้นระยะเท่ากันและ "ผ่านไปยังขีด จำกัด " ทุกคนสามารถแบ่งช่วงเวลาออกเป็นค่าระยะห่างที่ใกล้เคียงกับความหนาแน่นใดที่พวกเขาชอบและในทำนองเดียวกันผ่านถึงขีด จำกัด การผลิตได้อย่างสมบูรณ์แบบโดยพลการ "ไปได้เฉพาะในรายละเอียดก่อนเหตุผล-ภายในสอดคล้อง." สิ่งชนิดนี้ - คือการใช้คณิตศาสตร์ที่ไม่ดีในความพยายามที่จะแสดงให้เห็นว่าไม่ใช่ Bayesians มีเหตุผล - ให้การวิเคราะห์ Bayesian ชื่อที่ไม่ดี (undeservedly) (cc @ Stéphane.)
whuber

1
@ Stéphaneโปรดอภัยความรู้สึกไม่รู้สึกตัวของฉัน ( insensibilité ) - ฉันชื่นชมความสามารถของคุณในการโต้ตอบที่นี่เป็นภาษาที่สองและไม่ใช้คำที่คลุมเครือ! เป็นการหลอกลวงคำคุณศัพท์ที่มาจากศัพท์สแลงของสหรัฐอเมริกาอายุ 200 ปีอ้างถึงเครื่องจักรสำหรับการปลอมแปลงเงิน ในกรณีนี้มันเป็นเครื่องจักรทางคณิตศาสตร์สำหรับทฤษฎีการปลอมแปลง :-)
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.