Bayesians: ทาสของฟังก์ชั่นโอกาส?


62

ในหนังสือของเขา "All of Statistics" ศ. Larry Wasserman นำเสนอตัวอย่างต่อไปนี้ (11.10, หน้า 188) สมมติว่าเรามีความหนาแน่นเช่นนั้นf ( x ) = cfซึ่งกรัมเป็นที่รู้จักกัน(ไม่เป็นลบ, integrable) ฟังก์ชั่นและการฟื้นฟูอย่างต่อเนื่อง> 0คือไม่รู้จักf(x)=cg(x)gc>0

เราสนใจในกรณีที่เราไม่สามารถคำนวณ x ตัวอย่างเช่นอาจเป็นกรณีที่ fเป็น pdf ในพื้นที่ตัวอย่างที่มีมิติสูงมากc=1/g(x)dxf

เป็นที่ทราบกันดีว่ามีเทคนิคการจำลองที่ช่วยให้เราสามารถสุ่มตัวอย่างจากแม้ว่าcจะไม่เป็นที่รู้จัก ดังนั้นตัวต่อคือ: เราจะประมาณค่าcจากตัวอย่างได้อย่างไร?fcc

ศ. Wasserman อธิบายถึงวิธีการแก้ปัญหาแบบเบย์ต่อไปนี้: ให้เป็นบางส่วนก่อนสำหรับค ความน่าจะเป็นคือ L x ( c ) = n i = 1 f ( x i ) = n i = 1 ( cπc ดังนั้นหลัง π ( | x ) α n π ( ) ไม่ได้ขึ้นอยู่กับค่าตัวอย่าง x 1 , ... , x n ดังนั้นคชกรรมไม่สามารถใช้ข้อมูลที่มีอยู่ในตัวอย่างที่จะทำให้การหาข้อสรุปเกี่ยวกับค

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
π(cx)cnπ(c)
x1,,xnc

ศ. Wasserman ชี้ให้เห็นว่า "Bayesians เป็นทาสของหน้าที่ความเป็นไปได้เมื่อความน่าจะเป็นผิดเพี้ยนไป

คำถามของฉันสำหรับเพื่อน stackers ของฉันคือ: เกี่ยวกับตัวอย่างนี้มีอะไรผิดพลาด (ถ้ามี) กับวิธีการแบบเบย์?

ป.ล. ตามที่ศ. วาสเซอร์แมนกรุณาอธิบายในคำตอบของเขาตัวอย่างนั้นเกิดจากเอ็ดจอร์จ


10
ตัวอย่างนี้ฟังดูเหมือนเป็นวิธีที่ไม่มีประสิทธิภาพที่แปลกประหลาดในการดำเนินการรวมเชิงตัวเลขมากกว่าการวิเคราะห์แบบเบย์ใด ๆ
whuber

2
วิธีที่คุณสามารถพูดคชกรรมเรียนรู้อะไรเกี่ยวกับคถ้าเรื่องนี้เป็นกรณีที่เราจะต้องπ ( | x ) อัลฟ่าπ ( ) มันไม่ชัดเจน cπ(c|x)π(c)
ความน่าจะเป็นที่เป็นไปได้

2
ฉันไม่เข้าใจตัวอย่างนี้จริงๆ ถ้าไม่ขึ้นอยู่กับcมันไม่น่าแปลกใจหรือว่าข้อมูลนั้นไม่ได้ให้ข้อมูลเพราะcนั้นขึ้นอยู่กับรูปแบบของg ( ) เท่านั้นและจะเหมือนกันสำหรับตัวอย่างn yใช่หรือไม่ เห็นได้ชัดว่าฉันหายไปบางจุด (หรือไม่บอบบางดังนั้น) g()ccg()any
Dikran Marsupial

ฉันได้คิดค้นวิธีการแบบเบย์อย่างเป็นทางการซึ่งอาจเอาชนะคำคัดค้านของ @ Zen ไม่ได้ห้ามการซีอานสนใจและสิ้นสุดลงเพียงแค่ประเมินความถูกต้องของการรวมเชิงตัวเลข
phaneron

1
มีการติดตามที่ดีในบล็อกของ Larry: normaldeviate.wordpress.com/2012/10/05/…
เซน

คำตอบ:


43

สิ่งนี้ได้ถูกกล่าวถึงในบทความของฉัน (เผยแพร่บนอินเทอร์เน็ตเท่านั้น) "ในตัวอย่างของ Larry Wasserman" [ 1 ] และในการแลกเปลี่ยนบล็อกระหว่างฉัน Wasserman, Robins และผู้แสดงความคิดเห็นคนอื่น ๆ ในบล็อกของ Wasserman: [ 2 ]

คำตอบสั้น ๆ ก็คือ Wasserman (และ Robins) สร้างเส้นขนานโดยเสนอว่า priors ในพื้นที่มิติสูง "ต้อง" มีลักษณะที่บ่งบอกว่าพารามิเตอร์ที่น่าสนใจเป็นที่รู้กันว่านิรนัยใกล้กับความมั่นใจหรือปัญหาที่เกี่ยวข้องอย่างชัดเจน เป็นที่ทราบกันดีว่าไม่ควรอยู่ใกล้ อันที่จริงนักบวชที่มีเหตุผลจะไม่มีลักษณะเหล่านี้ ฉันกำลังเขียนโพสต์บล็อกสรุปเพื่อวาดสิ่งนี้ด้วยกัน มีบทความยอดเยี่ยมในปี 2550 แสดงให้เห็นถึงวิธีการแบบเบส์ที่เหมาะสมกับตัวอย่าง Wasserman และ Ritov พิจารณาโดย Hameling และ Toussaint:“ ตัวประมาณแบบเบส์สำหรับปัญหาของ Robins-Ritov” [ 3 ]


12
ขอบคุณสำหรับการสนับสนุนศาสตราจารย์ซิม คุณเห็นด้วยกับคำตอบของฉันร้อง? ป.ล. ตอนนี้เราได้รับรางวัลโนเบลลงรายการบัญชีใน SE แล้วมันล่ะ? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen

1
@ChrisSims ศาสตราจารย์ Sims ขอบคุณที่เข้ามาและกำจัดคำตอบของฉันด้วยคำตอบที่เชื่อถือได้ของคุณ!
Michael Chernick

4
ฉันตกใจกับความจริงที่ว่าคำตอบนี้มีคะแนนรวมสูงสุด (ณ ตอนนี้) ดังที่ศาสตราจารย์วอสเซอร์แมนกล่าวคำตอบของศาสตราจารย์ซิมส์เกี่ยวกับปริศนาที่แตกต่างอย่างสิ้นเชิงจากที่เซนถาม ฉันอนุมานว่าคนส่วนใหญ่อัปโหลดโดยไม่ต้องอ่านและทำความเข้าใจกับลิงก์ที่ซิมส์จัดหาให้
สีฟ้า

3
ฟ้าคุณสามารถค้นหาความคิดเห็นของศาสตราจารย์ซิมเกี่ยวกับปริศนานี้ในลิงค์ [1], WassermanComment.pdf, p. 10, มาตรา VII Postscript 2.
madprob

43

c

1/Xg(x)dx
cx1,,xncc(นอกเหนือจากมวล Dirac ตามค่าด้านบน) นี่ไม่ใช่ปัญหาทางสถิติอย่างน้อย แต่เป็นปัญหาที่เป็นตัวเลข

x1,,xnc


4
มันเป็นไปไม่ได้ที่จะเริ่มต้นด้วยความเหมาะสมก่อนและจบลงด้วยหลังที่ไม่เหมาะสมหากความน่าจะเป็นความหนาแน่นตามเงื่อนไขที่แท้จริง!
ซีอาน

πcπX1,X2,,XnccRx=rnorm(100,c,1)ccxcc

3
ฉันไม่ใช่เดอฟินเนตติดังนั้นฉันจึงไม่สามารถตอบเขาได้!
ซีอาน

3
f(x1,,xn|c)

40

ฉันเห็นด้วยว่าตัวอย่างนั้นแปลก ฉันหมายถึงมันจะเป็นปริศนามากกว่าจริง ๆ (ตัวอย่างเป็นจริงเนื่องจาก Ed George)

cc

ในอัตราใดกระดาษ

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae, และ Z. Tan (2003), ทฤษฎีแบบจำลองทางสถิติสำหรับการบูรณาการ Monte Carlo , J. Royal Statistics Soc B , ฉบับ หมายเลข 65 3, 585–604

(พร้อมการสนทนา) ถือว่าปัญหาเดียวกันเป็นหลัก

ตัวอย่างที่ Chris Sims พูดถึงในคำตอบของเขานั้นมีลักษณะที่แตกต่างกันมาก


3
ศาสตราจารย์วอสเซอร์แมนขอขอบคุณที่มาและอธิบายตัวอย่างและประวัติของคุณ ฉันเป็นนักศึกษาระดับบัณฑิตศึกษาที่ Stanford และซ้อนทับกับเอ็ดจอร์จ ในช่วงเวลาเหล่านั้นแผนกสแตนฟอร์ดไม่ใช่คนเบย์แม้ว่าจะมี Efron และสไตน์ก็ตาม ภาควิชาเป็น openminded มากและ Dennis Lindley ให้หลักสูตรบัณฑิตศึกษาในสถิติแบบเบย์ที่ฉันใช้เวลาหนึ่งฤดูร้อน ยังไงก็ตามเอ็ดก็กลายเป็น Bayesian ที่เต็มเปี่ยมและยังเขียนบทความเกี่ยวกับการสุ่มตัวอย่างของกิ๊บส์สำหรับหุ่น (แม้ว่าจะไม่ใช่ตำแหน่งที่แน่นอน)
Michael Chernick

1
ฉันมีและสนุกกับการอ่านหนังสือเล่มเล็ก ๆ ของคุณ "All of Statistics" และ "All of Nonparametrics"
Michael Chernick

1
ฉันอาจกล่าวถึงบทความนี้โดย Kong และคณะ (2003) ส่วนใหญ่เป็นลบเกี่ยวกับประสิทธิภาพของการใช้การแปลงกลุ่มในการวัดมากกว่าในการกระจาย เมื่อเร็ว ๆ นี้ Xiao-Li ทำให้ฉันเข้าใจในแง่บวกมากขึ้นเกี่ยวกับกระดาษ ...
ซีอาน

1
"สมมติว่าคุณไม่สามารถทำอินทิกรัลตัวเลขได้" ฉันเข้าใจว่าความไม่แน่นอนเชิงตรรกะ (ซึ่งเป็นตัวอย่างของ) ได้ต่อต้านการวิเคราะห์แม้จะมีความพยายามอย่างมาก
John Salvatier

cgg(x1)g(x2)g

23

g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

fXiC(c) cc=(g(x)dx)1CCπ

x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

สิ่งนี้เป็นไปไม่ได้: เรารู้ว่าถ้าเราเริ่มต้นด้วยความเหมาะสมก่อนหน้านี้หลังของเราจะไม่ถูกต้องสำหรับตัวอย่างที่เป็นไปได้ทั้งหมด


+

1
สวัสดีไมเคิล แน่นอนคุณสามารถ: Gamma, Lognormal ฯลฯ ฯลฯ ฉันไม่เห็นว่าสิ่งนี้เกี่ยวข้องกับคำตอบอย่างไร อาจเป็นเพราะฉันไม่เข้าใจสิ่งที่คุณพูด
Zen

ฉันมีปัญหาในการโต้แย้งของคุณ คุณบอกว่ามีความหนาแน่นแบบมีเงื่อนไขสำหรับ f เพียงหนึ่ง c แต่นั่นไม่จริง ฉันไม่เห็นว่าทำไมการแสดงออกถึงความน่าจะไม่ถูกต้องและวิธีการที่คุณได้รับการพิสูจน์โดยความขัดแย้งโดยสมมติว่าเหมาะสมก่อนและอย่างใดแสดงให้เห็นว่ามันนำไปสู่การกระจายหลังที่ไม่เหมาะสม
Michael Chernick

สำหรับฉันแล้วดูเหมือนว่าประเด็นของปัญหาคือข้อมูลนั้นเป็นอิสระจาก c และไม่มีข้อมูลเกี่ยวกับ c ฉันคิดว่าคุณสามารถพูดได้ว่ามีฟังก์ชั่นความน่าจะเป็นที่เกี่ยวข้องกับค แต่โอกาสนี้ไม่สามารถขยายให้ใหญ่สุดเป็นหน้าที่ของค สำหรับการเลือก c แต่ละครั้งฉันคิดว่ามี f = cg
Michael Chernick

4
g(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX

11

ตัวอย่างเป็นสิ่งที่แปลกและประดิษฐ์ขึ้นมาเล็กน้อย เหตุผลที่ความน่าจะเป็นผิดเพี้ยนนั้นเป็นเพราะ g เป็นฟังก์ชันที่รู้จัก พารามิเตอร์ที่ไม่รู้จักเท่านั้นคือ c ซึ่งไม่ได้เป็นส่วนหนึ่งของโอกาส นอกจากนี้เนื่องจาก g ทราบว่าข้อมูลไม่ได้ให้ข้อมูลเกี่ยวกับ f เมื่อไหร่ที่คุณเห็นสิ่งนั้นในทางปฏิบัติ ดังนั้นหลังเป็นเพียงสัดส่วนกับก่อนและข้อมูลทั้งหมดเกี่ยวกับ c อยู่ในก่อน

โอเค แต่คิดเกี่ยวกับมัน ผู้ใช้บ่อย ๆ ใช้โอกาสสูงสุดและบ่อยครั้งขึ้นอยู่กับความน่าจะเป็นฟังก์ชันบ่อย ๆ เช่นกัน ผู้ที่ใช้บ่อยสามารถประมาณค่าพารามิเตอร์ด้วยวิธีอื่น ๆ ที่คุณอาจพูดได้ แต่ปัญหาที่ทำให้สุกนี้มีเพียงพารามิเตอร์เดียว c และไม่มีข้อมูลในข้อมูลเกี่ยวกับ c เนื่องจาก g ทราบว่าไม่มีปัญหาทางสถิติที่เกี่ยวข้องกับพารามิเตอร์ที่ไม่รู้จักซึ่งสามารถรวบรวมได้จากช่วงข้อมูล


cf^fxc^=f^(x)/g(x)c

4
@ เซนโอเคลองมาดูตัวอย่างกัน ทำไมต้องเก็บข้อมูลใด ๆ เลย? เรารู้ว่ากรัม ดังนั้นเราจึงสามารถรวมตัวเลขเพื่อกำหนดระดับความแม่นยำที่เราต้องการโดยไม่ต้องประเมินอะไร! สมมติฐานที่ว่าเราไม่สามารถคำนวณ c ซึ่งหมายความว่าแม้ว่าเรารู้ว่า g เป็นฟังก์ชันของ x เราไม่สามารถรวมมันได้! ฉันคิดว่าตัวอย่างของเขาอ่อนแอและเป็นข้อโต้แย้งและฉันชอบหนังสือของเขาที่พูดโดยทั่วไป
Michael Chernick

11

c

g()g()g()g()

g()g()


ประหลาดใจที่นี่ไม่มี upvotes มากขึ้น นี่คือหัวใจของปัญหาซึ่งเป็นการยืนยันที่คลุมเครือซึ่งคุณ "รู้" ว่าฟังก์ชั่นนั้นเป็นอะไรเพราะคุณสามารถประเมินได้ทุกจุด ฉันคิดว่าเกณฑ์ที่เหมาะสมกว่าที่จะบอกคุณว่า "รู้" ฟังก์ชั่นคือความสามารถในการประเมินฟังก์ชันเชิงเส้นแบบต่อเนื่องใด ๆ
Nick Alger

@Nick Alger: คนมี likley สูญเสียความสนใจ ฉันไม่ได้ถอนรากถอนโคนเพราะฉันไม่เชื่อว่ามันคือ Bayes - ทำ xi ในชุด D (xi, f (xi)) อ้างถึง xi ที่สังเกตในการศึกษาหรือสร้างโดยการสุ่ม? ถ้านี่เป็นครั้งแรกมันเป็น Bayes แต่ง่ายมากที่จะเอาชนะด้วย MC แบบง่ายด้วยเวลาในการคำนวณไม่กี่วินาที (ดังนั้นจึงไม่ทำงานได้ดี) หรือไม่ใช่ Bayes (ไม่มีเงื่อนไขในข้อมูล)
phaneron

-2

เราสามารถขยายคำจำกัดความของความเป็นไปได้ที่รู้จัก (คล้ายกับส่วนขยายของข้อมูลเพื่ออนุญาตให้มีข้อมูลที่หายไปสำหรับข้อมูลที่ตรวจพบแต่หายไป) เพื่อรวม NULL (ไม่มีข้อมูลที่สร้างขึ้น)

π(c)=1c2I[1,)(c).

c=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi)

faXaC(xac)=0

ดังนั้นส่วนหลังจะเป็น 0 หรือ 1 (เหมาะสม) แต่ความน่าจะเป็นจากตัวแบบข้อมูลข้างต้นไม่สามารถใช้ได้ (เพราะคุณไม่สามารถกำหนดเงื่อนไขที่ต้องการในตัวแบบข้อมูลได้)

ดังนั้นคุณทำ ABC

วาด“ c” จากก่อนหน้า

(g(x)dx)1

“ c จะถูกเก็บไว้เป็นค่าประมาณของหลังจริง

(ความแม่นยำของการประมาณจะขึ้นอยู่กับ epsilon และความเพียงพอของการปรับสภาพในการประมาณนั้น)


-5

π(c|x)=(Πig(xi))cnπ(c),
{xi}

2
xf(xc)π(c)dci=1ng(xi)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.