“ ความน่าจะเป็นถูกนิยามไว้ในค่าคงที่หลายหลากของสัดส่วนเท่านั้น” หมายถึงในทางปฏิบัติอย่างไร


19

ฉันกำลังอ่านบทความที่ผู้เขียนนำมาจากการอภิปรายเกี่ยวกับการประเมินความเป็นไปได้สูงสุดถึงทฤษฎีบทของเบย์ซึ่งดูเหมือนจะเป็นบทนำสำหรับผู้เริ่มต้น

ตัวอย่างเช่นพวกเขาเริ่มต้นด้วยการแจกแจงทวินาม:

p ( x | n , θ ) = ( nx ) θx(1-θ)n-x

p(x|n,θ)=(nx)θx(1θ)nx

จากนั้นเข้าสู่ระบบทั้งสองด้าน

( θ | x , n ) = x ln ( θ ) + ( n - x ) ln ( 1 - θ )

(θ|x,n)=xln(θ)+(nx)ln(1θ)

ด้วยเหตุผลที่:

"เพราะความเป็นไปได้นั้นถูกกำหนดให้มีค่าคงที่แบบทวีคูณของสัดส่วนเท่านั้น (หรือค่าคงที่แบบเพิ่มสำหรับบันทึกความน่าจะเป็น) เราสามารถลด ... โดยการลดค่าสัมประสิทธิ์ทวินามและเขียนบันทึกความน่าจะเป็นแทนความน่าจะเป็น"

คณิตศาสตร์ทำให้รู้สึก แต่ฉันไม่สามารถเข้าใจสิ่งที่หมายโดย "ความน่าจะมีการกำหนดเท่านั้นถึงคงคูณสัดส่วน" และวิธีการนี้จะช่วยให้ลดลงค่าสัมประสิทธิ์ทวินามและไปจากp ( x | n , θ )p(x|n,θ)เพื่อ( θ | x , n )(θ|x,n)n)

คำศัพท์ที่คล้ายกันเกิดขึ้นในคำถามอื่น ๆ ( ที่นี่และที่นี่ ) แต่ก็ยังไม่ชัดเจนว่าในทางปฏิบัติความน่าจะเป็นที่ถูกกำหนดหรือนำข้อมูลไปสู่ค่าคงที่แบบคูณ เป็นไปได้ไหมที่จะอธิบายเรื่องนี้ในแง่ของคนธรรมดา?

คำตอบ:


18

ประเด็นก็คือในบางครั้งโมเดลที่แตกต่างกัน (สำหรับข้อมูลเดียวกัน) สามารถนำไปสู่ฟังก์ชั่นความน่าจะเป็นซึ่งแตกต่างกันโดยค่าคงที่การคูณ แต่เนื้อหาข้อมูลจะต้องเหมือนกันอย่างชัดเจน ตัวอย่าง:

เราจำลองทดลอง Bernoulli อิสระที่นำไปสู่ข้อมูลแต่ละคนมีการกระจาย Bernoulli ด้วย (น่าจะ) พารามิเตอร์พีสิ่งนี้นำไปสู่ฟังก์ชั่นความน่าจะเป็น หรือเราสามารถสรุปข้อมูลโดยตัวแปรกระจายแบบทวินามซึ่งมีการแจกแจงทวินามนำไปสู่ฟังก์ชั่นโอกาส ซึ่งเป็นหน้าที่ของพารามิเตอร์ที่ไม่รู้จักเป็นสัดส่วนกับอดีตหน้าที่ฟังก์ชั่นโอกาส . ฟังก์ชั่นความน่าจะเป็นสองอย่างชัดเจนมีข้อมูลเดียวกันและควรนำไปสู่การอนุมานแบบเดียวกัน!n nX 1 , , X nX1,,Xn p pn i = 1 p x i ( 1 - p ) 1 - x i

i=1npxi(1p)1xi
Y = X 1 + X 2 + + X n Y=X1+X2++Xn( ny ) py(1-p)n-y
(ny)py(1p)ny
pp

และแน่นอนโดยนิยามแล้วพวกมันถูกพิจารณาว่าเป็นฟังก์ชันความน่าจะเป็นแบบเดียวกัน

มุมมองอื่น: สังเกตว่าเมื่อฟังก์ชั่นความน่าจะเป็นถูกใช้ในทฤษฎีบทของเบย์ซึ่งจำเป็นสำหรับการวิเคราะห์แบบเบย์ ดังนั้นพวกมันจึงไม่เกี่ยวข้องกับการอนุมานแบบเบย์อย่างชัดเจน ในทำนองเดียวกันมันจะยกเลิกเมื่อคำนวณอัตราส่วนความน่าจะเป็นที่ใช้ในการทดสอบสมมติฐานที่ดีที่สุด (Neyman-Pearson บทแทรก) และจะไม่มีผลต่อค่าของตัวประมาณความน่าจะเป็นสูงสุด ดังนั้นเราจะเห็นได้ว่าในการอนุมานบ่อยครั้งมันไม่สามารถมีบทบาทได้

เราสามารถโต้แย้งได้จากมุมมองอื่น ฟังก์ชันความน่าจะเป็นของ Bernoulli (ต่อจากนี้เราจะใช้คำว่า "ความหนาแน่น") ข้างต้นเป็นความหนาแน่นจริง ๆ ที่เกี่ยวกับการนับการวัดนั่นคือการวัดจำนวนเต็มที่ไม่เป็นลบที่มีจำนวนหนึ่งสำหรับแต่ละจำนวนที่ไม่เป็นลบ แต่เราสามารถนิยามความหนาแน่นด้วยความเคารพต่อมาตรการอื่นที่มีอำนาจเหนือกว่า ในตัวอย่างนี้สิ่งนี้จะดูเหมือน (และ) เทียม แต่ในช่องว่างขนาดใหญ่ (ฟังก์ชั่นช่องว่าง) มันเป็นพื้นฐานจริงๆ! ให้เราใช้ภาพประกอบเพื่อการแจกแจงเชิงเรขาคณิตโดยเฉพาะเขียน , กับ , ,และ เป็นต้น จากนั้นความหนาแน่นของการกระจาย Bernoulli ด้วยความเคารพλ λλ ( 0 ) = 1 / 2 λ(0)=1/2λ ( 1 ) = 1 / 4 λ(1)=1/4λ ( 2 ) = 1 / 8 λ(2)=1/8λ λλ ( x ) = P x ( 1 - P ) 1 - x2 x + 1 P ( X = x ) = λ ( x ) λมอบให้โดย หมายความว่า เมื่อมีสิ่งใหม่นี้มีอำนาจเหนือการวัดฟังก์ชั่นความน่าจะเป็น (ที่มีเครื่องหมายจากด้านบน) ทราบปัจจัยพิเศษn} ดังนั้นเมื่อเปลี่ยนการวัดการปกครองที่ใช้ในการกำหนดฟังก์ชั่นความน่าจะเป็นเกิดค่าคงที่การคูณใหม่ซึ่งไม่ขึ้นอยู่กับพารามิเตอร์ที่ไม่รู้จัก

fλ(x)=px(1p)1x2x+1
( x )
P(X=x)=fλ(x)λ(x)
n i = 1 p x i ( 1 - p ) 1 - x i 2 x i + 1 = p y ( 1 - p ) n - y 2 y + n
i=1npxi(1p)1xi2xi+1=py(1p)ny2y+n
2 y + n2y+n ppและไม่เกี่ยวข้องอย่างชัดเจน นั่นคือวิธีอื่นในการดูว่าค่าคงที่แบบหลายค่าต้องไม่เกี่ยวข้องกันอย่างไร อาร์กิวเมนต์นี้สามารถวางนัยได้โดยใช้อนุพันธ์ Radon-Nikodym (เนื่องจากอาร์กิวเมนต์ด้านบนเป็นตัวอย่างของ)


"เนื้อหาข้อมูลจะต้องชัดเจนเหมือนกัน" นี่เป็นเรื่องจริงถ้าคุณเชื่อในหลักการโอกาส!
jsk

ใช่บางที แต่ฉันแสดงให้เห็นว่ามันเป็นไปตามหลักการของ Bayesian อย่างไร
kjetil b halvorsen

1
@kjetilbhalvorsen ขอบคุณสำหรับคำตอบที่มีน้ำใจ! สิ่งหนึ่งที่ฉันยังสับสนอยู่ก็คือเหตุผลที่ความเป็นไปได้ของการกระจายเบอโนลลีไม่รวมสัมประสิทธิ์ทวินาม คำตอบของคุณทำให้ชัดเจนว่าทำไมมันไม่สำคัญ แต่ฉันไม่เข้าใจว่าทำไมมันถึงถูกทิ้งในโอกาสแรก
jvans

@ jvans: เป็นเพราะสัมประสิทธิ์ทวินามไม่ได้ขึ้นอยู่กับพารามิเตอร์ที่ไม่รู้จักดังนั้นจึงไม่สามารถมีอิทธิพลต่อรูปร่างของฟังก์ชั่นความน่าจะเป็นได้
kjetil b halvorsen

12

โดยทั่วไปหมายความว่าเฉพาะค่าสัมพัทธ์ของ PDF เท่านั้น ตัวอย่างเช่น PDF มาตรฐานแบบปกติ (เกาส์เซียน) คือ:หนังสือของคุณบอกว่าพวกเขาสามารถใช้แทนเพราะพวกเขาไม่ได้ดูแลขนาดคือปี่}}f ( x ) = 12 πอี-x2/2กรัม(x)=อี-x2/2C=1f(x)=12πex2/2g(x)=ex2/22 πc=12π

สิ่งนี้เกิดขึ้นเพราะพวกเขาเพิ่มฟังก์ชั่นความน่าจะเป็นสูงสุดและและจะมีค่าสูงสุดเท่ากัน ดังนั้นสูงสุดของจะเป็นเช่นเดียวกับของ(x) ดังนั้นพวกเขาไม่ได้กังวลเกี่ยวกับขนาดกรัม( x ) กรัม( x ) E - x 2 / 2 F ( x )cg(x)g(x)ex2/2f(x)


6

ฉันไม่สามารถอธิบายความหมายของคำพูดได้ แต่สำหรับการประเมินความเป็นไปได้สูงสุดมันไม่สำคัญว่าเราเลือกที่จะค้นหาฟังก์ชันความน่าจะเป็นสูงสุด (ถือเป็นหน้าที่ของหรือ สูงสุดของ โดยที่เป็นค่าคงที่นี่เป็นเพราะเราไม่สนใจค่าสูงสุดของ แต่ให้ค่า โดยที่ค่าสูงสุดนี้เกิดขึ้นและทั้ง และบรรลุค่าสูงสุดที่ L ( x ; θ ) θ L ( x ; θ ) L ( x ; θ ) θ ML L ( x ; θ ) L ( x ; θ ) θ MLกรัม( ) L ( x ; θ ) กรัม( L ( x ; θ ) ) θ ML a lnL(x;θ)θaL(x;θ)aL(x;θ)θMLL(x;θ)aL(x;θ)θML. ดังนั้นค่าคงที่แบบหลายค่าสามารถถูกละเว้นได้ ในทำนองเดียวกันเราสามารถเลือกพิจารณาฟังก์ชัน monotone ใด ๆ (เช่นลอการิทึม) ของฟังก์ชันความน่าจะเป็นกำหนดค่าสูงสุดของและสรุปค่าของ จากสิ่งนี้ สำหรับลอการิทึมค่าคงที่ทวีคูณ จะกลายเป็นค่าคงที่เพิ่มเติมและสิ่งนี้ก็สามารถถูกเพิกเฉยได้ในกระบวนการค้นหาตำแหน่งสูงสุด: เป็น maximized ที่จุดเดียวกับtheta)g()L(x;θ)g(L(x;θ))θMLa(a)ln(a)ln(a)+ln(L(x;θ)ln(a)+ln(L(x;θ)ln(L(x;θ)ln(L(x;θ)

การประมาณความน่าจะเป็นหลังสุด (MAP), ถูกมองว่าเป็นความเข้าใจของตัวแปรสุ่มด้วย ฟังก์ชันความหนาแน่นนิรนัยข้อมูลถูกมองว่าเป็นสำนึกของ ตัวแปรสุ่มและฟังก์ชั่นความน่าจะถือเป็นค่าของความหนาแน่น ตาม เงื่อนไข ของเงื่อนไขบน ; กล่าวว่าฟังก์ชั่นความหนาแน่นตามเงื่อนไขได้รับการประเมินที่θθΘΘfΘ(θ)fΘ(θ)xxXXfXΘ(xΘ=θ)fXΘ(xΘ=θ)XXΘ=θΘ=θxxx ความหนาแน่นหลังของคือ ซึ่งเรารู้จักตัวเศษเป็นความหนาแน่นร่วมของข้อมูลและพารามิเตอร์ที่ประมาณ จุดโดยที่ บรรลุถึงค่าสูงสุดของมันคือการประมาณค่า MAP ของและใช้อาร์กิวเมนต์เดียวกับ ในย่อหน้าเราจะเห็นว่าเราสามารถละเว้นทางด้านขวาของΘΘfΘX(θx)=fXΘ(xΘ=θ)fΘ(θ)fX(x)

fΘX(θx)=fXΘ(xΘ=θ)fΘ(θ)fX(x)(1)
fX,Θ(x,θ)fX,Θ(x,θ)θMAPθMAPfΘX(θx)fΘX(θx)θθ[fX(x)]1[fX(x)]1(1)(1)เป็นค่าคงที่คูณเดียวกับที่เราสามารถละเว้นคงคูณในทั้ง และใน theta) ในทำนองเดียวกันเมื่อมีการใช้ความน่าจะเป็นบันทึกเราสามารถละเว้นค่าคงที่เพิ่มเติมได้fXΘ(xΘ=θ)fXΘ(xΘ=θ)fΘ(θ)fΘ(θ)

แนวความคิดนี้สามารถทำได้ผ่านทางเบย์เช่นกัน: ถ้าคุณใส่หรือในทฤษฎีบทของเบย์ไม่สำคัญการจะยกเลิกดังนั้นหลังจึงเหมือนกัน LLaLaLaa
kjetil b halvorsen

5

ในแง่ของคนธรรมดาคุณมักจะมองหาโอกาสสูงสุดและและแบ่งปันจุดวิกฤติเดียวกันf(x)f(x)kf(x)kf(x)


3
ดังนั้นทำและแต่พวกเขาจะไม่ได้ฟังก์ชั่นโอกาสที่เท่าเทียมกันf(x)f(x)f(x)+2f(x)+2
Henry

โปรดดังที่ Alecos Papadopoulos เขียนไว้ในคำตอบของเขาว่า "ความเป็นไปได้นั้นเป็นหน้าที่ของความหนาแน่นของความน่าจะเป็นร่วมครั้งแรก" เนื่องจากข้อสันนิษฐานของ iid สำหรับตัวอย่างแบบสุ่มฟังก์ชั่นร่วมนั้นเป็นผลคูณของฟังก์ชันความหนาแน่นง่าย ๆ ดังนั้นปัจจัยคูณจะเกิดขึ้นดังนั้นจึงไม่มี
Sergio

1
ฟังก์ชั่นร่วมกันเป็นผลิตภัณฑ์ดังกล่าวหากว่าข้อมูลมีความเป็นอิสระ แต่ MLE ขยายไปถึงตัวแปรตามดังนั้นอาร์กิวเมนต์ของผลิตภัณฑ์จึงไม่น่าเชื่อถือ
whuber

1

ฉันจะแนะนำไม่ให้ตกจากสายตาคำคงที่ใด ๆ ในฟังก์ชั่นโอกาส (เช่นคำที่ไม่รวมถึงพารามิเตอร์) ในสถานการณ์ปกติพวกเขาจะไม่ส่งผลกระทบต่อของความน่าจะเป็นดังที่กล่าวไปแล้ว แต่: argmaxargmax

อาจมีสถานการณ์ที่ผิดปกติเมื่อคุณจะต้องเพิ่มโอกาสในการเพิ่มเพดาน - และจากนั้นคุณควร "จำ" เพื่อรวมค่าคงที่ใด ๆ ในการคำนวณค่าของมัน

นอกจากนี้คุณอาจทำการทดสอบการเลือกแบบจำลองสำหรับแบบจำลองที่ไม่ซ้อนกันโดยใช้ค่าความน่าจะเป็นในกระบวนการ - และเนื่องจากแบบจำลองไม่ซ้อนกันโอกาสสองแบบจะมีค่าคงที่ที่แตกต่างกัน

นอกเหนือจากนี้ประโยค

"เนื่องจากความเป็นไปได้นั้นจะถูกกำหนดให้มีค่าคงที่แบบ multiplicative ของสัดส่วนเท่านั้น (หรือค่าคงที่เพิ่มเติมสำหรับบันทึกความน่าจะเป็น)

เป็นที่ไม่ถูกต้องเพราะโอกาสเป็นครั้งแรกฟังก์ชั่นความหนาแน่นของความน่าจะเป็นร่วมกันไม่เพียง แต่ "ใด ๆ" ฟังก์ชันวัตถุประสงค์ที่จะขยาย


3
อืม ... เมื่อสวมหมวกแบบเบย์ฉันมักจะนึกถึงฟังก์ชั่นความน่าจะเป็นเป็นฟังก์ชันความหนาแน่นแบบมีเงื่อนไขของข้อมูลที่ได้รับพารามิเตอร์และไม่ได้เป็นฟังก์ชั่นความหนาแน่นของความน่าจะเป็นร่วม ตำแหน่งของความหนาแน่นของความน่าจะเป็นร่วมสูงสุดของข้อมูลและพารามิเตอร์ (ซึ่งถือเป็นฟังก์ชั่นของพารามิเตอร์ที่ไม่รู้จัก ; ข้อมูลที่ถูกแก้ไข) จะให้ค่าความน่าจะเป็นหลัง (MAP) สูงสุดของไม่ใช่ ? θθθθ
Dilip Sarwate

3
ฉันคิดว่าคุณต้องระวังภาษาให้มากขึ้น ความน่าจะเป็นหน้าที่ของพารามิเตอร์สำหรับตัวอย่างคงที่ แต่จะเทียบเท่ากับความหนาแน่นของการร่วมทุนมากกว่าพื้นที่ตัวอย่าง นั่นคือ สิ่งนี้จะรวมกับในพื้นที่ตัวอย่าง แต่ไม่จำเป็นต้องเมื่อรวมเข้ากับพื้นที่พารามิเตอร์ เมื่อคุณพูดว่า "ความน่าจะเป็นคือความหนาแน่นดูเป็นฟังก์ชั่นของพารามิเตอร์" ซึ่งทำให้ฟังดูราวกับว่าคุณหมายถึง "ความหนาแน่นเมื่อเทียบกับพารามิเตอร์" ซึ่งไม่ใช่ L(θx)=f(xθ).
L(θx)=f(xθ).
1111
heropup

1
@heropup ฉันได้เขียนไปแล้วว่ามันไม่จำเป็นต้องรวมเข้ากับความเป็นเอกภาพเหนือพื้นที่พารามิเตอร์ดังนั้นทันทีมันไม่สามารถถูกพิจารณาว่าเป็น "ฟังก์ชันความหนาแน่น" เมื่อมันถูกมองว่าเป็น "ฟังก์ชั่นของพารามิเตอร์"
Alecos Papadopoulos

1
ใช่ฉันรู้. ประเด็นของฉันคือวลี "ฟังก์ชันความน่าจะเป็นคือฟังก์ชันความหนาแน่นซึ่งมองว่าเป็นฟังก์ชันของพารามิเตอร์" นั้นเอง มันจะแม่นยำกว่าที่จะพูดอะไรบางอย่างเช่น "ฟังก์ชั่นความน่าจะเป็นเป็นฟังก์ชันของพารามิเตอร์สำหรับตัวอย่างคงที่และเทียบเท่า (หรือสัดส่วน) กับความหนาแน่นรอยต่อบนพื้นที่ตัวอย่าง"
heropup

1
@heropup ข้อความที่คุณต้องการว่า "ฟังก์ชั่นความน่าจะเป็น ... เทียบเท่า (หรือสัดส่วน) กับความหนาแน่นของรอยต่อบนพื้นที่ตัวอย่าง" แน่นอนว่าแม่นยำกว่ามาก แต่ไม่ถูกต้องเท่ากัน ฟังก์ชั่นความน่าจะเป็นไม่เท่าเทียมกันหรือไม่ได้สัดส่วนกับความหนาแน่นของรอยต่อเพราะ "สัมประสิทธิ์ของสัดส่วน" ไม่คงที่ (เว้นแต่การกระจายก่อนหน้าของพารามิเตอร์ที่ไม่รู้จักจะกระจายอย่างสม่ำเสมอตลอดช่วงเวลา) ความหนาแน่นของรอยต่อคือโดยที่คือความเป็นไปได้และคือการแจกแจงก่อนหน้าของพารามิเตอร์ L(xθ)f(θ)L(xθ)f(θ)Lf(θ)
Dilip Sarwate
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.