ความเป็นไปได้ของ Wikipedia


26

ฉันมีคำถามง่ายๆเกี่ยวกับ "ความน่าจะเป็นตามเงื่อนไข" และ "โอกาส" (ฉันได้สำรวจคำถามนี้ที่นี่แล้วแต่ไม่มีประโยชน์)

มันเริ่มต้นจากหน้า Wikipedia ตามความเป็นไปได้ พวกเขาพูดแบบนี้:

ความน่าจะเป็นของชุดของค่าพารามิเตอร์, θ , ให้ผลลัพธ์x , เท่ากับความน่าจะเป็นของผลลัพธ์ที่สังเกตได้จากค่าพารามิเตอร์เหล่านั้น, นั่นคือ

L(θx)=P(xθ)

ที่ดี! ดังนั้นในภาษาอังกฤษฉันอ่านสิ่งนี้ว่า: "ความน่าจะเป็นของพารามิเตอร์ที่เท่ากับทีต้า, รับข้อมูล X = x, (ทางซ้ายมือ), เท่ากับความน่าจะเป็นของข้อมูล X ที่เท่ากับ x, เนื่องจากพารามิเตอร์นั้น เท่ากับทีต้า " ( ตัวหนาเป็นของฉันสำหรับการเน้น )

อย่างไรก็ตามไม่น้อยกว่า 3 บรรทัดในหน้าเดียวกันรายการ Wikipedia ก็จะกล่าวต่อไปว่า:

ให้Xเป็นตัวแปรสุ่มที่มีต่อเนื่องกระจาย pขึ้นอยู่กับพารามิเตอร์θθจากนั้นฟังก์ชั่น

L(θx)=pθ(x)=Pθ(X=x),

ถือว่าเป็นหน้าที่ของθจะเรียกว่าฟังก์ชั่นความเป็นไปได้ (จากθได้รับผลxของตัวแปรสุ่ม X ) บางครั้งความน่าจะเป็นของค่าxของXสำหรับค่าพารามิเตอร์θเขียนเป็นP(X=xθ) ; มักเขียนเป็นP(X=x;θ)เพื่อเน้นว่าสิ่งนี้แตกต่างจาก L(θx)ซึ่งไม่ใช่ความน่าจะเป็นแบบมีเงื่อนไขเนื่องจากθเป็นพารามิเตอร์และไม่ใช่ตัวแปรสุ่ม

( ตัวหนาเป็นของฉันสำหรับการเน้น ) ดังนั้นในการอ้างอิงแรกเราได้รับการบอกเล่าอย่างแท้จริงเกี่ยวกับความน่าจะเป็นแบบมีเงื่อนไขของP(xθ)แต่หลังจากนั้นทันทีเราจะได้รับการบอกว่านี่ไม่ใช่ความน่าจะเป็นตามเงื่อนไขและควรเขียนเป็นP(X=x;θ) ?

ดังนั้นอันไหนคือ ความน่าจะเป็นที่เป็นไปได้จริงหมายถึงความน่าจะเป็นตามเงื่อนไขที่อ้างถึงครั้งแรกหรือไม่? หรือมันหมายถึงความน่าจะเป็นที่เรียบง่ายโดยอ้างคำพูดที่สอง?

แก้ไข:

จากคำตอบที่เป็นประโยชน์และลึกซึ้งทั้งหมดที่ฉันได้รับจนถึงตอนนี้ฉันได้สรุปคำถามของฉันแล้วและความเข้าใจของฉันก็เป็นเช่นนั้น:

  • ในภาษาอังกฤษเราพูดว่า: "ความน่าจะเป็นคือการทำงานของพารามิเตอร์รับข้อมูลที่สังเกตได้" ในคณิตศาสตร์เราเขียนมันเป็น: L(Θ=θX=x) )
  • โอกาสที่จะไม่น่าจะเป็น
  • ความน่าจะเป็นไม่ใช่การกระจายความน่าจะเป็น
  • ความน่าจะเป็นไม่ใช่ความน่าจะเป็น
  • ความน่าจะเป็นอย่างไรก็ตามในภาษาอังกฤษ : "ผลิตภัณฑ์ A ในการแจกแจงความน่าจะเป็น (กรณีต่อเนื่อง) หรือผลิตภัณฑ์ของมวลชนน่าจะเป็น (กรณีที่ไม่ต่อเนื่อง) ที่ที่และแปรโดยΘ = θ ." ในทางคณิตศาสตร์แล้วเราก็เขียนมันเป็นเช่น: L ( Θ = θ | X = x ) = F ( X = x ; Θ = θ ) (กรณีอย่างต่อเนื่องที่เป็น PDF) และเป็นL ( Θ θX=xΘ=θL(Θ=θX=x)=f(X=x;Θ=θ)f
    (กรณีที่ไม่ต่อเนื่องโดยที่ Pคือมวลความน่าจะเป็น) ของที่นี่คือที่ที่ไม่มีจุดใด ๆL(Θ=θX=x)=P(X=x;Θ=θ)Pคือความน่าจะเป็นแบบมีเงื่อนไขที่เข้ามาเล่น
  • ในทฤษฎีบทเบย์เรามี: ) เรียกขานเราบอกว่า "P(X=xΘ=θ)เป็นโอกาส" อย่างไรก็ตามนี่ไม่เป็นความจริงเนื่องจากΘอาจเป็นตัวแปรสุ่มจริง ดังนั้นสิ่งที่เราสามารถพูดได้อย่างถูกต้องคือว่าคำนี้P(X=xΘ=θ)เป็นเพียง "คล้าย" กับโอกาส (?) [เกี่ยวกับเรื่องนี้ฉันไม่แน่ใจ]P(Θ=θX=x)=P(X=xΘ=θ) P(Θ=θ)P(X=x)P(X=xΘ=θ)ΘP(X=xΘ=θ)

แก้ไขครั้งที่สอง:

จากคำตอบของ @amoebas ฉันได้เขียนความคิดเห็นล่าสุดของเขา ฉันคิดว่ามันค่อนข้างชัดเจนและฉันคิดว่ามันเป็นการล้างความขัดแย้งหลักที่ฉันมี (ความเห็นเกี่ยวกับภาพ)

ป้อนคำอธิบายรูปภาพที่นี่

แก้ไข III:

ฉันขยายความคิดเห็น @amoebas ไปยังกรณี Bayesian ในขณะนี้เช่นกัน:

ป้อนคำอธิบายรูปภาพที่นี่


คุณมีคำตอบที่ดีอยู่สองข้อ แต่โปรดตรวจสอบstats.stackexchange.com/q/112451/35989
ทิม

@Tim ขอบคุณการเชื่อมโยงที่ยอดเยี่ยม! น่าเสียดายที่ฉันยังไม่ชัดเจนเกี่ยวกับคำถามเฉพาะที่ฉันมีความเป็นไปได้และความน่าจะเป็นตามเงื่อนไข (?) ที่ดูเหมือนว่าจะคิดในใจ เกี่ยวกับเรื่องนี้ฉันยังไม่ชัดเจน : - /
Creatron

2
"ระบุว่า" ไม่ได้หมายความว่าความน่าจะเป็นตามเงื่อนไขเสมอไป บางครั้งวลีนี้เป็นเพียงความพยายามที่จะระบุว่าสัญลักษณ์ใดที่ตั้งใจจะแก้ไขในการคำนวณหรือแนวคิด
whuber

2
บางคนใช้การประชุมวิชาการพิมพ์ด้วยอัฒภาค มีอนุสัญญามากมายหลายอย่างเช่นตัวห้อยตัวยกตัวยก ฯลฯ คุณมักจะต้องคิดออกว่าใครบางคนหมายถึงอะไรจากบริบทหรือคำอธิบายข้อความของพวกเขาเกี่ยวกับสิ่งที่พวกเขากำลังทำ
whuber

4
เมื่อเป็นตัวแปรสุ่ม (นั่นคือค่าที่พิจารณาว่าเกิดขึ้นจากตัวแปรสุ่มΘ ) ไม่มีสิ่งใดในนิยามของการเปลี่ยนแปลงโอกาส มันยังคงเป็นโอกาส เหตุผลนี้ไม่แตกต่างจากการบอกว่าผีเสื้อสีน้ำเงินยังคงเป็นผีเสื้อ เทคนิคก็ยกประเด็นเกี่ยวกับการจัดจำหน่ายร่วมกันของΘและx เห็นได้ชัดว่าการกระจายข้อต่อนี้จะต้องมีการกำหนดไว้อย่างดีและเพลิดเพลินกับ "เงื่อนไขปกติ" ก่อนที่คุณจะระบุโอกาสที่จะเกิดความน่าจะเป็นตามเงื่อนไข θΘΘx
whuber

คำตอบ:


18

ฉันคิดว่ามันเป็นขนที่ไม่จำเป็น

เงื่อนไขความน่าจะเป็นของxรับปีถูกกำหนดให้เป็นเวลาสองตัวแปรสุ่มXและYสละค่าxและy ที่ แต่เรายังสามารถพูดถึงความน่าจะเป็นP ( x θ )ของx ที่ให้θโดยที่θไม่ใช่ตัวแปรสุ่ม แต่เป็นพารามิเตอร์P(xy)P(X=xY=y)xyXYxyP(xθ)xθθ

โปรดทราบว่าในทั้งสองกรณีสามารถใช้คำเดียวกัน "ที่ได้รับ" และสัญกรณ์เดียวกันได้ ไม่จำเป็นต้องคิดค้นสัญลักษณ์ที่แตกต่างกัน ยิ่งไปกว่านั้นสิ่งที่เรียกว่า "พารามิเตอร์" และสิ่งที่เรียกว่า "ตัวแปรสุ่ม" สามารถขึ้นอยู่กับปรัชญาของคุณP()แต่คณิตศาสตร์จะไม่เปลี่ยนแปลง

คำพูดแรกจากวิกิพีเดียระบุว่าตามคำจำกัดความ นี่คือการสันนิษฐานว่าθเป็นพารามิเตอร์ อ้างที่สองบอกว่าL ( θ | x )คือไม่น่าจะเป็นเงื่อนไข นี่หมายความว่าไม่ใช่ความน่าจะเป็นตามเงื่อนไขของθที่ได้รับx ; และแน่นอนมันเป็นไปไม่ได้เพราะθL(θx)=P(xθ)θL(θx)θxθถือว่าเป็นพารามิเตอร์ที่นี่

ในบริบทของ Bayes theorem ทั้งและเป็นตัวแปรสุ่ม แต่เรายังสามารถเรียกP(ba)"ความน่าจะเป็น" (จากa) และตอนนี้มันยังเป็นความน่าจะเป็นตามเงื่อนไขโดยสุจริต(ของb

P(ab)=P(ba)P(a)P(b),
abP(ba)ab ) คำศัพท์นี้เป็นมาตรฐานในสถิติแบบเบย์ ไม่มีใครบอกว่ามันเป็นสิ่งที่ "คล้ายกัน" กับความน่าจะเป็น ผู้คนเรียกมันว่าเป็นโอกาส

หมายเหตุ 1:ในวรรคสุดท้าย, จะเห็นได้ชัดน่าจะเป็นเงื่อนไขของข โอกาสที่L ( a b )ถูกมองว่าเป็นหน้าที่ของa ; แต่ไม่ใช่การแจกแจงความน่าจะเป็น (หรือความน่าจะเป็นตามเงื่อนไข) ของa ! หนึ่งของมันมากกว่าไม่จำเป็นต้องเท่ากับ1 (ในขณะที่อินทิกรัลกับbทำ)P(ba)bL(ab)aaa1b

Note 2: Sometimes likelihood is defined up to an arbitrary proportionality constant, as emphasized by @MichaelLew (because most of the time people are interested in likelihood ratios). This can be useful, but is not always done and is not essential.


See also What is the difference between "likelihood" and "probability"? and in particular @whuber's answer there.

I fully agree with @Tim's answer in this thread too (+1).


1
So a likelihood, can in fact, be equal to, a conditional probability (as per the last paragraph), correct? This is what I am trying to square. For example in one of the first answers, we have: "First, likelihood cannot be generally equal to a the probability of the data given the parameter value, as likelihood is only defined up to a proportionality constant. Fisher was explicit about that when he first formalised likelihood (Fisher, 1922). " This is what I am trying to square. Is the likelihood - can the likelihood - ever be equal to a conditional probability?
Creatron

@Creatron I added two Notes to my answer. Do they clarify it?
amoeba says Reinstate Monica

1
P(b|a) L(a|b) L(a|b)P(b|a), and not as, L(a|b)=P(b|a). (ฉันรู้ว่าในการเพิ่มประสิทธิภาพสิ่งนี้ไม่ได้สร้างความแตกต่าง แต่ฉันพยายามที่จะตอกย้ำความถูกต้องของสิ่งที่เป็นไปได้ที่นี่) ความเข้าใจของฉันถูกต้องหรือไม่ ขอขอบคุณสำหรับความอดทนของคุณ.
Creatron

1
a and b are random events. Okay, so P(b|a) is a conditional probability distribution of b given a. But L(a|b) is supposed to be seen as a function of a, not of b! And it is not the probability distribution of a because it does not sum to one. This has nothing to do with the issue or proportionality (which is my Note 2). I think we can write L(a|b)=P(b|a).
amoeba says Reinstate Monica

1
Amoeba, thank you!! You have been instrumental in un-knotting those concepts for me, thank you so much!! :) I just "extended" the diagram to the Bayesian case, and would appreciate your feedback to make sure I have understood that correctly as well. I have also accepted your answer. Once again, massively gracious!
Creatron

10

You already got two nice answers, but since it still seems unclear for you let me provide one. Likelihood is defined as

L(θ|X)=P(X|θ)=ifθ(xi)

so we have likelihood of some parameter value θ given the data X. It is equal to product of probability mass (discrete case), or density (continuous case) functions f of X parametrized by θ. Likelihood is a function of parameter given the data. Notice that θ is a parameter that we are optimizing, not a random variable, so it does not have any probabilities assigned to it. This is why Wikipedia states that using conditional probability notation may be ambiguous, since we are not conditioning on any random variable. On another hand, in Bayesian setting θ is a random variable and does have distribution, so we can work with it as with any other random variable and we can use Bayes theorem to calculate the posterior probabilities. Bayesian likelihood is still likelihood since it tells us about likelihood of data given the parameter, the only difference is that the parameter is considered as random variable.

If you know programming, you can think of likelihood function as of overloaded function in programming. Some programming languages allow you to have function that works differently when called using different parameter types. If you think of likelihood like this, then by default if takes as argument some parameter value and returns likelihood of data given this parameter. On another hand, you can use such function in Bayesian setting, where parameter is random variable, this leads to basically the same output, but that can be understood as conditional probability since we are conditioning on random variable. In both cases the function works the same, just you use it and understand it a little bit differently.

// likelihood "as" overloaded function
Default Likelihood(Numeric theta, Data X) {
    return f(X, theta); // returns likelihood, not probability
}

Bayesian Likelihood(RandomVariable theta, Data X) {
    return f(X, theta); // since theta is r.v., the output can be
                        // understood as conditional probability
}

Moreover, you rather won't find Bayesians who write Bayes theorem as

P(θ|X)L(θ|X)P(θ)

...this would be very confusing. First, you would have θ|X on both sides of equation and it wouldn't have much sense. Second, we have posterior probability to know about probability of θ given data (i.e. the thing that you would like to know in likelihoodist framework, but you don't when θ is not a random variable). Third, since θ is a random variable, we have and write it as conditional probability. The L-notation is generally reserved for likelihoodist setting. The name likelihood is used by convention in both approaches to denote similar thing: how probability of observing such data changes given your model and the parameter.


Thank you Tim, this has been very helpful in my understanding. I have re-consolidated my question (see under "Edit") with this new knowledge. I believe everything I have now written there is true. The only holdout is the last point in the list on Bayes rule. If you could take a look I would appreciate that a lot. Thanks again, and have an upvote!
Creatron

1
@Creatron I added a sentence commenting your last bullet to my answer, hope it is now clear -- if not please say so.
Tim

(1/2) Your edits on the overloaded operator helps me a lot. In this case, it seems to me that we can say this: 1) Under the 'mathematically pure' (historical case in the sense of what Fisher probably meant), case, where θ is not a random variable, and instead is a parameter of a PDF, (or a function of a parameter?), then the likelihood is equal to the probability of P(X=x;θ). The likelihood function is NOT a probability distribution, sure, but it is EQUAL TO the probability of P(X=x;θ). Is this correct?
Creatron

(2/2) In the second case however, (2), when the context is a Bayesian setting, then in this case our parameters are a r.v, and so in this case the likelihood IS in fact, a conditional probability distribution, of P(b|a), written however, as L(a|b). So in the first 'default' case, the likelihood was definitely NOT a probability distribution, (but was equal to a probability value), however in the second case, the likelihood IS in fact a probability distribution, and that probability distribution is a conditional probability, written as P(b|a). Is this correct?
Creatron

2
Thank you Tim, even though I accepted @amoeba 's answer, your post truly helped me understand this varied and deep concept, esp your analogy to overloaded functions. Thank you again!
Creatron

7

There are several aspects of the common descriptions of likelihood that are imprecise or omit detail in a way that engenders confusion. The Wikipedia entry is a good example.

First, likelihood cannot be generally equal to a the probability of the data given the parameter value, as likelihood is only defined up to a proportionality constant. Fisher was explicit about that when he first formalised likelihood (Fisher, 1922). The reason for that seems to be the fact that there is no restraint on the integral (or sum) of a likelihood function, and the probability of observing data x within a statistical model given any value of the parameter(s) is strongly affected by the precision of the data values and of the granularity of specification of the parameter values.

Second, it is more helpful to think about the likelihood function than individual likelihoods. The likelihood function is a function of the model parameter value(s), as is obvious from a graph of a likelihood function. Such a graph also makes it easy to see that the likelihoods allow a ranking of the various values of the parameter(s) according to how well the model predicts the data when set to those parameter values. Exploration of likelihood functions makes the roles of the data and the parameter values much more clear, in my opinion, than can cogitation of the various formulas given in the original question.

The use a ratio of pairs of likelihoods within a likelihood function as the relative degree of support offered by the observed data for the parameter values (within the model) gets around the problem of unknown proportionality constants because those constants cancel in the ratio. It is important to note that the constants would not necessarily cancel in a ratio of likelihoods that come from separate likelihood functions (i.e. from different statistical models).

Finally, it is useful to be explicit about the role of the statistical model because likelihoods are determined by the statistical model as well as the data. If you choose a different model you get a different likelihood function, and you can get a different unknown proportionality constant.

Thus, to answer the original question, likelihoods are not a probability of any sort. They do not obey Kolmogorov's axioms of probability, and they play a different role in statistical support of inference from the roles played by the various types of probability.

  1. Fisher (1922) On the mathematical foundations of statistics http://rsta.royalsocietypublishing.org/content/222/594-604/309

1
The first line in your post summarizes my frustration with this topic. At any rate, some questions based on your post, sir: 1) The bayesian formula is often written as P(a|b)=P(b|a)P(a)P(b), where (we are told) that P(b|a) is a 'likelihood', and that P(a) is a 'prior'. If likelihood is not a probability, then is this statement false? 2) My motivation for the question is in the context of deriving a maximum likelihood estimator, which inevitably links a likelihood to a (seemingly) concrete (conditional) probability. Given those two examples, how then to reconcile those? Thanks.
Creatron

@Creatron 1. No, the statement is not necessarily wrong. The likelihood function is how the evidence enters the calculation, and combining it with a probability distribution yields a probability distribution. In that context the unknown proportionality constant is not a problem because after the product of the likelihood function and prior probability distribution is arbitrarily scaled so that it has the correct unity integral (or sum).
Michael Lew

2. In the context of finding a maximum likelihood estimate it makes no difference whether you use a conditional probability or a likelihood, as they will be proportional over the entire range of parameter values.
Michael Lew

1
Can we then say that while L(θ|x)=P(x|θ) is technically wrong, L(θ|x)P(x|θ) is technically and formally correct? Is that all there is to it?
Creatron

Thank you Micheal Lew, your post has really helped in my understanding of this problem, much appreciated.
Creatron

7

Wikipedia should have said that L(θ) is not a conditional probability of θ being in some specified set, nor a probability density of θ. Indeed, if there are infinitely many values of θ in the parameter space, you can have

θL(θ)=,
for example by having L(θ)=1 regardless of the value of θ, and if there is some standard measure dθ on the parameter space Θ, then in the same way one can have
ΘL(θ)dθ=.
An essential point that the article should emphasize is that L is the function
θP(xθ) and NOT xP(xθ).

2
+1 and thanks for the edit of my answer; I forgot that \mid exists.
amoeba says Reinstate Monica

@amoeba : Glad to help.
Michael Hardy

3

"I read this as: "The likelihood of parameters equaling theta, given data X = x, (the left-hand-side), is equal to the probability of the data X being equal to x, given that the parameters are equal to theta". (Bold is mine for emphasis)."

It's the probability of the set of observations given the parameter is theta. This is perhaps confusing because they write P(x|θ) but then L(θ|x).

The explanation (somewhat objectively) implies that θ is not a random variable. It could, for example, be a random variable with some prior distribution in a Bayesian setting. The point however, is that we suppose θ=θ, a concrete value and then make statements about the likelihood of our observations. This is because there is only one true value of θ in whatever system we're interested in.


Ok, so I then conclude based on this that i) The first image on the wikipedia is wrong, because (to my knowledge at least), P(a|b) is always read as a conditional probability, and what they SEEM to want to say, is that it's not - or ever - "probability of the data GIVEN this theta", it's rather, "probability of the data, PARAMETERIZED by this theta". Is this correct? Thanks. (To summarize, it seems that L(θ|x)=P(X=x;θ).
Creatron

This however is problematic, because in a Bayesian formulation, P(a|b)=P(b|a) P(a)P(b), the P(b|a) we are told is in fact the likelihood, (and is in fact a conditional probability). However this contradicts what we just said, and also contradicts what the wiki says in image 2.
Creatron

L(θ|x):=P(x|θ). The θ is to the left of x in L to emphasize that we think of L as a function of θ, the parameter we wish to optimize. So there's no contradiction.
Alex R.

Is the right-hand-side of L(θ|x) := P(x|θ) a conditional probability?
Creatron

This makes more sense to me now. Thanks for your initial help, @Alex.
Creatron
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.