การกระจายคืออะไร


16

ฉันรู้ความน่าจะเป็นและสถิติน้อยมากและฉันต้องการเรียนรู้ ฉันเห็นคำว่า "การกระจาย" ที่ใช้ทั่วสถานที่ในบริบทที่แตกต่างกัน

ตัวอย่างเช่นตัวแปรสุ่มไม่ต่อเนื่องมี "การแจกแจงความน่าจะเป็น" ฉันรู้ว่านี่คืออะไร ตัวแปรสุ่มต่อเนื่องมีฟังก์ชั่นความหนาแน่นของความน่าจะเป็นแล้วสำหรับxRที่หนึ่งจากเพื่อของฟังก์ชั่นความหนาแน่นของความน่าจะเป็นฟังก์ชั่นการแจกแจงสะสมประเมินxxx

และชัดเจนเพียง "ฟังก์ชันการแจกแจง" นั้นมีความหมายเหมือนกันกับ "ฟังก์ชันการแจกแจงสะสม" อย่างน้อยเมื่อพูดถึงตัวแปรสุ่มแบบต่อเนื่อง (คำถาม: พวกมันมีความหมายเหมือนกันเสมอหรือไม่)

แล้วมีการแจกแจงที่โด่งดังมากมาย กระจายการกระจาย ฯลฯ แต่อะไรคือการกระจาย ? มันเป็นฟังก์ชั่นการแจกแจงสะสมของตัวแปรสุ่มหรือไม่? หรือฟังก์ชันความหนาแน่นของความน่าจะเป็นของตัวแปรสุ่มΓχ2ΓΓΓ

แต่จากนั้นการแจกแจงความถี่ของชุดข้อมูล จำกัด จะปรากฏเป็นฮิสโตแกรม

เรื่องสั้นสั้น: ในความน่าจะเป็นและสถิติความหมายของคำว่า "การกระจาย" คืออะไร?

ฉันรู้คำจำกัดความของการแจกแจงในวิชาคณิตศาสตร์ (องค์ประกอบของการเว้นวรรคคู่ของการรวบรวมฟังก์ชั่นการทดสอบที่มีโทโพโลยีขีด จำกัด แบบอุปนัย) แต่ไม่ใช่ความน่าจะเป็นและสถิติ


1
บทความ Wikipedia ที่เกี่ยวข้องน่าจะเป็นการแนะนำที่ดีในหัวข้อ
Aleksandr Blekh

1
อย่างเคร่งครัด 'การกระจาย' และ 'cdf' ควรถูกมองว่าเป็นคำพ้องความหมาย แต่มักจะใช้ 'การกระจาย' ในความรู้สึกที่หลวมมากและมักจะใช้เพื่ออ้างถึงความหนาแน่น / pmf
Glen_b -Reinstate Monica

3
ความเข้าใจเกี่ยวกับการแจกแจงค่อนข้างใกล้เคียงกับความน่าจะเป็น ความแตกต่างที่สำคัญคือความน่าจะเป็นที่ได้รับคุณสมบัติเพิ่มเติมบางอย่าง (ของการเป็นบวกและปกติเพื่อความสามัคคี) การเชื่อมต่อคือคำจำกัดความของคุณสร้างการกระจายในแง่ของผู้ประกอบการคาดหวังที่เกี่ยวข้อง นอกจากนี้ยังมีการใช้ภาษาในสถิติที่ไม่เหมาะสม (ร้ายแรง) ซึ่งเรียกการกระจาย "แบบ" ในที่สุดชุดข้อมูล จำกัด ใด ๆ จะกำหนดการแจกแจงที่ได้จากการสุ่มตัวอย่างจากมันคือ "การกระจายเชิงประจักษ์"
whuber

@whuber ที่ช่วยขอบคุณโดยเฉพาะอย่างยิ่งการละเมิดภาษา มันเหมือนกับการเรียกฟังก์ชันอินทิกรัลไม่ จำกัด ของฟังก์ชัน ... ฟังก์ชัน
danzibr

คำถามที่คล้ายกันกับคำตอบที่ดี: stats.stackexchange.com/questions/210403/…
kjetil b halvorsen

คำตอบ:


7

ต่อไปนี้จะเป็นมูลค่าสุ่มตัวแปร ส่วนขยายไปยังช่องว่างอื่น ๆ จะส่งตรงไปข้างหน้าหากคุณสนใจ ฉันจะยืนยันว่าคำจำกัดความทั่วไปต่อไปนี้เล็กน้อยนั้นง่ายกว่าการพิจารณาแยกฟังก์ชั่นความหนาแน่นมวลและฟังก์ชันการกระจายแบบสะสมR

ฉันรวมคำศัพท์ทางคณิตศาสตร์ / ความน่าจะเป็นไว้ในข้อความเพื่อให้ถูกต้อง ถ้าใครไม่คุ้นเคยกับคำเหล่านี้สัญชาตญาณก็ถูกเข้าใจอย่างดีโดยเพียงแค่คิดว่า "Borel เซต" เป็น "เซตย่อยของใด ๆที่ฉันสามารถคิดได้" และตัวแปรสุ่มเป็นผลลัพธ์เชิงตัวเลขของการทดลองบางอย่างกับ ความน่าจะเป็นที่เกี่ยวข้องR


Let จะเป็นพื้นที่ที่น่าจะเป็นและX ( ω ) R -มูลค่าตัวแปรสุ่มในพื้นที่นี้(Ω,F,P)X(ω)R

ฟังก์ชั่นชุดที่เป็นชุดโบเรลจะเรียกว่าการกระจายของXQ(A):=P(ωΩ:X(ω)A)AX

ในคำพูดการแจกแจงบอกคุณ (พูดอย่างหลวม ๆ ) สำหรับเซตย่อยของความน่าจะเป็นที่Xรับค่าในชุดนั้น เราสามารถพิสูจน์ได้ว่าQนั้นถูกกำหนดโดยฟังก์ชันF ( x ) : = P ( X x )และในทางกลับกัน ในการทำเช่นนั้น - และฉันข้ามรายละเอียดที่นี่ - สร้างการวัดบนชุด Borel ที่กำหนดความน่าจะเป็นF ( x )ให้กับทุกชุด( - , x )และยืนยันว่าการวัดที่แน่นอนนี้เห็นด้วยกับQในRXQF(x):=P(Xx)F(x)(,x)Qระบบสร้าง Borel σ -พีชคณิตπσ

หากเกิดขึ้นเพื่อให้สามารถเขียนเป็นQ ( A ) = A f ( x ) d xจากนั้นfเป็นฟังก์ชันความหนาแน่นสำหรับQและคุณสามารถดูได้แม้ว่าความหนาแน่นนี้จะไม่ได้ถูกกำหนดโดยเฉพาะ ชุดเกอวัดศูนย์) ก็จะทำให้ความรู้สึกที่จะยังพูดการกระจายของX โดยปกติแล้ว แต่เราเรียกมันว่าฟังก์ชั่นความหนาแน่นของความน่าจะเป็นของXQ(A)Q(A)=Af(x)dxfQfXX

ในทำนองเดียวกันถ้ามันเกิดขึ้นที่สามารถเขียนเป็นQ ( A ) = ฉันA { , - 1 , 0 , 1 , , f } ( i )จากนั้นก็สมเหตุสมผลที่จะพูดถึงfเป็นการกระจายตัวของXแม้ว่าเรามักจะเรียกมันว่าฟังก์ชันความน่าจะเป็นแบบมวลQ(A)Q(A)=iA{,1,0,1,}f(i)fX

ดังนั้นเมื่อใดก็ตามที่คุณอ่านบางสิ่งเช่น " ตามการแจกแจงแบบเดียวกันบน[ 0 , 1 ] " มันก็หมายความว่าฟังก์ชันQ ( A )ซึ่งบอกคุณถึงความน่าจะเป็นที่Xใช้ค่าในชุดบางชุด ฟังก์ชันความหนาแน่นของความน่าจะเป็นf ( x ) = I [ 0 , 1 ]หรือฟังก์ชันการแจกแจงสะสมF ( x ) = x - f ( t )X[0,1]Q(A)Xf(x)=I[0,1] TF(x)=xf(t)dt

หมายเหตุสุดท้ายในกรณีที่ไม่มีการเอ่ยถึงตัวแปรสุ่ม แต่เป็นการแจกแจง หนึ่งอาจพิสูจน์ว่าได้รับฟังก์ชั่นการกระจาย (หรือมวลความหนาแน่นหรือฟังก์ชั่นการกระจายสะสม) มีพื้นที่น่าจะเป็นที่มีตัวแปรสุ่มที่มีการกระจายนี้ ดังนั้นจึงไม่มีความแตกต่างในการพูดเกี่ยวกับการแจกแจงหรือตัวแปรสุ่มที่มีการแจกแจงนั้น มันเป็นเพียงเรื่องของการมุ่งเน้นของคน


3

ปล่อยให้เป็นพื้นที่ความน่าจะเป็นให้( X , B )เป็นพื้นที่ที่วัดได้และปล่อยให้X : Ω Xเป็นฟังก์ชันที่วัดได้ซึ่งหมายความว่าX - 1 ( B ) = { ω : X ( ω ) B } FสำหรับทุกB B การแจกแจงของXคือการวัดความน่าจะเป็นμ(Ω,F,P)(X,B)X:ΩXX1(B)={ω:X(ω)B}FBB Xมากกว่า ( X , B )ที่กำหนดโดย μ X ( B ) = P ( X B ) เมื่อ X = Rและ Bคือ Borel sigma-field เราอ้างถึงฟังก์ชัน Xว่าเป็น "ตัวแปร" แบบสุ่มμX(X,B)μX(B)=P(XB)X=RBX


1
จะต้องมีความชัดเจนมากกับคนที่มีความรู้น้อยของความน่าจะเป็นและสถิติ :)
Alexey grigorev

3
ดูเหมือนว่า OP จะรู้เรื่องคณิตศาสตร์ขั้นสูงเช่น "องค์ประกอบของพื้นที่คู่ของคอลเลกชันของฟังก์ชั่นการทดสอบพร้อมกับโทโพโลยีขีด จำกัด อุปนัย" ตรวจสอบคำถามสุดท้ายของเขา
Zen

2
มันเป็นคำตอบที่ดีสำหรับฉัน ฉันต้องการตรวจสอบคำจำกัดความของพื้นที่ความน่าจะเป็น แต่สำหรับคนที่มีพื้นฐานทางคณิตศาสตร์มันชัดเจน ฉันชื่นชมความกระชับของคำตอบ แต่ไม่ยอมรับเนื่องจากรายละเอียดในคำตอบอื่น
danzibr

1

คำถามและคำตอบที่ผ่านมาดูเหมือนจะมุ่งเน้นไปที่การแจกแจงเชิงทฤษฎี การแจกแจงเชิงประจักษ์ช่วยให้เข้าใจการกระจายได้ง่ายขึ้น

ตัวอย่าง

ในระหว่างการแข่งขันในชั้นเรียนโดยการกระโดดเชือกเราจะสังเกตเด็ก ๆ ทุกคนในการกระโดดข้ามเชือก เด็กคนแรกสามารถกระโดดได้สองครั้งสี่ครั้งสองครั้งถัดไปสิบห้าครั้ง ฯลฯ เราบันทึกจำนวนการกระโดด เด็กห้าคนเพิ่มขึ้นแปดเท่าในแต่ละครั้ง แต่มีเพียงเด็กคนเดียวที่เพิ่มขึ้นสองเท่า เราบอกว่าการกระโดดแปดครั้งนั้นแตกต่างจากการกระโดดสองครั้ง

คำจำกัดความที่ชัดเจนสำหรับการแจกแจงที่สังเกตได้คือความถี่ของการเกิดขึ้นสำหรับแต่ละค่าที่สังเกตได้ของตัวแปร

ในสถิติเชิงอนุมานจากนั้นเราพยายามให้เหมาะสมกับการแจกแจงเชิงทฤษฎีกับการแจกแจงที่สังเกตเพราะเราต้องการทำงานร่วมกับสมมติฐานของการแจกแจงเชิงทฤษฎี คุณสามารถเข้าถึงคำจำกัดความที่คล้ายกันสำหรับการแจกแจงเชิงทฤษฎีโดยแทนที่ "การสังเกต" ด้วย "สังเกต" หรือให้แม่นยำยิ่งขึ้น: "คาดหวัง"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.