ประจักษ์ CDF vs CDF


22

ฉันกำลังเรียนรู้เกี่ยวกับฟังก์ชั่นการกระจายการสะสม Empirical แต่ฉันก็ยังไม่เข้าใจ

  1. เหตุใดจึงเรียกว่า 'Empirical'

  2. Empirical CDF และ CDF ต่างกันหรือไม่?


2
ตรวจสอบที่นี่stats.stackexchange.com/questions/222120/…
ทิม

มีคำอธิบายที่เรียบง่ายตรงไปตรงมาและสง่างามในแง่ของตั๋วในรูปแบบกล่อง : CDF อธิบายสิ่งที่อยู่ในกล่องเดิม ECDF คือสิ่งที่คุณจะได้รับเมื่อคุณใส่ตัวอย่าง (ซึ่งเป็นชุดตั๋วที่ดึงมาจากกล่องดั้งเดิม: ข้อมูลที่เรียกว่า "ประจักษ์") ลงในช่องว่าง
whuber

สิ่งหนึ่งที่ต้องระวังคือการแจกจ่ายเชิงประจักษ์ของคุณมักจะถูก จำกัด ด้วยวิธีการสร้างในขณะที่ CDF อาจไม่ ตัวอย่างเช่นหากคุณสร้าง CDF เชิงประจักษ์จากการสังเกตของตัวแปร Poisson ECDF ที่ได้รับจะถูก จำกัด ขอบเขตด้วยความถี่ที่สังเกตได้สูงสุดในขณะที่ CDF จริงนั้นไม่ได้ จำกัด ขอบเขต
Aksakal

คำตอบ:


28

ให้Xเป็นตัวแปรสุ่ม

  • ฟังก์ชั่นการแจกแจงสะสมF(x)ให้P(Xx) )
  • ฟังก์ชันการแจกแจงสะสมเชิงประจักษ์ฟังก์ชันG(x)ให้P(Xx)ตามการสังเกตในตัวอย่างของคุณ

ความแตกต่างคือการวัดความน่าจะเป็นที่ใช้ สำหรับ CDF เชิงประจักษ์คุณใช้การวัดความน่าจะเป็นที่กำหนดโดยการนับความถี่ในตัวอย่างเชิงประจักษ์

ตัวอย่างง่ายๆ (พลิกเหรียญ):

ให้Xเป็นตัวแปรสุ่มที่แสดงถึงผลการพลิกเหรียญครั้งเดียวโดยที่X=1หมายถึงหัวและX=0หมายถึงก้อย

CDF สำหรับเหรียญยุติธรรมมอบให้โดย:

F(x)={0for x<012for 0x<11for 1x

หากคุณพลิก 2 หัวและ 1 หาง CDF เชิงประจักษ์จะเป็น:

G(x)={0for x<023for 0x<11for 1x

CDF เชิงประจักษ์จะสะท้อนให้เห็นว่าในตัวอย่างของคุณ2/3ของพลิกของคุณเป็นหัวหน้า

ตัวอย่างอื่น ( Fคือ CDF สำหรับการแจกแจงแบบปกติ):

ให้Xเป็นตัวแปรสุ่มกระจายตามปกติที่มีค่าเฉลี่ย0และส่วนเบี่ยงเบนมาตรฐาน11

CDF มอบให้โดย:

F(x)=x12πex22

x1<x2<x3

G(y)={0for y<x113for x1y<x223for x2y<x31for x3y

ด้วยจำนวน IID ที่เพียงพอ (และเงื่อนไขปกติบางอย่างน่าพอใจ) CDF เชิงประจักษ์จะมาบรรจบกับ CDF พื้นฐานของประชากร


12

Empirical CDF และ CDF ต่างกันหรือไม่?

ใช่มันแตกต่างกัน cdf เชิงประจักษ์เป็น cdf ที่เหมาะสม แต่ cdf เชิงประจักษ์มักจะไม่ต่อเนื่องแม้ว่าจะไม่ได้ดึงออกมาจากการกระจายโดยสิ้นเชิงในขณะที่ cdf ของการกระจายสามารถเป็นสิ่งอื่นนอกเหนือจากที่ไม่ต่อเนื่อง

หากคุณปฏิบัติกับตัวอย่างราวกับว่ามันเป็นประชากรของค่าแต่ละคนน่าจะเท่ากัน (เช่นความน่าจะเป็นที่ 1 / n ในการสังเกตแต่ละครั้ง) จากนั้น cdf ของการแจกแจงนั้นจะเป็น ECDF ของข้อมูล

ทำไมถึงเรียกว่า 'Empirical'

มันคือการประมาณของประชากร cdf จากตัวอย่าง; โดยเฉพาะถ้าคุณปฏิบัติต่อสัดส่วนของตัวอย่างในแต่ละค่าข้อมูลที่แตกต่างกันและถือว่าเป็นความน่าจะเป็นในประชากรคุณจะได้รับ ECDF

ประจักษ์มีความหมายบางอย่างเช่น "โดยการสังเกตมากกว่าทฤษฎี" และนั่นคือสิ่งที่มันหมายถึงในกรณีนี้ ... ใช้การสังเกตเพื่อกำหนดฟังก์ชั่นการกระจาย


11

เชิงประจักษ์ CDF สร้างขึ้นจากชุดข้อมูลจริง (ในพล็อตด้านล่างฉันใช้ 100 ตัวอย่างจากการแจกแจงแบบปกติมาตรฐาน) CDF เป็นโครงสร้างทางทฤษฎี - เป็นสิ่งที่คุณจะเห็นว่าคุณสามารถใช้ตัวอย่างจำนวนมากได้ไม่ จำกัด

เชิงประจักษ์ CDF มักจะใกล้เคียงกับ CDF ค่อนข้างดีโดยเฉพาะอย่างยิ่งสำหรับกลุ่มตัวอย่างขนาดใหญ่

Empirical CDF vs CDF


10

เชิงประจักษ์เป็นสิ่งที่คุณสร้างจากข้อมูลและการสังเกต ตัวอย่างเช่นสมมติว่าคุณต้องการทราบเกี่ยวกับการกระจายความสูงของคนในประเทศ คุณเริ่มต้นด้วยการวัดคนและสร้างฮิสโตแกรมที่สามารถประมาณค่าการแจกแจง จากนั้นคุณคำนวณ CDF เชิงประจักษ์

หากคุณกำลังใช้การแจกแจงเชิงสถิติ (สูตรกำหนดขึ้นมาที่ให้ผลลัพธ์เดียวกันกับพารามิเตอร์เดียวกัน) คุณสามารถคำนวณ CDF ได้

N(μ=1.75 m,σ=0.1 m)


มีการวัดค่าความเชื่อมั่นที่แสดงถึงความน่าจะเป็นที่ CDF และ Emperical CDF อธิบายประชากรเดียวกันในขอบเขตของการสุ่มตัวอย่างการทดลองทั้งหมดในโลกหรือไม่ ดูเหมือนว่าจะมีแอปพลิเคชันสำหรับการเลือกตั้งเช่น (แม้ว่าอาจจะไม่ได้เพราะเอาท์พุทไม่ได้อธิบายอย่างเคร่งครัดว่าเป็นฟังก์ชั่น ... )
BenPen

3

ตามที่Dictionary.comคำจำกัดความของ "เชิงประจักษ์" รวมถึง:

มาจากหรือชี้นำโดยประสบการณ์หรือการทดลอง

ดังนั้น Empirical CDF จึงเป็น CDF ที่คุณได้รับจากข้อมูลของคุณ สิ่งนี้ตรงกันข้ามกับทฤษฎี CDF (มักเรียกว่า "CDF") ซึ่งได้มาจากแบบจำลองทางสถิติหรือความน่าจะเป็นเช่นการแจกแจงแบบปกติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.