ฉันกำลังเรียนรู้เกี่ยวกับฟังก์ชั่นการกระจายการสะสม Empirical แต่ฉันก็ยังไม่เข้าใจ
เหตุใดจึงเรียกว่า 'Empirical'
Empirical CDF และ CDF ต่างกันหรือไม่?
ฉันกำลังเรียนรู้เกี่ยวกับฟังก์ชั่นการกระจายการสะสม Empirical แต่ฉันก็ยังไม่เข้าใจ
เหตุใดจึงเรียกว่า 'Empirical'
Empirical CDF และ CDF ต่างกันหรือไม่?
คำตอบ:
ให้เป็นตัวแปรสุ่ม
ความแตกต่างคือการวัดความน่าจะเป็นที่ใช้ สำหรับ CDF เชิงประจักษ์คุณใช้การวัดความน่าจะเป็นที่กำหนดโดยการนับความถี่ในตัวอย่างเชิงประจักษ์
ให้เป็นตัวแปรสุ่มที่แสดงถึงผลการพลิกเหรียญครั้งเดียวโดยที่หมายถึงหัวและหมายถึงก้อย
CDF สำหรับเหรียญยุติธรรมมอบให้โดย:
หากคุณพลิก 2 หัวและ 1 หาง CDF เชิงประจักษ์จะเป็น:
CDF เชิงประจักษ์จะสะท้อนให้เห็นว่าในตัวอย่างของคุณของพลิกของคุณเป็นหัวหน้า
ให้เป็นตัวแปรสุ่มกระจายตามปกติที่มีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน1
CDF มอบให้โดย:
ด้วยจำนวน IID ที่เพียงพอ (และเงื่อนไขปกติบางอย่างน่าพอใจ) CDF เชิงประจักษ์จะมาบรรจบกับ CDF พื้นฐานของประชากร
Empirical CDF และ CDF ต่างกันหรือไม่?
ใช่มันแตกต่างกัน cdf เชิงประจักษ์เป็น cdf ที่เหมาะสม แต่ cdf เชิงประจักษ์มักจะไม่ต่อเนื่องแม้ว่าจะไม่ได้ดึงออกมาจากการกระจายโดยสิ้นเชิงในขณะที่ cdf ของการกระจายสามารถเป็นสิ่งอื่นนอกเหนือจากที่ไม่ต่อเนื่อง
หากคุณปฏิบัติกับตัวอย่างราวกับว่ามันเป็นประชากรของค่าแต่ละคนน่าจะเท่ากัน (เช่นความน่าจะเป็นที่ 1 / n ในการสังเกตแต่ละครั้ง) จากนั้น cdf ของการแจกแจงนั้นจะเป็น ECDF ของข้อมูล
ทำไมถึงเรียกว่า 'Empirical'
มันคือการประมาณของประชากร cdf จากตัวอย่าง; โดยเฉพาะถ้าคุณปฏิบัติต่อสัดส่วนของตัวอย่างในแต่ละค่าข้อมูลที่แตกต่างกันและถือว่าเป็นความน่าจะเป็นในประชากรคุณจะได้รับ ECDF
ประจักษ์มีความหมายบางอย่างเช่น "โดยการสังเกตมากกว่าทฤษฎี" และนั่นคือสิ่งที่มันหมายถึงในกรณีนี้ ... ใช้การสังเกตเพื่อกำหนดฟังก์ชั่นการกระจาย
เชิงประจักษ์ CDF สร้างขึ้นจากชุดข้อมูลจริง (ในพล็อตด้านล่างฉันใช้ 100 ตัวอย่างจากการแจกแจงแบบปกติมาตรฐาน) CDF เป็นโครงสร้างทางทฤษฎี - เป็นสิ่งที่คุณจะเห็นว่าคุณสามารถใช้ตัวอย่างจำนวนมากได้ไม่ จำกัด
เชิงประจักษ์ CDF มักจะใกล้เคียงกับ CDF ค่อนข้างดีโดยเฉพาะอย่างยิ่งสำหรับกลุ่มตัวอย่างขนาดใหญ่
เชิงประจักษ์เป็นสิ่งที่คุณสร้างจากข้อมูลและการสังเกต ตัวอย่างเช่นสมมติว่าคุณต้องการทราบเกี่ยวกับการกระจายความสูงของคนในประเทศ คุณเริ่มต้นด้วยการวัดคนและสร้างฮิสโตแกรมที่สามารถประมาณค่าการแจกแจง จากนั้นคุณคำนวณ CDF เชิงประจักษ์
หากคุณกำลังใช้การแจกแจงเชิงสถิติ (สูตรกำหนดขึ้นมาที่ให้ผลลัพธ์เดียวกันกับพารามิเตอร์เดียวกัน) คุณสามารถคำนวณ CDF ได้
ตามที่Dictionary.comคำจำกัดความของ "เชิงประจักษ์" รวมถึง:
มาจากหรือชี้นำโดยประสบการณ์หรือการทดลอง
ดังนั้น Empirical CDF จึงเป็น CDF ที่คุณได้รับจากข้อมูลของคุณ สิ่งนี้ตรงกันข้ามกับทฤษฎี CDF (มักเรียกว่า "CDF") ซึ่งได้มาจากแบบจำลองทางสถิติหรือความน่าจะเป็นเช่นการแจกแจงแบบปกติ