ความแตกต่างระหว่างฮิสโตแกรมและ pdf?


18

หากเราต้องการเห็นการกระจายของข้อมูลอย่างต่อเนื่องเห็นได้ชัดว่าควรใช้อันใดในฮิสโตแกรมและ pdf

ฮิสโทแกรมและ pdf ต่างกันอย่างไร?


คุณช่วยอธิบายให้ชัดเจนได้ไหมว่าคำถามนี้เกี่ยวข้องกับข้อมูล (ซึ่งการแจกแจงนั้นสามารถแทนด้วยฮิสโตแกรม) หรือโครงสร้างทางทฤษฎี (เช่น PDF ซึ่งอธิบายการแจกแจงความน่าจะเป็น)
whuber

4
แต่ PDF มาจากไหน ตามคำจำกัดความ pdf อธิบายการแจกแจงความน่าจะเป็นเชิงทฤษฎี คุณอาจหมายถึง edf (ฟังก์ชันการกระจายเชิงประจักษ์) หรือไม่?
whuber

คำตอบ:


22

เพื่อชี้แจงจุด Dirks:

สมมติว่าข้อมูลของคุณเป็นตัวอย่างของการแจกแจงแบบปกติ คุณสามารถสร้างพล็อตต่อไปนี้:

ข้อความแสดงแทน

เส้นสีแดงคือการประมาณความหนาแน่นเชิงประจักษ์เส้นสีฟ้าเป็น pdf เชิงทฤษฎีของการแจกแจงแบบปกติพื้นฐาน โปรดทราบว่าฮิสโตแกรมจะแสดงเป็นความหนาแน่นไม่ใช่ในความถี่ที่นี่ สิ่งนี้ทำเพื่อจุดประสงค์ในการวางแผนโดยทั่วไปจะใช้ความถี่ในฮิสโตแกรม

ดังนั้นเพื่อตอบคำถามของคุณ: คุณใช้การแจกแจงเชิงประจักษ์ (เช่นฮิสโตแกรม) หากคุณต้องการอธิบายตัวอย่างของคุณและ pdf หากคุณต้องการอธิบายการแจกแจงแบบตั้งสมมติฐาน

พล็อตถูกสร้างขึ้นโดยรหัสต่อไปนี้ใน R:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)

ความแตกต่างระหว่างความถี่และความหนาแน่นคืออะไร?
Lakshay

2
@ ความถี่ Lakshay มีการนับ ความถี่ทั้งหมดที่สรุปรวมเท่ากับจำนวนการสังเกต ความหนาแน่นสั้นสำหรับ PDF (ฟังก์ชันความหนาแน่นของความน่าจะเป็น) ซึ่งเป็นพร็อกซีสำหรับความน่าจะเป็นที่จะมีค่าที่แน่นอน พื้นที่ภายใต้ผลรวม PDF เป็น 1
Joris Meys

13

ฮิสโตแกรมเป็นการประมาณอายุก่อนคอมพิวเตอร์ของความหนาแน่น การประเมินความหนาแน่นเป็นทางเลือก

วันนี้เราใช้ทั้งคู่และมีวรรณกรรมมากมายที่ควรใช้เป็นค่าเริ่มต้น

ในทางตรงกันข้าม PDF เป็นนิพจน์แบบปิดสำหรับการแจกแจงที่กำหนด ซึ่งแตกต่างจากการอธิบายชุดข้อมูลของคุณด้วยความหนาแน่นหรือฮิสโตแกรมโดยประมาณ


1
μσ2density

*ab***ab**$\sqrt{2}$2

6

ไม่มีกฎที่ยากและรวดเร็วที่นี่ ถ้าคุณรู้ว่าความหนาแน่นของประชากร PDF จะดีกว่าไหม ในทางกลับกันเรามักจะจัดการกับตัวอย่างและฮิสโตแกรมอาจถ่ายทอดข้อมูลบางอย่างที่ความหนาแน่นโดยประมาณครอบคลุม ตัวอย่างเช่น Andrew Gelman ทำให้ประเด็นนี้:

ความผันแปรของฮิสโตแกรม

ข้อดีที่สำคัญของฮิสโตแกรมก็คือในส่วนของข้อมูลดิบมันมีเมล็ดของการประเมินความผิดพลาดของมันเอง หรืออีกวิธีหนึ่งความขรุขระของฮิสโตแกรมที่ไม่ได้เลื่อนไปเล็กน้อยนั้นทำหน้าที่ให้บริการที่เป็นประโยชน์โดยแสดงให้เห็นความแปรปรวนของการสุ่มตัวอย่าง นั่นเป็นเหตุผลที่ถ้าคุณดูฮิสโตแกรมในหนังสือของฉันและบทความที่ตีพิมพ์ฉันแค่ใช้ถังขยะจำนวนมาก ฉันก็แทบจะไม่ชอบประมาณการความหนาแน่นของเคอร์เนลที่บางครั้งผู้คนใช้เพื่อแสดงการแจกแจงแบบหนึ่งมิติ ฉันอยากเห็นฮิสโตแกรมและรู้ว่าข้อมูลอยู่ที่ไหน


3
ฉันต้องยอมรับว่าฉันไม่เคยเข้าใจอย่างเต็มที่ว่าทำไมเจลแมนสนับสนุนการใช้ฮิสโตแกรมที่มีความกว้างถังขยะขนาดเล็ก ทำไมไม่ใช้พล็อตกราฟแท่งหรือข้อมูลดิบด้วยการประมาณความหนาแน่นของเคอร์เนลที่ซ้อนทับซึ่งจะถ่ายทอดการกระจายของข้อมูลที่สังเกตได้ดีขึ้น
chl

2
@chl: แน่นอนว่ามีวิธีการสร้างภาพข้อมูลที่ดีอื่น ๆ เพื่อให้เข้าใจถึงความแปรปรวนของการสุ่มตัวอย่าง แต่ในการเปรียบเทียบฮิสโตแกรมโวลต์ที่แคบกว่าภายใต้การสนทนาที่นี่ฉันคิดว่าจุดของเขานั้นดี
ARS

1
นั่นคือลิงค์ที่ดีเช่นเดียวกับเอกสารที่กล่าวถึงที่นั่น แต่วิธีนี้มีไว้สำหรับการจำลองซึ่งในกรณีนี้เราพยายามประเมินความหนาแน่นจริงหรือไม่?
David LeBauer

1

ฮิสโตแกรมความถี่สัมพัทธ์ ( ไม่ต่อเนื่อง )

  • แกน 'y' เป็นจำนวนที่ได้รับการทำให้เป็นมาตรฐาน
  • แกน 'y' เป็นความน่าจะเป็นแบบไม่ต่อเนื่องสำหรับถังขยะ / ช่วงดังกล่าว
  • จำนวนที่ได้รับการทำให้เป็นมาตรฐานแล้วรวมได้สูงสุด 1

ฮิสโตแกรมความหนาแน่น ( ไม่ต่อเนื่อง )

  • แกน 'y' คือค่าความหนาแน่น ('จำนวนปกติ' หารด้วย 'ความกว้างถังขยะ')
  • พื้นที่แถบรวมเป็น 1

ฟังก์ชันความหนาแน่นของความน่าจะเป็น PDF ( ต่อเนื่อง )

  • PDF เป็นฮิสโตแกรมเวอร์ชันต่อเนื่องเนื่องจากฮิสโตแกรมมีการแยกกัน
  • พื้นที่ทั้งหมดภายใต้ Curve ผสานรวมกับ 1

การอ้างอิงเหล่านี้มีประโยชน์ :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

Continuous_probability_distributionจากเว็บไซต์ด้านบน

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.