“ พื้นที่ทั้งหมดภายใต้ฟังก์ชันความหนาแน่นของความน่าจะเป็นคือ 1” - เทียบกับอะไร


20

แนวคิดฉันเข้าใจความหมายของวลี "พื้นที่ทั้งหมดภายใต้ PDF คือ 1" ควรหมายความว่าโอกาสที่ผลลัพธ์จะอยู่ในช่วงเวลาทั้งหมดของความเป็นไปได้คือ 100%

แต่ฉันไม่เข้าใจจริง ๆ จากมุมมอง "เรขาคณิต" ยกตัวอย่างเช่นในรูปแบบ PDF แกน x หมายถึงความยาวพื้นที่ทั้งหมดที่อยู่ใต้ส่วนโค้งจะไม่ใหญ่ขึ้นถ้าวัดในหน่วยมิลลิเมตรเป็นมิลลิเมตรมากกว่ากิโลเมตรหรือไม่

ฉันมักจะลองนึกภาพว่าพื้นที่ใต้เส้นโค้งจะดูอย่างไรถ้าฟังก์ชั่นนั้นแบนเป็นเส้นตรง ความสูง (ตำแหน่งบนแกน y) ของบรรทัดนั้นจะเหมือนกันสำหรับ PDF ใด ๆ หรือจะมีค่าขึ้นอยู่กับช่วงเวลาในแกน x ที่ฟังก์ชันกำหนดไว้หรือไม่


คุณสามารถเปลี่ยนสเกลของแกนxจากกม. เป็นมม. แต่จำนวนนั้นเป็นเท่าใด? คุณจะยังคงมีภาพที่เหมือนกันแน่นอนและอีกหกศูนย์สำหรับหน่วยที่แกนxคุณสามารถซูมเข้าหรือซูมออกได้หากต้องการ แต่จะไม่เปลี่ยนภาพ ในขณะเดียวกันถ้าเส้นโค้ง pdf เป็นเส้นแนวนอนตรง (ซึ่งหมายถึงการกระจายแบบสม่ำเสมอ) ตำแหน่งบนแกนYไม่ได้ขึ้นอยู่กับหน่วยของแกนxแต่ขึ้นอยู่กับความยาวของช่วงเวลาบนแกนxเท่านั้น ไม่แน่ใจว่ามีประโยชน์กับคุณเพียงใด แต่สำหรับฉันความคิดในการซูมเข้าและออกทำให้ฉันเข้าใจได้ง่ายขึ้น
Richard Hardy

2
นั่นดูเหมือนจะเป็นจริง แต่นั่นคือการใช้แว่นขยาย (แปลก ๆ ) ที่ขยายในทิศทางแนวนอน 1,000 และในเวลาเดียวกันก็ลดขนาดลงในทิศทางแนวตั้ง แต่สาระสำคัญของภาพจะไม่เปลี่ยนแปลงหากคุณเปลี่ยนขนาดเท่านั้น
Richard Hardy

2
คำถามนี้ดูเหมือนว่าฉันจะเป็นเช่นเดียวกับคนที่ถาม (ในทางที่แตกต่างกัน) และตอบที่stats.stackexchange.com/questions/4220/...
whuber

1
@ amoeba, ใช่, ในขณะที่หลายคนอาจรู้สึกว่าถูกบังคับให้ลงคะแนนสำหรับคำตอบที่นานขึ้นในการรับรู้ถึงความพยายามที่ใส่ลงไป (ซึ่งฉันก็ทำได้เช่นกัน, btw), Aksakal ตอบคำถามของฉันชัดเจนยิ่งขึ้น เพื่อความยุติธรรมฉันจะบอกว่าคำตอบของ Silverfish ก็ช่วยได้เช่นกันและจะเข้ามาในไม่ช้า
TheChymera

2
@amoeba คำตอบที่แตกต่างไปจากเดิมอย่างสิ้นเชิงคือการมุ่งเน้นไปที่ข้อเท็จจริงที่ว่า PDF เป็นอนุพันธ์ของ CDF ดังนั้นพื้นที่ภายใต้ PDF นั้นเป็นเพียงการ จำกัด มูลค่าของ CDF - ซึ่งชัดเจนมากโดยไม่คำนึงถึงหน่วยที่ใช้ ฉันถูกล่อลวงให้ใส่หัวข้อสั้น ๆ ลงไป แต่รู้สึกว่าคำตอบของฉันนั้นนานพอแล้ว (และนอกจากนี้กุญแจของปัญหา OP ดูเหมือนจะเป็นปัญหาของหน่วยซึ่งวิธี CDF ค่อนข้างรอบ ๆ กระโปรง)
Silverfish

คำตอบ:


14

ฟังก์ชันความหนาแน่นของความน่าจะเป็นวัดเป็นเปอร์เซ็นต์ต่อหน่วยของแกน x ของคุณ สมมุติว่า ณ จุดที่กำหนดx0 PDF ของคุณมีค่าเท่ากับ 1,000 ซึ่งหมายความว่าความน่าจะเป็นที่x0<x<x0+dxคือ1000dxโดยที่dxเป็นหน่วยเมตร หากคุณเปลี่ยนหน่วยเป็นเซนติเมตรดังนั้นความน่าจะเป็นไม่ควรเปลี่ยนแปลงในช่วงเวลาเดียวกัน แต่ช่วงเวลาเดียวกันมี 100 เซนติเมตรมากกว่าเมตรดังนั้น1000dx=PDF(x0)100dxและการแก้ที่เราได้รับPDF(x0)=PDF(x0)100 . มีความน่าจะเป็น 100% ของหน่วย (เปอร์เซ็นต์) ต่อเซ็นติเมตรต่ำกว่าต่อเมตร


46

มันอาจจะช่วยให้คุณรู้ว่าแกนแนวตั้งเป็นวัดที่เป็นความหนาแน่นของความน่าจะเป็น ดังนั้นหากมีการวัดแกนแนวนอนเป็นกิโลเมตรดังนั้นแกนแนวตั้งจึงถูกวัดเป็นความหนาแน่นของความน่าจะเป็น "ต่อกิโลเมตร" สมมติว่าเราวาดรูปสี่เหลี่ยมผืนผ้าบนตารางดังกล่าวซึ่งเป็น 5 "กม." กว้าง 0.1 "ต่อกิโลเมตร" สูง (ซึ่งคุณอาจต้องการที่จะเขียนเป็น "กม. - 1 ") พื้นที่สี่เหลี่ยมผืนผ้านี้คือ 5 กม. x 0.1 กม. - 1 = 0.5 หน่วยยกเลิกและเราเหลือเพียงความน่าจะเป็นครึ่งหนึ่ง11

หากคุณเปลี่ยนหน่วยแนวนอนเป็น "เมตร" คุณจะต้องเปลี่ยนหน่วยแนวตั้งเป็น "ต่อเมตร" ตอนนี้สี่เหลี่ยมจะมีความกว้าง 5,000 เมตรและจะมีความหนาแน่น (ความสูง) 0.0001 ต่อเมตร คุณยังเหลือด้วยความน่าจะเป็นครึ่งหนึ่ง คุณอาจได้รับความยุ่งเหยิงว่ากราฟสองตัวนี้จะดูแปลกเมื่อเทียบกับหน้าอื่น ๆ (ไม่ต้องกว้างและสั้นกว่ากราฟอื่น ๆ ) แต่เมื่อคุณวาดพล็อตร่างกายคุณสามารถใช้อะไรก็ได้ ขนาดที่คุณชอบ ดูด้านล่างเพื่อดูว่าต้องมีความประหลาดเล็กน้อยเพียงใด

คุณอาจพบว่ามีประโยชน์ในการพิจารณาฮิสโทแกรมก่อนที่จะไปยังเส้นโค้งความหนาแน่นของความน่าจะเป็น มีหลายวิธีที่คล้ายคลึงกัน แกนแนวตั้งของฮิสโตแกรมคือความหนาแน่นของความถี่ [ต่อหน่วย ]xและพื้นที่เป็นตัวแทนของความถี่อีกครั้งเนื่องจากหน่วยแนวนอนและแนวตั้งตัดออกเมื่อมีการคูณ เส้นโค้ง PDF เป็นรูปแบบของฮิสโตแกรมรุ่นต่อเนื่องโดยมีความถี่รวมเท่ากับหนึ่ง

การเปรียบเทียบที่ใกล้ยิ่งขึ้นคือฮิสโตแกรมความถี่สัมพัทธ์ - เราบอกว่าฮิสโตแกรมนั้นได้รับการ "ทำให้เป็นมาตรฐาน" ดังนั้นองค์ประกอบของพื้นที่จะแสดงสัดส่วนของชุดข้อมูลดั้งเดิมของคุณแทนที่จะเป็นความถี่ดิบและพื้นที่ทั้งหมดของแท่งทั้งหมดเป็นหนึ่ง ความสูงนี้มีความหนาแน่นความถี่สัมพัทธ์ [ต่อxหน่วย] หากฮิสโตแกรมความถี่สัมพัทธ์มีแถบที่ทำงานตามxค่าจาก 20 กม. ถึง 25 กม. (ดังนั้นความกว้างของแถบคือ 5 กม.) และมีความหนาแน่นความถี่สัมพัทธ์ 0.1 ต่อกม. จากนั้นแถบนั้นมีสัดส่วน 0.5 ของข้อมูล สิ่งนี้สอดคล้องกับแนวคิดที่ว่ารายการที่สุ่มเลือกจากชุดข้อมูลของคุณมีความน่าจะเป็น 50% ของการโกหกในแถบนั้น ข้อโต้แย้งก่อนหน้านี้เกี่ยวกับผลกระทบของการเปลี่ยนแปลงในหน่วยยังคงใช้: เปรียบเทียบสัดส่วนของข้อมูลที่อยู่ในแถบ 20 กม. ถึง 25 กม. กับที่ใน 20,000 ถึง 25,000 เมตรบาร์สำหรับทั้งสองแปลง คุณอาจยืนยันเลขคณิตว่าพื้นที่ของแท่งทั้งหมดรวมเป็นหนึ่งในทั้งสองกรณี

ฮิสโทแกรมความถี่สัมพัทธ์กับหน่วยต่าง ๆ

สิ่งที่ฉันอาจหมายถึงโดยอ้างว่า PDF เป็น "ฮิสโตแกรมรุ่นต่อเนื่อง" ลองมาแถบขนาดเล็กภายใต้เส้นโค้งความหนาแน่นของความน่าจะเป็นพร้อมค่าในช่วง[ x , x + δ x ]ดังนั้นแถบเป็นδ xกว้างและความสูงของเส้นโค้งเป็นค่าคงที่ประมาณ( x ) เราสามารถลากแท่งที่มีความสูงนั้นได้ซึ่งพื้นที่f ( x )x[x,x+δx]δxf(x)แสดงถึงความน่าจะเป็นโดยประมาณของการนอนในแถบนั้นf(x)δx

เราจะหาพื้นที่ใต้เส้นโค้งระหว่างและx = b ได้อย่างไร? เราสามารถแบ่งช่วงเวลานั้นออกเป็นแถบเส้นเล็ก ๆ และหาผลรวมของพื้นที่ของแท่ง, f ( x )x=ax=bซึ่งจะสอดคล้องกับความน่าจะเป็นตัวอย่างของการโกหกในช่วง [ , ] เราเห็นว่าเส้นโค้งและแท่งไม่ได้จัดแนวอย่างแม่นยำดังนั้นจึงมีข้อผิดพลาดในการประมาณของเรา โดยการทำให้ δ xขนาดเล็กและขนาดเล็กสำหรับแต่ละแถบเราเติมเต็มช่วงเวลาที่มีมากขึ้นและแคบบาร์ซึ่ง Σ F ( x )f(x)δx[a,b]δxให้การประมาณพื้นที่ที่ดีขึ้นf(x)δx

ในการคำนวณพื้นที่อย่างแม่นยำแทนที่จะสมมติว่าเป็นค่าคงที่ในแต่ละแถบเราประเมินอินทิกรัลb a f ( x ) d xและสิ่งนี้สอดคล้องกับความน่าจะเป็นที่แท้จริงของการนอนในช่วง[ a , b ] . การรวมเข้ากับส่วนโค้งทั้งหมดให้พื้นที่ทั้งหมด (เช่นความน่าจะเป็นทั้งหมด) หนึ่งด้วยเหตุผลเดียวกับที่รวมพื้นที่ของแท่งทั้งหมดของฮิสโตแกรมความถี่สัมพัทธ์ให้พื้นที่ทั้งหมด (เช่นสัดส่วนทั้งหมด) ของหนึ่ง การบูรณาการนั้นเป็นรุ่นต่อเนื่องของการรวมf(x)abf(x)dx[a,b]

ป้อนคำอธิบายรูปภาพที่นี่

รหัส R สำหรับแปลง

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)

คุณตอกย้ำกับสองบรรทัดแรก แต่ส่วนที่เหลือดีพอ
PatrickT

2
@PatrickT Thanks - ประสบการณ์การสอนชี้ให้เห็นว่าบางครั้งคุณต้องลองสองสิ่งก่อนที่เงินจะตกเพราะผู้เรียนที่แตกต่างกัน (หรือผู้อ่าน) มาพร้อมกับระดับความรู้ที่แตกต่างกัน สองบรรทัดแรกควรโน้มน้าวผู้อ่านที่รู้การวิเคราะห์เชิงมิติ (ตัวอย่างเช่นถ้าวิทยาศาสตร์กายภาพหรือวิศวกรรมศาสตร์) แต่ฉันหวังว่าแผนการจะแยกออกจากส่วนที่เหลือ! จากประสบการณ์ของฉันวิธีฮิสโตแกรมทำงานได้ดีสำหรับนักเรียนที่เคยประสบปัญหามาก่อน ช่องว่างระหว่าง "ความหนาแน่นสัมพัทธ์ความถี่" และ "ความหนาแน่นของความน่าจะเป็น" จะง่ายต่อการสะพานกว่า ) f(x)=F(x)
Silverfish

1
@Silverfish: นี่เป็นครั้งแรกที่ฉันเห็นบางคนใช้คำว่า "penny drops" เป็นภาษาอังกฤษ!
Mehrdad

1
แผนภูมิแรกดูเหมือนว่ามีคนพลิกนก :)
Aksakal

1
@Aksakal Ooof ฉันไม่ได้สังเกตว่า ต้องจำไว้ว่าอย่าใช้ตัวอย่างนั้นในชั้นเรียนโดยไม่มีการดัดแปลงเล็กน้อย (ในบรรทัดเดียวกันเมื่อสร้างปัญหาขึ้นมาเพื่อแก้ปัญหาบนกระดานมีตัวเลขบางอย่างเช่น 69 ฉันพยายามหลีกเลี่ยงการปรากฏตัวประสบการณ์นั้นยากมาก)
Silverfish

7

คุณได้คำตอบสองข้อด้วยSilverfish ที่ยอดเยี่ยมอย่างไรก็ตามฉันรู้สึกว่าภาพประกอบอาจมีประโยชน์ในที่นี้ตั้งแต่คุณถามเกี่ยวกับรูปทรงเรขาคณิตและ "จินตนาการ" ตัวคุณเองฟังก์ชั่นเหล่านั้น

ให้เริ่มด้วยตัวอย่างง่ายๆของการแจกแจงเบอร์นูลี :

f(x)={pif x=1,1pif x=0.

ป้อนคำอธิบายรูปภาพที่นี่

เนื่องจากค่าไม่ต่อเนื่องไม่มี "เส้นโค้ง" แต่มีเพียงสองจุดอย่างไรก็ตามแนวคิดนี้คล้ายกัน: หากคุณต้องการทราบความน่าจะเป็นทั้งหมด (พื้นที่ใต้เส้นโค้ง) คุณต้องสรุปความน่าจะเป็นของผลลัพธ์ที่เป็นไปได้ทั้งสองอย่าง:

p+(1p)=1

p1p

xxf(x)x1x11#{xi}=N#{xi}/N=1N

ป้อนคำอธิบายรูปภาพที่นี่

xx. ดังนั้นหากมีจุดที่คุณไม่สามารถมองเห็นได้ไม่ว่าคุณจะ "ขยาย" มากแค่ไหนเนื่องจากอาจมีจำนวนจุดเล็ก ๆ น้อย ๆ ระหว่างจุดที่กำหนด ด้วยเหตุนี้เราจึงมีโค้ง - คุณสามารถจินตนาการได้ว่ามันทำจาก "คะแนน" มากมาย คุณอาจถามตัวเองว่าจะคำนวณผลรวมของความน่าจะเป็นที่ไม่มีที่สิ้นสุดได้อย่างไร .. ? ในพล็อตด้านล่างเส้นโค้งสีแดงเป็น PDF ปกติและกล่องดำคือฮิสโตแกรมของค่าบางค่าที่ได้จากการแจกแจง ดังนั้นพล็อตฮิสโตแกรมทำให้การกระจายของเราง่ายขึ้นเป็นจำนวน จำกัด "กล่อง" ที่มีความกว้างแน่นอนและถ้าคุณรวมความสูงของกล่องที่คูณด้วยความกว้างของกล่องคุณจะได้พื้นที่ที่อยู่ใต้ส่วนโค้ง - หรือพื้นที่ของกล่องทั้งหมด เราใช้พื้นที่ค่อนข้างชี้ไปที่นี่เนื่องจากแต่ละกล่องเป็นบทสรุปของ "คะแนน" จำนวนไม่สิ้นสุดที่บรรจุอยู่ในกล่อง

ป้อนคำอธิบายรูปภาพที่นี่

f(x)2.53=0.5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

0.511

11f(x).

ab33

abf(x)dx

f(x)dx

คุณถามเกี่ยวกับการกระจาย "แบน" (เหมือนกัน) :

ป้อนคำอธิบายรูปภาพที่นี่

<a<b<11εเล็ก ... นี่เป็นกรณีที่ซับซ้อนและคุณสามารถจินตนาการได้ในแง่นามธรรม ขอให้สังเกตว่าตามที่Ilmari Karonenสังเกตเห็นในความคิดเห็นนี่เป็นแนวคิดที่เป็นนามธรรมที่ไม่สามารถทำได้จริงในทางปฏิบัติ (ดูความคิดเห็นด้านล่าง) หากใช้การกระจายเช่นก่อนที่มันจะเป็นที่ไม่เหมาะสมก่อน

1


1
1XY(,)|X|<|Y|

คุณพูดถูก "ซับซ้อน" ไม่เป็นทางการเกินไป ฉันจะแก้ไขในภายหลัง
ทิม

0

แนวคิดหลักต่อไปนี้ถูกกล่าวถึงในความคิดเห็น แต่ไม่ได้อยู่ในคำตอบที่มีอยู่ ...

วิธีหนึ่งในการบอกกล่าวเกี่ยวกับคุณสมบัติของ PDF คือการพิจารณาว่า PDF และCDFเกี่ยวข้องโดยการรวม (แคลคูลัส) - และว่า CDF มีเอาต์พุตแบบโมโนโทนิกแทนค่าความน่าจะเป็นระหว่าง 0 ถึง 1

ไม่มีหน่วยบูรณาการรวมพื้นที่ใต้เส้นโค้งรูปแบบไฟล์ PDF ที่ไม่ได้รับผลกระทบจากหน่วยแกน X

ที่จะนำมันไป ...

Area = Width x Height

หากแกน X ใหญ่ขึ้นตัวเลขเนื่องจากการเปลี่ยนแปลงหน่วยดังนั้นแกน Y จะต้องเล็กลงด้วยปัจจัยเชิงเส้นที่สอดคล้องกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.