เรามักจะรู้ว่ามันเป็นไปไม่ได้สำหรับตัวแปรที่จะตรงกระจายตามปกติ ...
การแจกแจงแบบปกตินั้นมีหางยาวอย่างไม่มีที่สิ้นสุดซึ่งขยายออกไปในทิศทางใดทิศทางหนึ่ง - มันไม่น่าเป็นไปได้ที่ข้อมูลจะอยู่ห่างไกลออกไปในสุดขั้วเหล่านี้ แต่สำหรับการแจกแจงแบบปกติที่แท้จริง สำหรับทุกวัยโมเดลที่กระจายตามปกติจะทำนายว่ามีความน่าจะเป็นที่ไม่เป็นศูนย์ของข้อมูลซึ่งมีค่าเบี่ยงเบนมาตรฐาน 5 ค่าเหนือหรือต่ำกว่าค่าเฉลี่ย - ซึ่งจะสอดคล้องกับอายุที่เป็นไปไม่ได้ของร่างกายเช่นต่ำกว่า 0 หรือสูงกว่า 150 พีระมิดประชากรก็ไม่ชัดเจนว่าทำไมคุณจะคาดหวังอายุจะยิ่งประมาณกระจายตามปกติในสถานที่แรก.) ในทำนองเดียวกันถ้าคุณมีข้อมูลที่สูงซึ่งสังหรณ์ใจอาจจะเป็นไปตามการกระจายมากขึ้น "ปกติเหมือน" ก็อาจจะเป็นอย่างแท้จริง ปกติถ้ามีโอกาสสูงกว่า 0 ซม. หรือสูงกว่า 300 ซม.
ฉันเคยเห็นเป็นครั้งคราวแนะนำว่าเราสามารถหลีกเลี่ยงปัญหานี้ได้โดยการจัดศูนย์กลางข้อมูลให้มีค่าเฉลี่ยเป็นศูนย์ ด้วยวิธีนี้ทั้งเป็นบวกและลบ "วัยกลางคน" เป็นไปได้ แต่สิ่งนี้ทำให้ทั้งค่าลบเป็นไปได้ทางร่างกายและสามารถตีความได้ (ค่ากึ่งกลางเชิงลบตรงกับค่าจริงที่อยู่ต่ำกว่าค่าเฉลี่ย) แต่ก็ไม่ได้แก้ไขปัญหาที่แบบจำลองปกติจะสร้างการทำนายที่เป็นไปไม่ได้ทางร่างกาย ถอดรหัสโมเดล "ศูนย์กลางอายุ" กลับไปเป็น "อายุจริง"
... ทำไมต้องทำการทดสอบด้วย? แม้ว่าจะไม่ถูกต้องก็ตามบรรทัดฐานยังคงเป็นรูปแบบที่มีประโยชน์
คำถามที่สำคัญไม่ได้จริงๆว่าข้อมูลเป็นปกติว่า - เรารู้เบื้องต้นที่ไม่สามารถเป็นกรณีที่มากที่สุดในสถานการณ์ได้โดยไม่ต้องดำเนินการทดสอบสมมติฐาน - แต่ไม่ว่าจะเป็นประมาณพอใกล้ความต้องการของคุณ ดูคำถามคือการทดสอบภาวะปกติไม่มีประโยชน์เป็นหลัก? การแจกแจงแบบปกติเป็นการประมาณที่สะดวกสำหรับหลาย ๆ วัตถุประสงค์ มันไม่ค่อย "ถูกต้อง" - แต่โดยทั่วไปแล้วไม่จำเป็นต้องถูกต้องแม่นยำว่าจะเป็นประโยชน์ ฉันคาดหวังว่าการกระจายตัวแบบปกติจะเป็นแบบอย่างที่สมเหตุสมผลสำหรับความสูงของผู้คน แต่มันต้องใช้บริบทที่ผิดปกติมากขึ้นสำหรับการกระจายแบบปกติ
หากคุณรู้สึกว่าจำเป็นต้องทำการทดสอบตามปกติจริง ๆ แล้ว Kolmogorov-Smirnov อาจไม่ใช่ตัวเลือกที่ดีที่สุด: ดังที่ระบุไว้ในความคิดเห็นแล้วมีการทดสอบที่มีประสิทธิภาพมากขึ้น Shapiro-Wilk มีอำนาจที่ดีกับช่วงของทางเลือกที่เป็นไปได้และมีประโยชน์ที่คุณไม่จำเป็นต้องรู้จริงค่าเฉลี่ยและความแปรปรวนก่อน แต่ระวังว่าในกลุ่มตัวอย่างขนาดเล็กเบี่ยงเบนอาจมีขนาดใหญ่มากจากปกติยังอาจไปตรวจไม่พบในขณะที่กลุ่มตัวอย่างขนาดใหญ่แม้จะมีขนาดเล็กมาก (และเพื่อวัตถุประสงค์ในทางปฏิบัติที่ไม่เกี่ยวข้อง) เบี่ยงเบนไปจากปกติมีแนวโน้มที่จะแสดงเป็น "สำคัญมาก" (ต่ำP -ราคา).
"รูประฆัง" ไม่จำเป็นต้องเป็นเรื่องปกติ
ดูเหมือนว่าคุณได้รับการบอกให้คิดว่าข้อมูล "รูประฆัง" - ข้อมูลสมมาตรที่ยอดเขาอยู่ตรงกลางและมีความน่าจะเป็นที่ต่ำกว่าในหาง - เป็น "ปกติ" แต่การกระจายตัวแบบปกตินั้นต้องการรูปร่างที่เฉพาะเจาะจงถึงยอดและก้อย มีดิสทริบิวชันอื่นที่มีรูปร่างคล้ายกันเมื่อเหลือบมองครั้งแรกซึ่งคุณอาจมีลักษณะเป็น "รูประฆัง" แต่ไม่เหมือนปกติ หากคุณไม่มีข้อมูลจำนวนมากคุณไม่น่าจะแยกแยะได้ว่า "ดูเหมือนว่าการกระจายแบบไม่ได้วางจำหน่าย แต่ไม่เหมือนที่อื่น ๆ " และถ้าคุณมีข้อมูลจำนวนมากคุณอาจจะพบว่ามันไม่ได้ดูค่อนข้างชอบการใด ๆ "ปิด -the-shelf" การกระจายที่ทุกคน! แต่ในกรณีนั้นเพื่อวัตถุประสงค์มากมายคุณ
การแจกแจงแบบปกติคือ "รูปทรงระฆัง" ที่คุณคุ้นเคย Cauchyมียอดคมชัดและ "หนัก" (คือมีความน่าจะเป็นมากขึ้น) หาง; การแจกแจงทีที่มีอิสระ 5 องศามาที่ใดที่หนึ่งระหว่าง (ปกติคือtกับอนันต์ df และ Cauchy คือtกับ 1 df ดังนั้นจึงสมเหตุสมผล) Laplace หรือดับเบิลกระจายชี้แจงได้ไฟล์ PDF ที่เกิดขึ้นจากสองแจกแจงชี้แจง rescaled กลับไปกลับส่งผลให้ยอดคมชัดกว่าการกระจายปกติ; การกระจายเบต้าแตกต่างกันมาก - มันไม่มีหางที่ออกไปเป็นอินฟินิตี้แทนที่จะมีปลายแหลม - แต่มันก็ยังคงมีรูปร่าง "โคก" อยู่ตรงกลาง ที่จริงแล้วด้วยการเล่นกับพารามิเตอร์คุณสามารถได้รับ "โคกเอียง" หรือแม้แต่รูปร่าง "U" - แกลเลอรี่ในหน้า Wikipedia ที่เชื่อมโยงนั้นค่อนข้างให้คำแนะนำเกี่ยวกับความยืดหยุ่นของการกระจาย ในที่สุดการแจกแจงแบบสามเหลี่ยมเป็นอีกการแจกแจงแบบง่าย ๆ บนการสนับสนุนอัน จำกัด ซึ่งมักใช้ในการสร้างแบบจำลองความเสี่ยง
อาจเป็นไปได้ว่าไม่มีการแจกแจงเหล่านี้อธิบายข้อมูลของคุณอย่างชัดเจนและมีการแจกแจงอื่น ๆ ที่มีรูปร่างคล้ายกันอยู่มาก แต่ฉันต้องการแก้ไขความเข้าใจที่คลาดเคลื่อนว่า "humped ตรงกลางและสมมาตรหมายถึงปกติ" เนื่องจากมีข้อ จำกัด ทางกายภาพเกี่ยวกับข้อมูลอายุหากข้อมูลอายุของคุณ "humped" อยู่ตรงกลางดังนั้นจึงเป็นไปได้ว่าการกระจายที่มีการสนับสนุน จำกัด เช่นเบต้าหรือการกระจายสามเหลี่ยมอาจพิสูจน์ได้ว่าแบบจำลองที่ดีกว่าแบบหางไม่มีที่สิ้นสุดเหมือนปกติ โปรดทราบว่าแม้ว่าโดยปกติข้อมูลของคุณจะถูกแจกจ่ายจริง ๆ ฮิสโตแกรมของคุณยังไม่น่าจะคล้ายกับ "ระฆัง" แบบคลาสสิกเว้นแต่ว่าขนาดตัวอย่างของคุณจะค่อนข้างใหญ่ แม้แต่ตัวอย่างจากการแจกแจงเช่น Laplace ซึ่ง pdf นั้นสามารถแยกความแตกต่างอย่างชัดเจนจากค่าปกติเนื่องจาก cusp
รหัส R
par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)")
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy")
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df")
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)")
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")
par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}
# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)