หากฮิสโตแกรมของฉันแสดงเส้นโค้งรูประฆังฉันสามารถพูดได้ว่าข้อมูลของฉันได้รับการกระจายตามปกติ?

ฉันสร้างฮิสโตแกรมสำหรับอายุผู้ตอบและจัดการเพื่อให้ได้เส้นโค้งรูประฆังที่ดีมากจากการที่ฉันสรุปว่าการแจกแจงเป็นเรื่องปกติ

จากนั้นฉันรันการทดสอบเชิงปกติใน SPSS โดยมีn = 169 การทดสอบp -value (Sig.) ของการทดสอบ Kolmogorov-Smirnov น้อยกว่า 0.05 และดังนั้นข้อมูลจึงละเมิดสมมติฐานของภาวะปกติ

ทำไมการทดสอบแสดงว่าการกระจายอายุไม่ปกติ แต่ฮิสโตแกรมแสดงเส้นโค้งรูประฆังซึ่งจากความเข้าใจของฉันเป็นเรื่องปกติ ฉันควรทำตามผลลัพธ์ใด

— NoraNorad
แหล่งที่มา

ทำไมคุณต้องทดสอบความเป็นปกติ

— Glen_b -Reinstate Monica

นอกจากความคิดเห็นที่ยอดเยี่ยมของ @ Glen_bและคำตอบที่ยอดเยี่ยมของ Aksakalแล้วโปรดทราบว่าแม้จะมีการแจกแจงอย่างต่อเนื่อง KS ต้องการให้ทราบค่าเฉลี่ยและ sd ล่วงหน้าไม่ได้ประเมินจากข้อมูล สิ่งนี้ทำให้การทดสอบ KS นั้นไร้ประโยชน์ "การทดสอบ Kolmogorov-Smirnov เป็นเพียงความอยากรู้อยากเห็นทางประวัติศาสตร์เท่านั้นไม่ควรใช้" (D 'Agostino ใน d'Agostino & Stephens, Eds., 1986) ถ้าเป็นเช่นนั้นให้ใช้ Shapiro-Wilks แทน

— Stephan Kolassa

@Stephan Kolassa คำแนะนำที่ดี แต่คุณหมายถึง Shapiro-Wilk (ข้อเสนอแนะของ MB Wilk และ SS Wilks มักสับสนหรือสับสนการใช้ความเป็นเจ้าของภาษาอังกฤษแบบแปลก ๆ ที่นี่ก็มีส่วนทำให้เกิดความสับสนได้แม้สำหรับคนที่มีภาษาอังกฤษเป็นภาษาแรก)

— Nick Cox

เกี่ยวข้องกับความคิดเห็นของ @StephanKolassa ให้ดูที่Shapiro-Wilk เป็นการทดสอบที่ดีที่สุดหรือไม่? ... คำตอบคือไม่จำเป็นต้องขึ้นอยู่กับทางเลือกที่คุณสนใจ แต่บ่อยครั้งเป็นตัวเลือกที่ดี

— Silverfish

คำตอบ:

เรามักจะรู้ว่ามันเป็นไปไม่ได้สำหรับตัวแปรที่จะตรงกระจายตามปกติ ...

การแจกแจงแบบปกตินั้นมีหางยาวอย่างไม่มีที่สิ้นสุดซึ่งขยายออกไปในทิศทางใดทิศทางหนึ่ง - มันไม่น่าเป็นไปได้ที่ข้อมูลจะอยู่ห่างไกลออกไปในสุดขั้วเหล่านี้ แต่สำหรับการแจกแจงแบบปกติที่แท้จริง สำหรับทุกวัยโมเดลที่กระจายตามปกติจะทำนายว่ามีความน่าจะเป็นที่ไม่เป็นศูนย์ของข้อมูลซึ่งมีค่าเบี่ยงเบนมาตรฐาน 5 ค่าเหนือหรือต่ำกว่าค่าเฉลี่ย - ซึ่งจะสอดคล้องกับอายุที่เป็นไปไม่ได้ของร่างกายเช่นต่ำกว่า 0 หรือสูงกว่า 150 พีระมิดประชากรก็ไม่ชัดเจนว่าทำไมคุณจะคาดหวังอายุจะยิ่งประมาณกระจายตามปกติในสถานที่แรก.) ในทำนองเดียวกันถ้าคุณมีข้อมูลที่สูงซึ่งสังหรณ์ใจอาจจะเป็นไปตามการกระจายมากขึ้น "ปกติเหมือน" ก็อาจจะเป็นอย่างแท้จริง ปกติถ้ามีโอกาสสูงกว่า 0 ซม. หรือสูงกว่า 300 ซม.

ฉันเคยเห็นเป็นครั้งคราวแนะนำว่าเราสามารถหลีกเลี่ยงปัญหานี้ได้โดยการจัดศูนย์กลางข้อมูลให้มีค่าเฉลี่ยเป็นศูนย์ ด้วยวิธีนี้ทั้งเป็นบวกและลบ "วัยกลางคน" เป็นไปได้ แต่สิ่งนี้ทำให้ทั้งค่าลบเป็นไปได้ทางร่างกายและสามารถตีความได้ (ค่ากึ่งกลางเชิงลบตรงกับค่าจริงที่อยู่ต่ำกว่าค่าเฉลี่ย) แต่ก็ไม่ได้แก้ไขปัญหาที่แบบจำลองปกติจะสร้างการทำนายที่เป็นไปไม่ได้ทางร่างกาย ถอดรหัสโมเดล "ศูนย์กลางอายุ" กลับไปเป็น "อายุจริง"

... ทำไมต้องทำการทดสอบด้วย? แม้ว่าจะไม่ถูกต้องก็ตามบรรทัดฐานยังคงเป็นรูปแบบที่มีประโยชน์

คำถามที่สำคัญไม่ได้จริงๆว่าข้อมูลเป็นปกติว่า - เรารู้เบื้องต้นที่ไม่สามารถเป็นกรณีที่มากที่สุดในสถานการณ์ได้โดยไม่ต้องดำเนินการทดสอบสมมติฐาน - แต่ไม่ว่าจะเป็นประมาณพอใกล้ความต้องการของคุณ ดูคำถามคือการทดสอบภาวะปกติไม่มีประโยชน์เป็นหลัก? การแจกแจงแบบปกติเป็นการประมาณที่สะดวกสำหรับหลาย ๆ วัตถุประสงค์ มันไม่ค่อย "ถูกต้อง" - แต่โดยทั่วไปแล้วไม่จำเป็นต้องถูกต้องแม่นยำว่าจะเป็นประโยชน์ ฉันคาดหวังว่าการกระจายตัวแบบปกติจะเป็นแบบอย่างที่สมเหตุสมผลสำหรับความสูงของผู้คน แต่มันต้องใช้บริบทที่ผิดปกติมากขึ้นสำหรับการกระจายแบบปกติ

หากคุณรู้สึกว่าจำเป็นต้องทำการทดสอบตามปกติจริง ๆ แล้ว Kolmogorov-Smirnov อาจไม่ใช่ตัวเลือกที่ดีที่สุด: ดังที่ระบุไว้ในความคิดเห็นแล้วมีการทดสอบที่มีประสิทธิภาพมากขึ้น Shapiro-Wilk มีอำนาจที่ดีกับช่วงของทางเลือกที่เป็นไปได้และมีประโยชน์ที่คุณไม่จำเป็นต้องรู้จริงค่าเฉลี่ยและความแปรปรวนก่อน แต่ระวังว่าในกลุ่มตัวอย่างขนาดเล็กเบี่ยงเบนอาจมีขนาดใหญ่มากจากปกติยังอาจไปตรวจไม่พบในขณะที่กลุ่มตัวอย่างขนาดใหญ่แม้จะมีขนาดเล็กมาก (และเพื่อวัตถุประสงค์ในทางปฏิบัติที่ไม่เกี่ยวข้อง) เบี่ยงเบนไปจากปกติมีแนวโน้มที่จะแสดงเป็น "สำคัญมาก" (ต่ำP -ราคา).

"รูประฆัง" ไม่จำเป็นต้องเป็นเรื่องปกติ

ดูเหมือนว่าคุณได้รับการบอกให้คิดว่าข้อมูล "รูประฆัง" - ข้อมูลสมมาตรที่ยอดเขาอยู่ตรงกลางและมีความน่าจะเป็นที่ต่ำกว่าในหาง - เป็น "ปกติ" แต่การกระจายตัวแบบปกตินั้นต้องการรูปร่างที่เฉพาะเจาะจงถึงยอดและก้อย มีดิสทริบิวชันอื่นที่มีรูปร่างคล้ายกันเมื่อเหลือบมองครั้งแรกซึ่งคุณอาจมีลักษณะเป็น "รูประฆัง" แต่ไม่เหมือนปกติ หากคุณไม่มีข้อมูลจำนวนมากคุณไม่น่าจะแยกแยะได้ว่า "ดูเหมือนว่าการกระจายแบบไม่ได้วางจำหน่าย แต่ไม่เหมือนที่อื่น ๆ " และถ้าคุณมีข้อมูลจำนวนมากคุณอาจจะพบว่ามันไม่ได้ดูค่อนข้างชอบการใด ๆ "ปิด -the-shelf" การกระจายที่ทุกคน! แต่ในกรณีนั้นเพื่อวัตถุประสงค์มากมายคุณ

คลังภาพของการกระจาย "รูประฆัง"

การแจกแจงแบบปกติคือ "รูปทรงระฆัง" ที่คุณคุ้นเคย Cauchyมียอดคมชัดและ "หนัก" (คือมีความน่าจะเป็นมากขึ้น) หาง; การแจกแจง ทีที่มีอิสระ 5 องศามาที่ใดที่หนึ่งระหว่าง (ปกติคือtกับอนันต์ df และ Cauchy คือtกับ 1 df ดังนั้นจึงสมเหตุสมผล) Laplace หรือดับเบิลกระจายชี้แจงได้ไฟล์ PDF ที่เกิดขึ้นจากสองแจกแจงชี้แจง rescaled กลับไปกลับส่งผลให้ยอดคมชัดกว่าการกระจายปกติ; การกระจายเบต้าแตกต่างกันมาก - มันไม่มีหางที่ออกไปเป็นอินฟินิตี้แทนที่จะมีปลายแหลม - แต่มันก็ยังคงมีรูปร่าง "โคก" อยู่ตรงกลาง ที่จริงแล้วด้วยการเล่นกับพารามิเตอร์คุณสามารถได้รับ "โคกเอียง" หรือแม้แต่รูปร่าง "U" - แกลเลอรี่ในหน้า Wikipedia ที่เชื่อมโยงนั้นค่อนข้างให้คำแนะนำเกี่ยวกับความยืดหยุ่นของการกระจาย ในที่สุดการแจกแจงแบบสามเหลี่ยมเป็นอีกการแจกแจงแบบง่าย ๆ บนการสนับสนุนอัน จำกัด ซึ่งมักใช้ในการสร้างแบบจำลองความเสี่ยง

อาจเป็นไปได้ว่าไม่มีการแจกแจงเหล่านี้อธิบายข้อมูลของคุณอย่างชัดเจนและมีการแจกแจงอื่น ๆ ที่มีรูปร่างคล้ายกันอยู่มาก แต่ฉันต้องการแก้ไขความเข้าใจที่คลาดเคลื่อนว่า "humped ตรงกลางและสมมาตรหมายถึงปกติ" เนื่องจากมีข้อ จำกัด ทางกายภาพเกี่ยวกับข้อมูลอายุหากข้อมูลอายุของคุณ "humped" อยู่ตรงกลางดังนั้นจึงเป็นไปได้ว่าการกระจายที่มีการสนับสนุน จำกัด เช่นเบต้าหรือการกระจายสามเหลี่ยมอาจพิสูจน์ได้ว่าแบบจำลองที่ดีกว่าแบบหางไม่มีที่สิ้นสุดเหมือนปกติ โปรดทราบว่าแม้ว่าโดยปกติข้อมูลของคุณจะถูกแจกจ่ายจริง ๆ ฮิสโตแกรมของคุณยังไม่น่าจะคล้ายกับ "ระฆัง" แบบคลาสสิกเว้นแต่ว่าขนาดตัวอย่างของคุณจะค่อนข้างใหญ่ แม้แต่ตัวอย่างจากการแจกแจงเช่น Laplace ซึ่ง pdf นั้นสามารถแยกความแตกต่างอย่างชัดเจนจากค่าปกติเนื่องจาก cusp

ตัวอย่างปกติและ Laplace ของขนาดตัวอย่างต่างๆ

รหัส R

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

— สีเงิน
แหล่งที่มา

อายุไม่สามารถมาจากการแจกแจงแบบปกติ คิดว่ามีเหตุผล: คุณไม่สามารถอายุที่ติดลบได้ แต่การแจกแจงแบบปกติอนุญาตให้ใช้กับจำนวนลบได้

มีรูประฆังกระจายอยู่มากมาย หากสิ่งที่มีลักษณะเป็นรูประฆังก็ไม่ได้หมายความว่าจะต้องเป็นปกติ

ไม่มีวิธีใดที่จะทราบได้อย่างแน่นอนในสถิติรวมถึงการกระจายข้อมูลที่มาจาก รูปร่างเป็นเบาะแส: รูประฆังเป็นอาร์กิวเมนต์หนึ่งสำหรับการแจกแจงแบบปกติ นอกจากนี้การเข้าใจข้อมูลของคุณก็เป็นสิ่งสำคัญเช่นกัน ตัวแปรเช่นอายุมักจะเบ้ซึ่งจะออกกฎปกติ ดังที่ได้กล่าวมาแล้วว่าการแจกแจงแบบปกตินั้นไม่มีขอบเขต แต่บางครั้งก็ใช้สำหรับตัวแปรที่มีขอบเขต ตัวอย่างเช่นหากอายุเฉลี่ยคือ 20 ปีและค่าเบี่ยงเบนมาตรฐานคือ 1 ดังนั้นความน่าจะเป็นของอายุ <17 หรือ> 23 น้อยกว่า 0.3% ดังนั้นจึงเป็นไปได้มากกว่าการกระจายปกติอาจจะเป็นสิ่งที่ดีประมาณ

คุณสามารถลองใช้การทดสอบทางสถิติสำหรับความปกติเช่น Jarque-Bera ซึ่งคำนึงถึงความเบ้และความโด่งของตัวอย่าง Kurtosis อาจมีความสำคัญในบางกรณี มันมีความสำคัญมากในด้านการเงินเพราะถ้าคุณจำลองข้อมูลด้วยการแจกแจงแบบปกติ แต่จริงๆแล้วข้อมูลนั้นมาจากการกระจายตัวแบบอ้วนคุณอาจจะประเมินความเสี่ยงและราคาของสินทรัพย์ต่ำกว่าความเป็นจริง

มันจะช่วยให้คุณรายงานสถิติเชิงพรรณนาหรือฮิสโตแกรมข้อมูลอายุและส่วนสูงของคุณเช่นค่าเฉลี่ยความแปรปรวนความเบ้ความโด่ง

— Aksakal
แหล่งที่มา

ขอบคุณสำหรับความช่วยเหลือของคุณคุณสามารถบอกฉันว่าจะรู้ได้อย่างไรว่าข้อมูลบางอย่างมาจากการแจกแจงแบบปกติเช่นในคำตอบของคุณระบุว่าอายุไม่สามารถมาจากการแจกแจงแบบปกติสิ่งที่เกี่ยวกับข้อมูลอื่น ๆ เช่นความสูง รู้ว่าฉันต้องการเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้เพราะดูเหมือนว่าฉันเข้าใจผิดแนวคิดตั้งแต่ฉันยังใหม่กับเรื่องนี้ขอบคุณอีกครั้ง

— NoraNorad

แต่การกระจายปกติมักจะถูกนำมาใช้เป็นประมาณสำหรับตัวแปรเช่นอายุ และมันไม่ได้จริงๆปัญหาเนื่องจากคุณสามารถกำหนดage_centredเป็นage - mean(age)และคุณมีตัวแปรที่มีค่าเฉลี่ย 0 มีบางส่วนเบี่ยงเบนมาตรฐานค่าบวกและลบ ดังนั้นฉันจะไม่เข้มงวดกับมันมากนัก

— ทิม

คุณไม่สามารถมีความสูงด้านลบสำหรับคนได้เช่นกัน แต่นั่นก็ไม่ใช่อุปสรรคสำหรับฉันที่จะอธิบายความสูงตามที่ได้รับการกระจายตามปกติถ้ามันเป็นการประมาณที่ดี สำหรับเรื่องนั้นเหตุใดจึงใช้การกระจายแบบไม่ จำกัด ขอบเขตสำหรับการวัดที่สามารถ จำกัด ได้เท่านั้น ในฐานะที่เป็น @Tim พูดว่ามันเป็นเรื่องของการประมาณที่ยอมรับได้รับข้อมูลและได้รับวัตถุประสงค์

— Nick Cox

ฉันยอมรับว่าการแจกแจงแบบปกติอาจเป็นการประมาณที่ดีสำหรับข้อมูลที่ถูกผูกไว้ในบางครั้ง แต่คำถามก็คือว่าข้อมูลนั้นมาจากปกติหรือไม่

— Aksakal

อายุของผู้อาวุโสที่จบการศึกษาจากโรงเรียนมัธยมอาจกระจายได้ตามปกติและยังใช้ค่าลบหากค่าเฉลี่ยอยู่ที่ @ Tim

— ui_90jax