ภาวะปกติคืออะไร


33

ในวิธีการทางสถิติที่แตกต่างกันมี "สมมติฐานของความปกติ" "ปกติ" คืออะไรและฉันจะรู้ได้อย่างไรว่ามีปกติ?


2
คุณลอง google / wikipedia ก่อนหรือไม่? en.wikipedia.org/wiki/Normal_distribution
robin girard

คำตอบ:


29

สมมติฐานของภาวะปกติเป็นเพียงการสันนิษฐานว่าตัวแปรสุ่มพื้นฐานที่น่าสนใจมีการกระจายตามปกติหรือประมาณนั้น สังหรณ์ใจอาจจะเข้าใจความปกติเป็นผลมาจากผลรวมของเหตุการณ์สุ่มอิสระจำนวนมาก

โดยเฉพาะอย่างยิ่งการแจกแจงแบบปกติจะถูกกำหนดโดยฟังก์ชันต่อไปนี้:

ข้อความแสดงแทน

โดยที่และเป็นค่าเฉลี่ยและความแปรปรวนตามลำดับและปรากฏขึ้นดังนี้:σ 2μσ2

ข้อความแสดงแทน

สิ่งนี้สามารถตรวจสอบได้หลายวิธีซึ่งอาจเหมาะกับปัญหาของคุณมากขึ้นโดยคุณสมบัติของมันเช่นขนาดของ n โดยพื้นฐานแล้วพวกเขาทดสอบคุณสมบัติทั้งหมดที่คาดหวังหากการแจกแจงเป็นปกติ (เช่นการแจกแจงแบบควอไทล์ที่คาดหวัง)


33

หมายเหตุหนึ่ง: ข้อสันนิษฐานของภาวะปกติมักจะไม่เกี่ยวกับตัวแปรของคุณ แต่เกี่ยวกับข้อผิดพลาดซึ่งประมาณโดยส่วนที่เหลือ ตัวอย่างเช่นในการถดถอยเชิงเส้น ; ไม่มีข้อสันนิษฐานว่าYกระจายตามปกติมีเพียงeเท่านั้นY=a+x+อีYอี


16
+1 ในที่สุดใครบางคนได้ชี้ให้เห็นว่าอะไรคือสิ่งสำคัญที่สุดของคำถามนี้: ในสถานการณ์ส่วนใหญ่ "ปกติ" เป็นสิ่งสำคัญในเรื่องที่เหลือหรือการสุ่มตัวอย่างการกระจายของสถิติไม่เกี่ยวกับการกระจายของประชากร!
whuber

4
ฉันจะเพิ่มว่าถ้ากระจายตามปกติแล้ว Y เป็นอย่างน้อยตามเงื่อนไขเช่นกัน ฉันคิดว่านี่เป็นสิ่งที่พลาดไป - ผู้คนคิดว่า Y เป็นเรื่องปกติเล็กน้อยแต่ความเป็นจริงตามเงื่อนไขที่จำเป็น ตัวอย่างที่ง่ายที่สุดคือ ANOVA แบบทางเดียว อี
ความน่าจะเป็นที่เป็นไปได้

เงื่อนไขอะไร
bill_e

1
@bill_e ตัวแปรอิสระ
Glen_b -Reinstate Monica

10

คำถามที่เกี่ยวข้องสามารถพบได้ที่นี่เกี่ยวกับสมมติฐานปกติของข้อผิดพลาด (หรือมากกว่าโดยทั่วไปของข้อมูลหากเราไม่มีความรู้ก่อนหน้าเกี่ยวกับข้อมูล)

โดยทั่วไป

  1. สะดวกในการใช้การแจกแจงแบบปกติทางคณิตศาสตร์ (มันเกี่ยวข้องกับ Least Squares ที่เหมาะสมและง่ายต่อการแก้ไขด้วย pseudoinverse)
  2. เนื่องจากทฤษฎีบทขีด จำกัด กลางเราอาจสันนิษฐานว่ามีข้อเท็จจริงพื้นฐานมากมายที่ส่งผลกระทบต่อกระบวนการและผลรวมของผลกระทบส่วนบุคคลเหล่านี้มีแนวโน้มที่จะทำงานเหมือนการแจกแจงแบบปกติ ในทางปฏิบัติดูเหมือนว่าจะเป็นเช่นนั้น

ข้อความสำคัญจากที่นั่นคือเทอเรนซ์เทารกล่าวไว้ที่นี่ว่า "การพูดอย่างหยาบ ๆ ทฤษฎีบทนี้ยืนยันว่าหากมีสถิติที่เป็นการรวมกันขององค์ประกอบอิสระและการเปลี่ยนแปลงแบบสุ่มจำนวนมากโดยไม่มีองค์ประกอบใดที่มีอิทธิพลต่อการตัดสินใจทั้งหมด จากนั้นสถิตินั้นจะกระจายประมาณตามกฎหมายที่เรียกว่าการแจกแจงแบบปกติ "

เพื่อให้ชัดเจนฉันขอเขียนโค้ด Python

# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem

@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""

import scipy, scipy.stats
import numpy as np
import pylab

#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random

y = y / sum(y);

N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)

# Plotting details 
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])

#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
    y = np.convolve(y,y)
    y = y / sum(y);    

    x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
    ax = pylab.subplot(N+1,1,i+1)
    pylab.plot(x,y)
    ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
    ax.set_xticks([2**i * 10])
    ax.set_yticks([round(np.max(y),3)])

pylab.show()

การกระจายแบบสุ่ม

การแจกแจงแบบเลขชี้กำลัง

กระจายสม่ำเสมอ

ดังที่เห็นได้จากตัวเลขการแจกแจงที่เกิดขึ้น (ผลรวม) มีแนวโน้มไปสู่การแจกแจงแบบปกติ ดังนั้นหากเราไม่มีข้อมูลเพียงพอเกี่ยวกับผลกระทบพื้นฐานในข้อมูลการสันนิษฐานทั่วไปนั้นสมเหตุสมผล


1
CLT ไม่อนุญาตให้เราสมมติว่ามีผลกระทบส่วนบุคคลจำนวนมากในกระบวนการใดก็ตาม - ถ้าเราได้รับว่ามีปัจจัยแต่ละอย่างที่ไม่ขึ้นอยู่กับการมีส่วนร่วมในการวัดจำนวนมาก (ไม่มีซึ่งทั้งหมดมีมากเกินไป การเปลี่ยนแปลง) เราอาจได้รับการพิสูจน์ในการสันนิษฐานว่าเป็นเรื่องปกติโดยการเรียกใช้ CLT ข้อสันนิษฐานของการมีส่วนร่วมมากมายนำหน้าแอปพลิเคชันของ CLT แต่ก็ไม่ได้เป็นผลมาจาก CLT ไม่อย่างนั้นทุกอย่างจะเป็นเรื่องปกติเมื่อความจริงแล้วบางครั้งก็เป็นเรื่องจริง
Glen_b -Reinstate Monica

5

คุณไม่สามารถรู้ได้ว่ามันเป็นเรื่องปกติหรือไม่และนั่นเป็นสาเหตุว่าทำไมคุณต้องตั้งสมมติฐานที่นั่น คุณสามารถพิสูจน์ได้ว่าไม่มีภาวะปกติด้วยการทดสอบทางสถิติ

ยิ่งแย่ไปกว่านั้นเมื่อคุณทำงานกับข้อมูลในโลกแห่งความเป็นจริงมันเกือบจะแน่นอนว่าข้อมูลของคุณไม่ได้มาตรฐาน

นั่นหมายความว่าการทดสอบทางสถิติของคุณมักจะลำเอียงเล็กน้อย คำถามคือคุณสามารถอยู่กับมันได้หรือไม่ ในการทำเช่นนั้นคุณต้องเข้าใจข้อมูลของคุณและชนิดของภาวะปกติที่เครื่องมือทางสถิติของคุณใช้

นี่เป็นเหตุผลว่าทำไมเครื่องมือของ Frequentist จึงเป็นแบบอัตนัยเหมือนกับเครื่องมือแบบเบย์ คุณไม่สามารถพิจารณาได้จากข้อมูลที่แจกจ่ายตามปกติ คุณต้องถือว่าเป็นเรื่องปกติ


5
คุณไม่สามารถพิสูจน์สิ่งใดโดยใช้สถิติ หลักฐานมีขึ้นเพื่อเป็นที่แน่นอน สถิติเกี่ยวกับความน่าจะเป็น แม้แต่ ap = 0.99 ผลของไคสแควร์ไม่ได้ "พิสูจน์" ว่าการแจกแจงพื้นฐานไม่ปกติ เป็นเพียงไอ้ไม่น่าเป็นไปได้ว่ามันเป็นเรื่องปกติ
xmjx

@xmjx: คุณไม่สามารถพูดได้ว่าการแจกแจงที่ให้นั้นน่าจะกระจายแบบปกติ หากคุณมีการแจกแจงโดยที่ 99.99% ของค่าของคุณคือ 1 แต่ 0.01% ของค่าของคุณคือ 1000000 การทดสอบทางสถิติที่ตัวอย่าง 100 ค่ามีโอกาสที่ดีที่จะบอกคุณอย่างผิด ๆ ว่าการแจกแจงของคุณกระจายตามปกติ
คริสเตียน

2
ฉันไม่เชี่ยวชาญด้านสถิติมากนักดังนั้นนี่อาจดูเหมือนเป็นคำถามที่งี่เง่า ... "ปกติจริง" ไม่มีอยู่ในกระบวนการพื้นฐานที่สร้างตัวแปรมากกว่าข้อมูลใช่หรือไม่ มันอาจดูเหมือนความแตกต่างที่โง่ แต่บางทีมันอาจช่วยให้การค้นหาวิญญาณบางอย่าง หากข้อมูลที่รวบรวมนั้นไม่ปกติ แต่กระบวนการสุ่มพื้นฐานนั้นทำงานในลักษณะปกติโดยทั่วไปนั่นเป็นสถานการณ์ที่คุณสามารถตัดสินใจที่จะ "อยู่กับอคติ" ได้หรือไม่?
Jonathan

@ คริสเตียน - ความคิดเห็นของคุณที่ว่า "... 100 ค่ามีโอกาสที่ดี ... " ไม่ได้เกิดจากการแฮ็คของฉัน: x = c (ตัวแทน (1,99), ตัวแทน (1000000,1)); ks.test (x, pnorm)> ข้อสันนิษฐานเกี่ยวกับภาวะปกติยังคงเป็น "ปฏิเสธ" โดยการทดสอบ KS
rolando2

ฉันชอบคำตอบนี้ (+1) แต่มันเป็นแง่ร้ายเล็กน้อยเกี่ยวกับสิ่งที่สามารถทำได้ด้วยการสันนิษฐานของปกติ โดยปกติจะเป็นจุดเริ่มต้นที่ดีสำหรับการสร้างแบบจำลองใด ๆ และคุณสามารถพูดคุยกับการแจกแจงในระดับกว้างมากโดยการผสมหรือฟังก์ชั่นของตัวแปรสุ่มแบบกระจาย
ความน่าจะเป็นที่เป็นไปได้

4

สมมติฐานของภาวะปกติถือว่าข้อมูลของคุณมีการกระจายตามปกติ (เส้นโค้งระฆังหรือการแจกแจงแบบเกาส์เซียน) คุณสามารถตรวจสอบสิ่งนี้ได้ด้วยการพล็อตข้อมูลหรือตรวจสอบการวัดความโด่ง (ความคมชัดสูงสุด) และความเบ้ (หรือไม่) (หากข้อมูลมากกว่าครึ่งอยู่ด้านหนึ่งของจุดสูงสุด)


2
Kurtosis และความเบ้ระดับใดที่ยอมรับได้เพื่อให้เป็นไปตามสมมติฐานของภาวะปกติ?
สิงโต

5
วิธีการทางสถิติส่วนใหญ่ถือว่าเป็นเรื่องปกติไม่ใช่ข้อมูล แต่เป็นของตัวแปรสุ่มที่สันนิษฐานว่าเป็นคำที่ผิดพลาดในการถดถอยเชิงเส้น การตรวจสอบเกี่ยวข้องกับการดูที่เหลือไม่ใช่ข้อมูลต้นฉบับ!

3

คำตอบอื่น ๆ ครอบคลุมสิ่งที่เป็นปกติและแนะนำวิธีการทดสอบปกติ คริสเตียนเน้นว่าในทางปฏิบัติแล้วภาวะปกติที่สมบูรณ์แบบแทบจะไม่เกิดขึ้นเลย

ฉันเน้นว่าการเบี่ยงเบนที่สังเกตจากภาวะปกติไม่ได้หมายความว่าวิธีการที่สมมติว่าปกติอาจไม่ได้ใช้และการทดสอบภาวะปกติอาจไม่มีประโยชน์มาก

  1. การเบี่ยงเบนจากภาวะปกติอาจเกิดจากค่าผิดปกติที่เกิดจากข้อผิดพลาดในการรวบรวมข้อมูล ในหลายกรณีการตรวจสอบบันทึกการรวบรวมข้อมูลคุณสามารถแก้ไขตัวเลขและความเป็นมาตรฐานเหล่านี้ได้บ่อยครั้งขึ้น
  2. สำหรับตัวอย่างขนาดใหญ่การทดสอบภาวะปกติจะสามารถตรวจจับความเบี่ยงเบนเล็กน้อยจากความปกติได้
  3. วิธีการสมมติว่าภาวะปกติอาจมีความทนทานต่อภาวะไม่ปกติและให้ผลลัพธ์ที่แม่นยำ T-test ที่เป็นที่รู้จักกันจะแข็งแกร่งในความรู้สึกนี้ในขณะที่การทดสอบ F ไม่ได้เป็นแหล่งที่มา ( ความคิดเห็น ) เกี่ยวกับวิธีการเฉพาะวิธีที่ดีที่สุดคือการตรวจสอบวรรณกรรมเกี่ยวกับความทนทาน

1
ฉันคิดว่าเหตุผลที่ความเป็นมาตรฐานเป็นข้อสันนิษฐานที่ดีก็คือเนื่องจากการขาดการใช้ข้อมูล - เพียงสองช่วงแรกเท่านั้นที่ใช้ในการประมาณค่าด้วยการแจกแจงแบบปกติ สิ่งนี้ทำให้การตรวจสอบการวินิจฉัยของโมเดลกำลังสองน้อยที่สุดเป็นเรื่องง่าย - โดยทั่วไปคุณเพียงแค่มองหาค่าผิดปกติซึ่งอาจมีผลต่อสถิติที่เพียงพอ
ความน่าจะเป็นที่เป็นไปได้

3

Y=μ+Xβ+εεσ2ε

จากสมมติฐาน 3 ข้อนี้ 2) และ 3) ส่วนใหญ่มีความสำคัญมากกว่า 1)! ดังนั้นคุณควรหมกมุ่นกับตัวเองมากขึ้นกับพวกเขา George Box พูดบางอย่างในบรรทัด "" การทดสอบเบื้องต้นเกี่ยวกับความแปรปรวนค่อนข้างเหมือนกับการลงทะเลในเรือแถวเพื่อดูว่าเงื่อนไขสงบพอสำหรับเรือเดินสมุทรออกจากท่าเรือหรือไม่ "- [Box," Non - ความผิดปกติและการทดสอบความแปรปรวน ", 1953, Biometrika 40, pp. 318-335]"

นี่หมายความว่าความแตกต่างที่ไม่เท่าเทียมนั้นเป็นเรื่องที่น่ากังวลอย่างมาก แต่จริงๆแล้วการทดสอบสำหรับพวกเขานั้นยากมากเพราะการทดสอบนั้นได้รับอิทธิพลจากการไม่ได้มาตรฐานซึ่งมีขนาดเล็กจนไม่มีความสำคัญสำหรับการทดสอบวิธีการ วันนี้มีการทดสอบแบบไม่มีพารามิเตอร์สำหรับความแปรปรวนที่ไม่เท่ากันซึ่งควรใช้ DEFINITELY

กล่าวโดยย่อคือหมกมุ่นกับตัวคุณเองเป็นครั้งแรกเกี่ยวกับความแปรปรวนที่ไม่เท่ากัน เมื่อคุณแสดงความคิดเห็นเกี่ยวกับพวกเขาคุณสามารถคิดถึงเรื่องปกติได้!

นี่คือคำแนะนำที่ดีมากมาย: http://rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt


ฉันค่อนข้างแน่ใจว่าการตีความของฉันถูกต้อง Box ยังเขียนความยาวเกี่ยวกับสิ่งนี้ใน Box, Hunter & Hunter: สถิติสำหรับนักทดลองที่ฉันได้อ่านอย่างละเอียด แต่ตอนนี้ฉันเห็นว่าสิ่งที่ฉันเขียนเกี่ยวกับที่ไม่ใช่สิ่งที่ฉันหมายถึงมันควรจะพูดว่า ... แล้วเกี่ยวกับภาวะปกติ! ความแปรปรวนที่ไม่เท่ากันมีความสำคัญมากกว่าปกติ แน่นอนความเป็นอิสระเป็นแม่ของสมมติฐานทั้งหมด
kjetil b halvorsen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.