ในวิธีการทางสถิติที่แตกต่างกันมี "สมมติฐานของความปกติ" "ปกติ" คืออะไรและฉันจะรู้ได้อย่างไรว่ามีปกติ?
ในวิธีการทางสถิติที่แตกต่างกันมี "สมมติฐานของความปกติ" "ปกติ" คืออะไรและฉันจะรู้ได้อย่างไรว่ามีปกติ?
คำตอบ:
สมมติฐานของภาวะปกติเป็นเพียงการสันนิษฐานว่าตัวแปรสุ่มพื้นฐานที่น่าสนใจมีการกระจายตามปกติหรือประมาณนั้น สังหรณ์ใจอาจจะเข้าใจความปกติเป็นผลมาจากผลรวมของเหตุการณ์สุ่มอิสระจำนวนมาก
โดยเฉพาะอย่างยิ่งการแจกแจงแบบปกติจะถูกกำหนดโดยฟังก์ชันต่อไปนี้:
โดยที่และเป็นค่าเฉลี่ยและความแปรปรวนตามลำดับและปรากฏขึ้นดังนี้:σ 2
สิ่งนี้สามารถตรวจสอบได้หลายวิธีซึ่งอาจเหมาะกับปัญหาของคุณมากขึ้นโดยคุณสมบัติของมันเช่นขนาดของ n โดยพื้นฐานแล้วพวกเขาทดสอบคุณสมบัติทั้งหมดที่คาดหวังหากการแจกแจงเป็นปกติ (เช่นการแจกแจงแบบควอไทล์ที่คาดหวัง)
หมายเหตุหนึ่ง: ข้อสันนิษฐานของภาวะปกติมักจะไม่เกี่ยวกับตัวแปรของคุณ แต่เกี่ยวกับข้อผิดพลาดซึ่งประมาณโดยส่วนที่เหลือ ตัวอย่างเช่นในการถดถอยเชิงเส้น ; ไม่มีข้อสันนิษฐานว่าYกระจายตามปกติมีเพียงeเท่านั้น
คำถามที่เกี่ยวข้องสามารถพบได้ที่นี่เกี่ยวกับสมมติฐานปกติของข้อผิดพลาด (หรือมากกว่าโดยทั่วไปของข้อมูลหากเราไม่มีความรู้ก่อนหน้าเกี่ยวกับข้อมูล)
โดยทั่วไป
ข้อความสำคัญจากที่นั่นคือเทอเรนซ์เทารกล่าวไว้ที่นี่ว่า "การพูดอย่างหยาบ ๆ ทฤษฎีบทนี้ยืนยันว่าหากมีสถิติที่เป็นการรวมกันขององค์ประกอบอิสระและการเปลี่ยนแปลงแบบสุ่มจำนวนมากโดยไม่มีองค์ประกอบใดที่มีอิทธิพลต่อการตัดสินใจทั้งหมด จากนั้นสถิตินั้นจะกระจายประมาณตามกฎหมายที่เรียกว่าการแจกแจงแบบปกติ "
เพื่อให้ชัดเจนฉันขอเขียนโค้ด Python
# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem
@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""
import scipy, scipy.stats
import numpy as np
import pylab
#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random
y = y / sum(y);
N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)
# Plotting details
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])
#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
y = np.convolve(y,y)
y = y / sum(y);
x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
ax = pylab.subplot(N+1,1,i+1)
pylab.plot(x,y)
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_xticks([2**i * 10])
ax.set_yticks([round(np.max(y),3)])
pylab.show()
ดังที่เห็นได้จากตัวเลขการแจกแจงที่เกิดขึ้น (ผลรวม) มีแนวโน้มไปสู่การแจกแจงแบบปกติ ดังนั้นหากเราไม่มีข้อมูลเพียงพอเกี่ยวกับผลกระทบพื้นฐานในข้อมูลการสันนิษฐานทั่วไปนั้นสมเหตุสมผล
คุณไม่สามารถรู้ได้ว่ามันเป็นเรื่องปกติหรือไม่และนั่นเป็นสาเหตุว่าทำไมคุณต้องตั้งสมมติฐานที่นั่น คุณสามารถพิสูจน์ได้ว่าไม่มีภาวะปกติด้วยการทดสอบทางสถิติ
ยิ่งแย่ไปกว่านั้นเมื่อคุณทำงานกับข้อมูลในโลกแห่งความเป็นจริงมันเกือบจะแน่นอนว่าข้อมูลของคุณไม่ได้มาตรฐาน
นั่นหมายความว่าการทดสอบทางสถิติของคุณมักจะลำเอียงเล็กน้อย คำถามคือคุณสามารถอยู่กับมันได้หรือไม่ ในการทำเช่นนั้นคุณต้องเข้าใจข้อมูลของคุณและชนิดของภาวะปกติที่เครื่องมือทางสถิติของคุณใช้
นี่เป็นเหตุผลว่าทำไมเครื่องมือของ Frequentist จึงเป็นแบบอัตนัยเหมือนกับเครื่องมือแบบเบย์ คุณไม่สามารถพิจารณาได้จากข้อมูลที่แจกจ่ายตามปกติ คุณต้องถือว่าเป็นเรื่องปกติ
สมมติฐานของภาวะปกติถือว่าข้อมูลของคุณมีการกระจายตามปกติ (เส้นโค้งระฆังหรือการแจกแจงแบบเกาส์เซียน) คุณสามารถตรวจสอบสิ่งนี้ได้ด้วยการพล็อตข้อมูลหรือตรวจสอบการวัดความโด่ง (ความคมชัดสูงสุด) และความเบ้ (หรือไม่) (หากข้อมูลมากกว่าครึ่งอยู่ด้านหนึ่งของจุดสูงสุด)
คำตอบอื่น ๆ ครอบคลุมสิ่งที่เป็นปกติและแนะนำวิธีการทดสอบปกติ คริสเตียนเน้นว่าในทางปฏิบัติแล้วภาวะปกติที่สมบูรณ์แบบแทบจะไม่เกิดขึ้นเลย
ฉันเน้นว่าการเบี่ยงเบนที่สังเกตจากภาวะปกติไม่ได้หมายความว่าวิธีการที่สมมติว่าปกติอาจไม่ได้ใช้และการทดสอบภาวะปกติอาจไม่มีประโยชน์มาก
จากสมมติฐาน 3 ข้อนี้ 2) และ 3) ส่วนใหญ่มีความสำคัญมากกว่า 1)! ดังนั้นคุณควรหมกมุ่นกับตัวเองมากขึ้นกับพวกเขา George Box พูดบางอย่างในบรรทัด "" การทดสอบเบื้องต้นเกี่ยวกับความแปรปรวนค่อนข้างเหมือนกับการลงทะเลในเรือแถวเพื่อดูว่าเงื่อนไขสงบพอสำหรับเรือเดินสมุทรออกจากท่าเรือหรือไม่ "- [Box," Non - ความผิดปกติและการทดสอบความแปรปรวน ", 1953, Biometrika 40, pp. 318-335]"
นี่หมายความว่าความแตกต่างที่ไม่เท่าเทียมนั้นเป็นเรื่องที่น่ากังวลอย่างมาก แต่จริงๆแล้วการทดสอบสำหรับพวกเขานั้นยากมากเพราะการทดสอบนั้นได้รับอิทธิพลจากการไม่ได้มาตรฐานซึ่งมีขนาดเล็กจนไม่มีความสำคัญสำหรับการทดสอบวิธีการ วันนี้มีการทดสอบแบบไม่มีพารามิเตอร์สำหรับความแปรปรวนที่ไม่เท่ากันซึ่งควรใช้ DEFINITELY
กล่าวโดยย่อคือหมกมุ่นกับตัวคุณเองเป็นครั้งแรกเกี่ยวกับความแปรปรวนที่ไม่เท่ากัน เมื่อคุณแสดงความคิดเห็นเกี่ยวกับพวกเขาคุณสามารถคิดถึงเรื่องปกติได้!
นี่คือคำแนะนำที่ดีมากมาย: http://rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt