การทดสอบทางสถิติสำหรับค่าที่เพิ่มขึ้นอย่างมีนัยสำคัญจากค่าเฉลี่ยประชากร: มันเป็นการทดสอบ Z หรือการทดสอบ T หรือไม่?


12

ค่านี้มีนัยสำคัญเมื่อเปรียบเทียบกับรายการค่าหรือไม่ ในกรณีส่วนใหญ่การทดสอบทางสถิติเกี่ยวข้องกับการเปรียบเทียบตัวอย่างชุดกับประชากร ในกรณีของฉันตัวอย่างทำด้วยค่าหนึ่งค่าและเราเปรียบเทียบกับประชากร

ฉันเป็นผู้เชี่ยวชาญในการทดสอบสมมติฐานทางสถิติที่เผชิญหน้ากับปัญหาพื้นฐานที่สุด มันไม่ใช่แค่การทดสอบเพียงอย่างเดียว แต่มีหลายร้อยรายการ ฉันมีพื้นที่พารามิเตอร์และต้องทำการทดสอบที่สำคัญสำหรับทุกจุด ทั้งค่าและรายการพื้นหลัง (ประชากร) ถูกสร้างขึ้นสำหรับการรวมกันของพารามิเตอร์แต่ละตัว จากนั้นฉันกำลังสั่งสิ่งนี้ด้วยค่า p และหาชุดค่าพารามิเตอร์ที่น่าสนใจ ในความเป็นจริงการค้นหาของการรวมกันของพารามิเตอร์ที่ p-val นี้สูง (ไม่สำคัญ) ก็มีความสำคัญ

ลองทำแบบทดสอบเดียว: ฉันมีค่าจากการคำนวณที่สร้างขึ้นจากชุดที่เลือกและชุดค่าพื้นหลังที่คำนวณโดยการเลือกชุดฝึกแบบสุ่ม ค่าที่คำนวณได้คือ 0.35 และชุดแบ็คกราวน์คือ (อาจจะ?) กระจายตามปกติด้วยค่าเฉลี่ยของ 0.25 และ std ที่แคบมาก (e-7) จริง ๆ แล้วฉันไม่มีความรู้เกี่ยวกับการแจกแจงเนื่องจากตัวอย่างถูกคำนวณจากอย่างอื่นพวกมันไม่ใช่ตัวอย่างแบบสุ่มจากการแจกแจงดังนั้นพื้นหลังจึงเป็นคำที่ถูกต้องสำหรับมัน

สมมติฐานว่างจะเป็น "ค่าเฉลี่ยของการทดสอบตัวอย่างเท่ากับค่าที่คำนวณได้ของฉันเท่ากับ 0.35" เมื่อใดที่ฉันควรพิจารณาว่านี่เป็นการทดสอบ Z หรือการทดสอบ T ฉันต้องการให้ค่าสูงกว่าค่าเฉลี่ยประชากรอย่างมีนัยสำคัญดังนั้นจึงเป็นการทดสอบแบบปลายเดี่ยว

ฉันสับสนเล็กน้อยเกี่ยวกับสิ่งที่ควรพิจารณาเป็นตัวอย่าง: ฉันมีตัวอย่างหนึ่งรายการ (การสังเกต) และรายการพื้นหลังเป็นประชากรหรือตัวอย่างของฉันคือรายการพื้นหลังและฉันกำลังเปรียบเทียบกับทั้งหมด (ไม่ได้สุ่มตัวอย่าง) ประชากรซึ่งเป็นไปตามสมมติฐานว่างควรมีค่าเฉลี่ยเท่ากัน เมื่อตัดสินใจแล้วการทดสอบจะไปในทิศทางที่แตกต่างกันที่ฉันเดา

หากเป็นการทดสอบแบบ T ฉันจะคำนวณค่า p ได้อย่างไร ฉันต้องการคำนวณด้วยตัวเองแทนที่จะใช้ฟังก์ชัน R / Python / Excel (ฉันรู้วิธีการทำเช่นนั้น) ดังนั้นฉันต้องสร้างสูตรที่ถูกต้องก่อน

เริ่มต้นด้วยฉันสงสัยว่าการทดสอบ T นั้นค่อนข้างกว้างเกินไปเนื่องจากในกรณีของฉันการทดสอบ T จะเชื่อมโยงกับขนาดตัวอย่างและจะมีรูปแบบ:ที่และ s คือตัวอย่างมาตรฐานเมื่อเทียบกับประชากรมาตรฐาน ดังนั้นฉันมีสองกรณี: ขนาดตัวอย่างของฉันคือขนาดของประชากรซึ่งฉัน "เดา" จะหมายถึงว่าฉันกำลังจัดการกับการทดสอบ Z หรือสถิติประชากร (n และ std) ไม่เป็นที่รู้จัก แต่การกระจายสามารถอยู่ใน ประมาณทางและฉันจัดการกับการทดสอบ T จริง ๆ ในกรณีใด ๆ คำถามต่อไปนี้ของฉันคือ:Z = ˉ X

T=Z/s,
s=σ/σ
Z=X¯σn
s=σ^/σ
  1. ฉันจะคำนวณค่า p ได้อย่างไร (เช่นไม่ได้ใช้ฟังก์ชั่น R / Python / Excel หรือการค้นหาตาราง p-value แต่จริง ๆ แล้วคำนวณจากสูตรเพราะฉันต้องการรู้ว่าฉันกำลังทำอะไรอยู่)
  2. ฉันจะตัดสินใจเลือกขีด จำกัด นัยสำคัญตามขนาดตัวอย่างได้อย่างไร (สูตรจะดี)

3
ทำไมต้องทดสอบ ความไม่เท่าเทียมกันของ Chebyshev แสดงให้เห็นว่าในประชากรจริง ๆ มันเป็นไปไม่ได้ในทางคณิตศาสตร์สำหรับค่าที่ใหญ่ที่สุดที่จะเป็น SDs เหนือค่าเฉลี่ย แต่นั่นคือสิ่งที่คุณสังเกตเห็น ( ) ดังนั้นไม่ได้มาจากประชากรของคุณในช่วงเวลา 0.35 = 10 6 × 10 - 7 + 0.25 0.351060.35=106×107+0.250.35
whuber

1
@grokkaine - คำถามนี้ทำให้เกิดปัญหาที่น่าสนใจและดูเหมือนว่ามีคุณค่า แต่ฉันคิดว่ามันมีคุณค่ามากกว่านี้หากคุณแก้ไขมันเล็กน้อยดูแลให้มีความแม่นยำมากตามเงื่อนไขของคุณ
rolando2

มันไม่ใช่แค่การทดสอบเพียงอย่างเดียว แต่มีหลายร้อยรายการ ฉันมีพื้นที่พารามิเตอร์และต้องทำการทดสอบที่สำคัญสำหรับทุกจุด ทั้งค่าและรายการพื้นหลัง (ประชากร) ถูกสร้างขึ้นสำหรับการรวมกันของพารามิเตอร์แต่ละตัว จากนั้นฉันกำลังสั่งสิ่งนี้ด้วยค่า p และหาชุดค่าพารามิเตอร์ที่น่าสนใจ ในความเป็นจริงการค้นพบการรวมกันของพารามิเตอร์ที่ p-val นี้สูง (ไม่สำคัญ) ก็มีความสำคัญเช่นกัน ฉันจะพยายามแก้ไขโพสต์ของฉันในภายหลัง
grokkaine

คำตอบ:


10

คุณตั้งคำถามที่น่าสนใจ สิ่งแรกก่อนถ้าคุณสังเกตจาก 0.35, ค่าเฉลี่ย 0.25, และค่าเบี่ยงเบนมาตรฐาน 1/10 ^ 7 (นั่นคือวิธีที่ฉันตีความ e ^ -7 บิตของคุณ) คุณไม่จำเป็นต้องไปสมมุติฐานใด ๆ ทดสอบการออกกำลังกาย การสังเกต 0.35 ของคุณนั้นแตกต่างจากค่าเฉลี่ย 0.25 มากเนื่องจากมันจะเป็นค่าเบี่ยงเบนมาตรฐานหลายพันห่างจากค่าเฉลี่ยและอาจเป็นข้อผิดพลาดมาตรฐานหลายล้านค่าจากค่าเฉลี่ย

ความแตกต่างระหว่าง Z-test และ t-test นั้นอ้างอิงกับขนาดตัวอย่างเป็นหลัก ด้วยตัวอย่างที่มีขนาดเล็กกว่า 120 คุณควรใช้การทดสอบ t เพื่อคำนวณค่า p เมื่อขนาดตัวอย่างมากกว่านั้นจะไม่สร้างความแตกต่างมากนักถ้าหากขนาดที่คุณใช้ มันสนุกที่จะคำนวณมันทั้งสองวิธีโดยไม่คำนึงถึงขนาดตัวอย่างและสังเกตว่ามีความแตกต่างเพียงเล็กน้อยระหว่างการทดสอบสองครั้ง

สำหรับการคำนวณสิ่งต่าง ๆ ด้วยตัวคุณเองคุณสามารถคำนวณสถิติ t โดยการหารความแตกต่างระหว่างการสังเกตของคุณกับค่าเฉลี่ยและหารด้วยข้อผิดพลาดมาตรฐาน ข้อผิดพลาดมาตรฐานคือค่าเบี่ยงเบนมาตรฐานหารด้วยรากที่สองของขนาดตัวอย่าง ทีนี้คุณมีสถิติส ในการคำนวณค่า ap ฉันคิดว่าไม่มีทางเลือกอื่นนอกจากค้นหาค่า t ภายในตารางทดสอบ หากคุณยอมรับ TDIST ทางเลือกอื่น ๆ ของ Excel อย่างง่าย (ค่าสถิติ t, DF, 1 หรือ 2 สำหรับค่า tail 1 หรือ 2 p) จะเป็นการหลอกลวง ในการคำนวณค่า ap โดยใช้ Z สูตร Excel สำหรับการทดสอบ 1 tail คือ: (1 - NORMSDIST (ค่า Z) ค่า Z จะเหมือนกับค่าสถิติ t (หรือจำนวนข้อผิดพลาดมาตรฐานห่างจากค่าเฉลี่ย)

เช่นเดียวกับข้อแม้วิธีการทดสอบสมมติฐานเหล่านั้นสามารถบิดเบือนได้ด้วยขนาดตัวอย่าง กล่าวอีกนัยหนึ่งยิ่งขนาดตัวอย่างของคุณมากขึ้นข้อผิดพลาดมาตรฐานของคุณยิ่งน้อยลงค่า Z หรือ t สถิติของคุณที่สูงขึ้นค่า p ที่ลดลงและความสำคัญทางสถิติของคุณก็ยิ่งสูงขึ้น เมื่อตัดสั้นในตรรกะนี้ขนาดตัวอย่างที่มีขนาดใหญ่จะส่งผลให้มีนัยสำคัญทางสถิติสูง แต่นัยสำคัญทางสถิติสูงในการเชื่อมโยงกับกลุ่มตัวอย่างขนาดใหญ่สามารถเป็นสาระสำคัญอย่างสมบูรณ์ กล่าวอีกนัยหนึ่งอย่างมีนัยสำคัญทางสถิติเป็นวลีทางคณิตศาสตร์ มันไม่ได้แปลว่าสำคัญ (ต่อพจนานุกรมเว็บสเตอร์)

เพื่อหลีกหนีจากกับดักขนาดตัวอย่างขนาดใหญ่นี้นักสถิติได้ย้ายไปยังวิธีการขนาดผล หลังใช้เป็นหน่วยของระยะทางสถิติระหว่างการสังเกตสองค่าเบี่ยงเบนมาตรฐานแทนที่จะเป็นข้อผิดพลาดมาตรฐาน ด้วยขนาดตัวอย่างของเฟรมเวิร์กจะไม่มีผลกระทบต่อนัยสำคัญทางสถิติของคุณ การใช้เอฟเฟกต์ขนาดจะทำให้คุณขยับออกห่างจากค่า p และไปสู่ช่วงความเชื่อมั่นซึ่งอาจมีความหมายมากกว่าในภาษาอังกฤษแบบธรรมดา


ขอบคุณสำหรับคำตอบฉันสับสนเล็กน้อยเกี่ยวกับสิ่งที่ต้องพิจารณาเป็นตัวอย่าง: ฉันมีตัวอย่างหนึ่งรายการ (การสังเกต) และรายการพื้นหลังเป็นประชากรหรือตัวอย่างของฉันคือรายการพื้นหลังและฉันเปรียบเทียบกับ ประชากรทั้งหมด (ไม่ได้สุ่มตัวอย่าง) ซึ่งเป็นไปตามสมมติฐานว่างควรมีค่าเฉลี่ยเดียวกัน เมื่อตัดสินใจแล้วการทดสอบจะไปในทิศทางที่แตกต่างกันที่ฉันเดา
grokkaine

ใช้การสังเกตทั้งหมดที่คุณมีเป็นตัวอย่าง (ไม่ว่าคุณจะเรียกมันว่าอะไร) และคำนวณระยะทางสถิติระหว่างการสังเกตหนึ่งครั้งกับค่าเฉลี่ยของตัวอย่างที่กำหนด คำนวณค่าเบี่ยงเบนมาตรฐานและข้อผิดพลาดมาตรฐานของตัวอย่างของคุณ และระยะทางสถิติของการสังเกตของคุณจากค่าเฉลี่ยคือ: (การสังเกต - ค่าเฉลี่ย) / ข้อผิดพลาดมาตรฐาน = สถิติ ใช้ฟังก์ชัน Excel TDIST (DF, t stat, 1 (สำหรับหนึ่งหาง)) และคุณจะได้รับค่า p ของคุณ
Sympa

5

การทดสอบสมมติฐานหมายถึงประชากรเสมอ หากคุณต้องการสร้างคำสั่งเกี่ยวกับตัวอย่างคุณไม่จำเป็นต้องทดสอบ (เพียงเปรียบเทียบสิ่งที่คุณเห็น) ผู้ใช้บ่อยเชื่อใน asymptotics ตราบใดที่ขนาดตัวอย่างของคุณใหญ่ไม่ต้องกังวลกับการกระจายข้อมูลของคุณ Z-test และ T-test ทำแบบเดียวกันในแง่ของการคำนวณสถิติการทดสอบเพียงค่าที่สำคัญจะได้รับจากการแจกแจงที่แตกต่างกัน (Normal vs Student-T) หากขนาดตัวอย่างของคุณมีขนาดใหญ่

เกี่ยวกับไตรมาสที่ 1: เพียงแค่เงยหน้าขึ้นมองจากการแจกแจงแบบ T ด้วยองศาอิสระ n-1 โดยที่ n คือขนาดตัวอย่าง

เกี่ยวกับ Q2: คุณคำนวณเกณฑ์ตามระดับความสำคัญที่คุณต้องการสำหรับการทดสอบ Z และขึ้นอยู่กับระดับความสำคัญกับขนาดตัวอย่างในกรณีของการทดสอบ T

แต่อย่างจริงจังคุณควรตรวจสอบพื้นฐานบางอย่าง


ขอบคุณสำหรับคำตอบ. ในความเป็นจริง t-dist ที่ฉันใช้ แต่ฉันต้องการที่จะเข้าใจ "ทำไม" ฉันใช้มัน คุณกำหนดตัวอย่าง "ใหญ่" อย่างไรและค่า p แตกต่างกันอย่างไร ที่สำคัญกว่านั้นเราจะรู้ได้อย่างไรว่าการแจกแจงปกติหรือนักเรียน? มีการทดสอบทางสถิติสำหรับมันหรือไม่? อาจใช้การทดสอบ kolmogorov-smirnov สำหรับที่สองและอืม .. สิ่งที่จะใช้สำหรับครั้งแรก?
grokkaine

2
ใหญ่ ... ทั้ง Z และ t มาบรรจบกันเริ่มต้นด้วย n = 60 เพียงเปรียบเทียบค่า p ที่คุณได้รับจากการทดสอบทั้งคู่ สมมติฐานการแจกแจงแบบ t / Normal ไม่ได้ขึ้นอยู่กับการแจกแจงของข้อมูลพื้นฐาน มันขึ้นอยู่กับสมมติฐานว่าการกระจายตัวตัวอย่างของค่าเฉลี่ยเป็นเรื่องปกติ แม้ว่าตัวแปรที่คุณกำลังทดสอบนั้นจะกระจายแกมม่า แต่ก็ยังคงมีอยู่ ด้วย n = 200 หรือมากกว่านั้นมันควรจะทำงานได้ดี อีกครั้งทุกสิ่งนี้ขึ้นอยู่กับสถิติบ่อยครั้ง
joint_p

+1 สำหรับความคิดเห็นเกี่ยวกับการทดสอบสมมติฐานมักจะอ้างอิงถึงประชากร แต่ -1 สำหรับดูเหมือนว่าจะพลาดจุดที่ผู้ถามมีตัวอย่างที่ 1
Peter Ellis

1
ฉันไม่แน่ใจจริงๆว่า "ฉันมีค่าที่คำนวณได้และชุดพื้นหลังของค่าที่สร้างแบบสุ่มค่าที่คำนวณคือ 0.35" ควรจะหมายความว่า ... ฉันคิดว่านี่เป็นนัยที่มีการสังเกตมากกว่า 1 ครั้ง
joint_p

การโพสต์ความคิดเห็นของฉันจากย่อหน้าอื่น: ฉันสับสนเล็กน้อยเกี่ยวกับสิ่งที่ต้องพิจารณาเป็นตัวอย่าง: ฉันอาจมีตัวอย่างหนึ่ง (การสังเกต) และรายการพื้นหลังเป็นประชากรหรือตัวอย่างของฉันคือรายการพื้นหลังและ ฉันกำลังเปรียบเทียบกับประชากรทั้งหมด (ไม่ได้สุ่มตัวอย่าง) ซึ่งตามสมมติฐานว่างควรมีค่าเฉลี่ยเท่ากัน เมื่อตัดสินใจแล้วการทดสอบจะไปในทิศทางที่แตกต่างกันที่ฉันเดา
grokkaine
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.