วิธีการทดสอบด้วยตัวอย่างขนาดใหญ่?


11

ฉันมีสองประชากรหนึ่งมี N = 38,704 (จำนวนการสังเกต) และอื่น ๆ ที่มี N = 1,313,662 ชุดข้อมูลเหล่านี้มี ~ 25 ตัวแปรอย่างต่อเนื่องทั้งหมด ฉันใช้ค่าเฉลี่ยของแต่ละชุดข้อมูลและคำนวณสถิติการทดสอบโดยใช้สูตร

t = ข้อผิดพลาดหมายถึงความแตกต่าง / std

ปัญหาคือระดับของเสรีภาพ ตามสูตรของ df = N1 + N2-2 เราจะมีอิสระมากกว่าที่ตารางสามารถจัดการได้ ข้อเสนอแนะเกี่ยวกับเรื่องนี้? วิธีตรวจสอบสถิติ t ที่นี่ ฉันรู้ว่า t-test ใช้สำหรับการจัดการตัวอย่าง แต่ถ้าเราใช้สิ่งนี้กับตัวอย่างขนาดใหญ่

คำตอบ:


20

chl ได้กล่าวถึงกับดักของการเปรียบเทียบหลายอย่างเมื่อทำการทดสอบพร้อมกัน 25 ชุดในชุดข้อมูลเดียวกัน วิธีที่ง่ายในการจัดการนั่นคือการปรับเปลี่ยนค่า p โดยการหารด้วยจำนวนการทดสอบ (ในกรณีนี้ 25) สูตรที่แม่นยำยิ่งขึ้นคือ: ค่า p ที่ปรับ = 1 - (ค่า 1 - p)) ^ (1 / n) อย่างไรก็ตามสูตรที่แตกต่างกันสองสูตรนั้นได้มาจากค่า p ที่ปรับได้เกือบเหมือนกัน

มีอีกประเด็นที่สำคัญกับการออกกำลังกายการทดสอบสมมติฐานของคุณ แน่นอนที่สุดคุณจะพบข้อผิดพลาด Type I (บวกลบ) โดยที่คุณจะค้นพบความแตกต่างเล็กน้อยที่สำคัญมากที่ระดับ 99.9999% นี่เป็นเพราะเมื่อคุณจัดการกับตัวอย่างของขนาดใหญ่ (n = 1,313,662) คุณจะได้รับข้อผิดพลาดมาตรฐานที่ใกล้เคียงกับ 0 มากนั่นเป็นเพราะรากที่สองของ 1,313,662 = 1,146 ดังนั้นคุณจะหารค่าเบี่ยงเบนมาตรฐานด้วย 1,146 ในระยะสั้นคุณจะจับภาพความแตกต่างของนาทีที่อาจไม่สำคัญอย่างสมบูรณ์

ฉันขอแนะนำให้คุณหลีกเลี่ยงกรอบการทดสอบสมมติฐานนี้และทำการวิเคราะห์ประเภทขนาดผลกระทบแทน ภายในกรอบนี้การวัดระยะทางสถิติคือส่วนเบี่ยงเบนมาตรฐาน ซึ่งแตกต่างจากข้อผิดพลาดมาตรฐานส่วนเบี่ยงเบนมาตรฐานไม่หดตัวเทียมขนาดของกลุ่มตัวอย่าง และวิธีการนี้จะช่วยให้คุณเข้าใจถึงความแตกต่างของวัสดุระหว่างชุดข้อมูลของคุณได้ดียิ่งขึ้น ขนาดของเอฟเฟ็กต์ยังเน้นไปที่ช่วงความมั่นใจรอบค่าเฉลี่ยความแตกต่างซึ่งให้ข้อมูลมากกว่าการทดสอบสมมติฐานที่เน้นความสำคัญทางสถิติซึ่งมักจะไม่สำคัญเลย หวังว่าจะช่วย


4
+1 สำหรับการนำเสนอแนวคิดที่สำคัญ: (1) เราสามารถรับประกันได้ว่าวิธีการจะแตกต่างกันเมื่อชุดข้อมูลมีขนาดใหญ่และ (2) การวิเคราะห์อื่น ๆ มีแนวโน้มที่จะเหมาะสมและมีประโยชน์มากขึ้น แต่เนื่องจากเราไม่ทราบเกี่ยวกับวัตถุประสงค์ของการวิเคราะห์เราจึงควรระมัดระวังในการให้คำแนะนำเฉพาะ
whuber

ขอบคุณ Gaetan..got คุณ .. ฉันคิดว่าสิ่งที่ฉันจะไปจากที่นี่คือการเบี่ยงเบนมาตรฐานเป็นตัวชี้วัดที่ดีขึ้นเมื่อคุณมีตัวอย่างขนาดใหญ่เช่นฉัน .. โปรดแจ้งให้เราทราบหากฉันพลาดอะไร
ayush biyani

1
ayush ... คุณพูดถูก นั่นเป็นพื้นมัน และนี่เป็นเพราะข้อผิดพลาดมาตรฐานของคุณจะเล็กมาก (เนื่องจากขนาดตัวอย่างใหญ่) สิ่งนี้จะทำให้ระยะทางสถิติเกินจริงระหว่างการทดสอบและกลุ่มควบคุมของคุณ และทำให้คุณพบข้อผิดพลาด Type I ในที่สุด (ค้นพบความแตกต่างที่มีขนาดเล็กจนไม่สำคัญ) นี่เป็นปัญหาที่พบบ่อยในการทดสอบสมมติฐานด้วยตัวอย่างจำนวนมาก
Sympa

14

การแจกแจงแบบtของนักเรียนจะเข้าใกล้และใกล้กับการแจกแจงแบบปกติมากขึ้นเนื่องจากองศาความเป็นอิสระมีมากขึ้น ด้วย 1313662 + 38704 - 2 = 1352364 องศาอิสระt-ดิสทริบิวชันจะแยกไม่ออกจากการแจกแจงแบบปกติมาตรฐานดังจะเห็นได้จากภาพด้านล่าง แยกความแตกต่างเล็ก ๆ อย่างp-ค่าจากแม้แต่ tinier) ดังนั้นคุณสามารถใช้ตารางสำหรับการแจกแจงปกติมาตรฐานแทนตารางสำหรับt -distribution

ข้อความแสดงแทน


พวกขอบคุณสำหรับคำตอบ ฉันมีข้อมูลที่จะวิเคราะห์ ฉันจะแนบข้อมูลกับสิ่งนี้ได้อย่างไร มากมายที่จะถามคุณคน .. ขอบคุณล่วงหน้า ต้องการคำตอบที่รวดเร็ว
ayush biyani

4
ฮะ? คุณพูดในคำถามที่คุณได้คำนวณสถิติ t แล้วและ chl ได้ให้ตัวอย่างรหัส R คุณต้องการอะไรอีก อย่างไรก็ตามฉันไม่แน่ใจว่าคุณมีสิทธิ์คาดหวังหรือขอคำตอบที่รวดเร็ว เราไม่ได้รับเงินสำหรับสิ่งนี้ที่คุณรู้
onestop

1
@ayush สำหรับคำถามก่อนหน้าของคุณฉันให้คำตอบที่สมบูรณ์สำหรับคำถามของคุณ (IMHO) - จากนั้นฉันให้ความเห็นของคุณก่อนที่จะหยุดเมื่อฉันคิดว่าคุณกำลังถามคำถามอื่นซึ่งไม่ใช่ตัวเลือกความคิดเห็นที่นี่ . ดังนั้นฉันขอแนะนำให้คุณระบุอย่างชัดเจนหากคำถามของคุณเกี่ยวข้องกับการพิจารณาทางทฤษฎีหรือการวิเคราะห์ข้อมูลที่ใช้ (ในกรณีหลังให้ตัวอย่างที่ทำซ้ำได้) หรือแยกคำถามของคุณ BTW คุณยังมีตัวเลือกในการยอมรับคำตอบที่คุณพบว่ามีประโยชน์ (อีกครั้ง wrt. คำถามเดิมไม่ใช่ความคิดเห็นที่ตามมา)
chl

2
@ayush Ah และฉันเพิ่งรู้ว่าคุณไม่เคยโหวตคำตอบใด ๆ ที่ให้ไว้กับคุณ (แม้ว่าคุณจะมีตัวแทนเพียงพอ)
chl

@ chl - ใช่ .. สิบเอ็ดฉันตระหนักถึงความผิดของฉันและจะแก้ไขสิ่งนี้อย่างแน่นอนในโพสต์ที่จะมา .. ขอบคุณสำหรับการชี้ให้เห็นนี้ .. พิจารณาฉันในบางวันมือสมัครเล่นไร้เดียงสา ..
ayush biyani

10

การแจกแจงแบบมีแนวโน้มที่จะกระจาย (gaussian) เมื่อมีขนาดใหญ่ (อันที่จริง, เมื่อ , พวกมันเกือบจะเหมือนกัน, ดูรูปภาพที่ได้รับจาก @onestop) ในกรณีของคุณฉันจะบอกว่ามีขนาดใหญ่มากเพื่อให้คุณสามารถใช้การทดสอบได้ เนื่องจากขนาดตัวอย่างความแตกต่างเล็ก ๆ น้อย ๆ จะถูกประกาศอย่างมีนัยสำคัญ ดังนั้นจึงควรถามตัวคุณเองว่าการทดสอบเหล่านี้ (พร้อมชุดข้อมูลแบบเต็ม) น่าสนใจหรือไม่z n n > 30 n ztznn>30nz

เพื่อให้แน่ใจว่าชุดข้อมูลของคุณมีตัวแปร 25 ตัวคุณทำการทดสอบ 25 ชุดใช่หรือไม่ หากเป็นกรณีนี้คุณอาจต้องแก้ไขหลายรายการเพื่อไม่ให้อัตราความผิดพลาดประเภท I เพิ่มขึ้น (ดูหัวข้อที่เกี่ยวข้องในเว็บไซต์นี้)

BTW ซอฟต์แวร์ R จะให้ค่า p ที่คุณต้องการโดยไม่ต้องพึ่งพา Tables:

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.