ชุดข้อมูลขนาดใหญ่ไม่เหมาะสมสำหรับการทดสอบสมมติฐานหรือไม่?


129

ในบทความล่าสุดของAmstat Newsผู้เขียน (Mark van der Laan และ Sherri Rose) ระบุว่า "เรารู้ว่าสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่เพียงพอทุกการศึกษารวมถึงที่สมมติฐานว่างเปล่าไม่มีผลจริง - จะประกาศ ผลกระทบอย่างมีนัยสำคัญทางสถิติ ".

ฉันก็ไม่รู้เหมือนกัน มันเป็นเรื่องจริงเหรอ? หมายความว่าการทดสอบสมมติฐานไม่มีประโยชน์สำหรับชุดข้อมูลขนาดใหญ่หรือไม่?


10
+1: คำถามนี้มักจะเปิดเผยมุมมองที่น่าสนใจ
user603

7
อภิปรายเพิ่มเติมเกี่ยวกับชุดข้อมูลขนาดใหญ่ปรากฏขึ้นที่stats.stackexchange.com/q/7815/919 (โฟกัสอยู่ที่การสร้างแบบจำลองการถดถอย)
whuber


8
หากกลุ่มตัวอย่างขนาดใหญ่ทำให้คุณคิดว่าการทดสอบสมมติฐานเป็นเครื่องมือที่ไม่ถูกต้องการทดสอบสมมติฐานก็ไม่ได้ตอบคำถามที่ถูกต้องในกลุ่มตัวอย่างขนาดเล็กเช่นกัน - นั่นเป็นความผิดที่ชัดเจนยิ่งขึ้นในกลุ่มตัวอย่างขนาดใหญ่ แต่การพิจารณาเดียวกันนั้นเกี่ยวข้อง . หากผลลัพธ์ที่สำคัญที่มีขนาดเอฟเฟกต์เล็กมากทำให้คุณพูดว่า "ดีนั่นไม่ใช่สิ่งที่ฉันต้องการฉันอยากให้มันบอกฉันว่ามันสำคัญหรือเปล่า" การทดสอบสมมติฐานเป็นเพียงเครื่องมือที่ผิดเริ่มต้น มีเครื่องมือที่เหมาะสมกว่า (เช่นช่วงความมั่นใจการทดสอบความเท่ากันเป็นต้น) สำหรับปัญหาประเภทนั้น
Glen_b

คำตอบ:


91

มันไม่เป็นความจริง หากสมมติฐานว่างเป็นจริงมันจะไม่ถูกปฏิเสธบ่อยขึ้นในขนาดตัวอย่างที่มีขนาดใหญ่กว่าขนาดเล็ก มีอัตราการปฏิเสธที่ผิดพลาดซึ่งโดยปกติแล้วจะตั้งค่าไว้ที่ 0.05 (อัลฟา) แต่จะไม่ขึ้นกับขนาดตัวอย่าง ดังนั้นคำพูดที่แท้จริงจึงเป็นเท็จ อย่างไรก็ตามเป็นไปได้ว่าในบางสถานการณ์ (แม้กระทั่งฟิลด์ทั้งหมด) โมฆะทั้งหมดเป็นเท็จและดังนั้นทั้งหมดจะถูกปฏิเสธถ้า N สูงพอ แต่นี่เป็นสิ่งที่ไม่ดี?

สิ่งที่เป็นจริงคือเอฟเฟกต์เล็ก ๆ น้อย ๆ นั้นสามารถพบได้ว่า "สำคัญ" ด้วยขนาดตัวอย่างที่ใหญ่มาก ไม่แนะนำว่าคุณไม่ควรมีตัวอย่างขนาดใหญ่ หมายความว่าวิธีที่คุณตีความการค้นพบของคุณนั้นขึ้นอยู่กับขนาดของเอฟเฟกต์และความไวของการทดสอบ หากคุณมีขนาดเอฟเฟกต์ขนาดเล็กมากและการทดสอบที่มีความอ่อนไหวสูงคุณต้องจำไว้ว่าการค้นพบที่สำคัญทางสถิติอาจไม่มีความหมายหรือมีประโยชน์

เนื่องจากบางคนไม่เชื่อว่าการทดสอบสมมติฐานว่างเมื่อค่าว่างเป็นจริงจะมีอัตราความผิดพลาดเท่ากับจุดตัดที่เลือกสำหรับขนาดตัวอย่างใด ๆ นี่เป็นการจำลองแบบง่าย ๆ ในการRพิสูจน์จุด ทำให้ N มีขนาดใหญ่เท่าที่คุณต้องการและอัตราข้อผิดพลาด Type I จะคงที่

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

8
+1: แน่นอนคำตอบทั้งสามที่นี่มีเหตุผลสอดคล้องกัน
user603

1
ในที่สุดฉันก็พบว่ามีบางสิ่งบางอย่างที่ศาสตราจารย์ (ไม่ใช่สถิติ) กำลังบอกฉันเมื่อนานมาแล้ว
Jase

1
@Sympa เลขที่ เพียงเพราะ SE ลงไปเมื่อ N เพิ่มขึ้นไม่ได้หมายความว่าคุณจะพบเอฟเฟกต์ที่มีขนาดใหญ่ N เสมอ (ดูการจำลอง) โปรดทราบว่าเมื่อ SE กำลังลดลงคุณภาพของการประเมินผลจะเพิ่มขึ้น หากไม่มีเอฟเฟกต์ประชากรแสดงว่ามีแนวโน้มที่จะใกล้เคียงกับ 0 มากขึ้นและไม่แสดงความแตกต่าง ในความเป็นจริงการแจกแจงค่า p นั้นคงที่โดยไม่คำนึงถึงขนาดตัวอย่างเมื่อใดก็ตามที่ค่า Null เป็นจริง (เขียนการจำลองของคุณเองสำหรับสิ่งนั้น) ไม่มีคำตอบที่ขัดแย้งกัน
John

4
แล้วคุณจะผิด คุณอาจต้องการลองอ่านคำตอบอื่น ๆ ที่นี่เช่นกัน เนื่องจากคุณไม่สามารถติดตามความสัมพันธ์ระหว่างการจำลองและการทดสอบสมมติฐานได้ฉันเดาว่าฉันสามารถชี้ไปที่การอ้างสิทธิ์หลักของคุณเท่านั้นว่าเมื่อข้อผิดพลาดมาตรฐานลดลง t เพิ่มขึ้นและ p ลดลง นี่เป็นความจริงเท่านั้นหากเอฟเฟกต์คงที่ แต่เอฟเฟกต์เป็นตัวอย่างแบบสุ่มและเมื่อเอฟเฟกต์จริงเป็น 0 เมื่อ N เพิ่มขึ้นเอฟเฟกต์ที่สังเกตจะมีแนวโน้มลดลง ดังนั้นแม้ว่าในขณะที่ N เพิ่ม SE ลดลงมันจะไม่เพิ่มค่า t เนื่องจากตัวเศษในค่า t จะลดลงด้วย
John

1
ความจริงที่ว่า rnorm ไม่สามารถสร้างจำนวนอตรรกยะไม่เกี่ยวข้องในตัวอย่าง แม้ว่ามันจะไม่ได้วาดอย่างชัดเจนจากค่าเฉลี่ยของ 0 และ sd ของ 1 แต่ก็ไม่เหมือนกันสำหรับทั้งสองตัวอย่าง อัตราความผิดพลาด Type I อาจลดลงเล็กน้อยจาก. 05 แต่ควรคงที่โดยไม่คำนึงถึง N และมันไม่เป็นความจริงสำหรับการจำลองทั้งหมดเนื่องจากฉันสามารถเลือกแบบไม่ต่อเนื่องที่นี่ไม่ใช่ปัญหา (ถ้าคุณต้องการที่จะยกระดับปัญหาความลับจริงๆแล้วคุณควรได้รับการสุ่มหลอก)
จอห์น

31

ฉันเห็นด้วยกับคำตอบที่ปรากฏ แต่ต้องการเพิ่มว่าอาจมีการเปลี่ยนเส้นทางคำถาม ไม่ว่าจะทดสอบสมมติฐานหรือไม่เป็นคำถามวิจัยที่ควรอย่างน้อยโดยทั่วไปแล้วจะเป็นอิสระจากจำนวนข้อมูลที่มี หากคุณต้องการทดสอบสมมติฐานจริงๆให้ทำและอย่ากลัวความสามารถในการตรวจจับเอฟเฟกต์เล็ก ๆ แต่ก่อนอื่นให้ถามว่าเป็นส่วนหนึ่งของวัตถุประสงค์การวิจัยของคุณหรือไม่

ตอนนี้สำหรับ quibbles บาง:

  • สมมติฐานว่างบางอย่างเป็นจริงโดยการก่อสร้าง เมื่อคุณกำลังทดสอบเครื่องกำเนิดหมายเลขเทียมเทียมสำหรับการแบ่งเท่ากันและ PRG นั้นมีการกระจายตัวอย่างแท้จริง (ซึ่งจะเป็นทฤษฎีบททางคณิตศาสตร์) จากนั้นค่า Null จะถูกเก็บไว้ อาจเป็นไปได้ว่าพวกคุณส่วนใหญ่สามารถนึกถึงตัวอย่างในโลกแห่งความจริงที่น่าสนใจมากขึ้นที่เกิดขึ้นจากการสุ่มในการทดลองที่การรักษาไม่มีผล (ฉันจะถือวรรณกรรมทั้งเรื่อง esp เป็นตัวอย่าง ;-)

  • ในสถานการณ์ที่ "ง่าย" เป็นโมฆะทดสอบกับทางเลือก "ผสม" ในขณะที่ t- ทดสอบหรือทดสอบ z- คลาสสิคมันมักใช้ขนาดตัวอย่างสัดส่วนเพื่อตรวจหาขนาดของผลกระทบพยัญชนะตัวที่ 5 ของกรีก มีขอบเขตบนเชิงปฏิบัติสำหรับเรื่องนี้ในการศึกษาใด ๆ ซึ่งหมายความว่ามีขอบเขตล่างที่ใช้ได้จริงในขนาดเอฟเฟกต์ที่ตรวจจับได้ ดังนั้นในทางทฤษฎีเรื่อง der Laan และ Rose นั้นถูกต้อง แต่เราควรระมัดระวังในการใช้ข้อสรุปของพวกเขา ϵ1/ϵ2ϵ


ไม่ใช่ทั้งหมดนี้เป็นปัญหาของข้อผิดพลาดประเภทที่ฉันเมื่อเทียบกับข้อผิดพลาดประเภทที่สอง (หรือพลังงาน)? หากหนึ่งการแก้ไขประเภทความน่าจะเป็นข้อผิดพลาด I ( ) ที่ 0.05 อย่างชัดเจน (ยกเว้นในกรณีที่ไม่ต่อเนื่อง) จะเป็น 0.05 ว่าตัวอย่างมีขนาดใหญ่หรือไม่ แต่สำหรับความน่าจะเป็นข้อผิดพลาดประเภท I ที่กำหนด 0.05 เช่นพลังงานหรือความน่าจะเป็นที่คุณจะตรวจจับผลกระทบเมื่อมันอยู่ที่นั่นจะมีขนาดใหญ่กว่าสำหรับกลุ่มตัวอย่างขนาดใหญ่ α

@fcop ความคิดเห็นของคุณถึงแม้ว่าจะถูกต้อง พวกเขาพลาดจุดนี้ซึ่งเป็นการชี้ให้เห็นว่าการวิเคราะห์เชิงสถิติไม่จำเป็นต้องเป็นการทดสอบสมมติฐาน ข้อผิดพลาดประเภท I และ II มีความหมายเฉพาะเมื่อทำการทดสอบสมมติฐานอย่างเป็นทางการเท่านั้น
whuber

OP หมายถึงข้อความ: '' เรารู้ว่าสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่พอทุกการศึกษา - รวมถึงกรณีที่สมมติฐานว่างเปล่าไม่มีผลจริง - จะประกาศผลกระทบที่สำคัญทางสถิติ 'ดังนั้นถ้าคุณทดสอบเช่นเมื่อเทียบกับในตัวอย่างขนาดใหญ่พลังงานสูงมากจนคุณ 'ตรวจจับ' แม้แต่ความเบี่ยงเบนเล็ก ๆ จาก 1 ดังนั้นฉันคิดว่าคำพูดของพวกเขาไม่ถูกต้อง แต่พลังในกลุ่มตัวอย่างขนาดใหญ่ช่วยให้คุณ เพื่อตรวจสอบความแตกต่างที่น้อยมาก H 1 : μ 1H0:μ=1H1:μ1

@fcop ขอบคุณที่อธิบาย ฉันเห็นด้วยกับเหตุผลของคุณ: เมื่อโมฆะเป็นจริงแล้วโดยการก่อสร้างแม้การศึกษาขนาดใหญ่จะพบว่ามีผลกระทบอย่างมีนัยสำคัญกับโอกาสที่มากที่สุดเท่ากับขนาดของการทดสอบของพวกเขา - นั่นคือพวกเขาจะไม่พบผลกระทบที่สำคัญ
whuber

19

การทดสอบสมมติฐานจะเน้นไปที่ค่า p เพื่อให้ได้นัยสำคัญทางสถิติเมื่อ alpha น้อยกว่า 0.05 มีจุดอ่อนที่สำคัญ และนั่นคือด้วยขนาดตัวอย่างที่ใหญ่พอการทดลองใด ๆ ในที่สุดก็สามารถปฏิเสธสมมติฐานว่างและตรวจพบความแตกต่างเล็ก ๆ น้อย ๆ ที่มีนัยสำคัญทางสถิติ

นี่คือเหตุผลที่ บริษัท ยาวางโครงสร้างการทดลองทางคลินิกเพื่อให้ได้รับการอนุมัติจาก FDA ด้วยตัวอย่างที่มีขนาดใหญ่มาก ตัวอย่างขนาดใหญ่จะลดข้อผิดพลาดมาตรฐานให้ใกล้กับศูนย์ ในทางกลับกันนี้จะเพิ่มค่าสถิติ t และทำให้ค่า p ลดลงอย่างใกล้ชิดถึง 0%

ฉันรวบรวมภายในชุมชนวิทยาศาสตร์ที่ไม่เสียหายจากแรงจูงใจทางเศรษฐกิจและการทดสอบสมมติฐานที่ขัดแย้งทางผลประโยชน์ที่เกี่ยวข้องกำลังขยับห่างจากการวัดค่า p ใด ๆ ต่อการวัดขนาดผล นี่เป็นเพราะหน่วยของระยะทางสถิติหรือความแตกต่างในการวิเคราะห์ขนาดผลเป็นค่าเบี่ยงเบนมาตรฐานแทนข้อผิดพลาดมาตรฐาน และค่าเบี่ยงเบนมาตรฐานอิสระอย่างสมบูรณ์จากขนาดตัวอย่าง ข้อผิดพลาดมาตรฐานในอีกด้านหนึ่งขึ้นอยู่กับขนาดตัวอย่างทั้งหมด

ดังนั้นทุกคนที่ไม่เชื่อในการทดสอบสมมติฐานถึงผลลัพธ์ที่มีนัยสำคัญทางสถิติโดยใช้ตัวอย่างขนาดใหญ่และวิธีการที่เกี่ยวข้องกับค่า p จึงไม่น่าเชื่อ ควรรันการวิเคราะห์อีกครั้งโดยใช้ข้อมูลเดียวกัน แต่ใช้การทดสอบทางสถิติขนาดผลการทดสอบแทน และจากนั้นสังเกตว่าขนาดผลกระทบถือว่าเป็นวัสดุหรือไม่ โดยการทำเช่นนั้นคุณสามารถสังเกตได้ว่าความแตกต่างมากมายที่มีนัยสำคัญทางสถิตินั้นสัมพันธ์กับเอฟเฟกต์ขนาดที่ไม่มีสาระสำคัญ นั่นคือสิ่งที่นักวิจัยทดลองทางคลินิกบางครั้งหมายถึงเมื่อผลลัพธ์มีนัยสำคัญทางสถิติ แต่ไม่ "สำคัญทางการแพทย์" พวกเขาหมายถึงว่าการรักษาอย่างใดอย่างหนึ่งอาจดีกว่ายาหลอก แต่ความแตกต่างนั้นเล็กน้อยดังนั้นมันจะไม่สร้างความแตกต่างให้กับผู้ป่วยภายในบริบททางคลินิก


1
ตัวอย่างขนาดใหญ่ของบุคคลหนึ่งเป็นอีกตัวอย่างเล็ก ๆ :)
Iterator

3
คุณไม่ได้ถามคำถามผิดหรือเปล่า? บางทีขั้นตอนการอนุมัติจากองค์การอาหารและยาควรระบุอัตรากำไรที่สูงกว่าเทียบกับยาหลอก (อาจเกี่ยวข้องกับต้นทุนของยารวมถึงผลข้างเคียง) แทนที่จะต้องการนัยสำคัญทางสถิติ? เนื่องจากอาจมีความแตกต่างได้เป็นอย่างดีถึงแม้ว่าจะมีขนาดเล็กมากและความแตกต่างนั้นก็แสดงให้เห็นว่ามีนัยสำคัญทางสถิติ แต่มีขนาดเล็ก
Emil Vikström

องค์การอาหารและยาไม่จำเป็นต้องมี "นัยสำคัญทางสถิติ" นั่นจะไร้สาระ ทุกคนในอุตสาหกรรมเข้าใจความหมายของ "นัยสำคัญทางคลินิก" องค์การอาหารและยาชั่งน้ำหนักหลักฐานทางสถิติของประสิทธิภาพของยาที่วัดโดยจุดสิ้นสุดทางคลินิกเช่นการให้อภัยต่อปัญหาสุขภาพและความปลอดภัย โปรดอ่านแนวทางขององค์การอาหารและยาก่อนทำการยืนยันที่ไม่มีมูลความจริง
qwr

15

การทดสอบสมมติฐาน (บ่อยครั้ง) ที่อยู่คำถามของความน่าจะเป็นของข้อมูลที่สังเกตหรือสิ่งที่มากขึ้นจะมีโอกาสสันนิษฐานว่าสมมติฐานว่างเป็นจริง การตีความนี้ไม่สนใจขนาดของกลุ่มตัวอย่าง การตีความนั้นถูกต้องไม่ว่าตัวอย่างจะเป็นขนาด 5 หรือ 1,000,000

ข้อแม้ที่สำคัญคือการทดสอบจะเกี่ยวข้องกับข้อผิดพลาดการสุ่มตัวอย่างเท่านั้น ข้อผิดพลาดใด ๆ ของการวัดปัญหาการสุ่มตัวอย่างการครอบคลุมข้อผิดพลาดในการป้อนข้อมูลและอื่น ๆ อยู่นอกขอบเขตของข้อผิดพลาดการสุ่มตัวอย่าง เมื่อขนาดตัวอย่างเพิ่มขึ้นข้อผิดพลาดที่ไม่ใช่การสุ่มตัวอย่างจะมีอิทธิพลมากขึ้นเนื่องจากการออกขนาดเล็กสามารถสร้างการออกจากที่สำคัญจากแบบจำลองการสุ่มตัวอย่าง เป็นผลให้การทดสอบที่สำคัญมีประโยชน์น้อยกว่า

นี่คือวิธีที่ไม่มีข้อกล่าวหาของการทดสอบอย่างมีนัยสำคัญ อย่างไรก็ตามเราจำเป็นต้องระมัดระวังเกี่ยวกับการอ้างเหตุผลของเรา ผลลัพธ์อาจมีนัยสำคัญทางสถิติ อย่างไรก็ตามเราจำเป็นต้องระมัดระวังเกี่ยวกับวิธีที่เราใช้การอ้างเหตุผลเมื่อขนาดตัวอย่างมีขนาดใหญ่ ความแตกต่างนั้นเกิดจากกระบวนการสร้างสมมุติฐานของเราหรือไม่นั้นเป็นผลมาจากข้อผิดพลาดที่ไม่ใช่การสุ่มตัวอย่างที่เป็นไปได้จำนวนใด ๆ ที่อาจมีผลต่อสถิติการทดสอบ (ซึ่งสถิติไม่ได้อธิบายไว้)

การพิจารณาอีกตัวอย่างที่มีขนาดใหญ่คือความสำคัญในทางปฏิบัติของผลลัพธ์ การทดสอบที่มีนัยสำคัญอาจแนะนำ (แม้ว่าเราสามารถแยกแยะข้อผิดพลาดที่ไม่ใช่การสุ่มตัวอย่าง) ความแตกต่างที่ไม่สำคัญในทางปฏิบัติ แม้ว่าผลลัพธ์นั้นไม่น่าจะเป็นไปตามรูปแบบการสุ่มตัวอย่างมันมีความสำคัญในบริบทของปัญหาหรือไม่ จากตัวอย่างที่มีขนาดใหญ่พอความแตกต่างในไม่กี่ดอลลาร์อาจเพียงพอที่จะให้ผลลัพธ์ที่มีนัยสำคัญทางสถิติเมื่อเปรียบเทียบรายได้ระหว่างสองกลุ่ม สิ่งนี้มีความสำคัญในแง่ที่มีความหมายหรือไม่? นัยสำคัญทางสถิติไม่สามารถทดแทนการตัดสินใจที่ดีและความรู้ในสาระการเรียนรู้ได้

นอกเหนือจากนี้โมฆะไม่เป็นความจริงหรือเท็จ มันเป็นรูปแบบ มันเป็นข้อสันนิษฐาน เราถือว่าว่างเป็นจริงและประเมินตัวอย่างของเราในแง่ของสมมติฐานนั้น หากกลุ่มตัวอย่างของเราไม่น่าจะได้รับสมมติฐานนี้เราจึงเชื่อมั่นในตัวเลือกของเรามากขึ้น การตั้งคำถามว่าโมฆะจริงหรือไม่ในทางปฏิบัตินั้นเป็นความเข้าใจผิดของตรรกะของการทดสอบที่สำคัญ


3
สิ่งนี้สนับสนุนการโต้แย้งสำหรับความซับซ้อนของโมเดลที่เพิ่มขึ้นเมื่อขนาดตัวอย่างใหญ่ขึ้น - ในข้อผิดพลาดการสุ่มตัวอย่างกรณีตัวอย่างขนาดใหญ่จะไม่เป็นความไม่แน่นอนที่สำคัญ ของหลักสูตรนี้เท่านั้น "เหมาะสม" ในกรอบ Bayesian ซึ่งช่วยให้แหล่งอื่น ๆ ของความไม่แน่นอนนอกเหนือจากข้อผิดพลาดการสุ่มตัวอย่าง
ความน่าจะเป็นทาง

13

จุดง่ายๆอย่างหนึ่งที่ไม่ได้ทำโดยตรงในคำตอบอื่นคือมันไม่จริงเลยที่ "สมมติฐานว่างทั้งหมดเป็นเท็จ"

สมมติฐานง่าย ๆ ที่ว่าเหรียญทางกายภาพมีความน่าจะเป็นเท่ากับ 0.5 โอเคนั่นคือเท็จ

α

α


9

ในความรู้สึกบางอย่าง [ทั้งหมด] หลายสมมติฐานเป็น [เสมอ] เท็จ (กลุ่มคนที่อาศัยอยู่ในบ้านที่มีเลขคี่ไม่เคยว่าจะได้รับเหมือนกันโดยเฉลี่ยเป็นกลุ่มของผู้คนที่อาศัยอยู่ในบ้านที่มีหมายเลขแม้)

Tαn0.5Tααn

นี่ไม่ใช่ข้อบกพร่องของการทดสอบทางสถิติ เพียงแค่ผลที่ตามมาจากความจริงที่ว่าหากไม่มีข้อมูลเพิ่มเติม (ก่อนหน้านี้) เรามีความไม่สอดคล้องขนาดเล็กจำนวนมากที่มีค่า null จะต้องนำมาเป็นหลักฐานต่อโมฆะ ไม่ว่าความขัดแย้งเหล่านี้จะกลายเป็นเรื่องเล็กน้อยเพียงใด

P^(|μ¯1μ¯2|2>η|η,X)


มันแปลก ... สังหรณ์ใจดูเหมือนจะขัดแย้งกับกฎของคนจำนวนมาก
Carlos Accioly

คาร์ลอส:> คุณเจาะจงมากกว่านี้ไหม?
user603

n

1
@Carlos - แต่การบรรจบกันไม่ได้หมายถึงความเท่าเทียมกัน สิ่งนี้รับประกันได้เฉพาะขีด จำกัด อินฟินิตี้ที่ไม่สามารถเข้าถึงได้ ดังนั้นจึงไม่มีความขัดแย้ง ;-)

5

คำตอบสั้น ๆ คือ "ไม่" งานวิจัยเกี่ยวกับการทดสอบสมมติฐานในระบบการสังเกตแบบไม่ จำกัด และสมมติฐานหลาย ๆ อย่างนั้นมีความเคลื่อนไหวมากในช่วง 15-20 ปีที่ผ่านมาเนื่องจากข้อมูลไมโครเรย์และการประยุกต์ใช้ข้อมูลทางการเงิน คำตอบที่ยาวอยู่ในหน้าหลักสูตรของ Stat 329 "การอนุมานขนาดใหญ่พร้อมกัน" ซึ่งสอนในปี 2010 โดย Brad Efron บทเต็มทุ่มเทให้กับการทดสอบสมมติฐานขนาดใหญ่


7
ฉันเชื่อว่าหนังสือของ Efron มุ่งเน้นไปที่ตัวแปรจำนวนมาก (และปัญหาการทดสอบหลายอย่างที่เกิดขึ้น) ไม่ใช่ขนาดตัวอย่าง
Galit Shmueli

4

การทดสอบสมมติฐานสำหรับข้อมูลขนาดใหญ่ควรมีระดับความแตกต่างตามที่ต้องการแทนที่จะพิจารณาว่ามีความแตกต่างหรือไม่ คุณไม่สนใจใน H0 ว่าค่าประมาณนั้นเป็น 0 วิธีการทั่วไปคือการทดสอบว่าความแตกต่างระหว่างสมมติฐานว่างกับค่าที่สังเกตได้มีค่ามากกว่าค่าตัดที่กำหนด

X1¯>X2¯

T=X1¯X2¯δS2n+δS2nN(δS2n,1)
T=X1¯X2¯S2nN(δS2n,1)

H0:X1¯X2¯=δ

X1¯X2¯δS2nN(0,1)

HAX1¯X2¯>δ

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

ซึ่งจะช่วยให้ :

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100 

ไม่มีการพิมพ์ดีดคัดลอก / ที่ผ่านมาในสมการแรก?
user603

ฉันไม่เห็นเหรอ
Joris Meys

4

"หมายความว่าการทดสอบสมมติฐานไม่มีประโยชน์สำหรับชุดข้อมูลขนาดใหญ่หรือไม่"

ไม่ไม่ได้หมายความว่า ข้อความทั่วไปคือการตัดสินใจที่เกิดขึ้นหลังจากการดำเนินการทดสอบสมมติฐานควรเสมอคำนึงถึงผลกระทบขนาดโดยประมาณและไม่เพียง แต่ p-value โดยเฉพาะอย่างยิ่งในการทดลองกับขนาดตัวอย่างที่มีขนาดใหญ่มากความจำเป็นนี้ในการพิจารณาขนาดเอฟเฟกต์กลายเป็นอย่างมาก แน่นอนว่าโดยทั่วไปผู้ใช้จะไม่ชอบสิ่งนี้เพราะขั้นตอนจะกลายเป็น "อัตโนมัติ" น้อยกว่า

ลองพิจารณาตัวอย่างการจำลองนี้ สมมติว่าคุณมีตัวอย่างสุ่ม 1 ล้านข้อสังเกตจากการแจกแจงแบบปกติมาตรฐาน

n <- 10^6
x <- rnorm(n)

0.01

y <- rnorm(n, mean = 0.01)

95%2.5×1014

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

95%[0.013,0.008]

ความแตกต่างระหว่างค่าเฉลี่ยประชากรสองค่าของลำดับความสำคัญนี้เกี่ยวข้องกับปัญหาเฉพาะที่เรากำลังศึกษาอยู่หรือไม่?


ฉันเห็นด้วยกับทุกสิ่งในคำตอบของคุณยกเว้นประโยคแรกนั้นซึ่งฉันเปลี่ยนเป็น "ใช่มันมักจะหมายถึง" เพราะมีตัวอย่างขนาดใหญ่หนึ่งล้านหรือมากกว่านั้นขนาดของเอฟเฟกต์เล็กมาก
zbicyclist

α

3

HST:d1=1.23,d2=1.11,di

แต่มักจะไม่สนใจสมมติฐานที่แน่นอนเหล่านี้ หากคุณคิดเกี่ยวกับสิ่งที่คุณต้องการทำกับการทดสอบสมมติฐานคุณจะรู้ทันทีว่าคุณควรปฏิเสธสมมติฐานว่างถ้าคุณมีสิ่งที่ดีกว่าที่จะแทนที่ด้วย แม้ว่าค่า null ของคุณจะไม่อธิบายข้อมูล แต่ก็ไม่มีประโยชน์ในการโยนทิ้งเว้นแต่คุณจะมีสิ่งทดแทน ตอนนี้คุณจะแทนที่ค่าว่างด้วยสมมติฐาน "แน่นอน" หรือไม่? อาจไม่เป็นเพราะคุณไม่สามารถใช้สมมติฐาน "สิ่งที่แน่นอน" เหล่านี้เพื่อพูดคุยเกินกว่าชุดข้อมูลของคุณ มันไม่มากไปกว่าการพิมพ์ข้อมูลของคุณ

ดังนั้นสิ่งที่คุณควรทำคือระบุสมมติฐานที่คุณสนใจจริง ๆ ในการแสดงถ้ามันเป็นจริง จากนั้นทำแบบทดสอบที่เหมาะสมสำหรับการเปรียบเทียบทางเลือกเหล่านั้นกับแต่ละอื่น ๆ และไม่ใช้กับสมมติฐานที่ไม่เกี่ยวข้องซึ่งคุณรู้ว่าเป็นเท็จหรือใช้ไม่ได้

H0:μ=0H1:μ{±1,±2,±3,±4,±5,±6}0.5100

ข้อสรุปโดยทั่วไปคือคุณต้องระบุพื้นที่สมมติฐานของคุณ - สมมติฐานที่คุณสนใจจริง ๆ ดูเหมือนว่าด้วยข้อมูลขนาดใหญ่สิ่งนี้กลายเป็นสิ่งที่สำคัญมากที่ต้องทำเพียงเพราะข้อมูลของคุณมีอำนาจในการแก้ไขมาก นอกจากนี้ยังดูเหมือนว่าเป็นสิ่งสำคัญที่จะต้องเปรียบเทียบเช่นสมมติฐาน - จุดต่อจุด, ผสมกับสารประกอบ - เพื่อให้ได้ผลลัพธ์ที่ประพฤติดี


3

ไม่มันเป็นความจริงว่าการทดสอบสมมติฐานจุดที่มีประโยชน์ทั้งหมดมีความสอดคล้องกันและจะแสดงผลลัพธ์ที่สำคัญหากขนาดตัวอย่างมีขนาดใหญ่พอและมีผลกระทบที่ไม่เกี่ยวข้องอยู่บ้าง เพื่อเอาชนะข้อเสียเปรียบของการทดสอบสมมติฐานทางสถิติ (ซึ่งได้กล่าวไว้แล้วโดยคำตอบของ Gaetan Lion ด้านบน) จึงมีการทดสอบที่เกี่ยวข้อง สิ่งเหล่านี้คล้ายกับการทดสอบความเท่าเทียมกัน แต่พบได้น้อยกว่า สำหรับการทดสอบความเกี่ยวข้องขนาดของเอฟเฟกต์ที่เกี่ยวข้องขั้นต่ำจะถูกกำหนดไว้ล่วงหน้า การทดสอบความเกี่ยวข้องสามารถขึ้นอยู่กับช่วงความเชื่อมั่นของผลกระทบ: หากช่วงความเชื่อมั่นและภูมิภาคที่เกี่ยวข้องนั้นไม่เป็นไปตามที่กำหนดคุณอาจปฏิเสธค่าว่าง

อย่างไรก็ตามแวนเดอร์ลันและโรสสันนิษฐานในแถลงการณ์ของพวกเขาว่าแม้สมมติฐานว่างที่แท้จริงจะถูกทดสอบในการศึกษา หากสมมติฐานว่างเป็นจริงความสามารถในการปฏิเสธไม่ใหญ่กว่าอัลฟาโดยเฉพาะอย่างยิ่งในกรณีตัวอย่างขนาดใหญ่และแม้แต่พลาดฉันระบุได้ว่าการแจกตัวอย่างนั้นแตกต่างจากการกระจายของประชากรอย่างเป็นระบบ


3

บทความที่คุณพูดถึงมีจุดที่ถูกต้องเท่าที่มีการทดสอบบ่อยครั้งมาตรฐานที่เกี่ยวข้อง นั่นคือเหตุผลที่การทดสอบขนาดเอฟเฟกต์ที่กำหนดนั้นมีความสำคัญมาก เพื่อแสดงให้เห็นว่านี่คือ anova ระหว่าง 3 กลุ่มโดยที่กลุ่ม B แตกต่างจากกลุ่ม A และ C เล็กน้อยลองใน r:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

ตามที่คาดไว้ด้วยจำนวนตัวอย่างที่มากขึ้นต่อการทดสอบความสำคัญทางสถิติของการทดสอบเพิ่มขึ้น: ป้อนคำอธิบายรูปภาพที่นี่


2

ฉันคิดว่าสิ่งที่พวกเขาหมายถึงคือมักจะตั้งสมมติฐานเกี่ยวกับความหนาแน่นของความน่าจะเป็นของสมมติฐานว่างซึ่งมีรูปแบบ 'ง่าย' แต่ไม่ตรงกับความหนาแน่นของความน่าจะเป็นจริง

ขณะนี้มีชุดข้อมูลขนาดเล็กคุณอาจไม่ไวพอที่จะเห็นผลกระทบนี้ แต่ด้วยชุดข้อมูลขนาดใหญ่เพียงพอคุณจะปฏิเสธสมมติฐานว่างและสรุปว่ามีผลใหม่แทนที่จะสรุปว่าสมมติฐานของคุณเกี่ยวกับสมมติฐานว่างนั้นผิด


1
ฉันไม่ทราบว่า Mark and Shern มีความคิดเห็นของคุณในใจหรือไม่ แต่เพียงนำวลีของคุณไปใช้อีกครั้งถ้าโมเดลสำหรับข้อมูลภายใต้ null นั้น 'ผิด' คุณจะปฏิเสธสมมติฐานว่างสำหรับข้อมูลที่มีขนาดใหญ่พอ

1

α

H0H1

พลังงานเพิ่มขึ้นด้วยขนาดตัวอย่าง (ทุกสิ่งเท่าเทียมกันทั้งหมด)

แต่คำแถลงว่า "เรารู้ว่าสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่พอทุกการศึกษา - รวมถึงการสันนิษฐานว่าไม่มีผลจริง - จะประกาศผลที่มีนัยสำคัญทางสถิติ" ไม่ถูกต้อง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.