นี่เป็นวิธีที่ค่า p ทำงานได้จริงหรือ งานวิจัยหนึ่งล้านชิ้นต่อปีสามารถใช้แบบแผนที่บริสุทธิ์ได้หรือไม่?


98

ฉันมากใหม่สถิติและฉันแค่เรียนรู้ที่จะเข้าใจพื้นฐานรวมทั้ง -values แต่ตอนนี้มีเครื่องหมายคำถามขนาดใหญ่ในใจของฉันและฉันหวังว่าฉันจะเข้าใจผิด นี่คือกระบวนการคิดของฉัน:p

ไม่ใช่งานวิจัยทั่วโลกเหมือนลิงในทฤษฎีบทอนันต์ลิงหรือไม่? พิจารณาว่ามีมหาวิทยาลัย 23887 แห่งในโลก หากแต่ละมหาวิทยาลัยมีนักศึกษา 1,000 คนนั่นคือนักเรียน 23 ล้านคนในแต่ละปี

สมมติว่าในแต่ละปีนักเรียนแต่ละคนไม่อย่างน้อยหนึ่งชิ้นส่วนของการวิจัยโดยใช้การทดสอบสมมติฐานด้วย\α=0.05

นั่นไม่ได้หมายความว่าแม้ว่าตัวอย่างการวิจัยทั้งหมดจะถูกดึงจากประชากรสุ่ม แต่ประมาณ 5% ของพวกเขาจะ "ปฏิเสธสมมติฐานว่างเปล่าว่าไม่ถูกต้อง" ว้าว. ลองคิดดู นั่นคือประมาณหนึ่งล้านงานวิจัยต่อปีได้รับการเผยแพร่เนื่องจากผลลัพธ์ "สำคัญ"

หากนี่เป็นวิธีการทำงานนี่น่ากลัว มันหมายความว่า "ความจริงทางวิทยาศาสตร์" จำนวนมากที่เราได้รับนั้นขึ้นอยู่กับการสุ่มอย่างแท้จริง

รหัส R อันเรียบง่ายดูเหมือนจะสนับสนุนความเข้าใจของฉัน:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

ดังนั้นบทความนี้ในที่ประสบความสำเร็จ -fishing: ฉันหลงกลล้านในความคิดของช็อคโกแลตช่วยลดน้ำหนัก นี่คือวิธีการp

ทั้งหมดนี้มีไว้เพื่ออะไรหรือ? นี่เป็นวิธีที่ "วิทยาศาสตร์" ควรทำงานหรือไม่


31
ปัญหาที่แท้จริงอาจเลวร้ายยิ่งกว่าการคูณจำนวนจริงที่เป็นโมฆะด้วยระดับนัยสำคัญเนื่องจากแรงกดดันในการค้นหาความสำคัญ (ถ้าวารสารสำคัญไม่เผยแพร่ผลลัพธ์ที่ไม่สำคัญหรือผู้ตัดสินจะปฏิเสธกระดาษที่ไม่ มีผลลัพธ์ที่สำคัญมีความกดดันที่จะหาวิธีเพื่อให้บรรลุความสำคัญ ... และเราจะเห็นการเดินทาง 'การล่าสัตว์สำคัญ' ในหลาย ๆ คำถามที่นี่); สิ่งนี้สามารถนำไปสู่ระดับความสำคัญที่แท้จริงที่ค่อนข้างสูงกว่าที่พวกเขาจะปรากฏ
Glen_b

5
ในทางกลับกันสมมติฐานว่างจำนวนมากเป็นโมฆะจุดและสิ่งเหล่านี้ไม่ค่อยเป็นความจริง
Glen_b

37
โปรดอย่าทำให้วิธีการทางวิทยาศาสตร์ของคุณสับสนด้วยค่า p เหนือสิ่งอื่นใดวิทยาศาสตร์ยืนยันในการทำสำเนา นั่นคือวิธีที่เอกสารกล่าวว่าฟิวชั่นเย็นสามารถตีพิมพ์ได้ (ในปี 1989) แต่ฟิวชั่นเย็นไม่ได้มีอยู่เป็นทฤษฎีทางวิทยาศาสตร์ที่เชื่อถือได้สำหรับศตวรรษที่ผ่านมา หมายเหตุเกินไปที่นักวิทยาศาสตร์ไม่กี่มีความสนใจในการทำงานในพื้นที่ที่มีสมมติฐานที่เกี่ยวข้องจริงคือความจริง ดังนั้นสมมติฐานของคุณที่ว่า "ตัวอย่างงานวิจัยทั้งหมดถูกดึงจากประชากรสุ่ม [a]" ไม่ได้สะท้อนสิ่งที่เป็นจริง
whuber

13
อ้างอิงบังคับกับถั่วเยลลี่ xkcd การ์ตูน คำตอบสั้น ๆ - นี่เป็นสิ่งที่น่าเสียดายที่เกิดขึ้นบ่อยครั้งและวารสารบางเล่มก็ยืนยันที่จะให้นักสถิติตรวจสอบสิ่งพิมพ์ทุกเล่มเพื่อลดจำนวนการวิจัย "สำคัญ" ที่เข้ามาสู่สาธารณสมบัติ คำตอบและความคิดเห็นที่เกี่ยวข้องจำนวนมากในการสนทนาก่อนหน้านี้
Floris

8
บางทีฉันอาจไม่ได้รับการร้องเรียน ... "เราเอาชนะสมมติฐานปลอมได้สำเร็จ 95% ส่วนที่เหลืออีก 5% นั้นไม่ใช่เรื่องง่ายที่จะเอาชนะเนื่องจากความผันผวนแบบสุ่มที่ดูเหมือนว่ามีผลกระทบที่มีความหมายเราควรมองอย่างใกล้ชิดมากขึ้น อื่น ๆ 95% " ฟังดูเหมือนพฤติกรรมที่ถูกต้องสำหรับสิ่งใดสิ่งหนึ่งเช่น "วิทยาศาสตร์"
Eric Towers

คำตอบ:


70

นี่เป็นข้อกังวลที่ถูกต้อง แต่นี่ไม่ถูกต้องนัก

หากมีการศึกษา 1,000,000 ครั้งและสมมติฐานว่างทั้งหมดเป็นจริงดังนั้นประมาณ 50,000 จะมีผลลัพธ์ที่สำคัญที่ p <0.05 นั่นคือความหมายของค่า ap อย่างไรก็ตามค่า null นั้นไม่เป็นความจริงอย่างเด็ดขาด แต่แม้ว่าเราจะปล่อยให้มัน "เกือบจะเป็นจริง" หรือ "ถูก" หรือบางอย่างนั่นก็หมายความว่าการศึกษา 1,000,000 ครั้งจะต้องเกี่ยวข้องกับสิ่งต่าง ๆ เช่น

  • ความสัมพันธ์ระหว่างหมายเลขประกันสังคมและ IQ
  • ความยาวของนิ้วเท้าของคุณเกี่ยวข้องกับสถานะการเกิดของคุณหรือไม่?

และอื่น ๆ เรื่องไร้สาระ

แน่นอนปัญหาหนึ่งคือแน่นอนว่าเราไม่รู้ว่าโมฆะใดเป็นความจริง ปัญหาอีกประการหนึ่งคือ @Glen_b ที่กล่าวถึงในความคิดเห็นของเขา - ปัญหาเกี่ยวกับลิ้นชักไฟล์

นี่คือเหตุผลว่าทำไมผมจึงเหมือนความคิดของโรเบิร์ต Abelson ที่เขาวางไว้ในสถิติเป็นอาร์กิวเมนต์จริยธรรม นั่นคือหลักฐานทางสถิติควรเป็นส่วนหนึ่งของการโต้แย้งที่มีเหตุผลว่าทำไมบางสิ่งบางอย่างเป็นกรณีและควรได้รับการตัดสินตามเกณฑ์ MAGIC:

  • ขนาด: เอฟเฟกต์ใหญ่แค่ไหน?
  • ข้อต่อ: มันเต็มไปด้วย "ifs", "ands" และ "buts" (ไม่ดี)
  • Generality: มันใช้กันอย่างแพร่หลาย?
  • interestingness
  • ความน่าเชื่อถือ: การเรียกร้องที่ไม่น่าเชื่อต้องใช้หลักฐานจำนวนมาก

4
ใครสามารถพูดได้ว่า "ถ้าการศึกษา 1M เสร็จสิ้นและแม้ว่าสมมติฐานว่างทั้งหมดจะเป็นจริงดังนั้นประมาณ 50.000 จะดำเนินการข้อผิดพลาดประเภท 1 และปฏิเสธสมมติฐานว่างเปล่าอย่างไม่ถูกต้องหรือไม่ถ้านักวิจัยได้รับ p <0.05 พวกเขารู้เพียงว่า" h0 ถูกต้อง และเหตุการณ์ที่เกิดขึ้นได้ยากหรือ h1 ไม่ถูกต้อง "ไม่มีทางบอกได้เลยว่ามันเป็นเพียงการดูผลลัพธ์ของการศึกษาครั้งนี้เท่านั้นหรือไม่
n_mu_sigma

5
คุณสามารถได้รับผลบวกที่ผิดพลาดหากความจริงเป็นบวก หากคุณเลือก 40 IVs ที่มีเสียงรบกวนจากนั้นคุณจะมีโอกาสผิดพลาดประเภทที่ 1 แต่โดยทั่วไปเราเลือก IV ด้วยเหตุผล และค่าว่างนั้นเป็นเท็จ คุณไม่สามารถสร้างข้อผิดพลาดประเภทที่ฉันได้หากค่าว่างเป็นเท็จ
Peter Flom

6
ฉันไม่เข้าใจย่อหน้าที่สองของคุณรวมถึงสัญลักษณ์แสดงหัวข้อเลย สมมติว่าเพื่อการโต้แย้งการศึกษา 1 ล้านครั้งทั้งหมดกำลังทดสอบสารประกอบยาเพื่อรักษาสภาพที่เฉพาะเจาะจง สมมติฐานว่างสำหรับการศึกษาแต่ละครั้งนี้คือยาไม่รักษาสภาพ ดังนั้นทำไมต้องเป็น "หลักไม่เคยเป็นจริงอย่างเคร่งครัด"? นอกจากนี้ทำไมคุณบอกว่าการศึกษาทั้งหมดจะต้องเกี่ยวกับความสัมพันธ์ไร้สาระเช่น ss # และ IQ? ขอบคุณสำหรับคำอธิบายเพิ่มเติมใด ๆ ที่สามารถช่วยให้ฉันเข้าใจประเด็นของคุณ
Chelonian

11
ในการสร้างตัวอย่างของ @ PeterFlom เป็นรูปธรรม: ตัวเลขสามหลักแรกของ SSN (เคย) เข้ารหัสรหัสไปรษณีย์ของผู้สมัคร เนื่องจากแต่ละรัฐมีข้อมูลประชากรและขนาดนิ้วเท้าที่แตกต่างกันอาจมีความสัมพันธ์กับปัจจัยทางประชากร (อายุเชื้อชาติ ฯลฯ ) จึงมีความสัมพันธ์ระหว่างหมายเลขประกันสังคมและขนาดนิ้วเท้าแน่นอน - ถ้ามีข้อมูลเพียงพอ
Matt Krause

6
@MattKrause เป็นตัวอย่างที่ดี ฉันชอบนับนิ้วตามเพศ ฉันแน่ใจว่าถ้าฉันทำการสำรวจสำมะโนประชากรของผู้ชายและผู้หญิงทั้งหมดฉันจะพบว่าเพศหนึ่งมีนิ้วโดยเฉลี่ยมากกว่าอีก ฉันไม่ทราบเลยว่าเพศใดมีนิ้วมือมากกว่า นอกจากนี้ฉันสงสัยว่าเป็นผู้ผลิตถุงมือฉันจะใช้ข้อมูลการสำรวจสำมะโนประชากรนิ้วในการออกแบบถุงมือ
emory

40

ไม่ใช่ทุกงานวิจัยทั่วโลกเหมือนลิง "ทฤษฎีบทลิงไม่มีที่สิ้นสุด"

โปรดจำไว้ว่านักวิทยาศาสตร์ไม่ชอบช่วงชิงลิงเพราะพฤติกรรมการวิจัยของพวกเขา - โดยเฉพาะการทดลอง - เป็นอะไรก็ได้นอกจากการสุ่ม การทดลองคือ (อย่างน้อยควรจะเป็น) การควบคุมและการวัดอย่างระมัดระวังอย่างเหลือเชื่ออย่างเหลือเชื่อซึ่งตั้งอยู่บนสมมติฐานที่ได้รับการบอกกล่าวแบบกลไกซึ่งสร้างขึ้นจากการวิจัยก่อนหน้านี้จำนวนมาก พวกเขาไม่ได้เป็นเพียงแค่การสุ่มจับภาพในที่มืด (หรือนิ้วลิงบนเครื่องพิมพ์ดีด)

พิจารณาว่ามีมหาวิทยาลัย 23887 แห่งในโลก หากแต่ละมหาวิทยาลัยมีนักศึกษา 1,000 คนนั่นคือนักเรียน 23 ล้านคนในแต่ละปี สมมติว่าในแต่ละปีนักเรียนแต่ละคนทำวิจัยอย่างน้อยหนึ่งครั้ง

การประมาณจำนวนผลการวิจัยที่ตีพิมพ์นั้นต้องได้รับการแก้ไข ฉันไม่รู้ว่ามี "นักศึกษามหาวิทยาลัย" 23 ล้านคน (ซึ่งรวมถึงมหาวิทยาลัยหรือวิทยาลัยด้วยหรือเปล่า) ในโลกนี้ แต่ฉันรู้ว่าส่วนใหญ่ของพวกเขาไม่เคยเผยแพร่การค้นพบทางวิทยาศาสตร์ใด ๆ ฉันหมายถึงพวกเขาส่วนใหญ่ไม่ใช่วิชาเอกวิทยาศาสตร์และแม้แต่สาขาวิทยาศาสตร์ส่วนใหญ่ก็ไม่เคยตีพิมพ์ผลการวิจัย

ประมาณการที่เป็นไปได้มากขึ้น ( การอภิปรายบางส่วน) สำหรับจำนวนสิ่งพิมพ์ทางวิทยาศาสตร์ในแต่ละปีประมาณ 1-2 ล้านครั้ง

นั่นไม่ได้หมายความว่าแม้ว่าตัวอย่างการวิจัยทั้งหมดจะถูกดึงจากประชากรสุ่ม แต่ประมาณ 5% ของพวกเขาจะ "ปฏิเสธสมมติฐานว่างเปล่าว่าไม่ถูกต้อง" ว้าว. ลองคิดดู นั่นคือประมาณหนึ่งล้านงานวิจัยต่อปีได้รับการเผยแพร่เนื่องจากผลลัพธ์ "สำคัญ"

โปรดทราบว่าไม่ใช่งานวิจัยที่เผยแพร่ทั้งหมดที่มีสถิติซึ่งมีความสำคัญอยู่ที่ค่า p = 0.05 บ่อยครั้งที่หนึ่งเห็นค่า p เช่น p <0.01 หรือแม้แต่ p <0.001 ฉันไม่รู้ว่าค่า p หมายถึงอะไรมีค่ามากกว่าหนึ่งล้านแผ่นแน่นอน

หากนี่เป็นวิธีการทำงานนี่น่ากลัว มันหมายความว่า "ความจริงทางวิทยาศาสตร์" จำนวนมากที่เราได้รับนั้นขึ้นอยู่กับการสุ่มอย่างแท้จริง

นอกจากนี้ยังเก็บไว้ในใจนักวิทยาศาสตร์กำลังจริงๆไม่ควรที่จะใช้จำนวนเล็ก ๆ ของผลที่หน้ารอบ 0.05 เป็น "ความจริงทางวิทยาศาสตร์" ไม่ได้ใกล้เคียง. นักวิทยาศาสตร์ควรรวมเข้ากับการศึกษาจำนวนมากซึ่งแต่ละอันมีพลังงานทางสถิติที่เหมาะสมกลไกที่เป็นไปได้การทำซ้ำได้ขนาดของผลกระทบ ฯลฯ

แต่นี่หมายความว่าวิทยาศาสตร์เกือบทั้งหมดถูกต้องหรือไม่ ไม่มีทาง. นักวิทยาศาสตร์เป็นมนุษย์และตกเป็นเหยื่อของอคติวิธีการวิจัยที่ไม่ดี (รวมถึงวิธีการทางสถิติที่ไม่เหมาะสม) การฉ้อโกงข้อผิดพลาดของมนุษย์ที่เรียบง่ายและโชคไม่ดี อาจมีความโดดเด่นในเหตุผลที่วิทยาศาสตร์สุขภาพที่ตีพิมพ์ผิดส่วนเป็นปัจจัยเหล่านี้มากกว่าการประชุม p <0.05 ในความเป็นจริงเราแค่ตัดสิทธิ์ในการไล่ล่าและสร้างคำสั่งที่ "น่ากลัว" กว่าที่คุณคาดไว้:

เหตุใดผลการวิจัยที่ตีพิมพ์ส่วนใหญ่จึงเป็นเท็จ


10
ฉันจะบอกว่า Ioannidis กำลังโต้เถียงอย่างรุนแรงที่สำรองคำถาม วิทยาศาสตร์ไม่ได้ทำอะไรเช่นเดียวกับผู้มองโลกในแง่ดีที่ตอบคำถามที่นี่คิดว่า และงานวิจัยที่ตีพิมพ์จำนวนมากก็ไม่เคยทำซ้ำ ยิ่งไปกว่านั้นเมื่อมีการพยายามจำลองแบบผลลัพธ์มักจะสำรองอาร์กิวเมนต์ Ioannidis ที่วิทยาศาสตร์ที่ตีพิมพ์จำนวนมากนั้นเป็นสิ่งที่ผิดพลาด
matt_black

9
อาจเป็นที่น่าสนใจว่าในทางฟิสิกส์อนุภาคของเราค่า p-value ของเราที่จะเรียกร้องการค้นพบคือ 0.00000057
David Z

2
และในหลายกรณีไม่มีค่า p เลย คณิตศาสตร์และฟิสิกส์ทฤษฎีเป็นกรณีทั่วไป
Davidmh

21

p

α

ดูเช่นการอภิปรายที่ผ่านมาของกระดาษ 2014 โดยเดวิด Colquhoun: ความสับสนที่มีอัตราการค้นพบที่ผิดพลาดและการทดสอบหลาย ๆ (ใน Colquhoun 2014) ฉันได้รับการโต้เถียงกับประมาณการ "อย่างน้อย 30%" นี้ แต่ฉันยอมรับว่าในบางสาขาของการวิจัยอัตราการค้นพบที่ผิดพลาดอาจสูงกว่า 5% เล็กน้อย นี่น่าเป็นห่วงอย่างแน่นอน

ฉันไม่คิดว่าการบอกว่าโมฆะนั้นแทบจะไม่เป็นความจริงเลย ข้อผิดพลาดของ Type S และ Type M (ตามที่แนะนำโดย Andrew Gelman) นั้นไม่ดีไปกว่าข้อผิดพลาดประเภท I / II

ฉันคิดว่าสิ่งที่มันหมายถึงจริงๆก็คือว่าไม่ควรไว้วางใจผล "สำคัญ" โดดเดี่ยว

α107α=0.05

p<0.05p

p<0.05


Re "ค่า p สะสม": คุณสามารถคูณค่า p แต่ละตัวหรือคุณต้องทำ combinatorics ที่ชั่วร้ายเพื่อให้มันทำงานได้หรือไม่?
Kevin

pαp

17

ความกังวลของคุณเป็นสิ่งที่น่ากังวลอย่างยิ่งซึ่งอยู่ภายใต้การอภิปรายอย่างมากทางวิทยาศาสตร์ในปัจจุบันเกี่ยวกับการทำซ้ำ อย่างไรก็ตามสถานะของกิจการที่แท้จริงนั้นค่อนข้างซับซ้อนกว่าที่คุณแนะนำ

ก่อนอื่นเรามาสร้างคำศัพท์กันก่อน การทดสอบความสำคัญของสมมติฐานที่ว่างเปล่านั้นสามารถเข้าใจได้ว่าเป็นปัญหาการตรวจจับสัญญาณ - สมมติฐานว่างเป็นจริงหรือเท็จและคุณสามารถเลือกที่จะปฏิเสธหรือเก็บไว้ การรวมกันของการตัดสินใจสองครั้งและสถานะของกิจการ "ถูกต้อง" ที่เป็นไปได้ทั้งสองรายการส่งผลให้ในตารางต่อไปนี้ซึ่งคนส่วนใหญ่เห็นในบางจุดเมื่อพวกเขากำลังเรียนรู้สถิติครั้งแรก:

ป้อนคำอธิบายรูปภาพที่นี่

นักวิทยาศาสตร์ที่ใช้การทดสอบนัยสำคัญสมมุติฐานว่างกำลังพยายามเพิ่มจำนวนการตัดสินใจที่ถูกต้อง (แสดงเป็นสีน้ำเงิน) และลดจำนวนการตัดสินใจที่ไม่ถูกต้อง (แสดงด้วยสีแดง) นักวิทยาศาสตร์ที่ทำงานก็พยายามเผยแพร่ผลลัพธ์เพื่อที่จะได้งานและพัฒนาอาชีพของพวกเขา

H0


H0

อคติสิ่งพิมพ์

α

p

นักวิจัยองศาอิสระ

αα. เมื่อพิจารณาจากการปฏิบัติงานวิจัยที่น่าสงสัยจำนวนมากอัตราของผลบวกผิด ๆ อาจสูงถึง 0.60 แม้ว่าจะมีการกำหนดอัตราเล็กน้อยไว้ที่. 05 ( ซิมมอนส์เนลสันและไซมอนโซห์ 2011 )

สิ่งสำคัญคือให้สังเกตว่าการใช้องศาอิสระของนักวิจัยอย่างไม่เหมาะสม (ซึ่งบางครั้งเรียกว่าการวิจัยที่น่าสงสัยอย่างMartinson, Anderson, & de Vries, 2005 ) นั้นไม่เหมือนกับการจัดทำข้อมูล ในบางกรณีการยกเว้นค่าผิดปกติเป็นสิ่งที่ถูกต้องเนื่องจากอุปกรณ์ล้มเหลวหรือด้วยเหตุผลอื่น ประเด็นสำคัญคือในการมีองศาอิสระของนักวิจัยการตัดสินใจระหว่างการวิเคราะห์มักจะขึ้นอยู่กับว่าข้อมูลปรากฎอย่างไร ( Gelman & Loken, 2014) แม้ว่านักวิจัยที่มีปัญหาจะไม่ตระหนักถึงความจริงข้อนี้ ตราบใดที่นักวิจัยใช้องศาอิสระของนักวิจัย (โดยไม่รู้ตัวหรือไม่รู้ตัว) เพื่อเพิ่มความน่าจะเป็นของผลลัพธ์ที่มีนัยสำคัญ (อาจเป็นเพราะผลลัพธ์ที่สำคัญคือ "เผยแพร่") การมีองศาของนักวิจัยอิสระนั้น เช่นเดียวกับอคติการตีพิมพ์


ข้อแม้ที่สำคัญสำหรับการอภิปรายข้างต้นคือเอกสารทางวิทยาศาสตร์ (อย่างน้อยในด้านจิตวิทยาซึ่งเป็นสาขาของฉัน) ไม่ค่อยประกอบด้วยผลลัพธ์เดียว ที่พบบ่อยคือการศึกษาหลาย ๆ ครั้งซึ่งแต่ละการทดสอบนั้นเกี่ยวข้องกับการทดสอบที่หลากหลาย - การเน้นคือการสร้างข้อโต้แย้งที่มีขนาดใหญ่ขึ้น อย่างไรก็ตามการนำเสนอผลการคัดเลือก (หรือการปรากฏตัวขององศานักวิจัยอิสระ) สามารถสร้างอคติในชุดผลลัพธ์ได้อย่างง่ายดายเช่นเดียวกับผลลัพธ์เดียว มีหลักฐานว่าผลลัพธ์ที่นำเสนอในเอกสารการศึกษาแบบหลายครั้งนั้นสะอาดและแข็งแกร่งกว่าที่คาดไว้แม้ว่าการคาดการณ์ทั้งหมดของการศึกษาเหล่านี้จะเป็นจริง ( ฟรานซิส, 2013 )


ข้อสรุป

พื้นฐานฉันเห็นด้วยกับสัญชาตญาณของคุณว่าการทดสอบนัยสำคัญสมมุติฐานว่างอาจผิดพลาดได้ อย่างไรก็ตามฉันจะยืนยันว่าผู้ร้ายที่แท้จริงที่สร้างอัตราการปลอมแปลงสูงนั้นเป็นกระบวนการเช่นการมีอคติต่อสิ่งพิมพ์และการมีองศาอิสระของนักวิจัย แท้จริงแล้วนักวิทยาศาสตร์หลายคนตระหนักดีถึงปัญหาเหล่านี้และการปรับปรุงความสามารถในการทำซ้ำทางวิทยาศาสตร์เป็นหัวข้อสนทนาที่มีการใช้งานมากในปัจจุบัน (เช่นNosek & Bar-Anan, 2012 ; Nosek, Spies, & Motyl, 2012 ) ดังนั้นคุณจึงเป็นเพื่อนที่ดีกับข้อกังวลของคุณ แต่ฉันก็คิดว่ามันก็มีเหตุผลสำหรับการมองโลกในแง่ดีด้วยความระมัดระวัง


อ้างอิง

Stern, JM, & Simes, RJ (1997) อคติสิ่งพิมพ์: หลักฐานของสิ่งพิมพ์ล่าช้าในการศึกษาโครงการวิจัยทางคลินิก BMJ, 315 (7109), 640–645 http://doi.org/10.1136/bmj.315.7109.640

Dwan, K. , Altman, DG, Arnaiz, JA, Bloom, J. , Chan, A. , Cronin, E. , … Williamson, PR (2008) การทบทวนอย่างเป็นระบบของหลักฐานเชิงประจักษ์เกี่ยวกับความเอนเอียงในการตีพิมพ์และการรายงานผลความลำเอียง PLOS ONE, 3 (8), e3081 http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979) ปัญหาลิ้นชักไฟล์และการยอมรับเพื่อให้ได้ผลลัพธ์ที่เป็นโมฆะ แถลงการณ์ทางจิตวิทยา, 86 (3), 638–641 http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011) จิตวิทยาเชิงบวกเท็จ: ความยืดหยุ่นที่ไม่เปิดเผยในการรวบรวมข้อมูลและการวิเคราะห์ช่วยให้นำเสนอสิ่งที่สำคัญ วิทยาศาสตร์จิตวิทยา, 22 (11), 1359–1366 http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS, & de Vries, R. (2005) นักวิทยาศาสตร์ประพฤติตัวไม่ดี ธรรมชาติ, 435, 737–738 http://doi.org/10.1038/435737a

Gelman, A. , & Loken, E. (2014) วิกฤตทางสถิติในวิทยาศาสตร์ นักวิทยาศาสตร์อเมริกัน, 102, 460-465

ฟรานซิส, G. (2013) การจำลองแบบ, ความสอดคล้องทางสถิติและอคติการตีพิมพ์ วารสารจิตวิทยาคณิตศาสตร์, 57 (5), 153–169 http://doi.org/10.1016/j.jmp.2013.02.003

Nosek, BA, & Bar-Anan, Y. (2012) วิทยาศาสตร์ยูโทเปีย: I. การเปิดการสื่อสารทางวิทยาศาสตร์ การสอบสวนทางจิตวิทยา, 23 (3), 217–243 http://doi.org/10.1080/1047840X.2012.692215

Nosek, BA, Spies, JR, & Motyl, M. (2012) ยูโทเปียทางวิทยาศาสตร์: II การปรับโครงสร้างแรงจูงใจและการปฏิบัติเพื่อส่งเสริมความจริงมากกว่าการเผยแพร่ มุมมองทางวิทยาศาสตร์จิตวิทยา, 7 (6), 615–631 http://doi.org/10.1177/1745691612459058


1
+1 คอลเลกชันที่ดีของการเชื่อมโยง นี่คือเอกสารที่เกี่ยวข้องอย่างมากสำหรับหัวข้อ "ดีกรีนักวิจัยอิสระ" ของคุณ: สวนแห่งการฟอร์กเส้นทาง: ทำไมการเปรียบเทียบหลาย ๆ ครั้งอาจเป็นปัญหาแม้ว่าจะไม่มี "การสำรวจการตกปลา" หรือ "การแฮ็ค p" และสมมติฐานการวิจัยก็คือ โพสต์ก่อนเวลาโดย Andrew Gelman และ Eric Loken (2013)
อะมีบา

ขอบคุณ @amoeba สำหรับการอ้างอิงที่น่าสนใจ โดยเฉพาะอย่างยิ่งฉันชอบประเด็นที่ Gelman และ Loken (2013) ทำให้การใช้ประโยชน์จากองศานักวิจัยอิสระไม่จำเป็นต้องเป็นกระบวนการที่ใส่ใจ ฉันได้แก้ไขคำตอบเพื่อรวมกระดาษนั้นแล้ว
Patrick S. Forscher

ฉันเพิ่งพบ Gelman & Loken (2014) รุ่นที่ตีพิมพ์ในนักวิทยาศาสตร์อเมริกัน
Patrick S. Forscher

10

การตรวจสอบอย่างมีนัยสำคัญเกี่ยวกับปัญหาสำคัญที่เกิดขึ้นในคำถามนี้คือ "ความจริงทางวิทยาศาสตร์" ไม่ได้ขึ้นอยู่กับสิ่งพิมพ์เดี่ยว ๆ หากผลลัพธ์นั้นน่าสนใจเพียงพอมันจะกระตุ้นให้นักวิทยาศาสตร์คนอื่น ๆ ติดตามผลของผลลัพธ์ งานนั้นจะมีแนวโน้มที่จะยืนยันหรือปฏิเสธการค้นพบดั้งเดิม อาจมีโอกาส 1/20 ในการปฏิเสธสมมติฐานว่างเปล่าที่แท้จริงในการศึกษาเดี่ยว แต่เพียง 1/400 ของการทำเช่นนั้นสองครั้งติดต่อกัน

หากนักวิทยาศาสตร์ทำการทดลองซ้ำ ๆ จนกว่าพวกเขาจะพบ "นัยสำคัญ" จากนั้นเผยแพร่ผลลัพธ์ของพวกเขาปัญหาอาจจะใหญ่ตามที่ OP แนะนำ แต่นั่นไม่ใช่วิธีการทำงานของวิทยาศาสตร์อย่างน้อยก็ในประสบการณ์เกือบ 50 ปีของฉันในการวิจัยด้านชีวการแพทย์ ยิ่งกว่านั้นการตีพิมพ์มักไม่ค่อยเกี่ยวกับการทดลอง "ที่สำคัญ" เพียงอย่างเดียว แต่ขึ้นอยู่กับชุดของการทดลองระหว่างที่เกี่ยวข้อง (แต่ละอันจะต้อง "สำคัญ" ด้วยตัวมันเอง) ที่ร่วมกันให้การสนับสนุนสมมติฐานที่กว้างขึ้น

ปัญหาที่ใหญ่กว่านั้นมาจากนักวิทยาศาสตร์ที่มุ่งมั่นกับสมมติฐานของตัวเองมากเกินไป จากนั้นพวกเขาอาจตีความผลกระทบของการทดลองแต่ละครั้งเพื่อสนับสนุนสมมติฐานของพวกเขามีส่วนร่วมในการแก้ไขข้อมูลที่น่าสงสัย (เช่นลบผู้ผิดกฎหมายโดยพลการ) หรือ (ตามที่ฉันได้เห็นและช่วยจับ) เพียงแค่สร้างข้อมูล

อย่างไรก็ตามวิทยาศาสตร์เป็นกระบวนการทางสังคมที่สูงไม่ว่าตำนานเกี่ยวกับนักวิทยาศาสตร์บ้าจะซ่อนตัวอยู่ในหอคอยงาช้างก็ตาม การให้และรับในหมู่นักวิทยาศาสตร์หลายพันคนตามความสนใจของพวกเขาตามสิ่งที่พวกเขาได้เรียนรู้จากการทำงานของผู้อื่นคือการปกป้องสถาบันขั้นสุดท้ายจากผลบวกที่ผิดพลาด การค้นพบที่ผิดพลาดบางครั้งอาจถูกทำลายไปเป็นเวลาหลายปี แต่ถ้าปัญหามีความสำคัญพอกระบวนการจะระบุข้อสรุปที่ผิดพลาดได้ในที่สุด


6
1/400040

2
จากการศึกษา 23M เรายังไม่สามารถบอกได้ว่าผลลัพธ์ 5.000 รายการปฏิเสธสมมติฐานว่างเพียงอย่างเดียวเนื่องจากเสียงรบกวนใช่หรือไม่ มันเป็นปัญหาของขนาดด้วย เมื่อคุณมีงานวิจัยหลายล้านรายการข้อผิดพลาดประเภท 1 จะเป็นเรื่องปกติ
n_mu_sigma

3
หากมีข้อสรุปที่ผิดพลาดเพียง 5,000 ข้อจากการศึกษา 23,000,000 ครั้งฉันจะเรียกว่าผิดปกติแน่นอน!
whuber

3
ในเกือบ 50 ปีของการทำวิทยาศาสตร์และรู้จักนักวิทยาศาสตร์คนอื่น ๆ ฉันไม่สามารถนึกถึงใครที่ทำการทดลองซ้ำ ๆ จนกว่าพวกเขาจะประสบความสำเร็จ "สำคัญ" ความเป็นไปได้ทางทฤษฎีที่ยกขึ้นโดย @whuber คือจากประสบการณ์ของฉันไม่ใช่ปัญหาเชิงปฏิบัติที่ยิ่งใหญ่ ปัญหาในทางปฏิบัติที่ใหญ่กว่านั้นคือการสร้างข้อมูลไม่ว่าจะโดยทางอ้อมโดยการทิ้ง "ค่าผิดปกติ" ที่ไม่เหมาะสมกับการคิดล่วงหน้าหรือเพียงแค่สร้าง "ข้อมูล" เพื่อเริ่มต้นด้วย พฤติกรรมเหล่านั้นที่ฉันได้เห็นมือแรกและพวกเขาไม่สามารถแก้ไขได้โดยการปรับพี -values
EdM

3
@EdM "อาจมีโอกาส 1/20 ในการปฏิเสธสมมติฐานว่างเปล่าที่แท้จริงในการศึกษาเดี่ยว แต่มีเพียง 1/4000 การทำสองครั้งติดต่อกัน" คุณได้หมายเลขที่สองได้อย่างไร?
Aksakal

5

เพียงเพื่อเพิ่มการอภิปรายที่นี่เป็นโพสต์ที่น่าสนใจและการอภิปรายตามมาเกี่ยวกับวิธีการที่คนมักจะเข้าใจผิด p-value

สิ่งที่ควรรักษาไว้ในกรณีใด ๆ ก็คือค่า p-value เป็นเพียงการวัดความแข็งแกร่งของหลักฐานในการปฏิเสธสมมติฐานที่กำหนด ค่า p นั้นไม่ได้เป็นเกณฑ์ที่ต่ำกว่าแน่นอนซึ่งมีบางสิ่งที่ "เป็นจริง" และสูงกว่าซึ่งมีเพียงเนื่องจากโอกาสเท่านั้น ตามที่อธิบายในโพสต์ที่อ้างถึงข้างต้น:

ผลลัพธ์เป็นการรวมกันของเอฟเฟกต์จริงและโอกาสไม่ใช่ทั้ง / หรือ


อาจจะช่วยทำความเข้าใจเกี่ยวกับค่า p: stats.stackexchange.com/questions/166323/ …

4

ตามที่ระบุไว้ในคำตอบอื่น ๆ สิ่งนี้จะทำให้เกิดปัญหาหากคุณกำลังพิจารณาเลือกผลลัพธ์ที่เป็นบวกซึ่งมีการตัดสมมติฐานว่างออก นี่คือเหตุผลที่นักวิทยาศาสตร์เขียนบทความทบทวนที่พวกเขาพิจารณาผลการวิจัยที่ตีพิมพ์ก่อนหน้านี้และพยายามที่จะพัฒนาความเข้าใจที่ดีขึ้นของเรื่องตาม อย่างไรก็ตามยังมีปัญหาอยู่ซึ่งเกิดจากสิ่งที่เรียกว่า "อคติการตีพิมพ์" นั่นคือนักวิทยาศาสตร์มีแนวโน้มที่จะเขียนบทความเกี่ยวกับผลบวกมากกว่าผลลบนอกจากนี้กระดาษบนผลลบก็คือ มีแนวโน้มที่จะถูกปฏิเสธการตีพิมพ์มากกว่ากระดาษที่ให้ผลในเชิงบวก

โดยเฉพาะอย่างยิ่งในสาขาที่การทดสอบทางสถิติมีความสำคัญมากนี่จะเป็นปัญหาใหญ่สาขาการแพทย์เป็นตัวอย่างที่มีชื่อเสียง นี่คือเหตุผลว่าทำไมจึงจำเป็นต้องลงทะเบียนการทดลองทางคลินิกก่อนดำเนินการ (เช่นที่นี่ ) ดังนั้นคุณต้องอธิบายการตั้งค่าวิธีการวิเคราะห์ทางสถิติที่จะดำเนินการ ฯลฯ ฯลฯ ก่อนที่การทดลองจะเริ่มขึ้น วารสารทางการแพทย์ชั้นนำจะปฏิเสธที่จะเผยแพร่เอกสารหากการทดลองที่พวกเขารายงานเกี่ยวกับสถานที่ที่ไม่ได้ลงทะเบียน

แต่แม้จะมีมาตรการนี้ระบบไม่ทำงานทั้งหมดที่ดี


อาจจะช่วยทำความเข้าใจเกี่ยวกับค่า p: stats.stackexchange.com/questions/166323/ …

3

นี่คือความจริงที่สำคัญมากเกี่ยวกับวิธีการทางวิทยาศาสตร์: มันเน้นความเท็จ ปรัชญาของวิทยาศาสตร์ซึ่งเป็นที่นิยมมากที่สุดในวันนี้มีแนวคิดที่คาร์ลตกใจของfalsifiabilityเป็นหินมุม

กระบวนการทางวิทยาศาสตร์พื้นฐานจึง:

  • ทุกคนสามารถอ้างทฤษฎีใด ๆ ที่พวกเขาต้องการได้ตลอดเวลา วิทยาศาสตร์จะยอมรับทฤษฎีใด ๆ ที่เป็น "เท็จ" ความหมายที่แท้จริงของคำนั้นคือถ้าคนอื่นไม่ชอบการอ้างสิทธิ์บุคคลนั้นมีอิสระที่จะใช้ทรัพยากรเพื่อหักล้างข้อเรียกร้อง หากคุณไม่คิดว่าถุงเท้า argyle รักษาโรคมะเร็งคุณมีอิสระที่จะใช้หอผู้ป่วยของคุณเองเพื่อพิสูจน์หักล้าง

  • เนื่องจากแถบนี้สำหรับการเข้าชมต่ำมากมันเป็นธรรมเนียมที่ "วิทยาศาสตร์" ในฐานะกลุ่มทางวัฒนธรรมจะไม่สร้างความบันเทิงให้กับแนวคิดใด ๆ จนกว่าคุณจะได้ทำ "ความพยายามที่ดี" เพื่อบิดเบือนทฤษฎีของคุณเอง

  • การยอมรับความคิดมีแนวโน้มที่จะไปในขั้นตอน คุณสามารถทำให้แนวคิดของคุณเป็นบทความวารสารที่มีการศึกษาหนึ่งเรื่องและค่า p ค่อนข้างต่ำ สิ่งที่ซื้อให้คุณคือการประชาสัมพันธ์และความน่าเชื่อถือ หากมีใครสนใจในความคิดของคุณเช่นถ้าวิทยาศาสตร์ของคุณมีแอปพลิเคชันด้านวิศวกรรมพวกเขาอาจต้องการใช้มัน ในเวลานั้นพวกเขามีแนวโน้มที่จะให้ทุนเพิ่มเติมรอบของการปลอมแปลง

  • กระบวนการนี้ดำเนินไปข้างหน้าด้วยทัศนคติเดียวกันเสมอ: เชื่อในสิ่งที่คุณต้องการ แต่เรียกว่าวิทยาศาสตร์ฉันต้องพิสูจน์หักล้างในภายหลัง

แถบต่ำสำหรับการเข้าเป็นสิ่งที่ทำให้มันเป็นนวัตกรรมมาก ใช่แล้วมีบทความวารสาร "ผิด ๆ " ในทางทฤษฎีจำนวนมาก อย่างไรก็ตามสิ่งสำคัญคือทุกบทความที่ตีพิมพ์อยู่ในทฤษฎีที่เป็นเท็จดังนั้น ณ จุดใดเวลาหนึ่งบางคนสามารถใช้จ่ายเงินเพื่อทดสอบ

นี่คือกุญแจสำคัญ: วารสารไม่เพียง แต่มีสิ่งต่าง ๆ ที่ผ่านการทดสอบ p-สมเหตุสมผลเท่านั้น แต่ยังมีกุญแจสำหรับผู้อื่นที่จะแยกมันออกหากผลออกมาเป็นเท็จ


1
นี่คืออุดมคติมาก บางคนมีความกังวลว่าเอกสารที่ผิดมากเกินไปสามารถสร้างอัตราส่วนสัญญาณต่อสัญญาณรบกวนต่ำเกินไปในวรรณคดีและชะลอหรือทำให้กระบวนการทางวิทยาศาสตร์ผิดพลาดอย่างจริงจัง
อะมีบา

1
@ amoeba คุณนำมาซึ่งจุดที่ดี แน่นอนฉันต้องการที่จะจับกรณีที่เหมาะเพราะฉันพบว่ามันหายไปในเสียง นอกเหนือจากนั้นฉันคิดว่าคำถามของ SNR ในวรรณคดีนั้นเป็นคำถามที่ถูกต้อง แต่อย่างน้อยก็เป็นคำถามที่ควรมีความสมดุล มีแนวความคิดเกี่ยวกับวารสารที่ดีและวารสารที่ไม่ดีดังนั้นจึงมีคำแนะนำบางอย่างที่การทรงตัวได้เริ่มดำเนินการมาระยะหนึ่งแล้ว
Cort Ammon

ความเข้าใจในปรัชญาวิทยาศาสตร์ดูเหมือนจะล้าสมัยไปหลายสิบปีแล้ว Popperian falsifiability เป็นเพียง "ยอดนิยม" ในแง่ของการเป็นตำนานเมืองร่วมกันเกี่ยวกับวิธีการที่วิทยาศาสตร์เกิดขึ้น
EnergyNumbers

@EnergyNumbers คุณช่วยสอนฉันเกี่ยวกับวิธีคิดใหม่ได้หรือไม่? ปรัชญา SE มีความเห็นแตกต่างจากคุณมาก ถ้าคุณดูที่ประวัติของคำถามที่นั่น falsifiability Popperian เป็นกำหนดลักษณะของวิทยาศาสตร์ส่วนใหญ่ของผู้ที่พูดเสียงของพวกเขา ฉันชอบที่จะเรียนรู้วิธีคิดใหม่และนำมาใช้ที่นั่น!
Cort Ammon

ใหม่? คุณข้องแวะ Popper เมื่อหลายสิบปีก่อน หากคุณไม่มีโพสต์ Popperian เกี่ยวกับปรัชญาแล้วอัพเดทมันดูเหมือนจะเป็นสาเหตุที่หายไป - เพียงแค่ปล่อยไว้ในทศวรรษ 1950 หากคุณต้องการที่จะอัพเดทตัวเองดังนั้นไพรเมอร์ระดับปริญญาตรีจากศตวรรษที่ 21 เกี่ยวกับปรัชญาวิทยาศาสตร์ควรเริ่มต้นให้คุณ
EnergyNumbers

1

นี่เป็นวิธีที่ "วิทยาศาสตร์" ควรทำงานหรือไม่

นั่นเป็นวิธีที่สังคมศาสตร์ทำงานมากมาย ไม่มากนักกับวิทยาศาสตร์กายภาพ คิดถึงสิ่งนี้: คุณพิมพ์คำถามของคุณบนคอมพิวเตอร์ ผู้คนสามารถสร้างสัตว์ที่ซับซ้อนเหล่านี้เรียกว่าคอมพิวเตอร์โดยใช้ความรู้ด้านฟิสิกส์เคมีและวิทยาศาสตร์กายภาพอื่น ๆ หากสถานการณ์เลวร้ายอย่างที่คุณอธิบายไม่มีอุปกรณ์อิเล็กทรอนิกส์ใดที่จะใช้งานได้ หรือคิดว่าสิ่งต่าง ๆ เช่นมวลของอิเล็กตรอนซึ่งเป็นที่รู้จักด้วยความแม่นยำบ้า มันผ่านประตูลอจิกหลายพันล้านรายการในคอมพิวเตอร์มานานกว่าและคอมพิวเตอร์ของคุณยังคงใช้งานได้นานหลายปี

UPDATE: เพื่อตอบสนองต่อการลงคะแนนเสียงที่ฉันได้รับฉันรู้สึกเป็นแรงบันดาลใจให้คุณยกตัวอย่างสักสองสามตัวอย่าง

คนแรกมาจากฟิสิกส์: Bystritsky, VM และอื่น ๆ "การวัดปัจจัยทางดาราศาสตร์ฟิสิกส์และส่วนตัดขวางของ p (d, γ) 3 ปฏิกิริยาของเขาในภูมิภาคพลังงานอัลตร้าโลว์ต่ำโดยใช้เป้าหมายเซอร์โคเนียมดีเทอไรด์ " ฟิสิกส์ของอนุภาคและตัวอักษรนิวเคลียส 10.7 (2013): 717-722

0.237±0.061

ตัวอย่างต่อไปของฉันมาจาก ... จิตวิทยา: Paustian-Underdahl, Samantha C. , Lisa Slattery Walker และ David J. Woehr " เพศและการรับรู้ถึงประสิทธิผลความเป็นผู้นำ: การวิเคราะห์อภิมานของผู้ดูแลบริบท " วารสารจิตวิทยาประยุกต์, ปี 2014, ฉบับที่ 99, ลำดับที่ 6, 1129 –1145

χ2

ตอนนี้ดูตารางจากเอกสารและเดาว่าเป็นเอกสารใด:

ป้อนคำอธิบายรูปภาพที่นี่ ป้อนคำอธิบายรูปภาพที่นี่

นั่นเป็นคำตอบว่าทำไมในกรณีหนึ่งที่คุณต้องมีสถิติ "เจ๋ง" และในอีกกรณีหนึ่งคุณไม่ควรทำเพราะข้อมูลนั้นมีข้อมูลที่ไม่ดีหรือไม่ เมื่อคุณมีข้อมูลที่ดีคุณไม่จำเป็นต้องมีสถิติเกินกว่าข้อผิดพลาดมาตรฐาน

UPDATE2: @ PatrickS.Forscher ได้สร้างข้อความที่น่าสนใจในความคิดเห็น:

เป็นจริงเช่นกันว่าทฤษฎีทางสังคมศาสตร์นั้น "เบากว่า" (เป็นทางการน้อยกว่า) มากกว่าทฤษฎีฟิสิกส์

ฉันต้องไม่เห็นด้วย เศรษฐศาสตร์และการเงินทฤษฎีไม่ได้ "อ่อน" เลย คุณสามารถค้นหากระดาษในฟิลด์เหล่านี้แบบสุ่มและได้รับสิ่งนี้:

ป้อนคำอธิบายรูปภาพที่นี่

และอื่น ๆ

มาจาก Schervish, Mark J. , Teddy Seidenfeld และ Joseph B. Kadane " ส่วนขยายของทฤษฎียูทิลิตี้ที่คาดหวังและข้อ จำกัด บางประการของการเปรียบเทียบจากจำนวน ." (2003) สิ่งนี้ดูอ่อนหวานสำหรับคุณหรือไม่?

ฉันกำลังทำซ้ำจุดของฉันที่นี่ว่าเมื่อทฤษฎีของคุณไม่ดีและข้อมูลที่เส็งเคร็งคุณสามารถใช้คณิตศาสตร์ที่ยากที่สุดและยังได้รับผลเส็งเคร็ง

ในบทความนี้พวกเขากำลังพูดถึงสาธารณูปโภคแนวคิดเช่นความสุขและความพึงพอใจ - ไม่สามารถสังเกตได้อย่างแน่นอน มันเหมือนอรรถประโยชน์ของการมีบ้านกับการกินชีสเบอร์เกอร์? สันนิษฐานว่ามีฟังก์ชั่นนี้ที่คุณสามารถเสียบ "กินชีสเบอร์เกอร์" หรือ "อาศัยอยู่ในบ้านของตัวเอง" และฟังก์ชั่นจะคายคำตอบในบางหน่วย von Neuman เป็นสิ่งที่บ้าคลั่งอย่างยิ่งเมื่อได้ยินเสียงนี้


1
+1 ไม่แน่ใจว่าเพราะเหตุใดจึงมีการลงคะแนนสองครั้ง คุณกำลังชี้ให้เห็นว่าการค้นพบทางฟิสิกส์สามารถทดสอบกับการทดลองและ "การค้นพบ" ส่วนใหญ่ในสังคมศาสตร์ไม่สามารถทำได้ซึ่งไม่ได้หยุดพวกเขาได้รับความสนใจจากสื่อมากมาย
Flounderer

6
ในที่สุดการทดลองส่วนใหญ่เกี่ยวข้องกับการทดสอบทางสถิติบางประเภทและยังคงมีที่ว่างสำหรับข้อผิดพลาดประเภท 1 และพฤติกรรมที่ไม่เหมาะสมเช่นการตกปลาแบบ p-value ฉันคิดว่าการสังสรรค์ในแวดวงสังคมเป็นสิ่งที่น่าสังเกต
Kenji

4
หากต้องการแก้ไขสิ่งที่ @GuilhermeKenjiChihaya พูดเล็กน้อยค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดอาจใช้เพื่อทำการทดสอบทางสถิติในการทดลองทางกายภาพ การทดสอบทางสถิติน่าจะเป็นข้อสรุปเดียวกันกับที่ผู้เขียนเข้าถึงเมื่อดูกราฟที่มีแถบข้อผิดพลาดของมันความแตกต่างที่สำคัญกับเอกสารฟิสิกส์จากนั้นเป็นจำนวนพื้นฐานของเสียงรบกวนในการทดสอบความแตกต่างที่เป็นอิสระจาก ตรรกะพื้นฐานการใช้ค่า p ถูกต้องหรือไม่ถูกต้อง
Patrick S. Forscher

3
นอกจากนี้ @Flounderer คุณดูเหมือนจะใช้คำว่า "การทดลอง" ในแง่ที่ฉันไม่คุ้นเคยเนื่องจากนักวิทยาศาสตร์สังคมทำการทดลอง "(เช่นการสุ่มของหน่วยสู่เงื่อนไข) ตลอดเวลา มันเป็นความจริงที่การทดลองทางสังคมศาสตร์เป็นการยากที่จะควบคุมในระดับเดียวกับที่มีอยู่ในการทดลองทางฟิสิกส์ เป็นจริงเช่นกันว่าทฤษฎีทางสังคมศาสตร์นั้น "เบากว่า" (เป็นทางการน้อยกว่า) มากกว่าทฤษฎีฟิสิกส์ แต่ปัจจัยเหล่านี้เป็นอิสระจากการศึกษาที่กำหนดว่าเป็น "การทดลอง" หรือไม่
Patrick S. Forscher

2
@ Aksakal ในขณะที่ฉันไม่เห็นด้วยกับ -1 ฉันก็ไม่เห็นด้วยกับการวิจารณ์สังคมศาสตร์ของคุณ ตัวอย่างเอกสารเศรษฐกิจของคุณก็ไม่ได้เป็นตัวอย่างที่ดีของสิ่งที่นักวิทยาศาสตร์สังคมทำทุกวันเพราะทฤษฎีอรรถประโยชน์เป็นแนวคิดทางเศรษฐศาสตร์ / คณิตศาสตร์ / สถิติอย่างเคร่งครัด (ดังนั้นจึงมีคณิตศาสตร์อยู่ในนั้น) และมันไม่เหมือนกับทฤษฎีจิตวิทยา มีการทดสอบการทดลอง ... อย่างไรก็ตามฉันยอมรับว่ามักเป็นกรณีที่สถิติถูกนำมาใช้อย่างหลวม ๆ ในหลาย ๆ ด้านของการวิจัยรวมถึงสังคมศาสตร์
ทิม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.