ผลกระทบของการอภิปรายในปัจจุบันที่มีนัยสำคัญทางสถิติ


10

ในช่วงไม่กี่ปีที่ผ่านมานักวิชาการหลายคนได้ยกปัญหาอันตรายของการทดสอบสมมติฐานทางวิทยาศาสตร์ขนานนามว่า "ระดับความเป็นอิสระของนักวิจัย" ซึ่งหมายความว่านักวิทยาศาสตร์มีทางเลือกมากมายให้ทำในระหว่างการวิเคราะห์ที่มีอคติต่อการค้นหาด้วย p-value <5% ทางเลือกที่คลุมเครือเหล่านี้จะยกตัวอย่างเช่นกรณีที่จะรวมซึ่งในกรณีนี้จะถูกจัดประเภทเป็นค่าผิดปกติวิ่งข้อกำหนดรูปแบบต่าง ๆ นานาจนบางสิ่งบางอย่างที่แสดงให้เห็นขึ้นไม่ได้เผยแพร่ผล null ฯลฯ (กระดาษที่จุดประกายการอภิปรายครั้งนี้ในด้านจิตวิทยาเป็นที่นี่ , ดูบทความ Slate ยอดนิยมและการติดตามการอภิปรายโดย Andrew Gelman ที่นี่และนิตยสาร Time ยังได้สัมผัสกับหัวข้อนี้ที่นี่ )

ก่อนหนึ่งคำถามเพื่อความกระจ่าง:

นิตยสารThe Timeเขียน

"พลัง 0.8 หมายถึงว่ามีการทดสอบสมมติฐานจริงสิบข้อมีเพียงสองข้อเท่านั้นที่จะถูกตัดออกเพราะผลกระทบของข้อมูลเหล่านั้นจะไม่ถูกหยิบขึ้นมาในข้อมูล"

ผมไม่แน่ใจว่าวิธีการที่เหมาะกับนี้ในความหมายของอำนาจหน้าที่ที่ผมพบในตำราเรียนซึ่งเป็นน่าจะเป็นของการปฏิเสธโมฆะเป็นหน้าที่ของพารามิเตอร์\ด้วยต่างกันเรามีพลังที่แตกต่างกันดังนั้นฉันจึงไม่เข้าใจคำพูดที่กล่าวมาข้างต้นθθθ

ประการที่สองความหมายของการวิจัย:

  1. ในสาขารัฐศาสตร์ / เศรษฐศาสตร์ของฉันนักวิชาการใช้ข้อมูลทั้งหมดของประเทศในปีเดียว ดังนั้นเราไม่ควรกังวลกับตัวอย่างที่เล่นซอนี่?

  2. ปัญหาของการรันการทดสอบหลายครั้ง แต่การรายงานเพียงแบบเดียวสามารถแก้ไขได้โดยข้อเท็จจริงที่ว่าคนอื่นในสาขาวิชาจะทดสอบกระดาษของคุณอีกครั้งและทำให้คุณผิดหวังทันทีที่ไม่ได้ผลลัพธ์ที่ดี? การคาดการณ์นี้นักวิชาการในสาขาของฉันมีแนวโน้มที่จะรวมrobustness checkส่วนที่พวกเขาแสดงให้เห็นว่าสเปคหลายรุ่นไม่ได้เปลี่ยนผล เพียงพอหรือไม่

  3. Andrew Gelman และคนอื่น ๆ ยกประเด็นที่ไม่ว่าข้อมูลจะเป็นไปได้เสมอในการค้นหาและเผยแพร่ "รูปแบบ" บางอย่างที่ไม่ได้มีอยู่จริง แต่สิ่งนี้ไม่ควรกังวลเนื่องจากข้อเท็จจริงที่ว่า "รูปแบบ" เชิงประจักษ์จะต้องได้รับการสนับสนุนจากทฤษฎีและทฤษฎีการแข่งขันภายในวินัยจะมีส่วนร่วมในการอภิปราย / การแข่งขันเพื่อค้นหาว่าค่ายใดสามารถหา "รูปแบบ" เพิ่มเติมได้ ในสถานที่ต่าง ๆ หากรูปแบบเป็นของปลอมจริง ๆ แล้วทฤษฎีที่อยู่เบื้องหลังจะถูกขีดลงอย่างรวดเร็วเมื่อไม่มีรูปแบบที่เหมือนกันในตัวอย่าง / การตั้งค่าอื่น ๆ นี่ไม่ใช่ความก้าวหน้าทางวิทยาศาสตร์หรือไม่

  4. สมมติว่าแนวโน้มปัจจุบันของวารสารสำหรับผลลัพธ์โมฆะจริง ๆ แล้วจะเฟื่องฟูจริงหรือไม่มีวิธีที่เราจะรวมผลลัพธ์ที่เป็นโมฆะและเชิงบวกทั้งหมดเข้าด้วยกันและทำการอนุมานทฤษฎีที่พวกเขาทั้งหมดพยายามทดสอบหรือไม่?


ดูเพิ่มเติม"ทฤษฎีการทดสอบทางจิตวิทยาและฟิสิกส์: เป็นระเบียบวิธี Paradox" "สมมติฐานว่าง" เป็นเท็จสำหรับเขตข้อมูลของคุณเสมอ แม้จะมีการทดสอบการปฏิบัติที่สำคัญการทดสอบที่สำคัญและการทดสอบสมมติฐานอาจไม่เหมาะสม
ขวด

คำถามของคุณ 1 ขัดแย้งกับคำถาม 3 ใน polsci / เศรษฐศาสตร์มีตัวอย่าง / การตั้งค่าอื่น ๆ หรือไม่?
ขวด

คำตอบ:


11

แทนที่จะใช้ค่า p เพื่อประเมินข้อเรียกร้องเราควรทำตามคำแนะนำของ Robert Abelson และใช้เกณฑ์ MAGIC:

Magnitude
Articulation
Generality
Interestingness
Credibility

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ Abelson โปรดดูบทวิจารณ์หนังสือของฉัน

และเราควรให้ความสำคัญกับขนาดของผลไม่ใช่ค่า p ในผลลัพธ์ทางสถิติ (ยกเว้นข้อยกเว้นที่เป็นไปได้ของการทำเหมืองข้อมูลบางประเภทซึ่งฉันไม่เชี่ยวชาญเลย) และขนาดของเอฟเฟกต์จะต้องถูกตัดสินในบริบท:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

นักวิเคราะห์สถิติ / ข้อมูลไม่ควรเป็นคนแปลก ๆ ใช้เหมือนกล่องดำที่ข้อมูลถูกนำเข้าและออกจากค่า p ที่ได้รับ; เขา / เธอควรเป็นผู้ทำงานร่วมกันในการวิจัยที่ออกแบบมาเพื่อให้การโต้แย้งที่สมเหตุสมผลเกี่ยวกับความหมายของชุดข้อมูลบางอย่างในบริบทของบางสาขาเนื่องจากทฤษฎีปัจจุบัน (หรือขาด) และหลักฐานปัจจุบัน (หรือขาดเหมือนกัน)

น่าเสียดายที่วิธีการนี้ต้องใช้ความคิดในส่วนของนักวิจัยที่สำคัญนักวิเคราะห์ข้อมูลและใครก็ตามที่ตรวจสอบผลลัพธ์ (ไม่ว่าจะเป็นเจ้านายที่มีผมแหลมคณะกรรมการวิทยานิพนธ์บรรณาธิการวารสารหรือผู้ใดก็ตาม) แม้แต่นักวิชาการก็ไม่ชอบความคิดแบบนี้

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับมุมมองของฉันที่นี่เป็นบทความที่ฉันเขียนที่ได้รับการตีพิมพ์ใน Sciences360


4
+1 ในขณะที่ฉันเห็นด้วยกับคุณมากที่สุดฉันสามารถจินตนาการได้ว่าการอ้างว่า 'การเรียกร้องของฉันสนับสนุนโดย MAGIC' อาจไม่เป็นประโยชน์เสมอ :-)
Marc Claesen

1
ใช่คุณต้องสะกดออกมา แต่ถ้าคุณทำฉันคิดว่ามันอาจใช้งานได้: "นี่เป็นเอฟเฟ็กต์ขนาดใหญ่ที่มีข้อยกเว้นเล็กน้อยส่งผลกระทบต่อคนจำนวนมากน่าสนใจเพราะ XXXX และน่าเชื่อถือเพราะพวกเขา XXXX" อาจทำงานได้ ฉันไม่เห็นมันลอง :-)
Peter Flom

1
ใช่; การเรียกร้องคือ "น่าเชื่อถือ" ถ้ามีทฤษฎีที่บอกว่ามันจะเกิดขึ้นได้อย่างไร ถ้ามันถูกจำลองแบบและอื่น ๆ มันมีความน่าเชื่อถือน้อยกว่าหากไม่มีคำอธิบายทางกายภาพหรือทางทฤษฎีอื่น ๆ การเรียกร้องที่น่าเชื่อถือน้อยกว่าต้องการหลักฐานเพิ่มเติมสำหรับมัน
Peter Flom

2
@ ความน่าเชื่อถือในวิทยาศาสตร์ควรถูกวัดด้วยทฤษฎีที่ทำนายปรากฏการณ์ที่ไม่ได้ใช้ในการพัฒนาทฤษฎีได้ดีเพียงใด เมื่อประเมินว่าการทำนายนั้นดีหรือไม่ความน่าเชื่อถือต้องได้รับการทำซ้ำโดยนักวิจัยอิสระ มีหลักฐานเชิงประจักษ์มากมายที่การทดสอบนัยสำคัญและการทดสอบสมมุติฐานทั้งคู่ดูเหมือนจะกีดกันพฤติกรรมทั้งสอง แต่แทนที่จะสนับสนุนกิจกรรมการผลิตที่มีอคติของการตีพิมพ์และ "การแฮ็ก" ของ "ความสำคัญ" โดยพลการ
ขวด

1
@Flask - ฉันจะบอกว่าค่า p ไม่จำเป็นต้องมีปัญหามากขึ้นว่าการใช้การทดสอบสมมติฐานที่อ่อนแอเป็นปัญหา ฟิสิกส์ใช้ค่า p เช่นกัน แต่ด้วยสมมติฐานที่นำไปสู่การทำนายจุด (เช่นสมมุติฐานว่างจริง) การหา "ผลในเชิงบวก" นั้นไม่มีประโยชน์สำหรับการสร้างทฤษฎี - คุณต้องทำการประเมินจุดเพื่อยืนยันทฤษฎีอย่างถูกต้อง
ความน่าจะเป็นเชิง

3

สาขาวิทยาศาสตร์สถิติได้แก้ไขปัญหาเหล่านี้ตั้งแต่เริ่มต้น ฉันพูดต่อไปว่าบทบาทของนักสถิติคือเพื่อให้แน่ใจว่าอัตราความผิดพลาดประเภทที่ 1 ยังคงได้รับการแก้ไข นี่ก็หมายความว่าความเสี่ยงในการทำข้อสรุปเชิงบวกที่ผิดพลาดไม่สามารถกำจัดได้ แต่สามารถควบคุมได้ สิ่งนี้ควรดึงความสนใจของเราไปสู่การวิจัยทางวิทยาศาสตร์ในปริมาณมากอย่างยิ่งยวดแทนที่จะมุ่งสู่ปรัชญาและจริยธรรมของการปฏิบัติทางสถิติทั่วไป สำหรับผลลัพธ์ที่ไม่น่าเชื่อ (uncredible) ทุกอย่างที่ปรากฏในสื่อ (หรือในนโยบายของรัฐบาล) อย่างน้อย 19 ผลลัพธ์ที่ไม่น่าเชื่ออื่น ๆ ถูกยิงลงเพื่อการค้นพบที่ไม่เป็นผล

แน่นอนถ้าคุณไปที่ Clinicaltrials.gov คุณจะสังเกตเห็นว่ามีการทดลองทางคลินิกเกือบ 1,000 ครั้งสำหรับตัวแทนเวชภัณฑ์ที่กำลังดำเนินการในสหรัฐอเมริกาในขณะนี้ นั่นหมายถึงว่าด้วยอัตราความผิดพลาดบวกปลอม 0.001 โดยเฉลี่ยยาอย่างน้อย 1 ตัวจะถูกวางบนชั้นวางที่ไม่มีผลกระทบ ความถูกต้องของ 0.05 เป็นเกณฑ์การตรวจสอบสำหรับนัยสำคัญทางสถิติได้รับการท้าทายอีกครั้งและอีกครั้ง กระแทกแดกดันมันเป็นเพียงสถิติที่รู้สึกไม่สบายใจกับการใช้อัตราข้อผิดพลาดบวกเท็จ 1/20 ในขณะที่ผู้มีส่วนได้เสียทางการเงิน (ไม่ว่าจะเป็น PIs หรือเมอร์ค) จะไล่ตามความเชื่อโดยไม่คำนึงถึงผลในหลอดทดลอง สุจริต ความดื้อรั้นนั้นเป็นคุณสมบัติส่วนบุคคลที่ประสบความสำเร็จและน่าชื่นชมของบุคคลหลายคนที่ประสบความสำเร็จในบทบาทที่ไม่ใช่เชิงสถิติ พวกเขามักจะนั่งอยู่เหนือนักสถิติในโทเท็มตามลำดับของพวกเขาที่มีแนวโน้มที่จะยกระดับความดื้อรั้นนั้น

ฉันคิดว่าเวลาที่คุณยกมาพูดผิด พลังงานคือความน่าจะเป็นที่จะปฏิเสธสมมติฐานว่างเนื่องจากเป็นเท็จ สิ่งนี้สำคัญกว่านั้นขึ้นอยู่กับว่าสมมติฐาน "null" เป็นโมฆะอย่างไร (ซึ่งขึ้นอยู่กับขนาดของเอฟเฟกต์ที่วัดได้) ฉันไม่ค่อยพูดถึงอำนาจออกมาจากบริบทของผลที่เราจะถือว่า "น่าสนใจ" ในการตรวจสอบ (ตัวอย่างเช่นการรอดชีวิต 4 เดือนหลังการรักษาด้วยเคมีบำบัดของมะเร็งตับอ่อนระยะที่ 4 นั้นไม่น่าสนใจดังนั้นจึงไม่มีเหตุผลที่จะคัดเลือกผู้สมัคร 5,000 คนสำหรับการทดลองระยะที่ 3)

เพื่อตอบคำถามที่คุณถาม

  1. ???

  2. หลายหลากเป็นเรื่องยากเพราะมันไม่ได้นำไปสู่กฎการตัดสินใจที่ชัดเจนเกี่ยวกับวิธีการจัดการข้อมูล ตัวอย่างเช่นสมมติว่าเราสนใจทดสอบความแตกต่างของค่าเฉลี่ยอย่างง่าย แม้จะมีการประท้วงที่ไม่มีที่สิ้นสุดของเพื่อนร่วมงานของฉัน แต่ก็ง่ายที่จะแสดงการทดสอบ t- ถูกสอบเทียบอย่างดีเพื่อตรวจสอบความแตกต่างในค่าเฉลี่ยโดยไม่คำนึงถึงการกระจายตัวอย่างของข้อมูล สมมติว่าเราสลับเส้นทางของพวกเขา พวกเขาจะเริ่มด้วยการทดสอบความเป็นมาตรฐานโดยใช้การทดสอบแบบกระจายที่รู้จักกันดี (พูดการสอบเทียบของ qqplot) หากข้อมูลปรากฏว่าไม่ปกติเพียงพอพวกเขาจะถามว่าข้อมูลเป็นไปตามการแปลงที่รู้จักกันดีหรือไม่แล้วใช้การแปลง Box Cox เพื่อกำหนดการเปลี่ยนแปลงพลังงาน (อาจเป็นลอการิทึม) ซึ่งเพิ่มเอนโทรปีให้สูงสุด หากค่าตัวเลขที่ชัดเจนปรากฏออกมา พวกเขาจะใช้การเปลี่ยนแปลงนั้น ถ้าไม่พวกเขาจะใช้การทดสอบ "การแจกจ่ายฟรี" วิลคอกซัน สำหรับลำดับเหตุการณ์แบบเฉพาะกิจนี้ฉันไม่สามารถเริ่มหวังได้ว่าจะคำนวณการสอบเทียบและกำลังงานเพื่อทดสอบความแตกต่างของค่าเฉลี่ยอย่างง่ายได้อย่างไรเมื่อการทดสอบแบบโง่และโง่จะพอเพียง ฉันสงสัยว่าการกระทำที่โง่เช่นนี้สามารถเชื่อมโยงทางคณิตศาสตร์กับการประมาณค่าที่เหนือกว่าของฮ็อดจ์: ตัวประมาณที่มีกำลังสูงภายใต้สมมติฐานเฉพาะที่เราต้องการเป็นจริง อย่างไรก็ตามกระบวนการนี้ก็คือ การประมาณค่าที่เหนือกว่า: ตัวประมาณที่มีกำลังสูงภายใต้สมมติฐานเฉพาะที่เราต้องการให้เป็นจริง อย่างไรก็ตามกระบวนการนี้ก็คือ การประมาณค่าที่เหนือกว่า: ตัวประมาณที่มีกำลังสูงภายใต้สมมติฐานเฉพาะที่เราต้องการให้เป็นจริง อย่างไรก็ตามกระบวนการนี้ก็คือไม่ใช่เชิงสถิติเนื่องจากอัตราข้อผิดพลาดที่เป็นบวกที่เป็นเท็จไม่ได้ถูกควบคุม

  3. แนวคิดว่าแนวโน้มสามารถ "พบ" ไม่สมควรอยู่ในชุดสุ่มข้อมูลใด ๆ ที่อาจจะมีร่องรอยกลับไปเขียนบทความดีโดยมาร์ตินที่เรียกว่า"Munchaesen สถิติของตาราง" นี่คือการอ่านที่ให้แสงสว่างอย่างมากและย้อนหลังไปถึงปี 1984 ก่อนที่ลูกวัวทองคำของการเรียนรู้เครื่องจะเกิดมาเพื่อเราตามที่เรารู้ อันที่จริงสมมติฐานที่ระบุไว้อย่างถูกต้องนั้นเป็นเท็จ แต่ข้อผิดพลาดประเภท 1 ได้กลายเป็นค่าใช้จ่ายในสังคมที่ขับเคลื่อนข้อมูลของเรามากกว่าที่เคยเป็นมา พิจารณาตัวอย่างเช่นหลักฐานที่ผิดพลาดของการวิจัยต่อต้านวัคซีนที่นำไปสู่การเสียชีวิตจำนวนมากของโรคไอกรน ผลการทดลองที่นำไปสู่การทำลายวัคซีนสาธารณะนั้นเชื่อมโยงกับการศึกษาเดียว(ซึ่งแม้ว่าจะไม่ถูกต้องก็ไม่ได้รับการยืนยันจากการวิจัยภายนอก) มีแรงผลักดันทางจริยธรรมในการดำเนินการผลลัพธ์และรายงานความแข็งแกร่งของความซื่อสัตย์ต่อความดีของหลักฐาน หลักฐานมีความแข็งแกร่งแค่ไหน? มันมีส่วนเกี่ยวข้องกับ p-value ที่คุณได้รับเพียงเล็กน้อย แต่ p-value ที่คุณบอกว่าคุณจะเรียกว่าสำคัญ และโปรดจำไว้ว่าการลบข้อมูลของคุณจะเปลี่ยนค่าของ p แม้ว่าการทดสอบยืนยันขั้นสุดท้ายจะรายงานบางสิ่งที่แตกต่างกัน (มักจะเล็กกว่ามาก)

  4. ใช่! คุณสามารถเห็นได้อย่างชัดเจนในการวิเคราะห์เมตาดาต้าที่ตีพิมพ์โดยวารสารเช่นรายงาน Cochrane ว่าการกระจายตัวของผลการทดสอบนั้นดู bimodal มากกว่า noraml โดยมีเพียงผลบวกและลบที่ทำให้เป็นวารสาร หลักฐานนี้เป็นเรื่องน่าอับอายอย่างแน่นอนและสร้างความสับสนให้กับทุกคนในการฝึกฝนทางคลินิก หากเราเผยแพร่ผลลัพธ์ที่เป็นโมฆะ (ซึ่งมาจากการศึกษาซึ่งเราอยากจะให้ความสนใจไม่ว่าพวกเขาจะเป็นอะไร ) จากนั้นเราสามารถคาดหวังว่า meta-analysis จะแสดงหลักฐานที่มีความหมายและเป็นตัวแทน


1
ใน " บนความน่าจะเป็นพื้นฐานสำหรับการกระทำ" William Deming สร้างความแตกต่างระหว่างการศึกษาแบบ "enumerative" และ "analytic" เขาชี้ให้เห็นว่าผลลัพธ์ของการทดลองทุกครั้งมีเงื่อนไขในสภาพแวดล้อมที่แน่นอนของการทดลองดังนั้นนักสถิติพยายามควบคุม "อัตราความผิดพลาดประเภทที่ 1" จะถูกปิดโดยไม่ทราบจำนวนเมื่อการรักษาถูกนำไปใช้ภายใต้เงื่อนไขที่แตกต่างกัน .
ขวด

@Flask ในทำนองเดียวกันไม่มีกระบวนการเชิงกลบนสถานีอวกาศนานาชาติที่มีการสอบเทียบอย่างสมบูรณ์แบบ แต่ความสนใจของวิศวกรในรายละเอียดและการลดข้อผิดพลาดทำให้มั่นใจได้ว่าเราไม่พบ Space Oddity ในมือของเรา
AdamO

วิศวกร (หวังว่า) จะทดสอบส่วนประกอบภายใต้เงื่อนไขที่คาดไว้ทั้งหมดจากนั้นเพิ่มส่วนต่างพิเศษเพิ่มเติมของข้อผิดพลาดตามรุ่นที่สร้างขึ้น นี่คือประเภทของพฤติกรรมที่สนับสนุนโดยเดมิงและแตกต่างจากการพยายามหาข้อสรุปเกี่ยวกับประสิทธิภาพในอนาคตของการรักษาหรือความสัมพันธ์ระหว่างปัจจัยจากการประเมินข้อผิดพลาดการสุ่มตัวอย่างของการศึกษาเพียงครั้งเดียว มันเป็นความแตกต่างที่น่าสนใจมากที่ฉันไม่เคยเห็นมาก่อน
ขวด

ฉันไม่คิดว่ามันเป็นสิ่งที่ป้องกันได้เลยที่จะบอกว่า "กระบวนการไม่ใช่เชิงสถิติเพราะอัตราความผิดพลาดเชิงบวกที่ผิดพลาดนั้นไม่ได้ถูกควบคุม" มีสถิติมากกว่าการใช้ความถี่เป็นประจำด้วยการควบคุมอัตราความผิดพลาดและบิตที่ไม่ใช่ความถี่เป็นบิตที่มีประโยชน์สำหรับวิทยาศาสตร์ คุณอาจต้องการอ่านกระดาษ arXived ล่าสุดของฉันในหัวข้อ: arxiv.org/abs/1311.0081
Michael Lew

1
@Adamo การขาดหลักฐานเชิงปริมาณใด ๆ ในการอนุมานเป็นประจำนั้นเป็นความเห็นที่นิยมในหมู่ Bayesians (และความเป็นไปได้) แต่มันได้รับการตรวจสอบอย่างดีและเป็นความเห็นที่แสดงออกอย่างชัดเจนของ Neyman และ Pearson ในบทความแรก บางทีคุณควรอ่านบทความของฉันด้วยใจที่เปิดกว้าง ข้อมูลมีอยู่ทั้งหมด
Michael Lew

3

อันดับแรกฉันไม่ใช่นักสถิตินักวิจัยที่มองว่ามันไม่กี่ปีที่ผ่านมาเพื่อหาสาเหตุที่วิธีการที่ฉันสังเกตเห็นการใช้งานรอบตัวฉันนั้นขาดไปและทำไมความสับสนมากมายเกี่ยวกับแนวคิดพื้นฐานเช่น "อะไร p-value คืออะไร " ฉันจะให้มุมมองของฉัน

ก่อนหนึ่งคำถามเพื่อความกระจ่าง:

นิตยสาร The Time เขียน

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

ข้อมูล;"

ฉันไม่แน่ใจว่าสิ่งนี้สอดคล้องกับคำจำกัดความของฟังก์ชั่นพลังงานที่ฉันพบในตำราเรียนซึ่งเป็นความน่าจะเป็นที่จะปฏิเสธค่า null เป็นฟังก์ชันของพารามิเตอร์θ ด้วย different ที่แตกต่างกันเรามีพลังที่แตกต่างกันดังนั้นฉันไม่เข้าใจคำพูดข้างต้น

Power เป็นฟังก์ชั่นของθ, ความแปรปรวนและขนาดตัวอย่าง ฉันไม่แน่ใจว่าความสับสนคืออะไร นอกจากนี้สำหรับหลาย ๆ กรณีที่การทดสอบที่สำคัญใช้สมมุติฐานว่างของ mean1 = mean2 เป็นเท็จเสมอ ในกรณีเหล่านี้ความสำคัญเป็นเพียงฟังก์ชันของขนาดตัวอย่าง โปรดอ่าน"การทดสอบทฤษฎีทางจิตวิทยาและฟิสิกส์ของ Paul Meehl " ซึ่งเป็นวิธีการที่ขัดแย้งกัน "ซึ่งได้อธิบายสิ่งต่าง ๆ มากมายสำหรับฉันและฉันไม่เคยเห็นคำตอบที่เพียงพอ Paul Meehl มีเอกสารอื่น ๆ เกี่ยวกับเรื่องนี้คุณสามารถค้นหาได้โดยการค้นหาชื่อของเขา

ในสาขารัฐศาสตร์ / เศรษฐศาสตร์ของฉันนักวิชาการใช้ข้อมูลทั้งหมดของประเทศในปีเดียว ดังนั้นเราไม่ควรกังวลกับตัวอย่างที่เล่นซอนี่?

หากคุณอ่านกระดาษ Simmons 2011 นี่เป็นเพียงหนึ่งในเทคนิค "p-hacking" ที่กล่าวถึง หากเป็นความจริงว่ามีชุดข้อมูลเพียงชุดเดียวและไม่มีใครเลือกตัวอย่างที่เลือกได้จากนั้นฉันคิดว่าไม่มีช่องว่างสำหรับการเพิ่มขนาดตัวอย่าง

ปัญหาของการรันการทดสอบหลายครั้ง แต่การรายงานเพียงแบบเดียวสามารถแก้ไขได้โดยข้อเท็จจริงที่ว่าคนอื่นในสาขาวิชาจะทดสอบกระดาษของคุณอีกครั้ง การคาดการณ์นี้นักวิชาการในสาขาของฉันมีแนวโน้มที่จะรวมส่วนการตรวจสอบความทนทานซึ่งพวกเขาแสดงให้เห็นว่าข้อกำหนดเฉพาะของแบบจำลองหลายแบบไม่เปลี่ยนแปลงผลลัพธ์ เพียงพอหรือไม่

หากการจำลองแบบเกิดขึ้นโดยไม่มีอคติการตีพิมพ์ก็ไม่จำเป็นต้อง "วารสารของผลลัพธ์ที่เป็นโมฆะ" ฉันจะบอกว่าส่วนการตรวจสอบความทนทานนั้นดี แต่มีไม่เพียงพอต่อหน้านักวิจัยที่ไม่สามารถเผยแพร่สิ่งที่พวกเขาพิจารณาผลลัพธ์ที่เป็นโมฆะ นอกจากนี้ฉันจะไม่พิจารณาผลลัพธ์ที่แข็งแกร่งเพียงเพราะเทคนิคการวิเคราะห์หลายอย่างบนข้อมูลเดียวกันมาถึงข้อสรุปเดียวกัน ผลที่แข็งแกร่งเป็นสิ่งหนึ่งที่ทำให้การคาดการณ์ที่ถูกต้องของผลกระทบ / ความสัมพันธ์ / etc บนข้อมูลใหม่

การจำลองแบบไม่ได้รับ p <0.05 ทั้งสองครั้ง ทฤษฎีควรได้รับการพิจารณาที่แข็งแกร่งยิ่งขึ้นหากคาดการณ์ผลกระทบ / ความสัมพันธ์ / อื่น ๆ ที่แตกต่างจากที่ใช้ในการศึกษาครั้งแรก ฉันไม่ได้หมายถึงการปรากฏตัวของผลกระทบหรือความสัมพันธ์ แต่ค่าที่แม่นยำหรือช่วงเล็ก ๆ ของค่าเมื่อเทียบกับช่วงของค่าที่เป็นไปได้ การปรากฏตัวของผลกระทบที่เพิ่มขึ้น / ลดลงหรือความสัมพันธ์เชิงบวก / เชิงลบมีแนวโน้มที่จะเป็นจริง 100% ในกรณีที่สมมติฐานว่างเป็นเท็จ อ่าน Meehl

Andrew Gelman และคนอื่น ๆ ยกประเด็นที่ไม่ว่าข้อมูลจะเป็นไปได้เสมอในการค้นหาและเผยแพร่ "รูปแบบ" บางอย่างที่ไม่ได้มีอยู่จริง แต่สิ่งนี้ไม่ควรกังวลเนื่องจากข้อเท็จจริงที่ว่า "รูปแบบ" เชิงประจักษ์จะต้องได้รับการสนับสนุนจากทฤษฎีและทฤษฎีการแข่งขันภายในวินัยจะมีส่วนร่วมในการอภิปราย / การแข่งขันเพื่อค้นหาว่าค่ายใดสามารถหา "รูปแบบ" เพิ่มเติมได้ ในสถานที่ต่าง ๆ หากรูปแบบเป็นของปลอมจริง ๆ แล้วทฤษฎีที่อยู่เบื้องหลังจะถูกขีดลงอย่างรวดเร็วเมื่อไม่มีรูปแบบที่เหมือนกันในตัวอย่าง / การตั้งค่าอื่น ๆ นี่ไม่ใช่ความก้าวหน้าทางวิทยาศาสตร์หรือไม่

วิทยาศาสตร์ไม่สามารถทำงานได้อย่างถูกต้องหากนักวิจัยไม่สามารถเผยแพร่ผลลัพธ์ที่เป็นโมฆะได้ เพียงเพราะรูปแบบที่ไม่ได้ค้นพบในตัวอย่างที่สอง / การตั้งค่าไม่ได้หมายความว่ามันไม่ได้อยู่ภายใต้เงื่อนไขของการศึกษาครั้งแรก

สมมติว่าแนวโน้มปัจจุบันของวารสารสำหรับผลลัพธ์โมฆะจริง ๆ แล้วจะเฟื่องฟูจริงหรือไม่มีวิธีที่เราจะรวมผลลัพธ์ที่เป็นโมฆะและเชิงบวกทั้งหมดเข้าด้วยกันและทำการอนุมานทฤษฎีที่พวกเขาทั้งหมดพยายามทดสอบหรือไม่?

นี่จะเป็นการวิเคราะห์อภิมาน ไม่มีอะไรพิเศษเกี่ยวกับผลลัพธ์ที่เป็นโมฆะในกรณีนี้นอกเหนือจากที่นักวิจัยไม่ได้เผยแพร่เพราะค่า p อยู่เหนือขีด จำกัด โดยพลการ ในการปรากฏตัวของการวิเคราะห์อคติสิ่งพิมพ์เผยแพร่ไม่น่าเชื่อถือเช่นเดียวกับวรรณกรรมทั้งหมดที่ทุกข์ทรมานจากอคติสิ่งพิมพ์ แม้ว่ามันจะมีประโยชน์การวิเคราะห์เมตาดาต้าก็ต่ำกว่าการประเมินทฤษฎีมากกว่าการให้ทฤษฎีนั้นทำการคาดการณ์ที่แม่นยำซึ่งถูกทดสอบแล้ว อคติการตีพิมพ์ไม่สำคัญเท่าที่การคาดการณ์ใหม่จะเลื่อนออกไปและถูกจำลองโดยกลุ่มอิสระ


ความสับสนของฉันเกี่ยวกับการอ้างอิงเวลาคือฟังก์ชั่นพลังงานไม่ควรถูก จำกัด เมื่อโมฆะเป็นจริงตามที่อ้างถึง โดเมนของฟังก์ชั่นการใช้พลังงานเป็นพื้นที่พารามิเตอร์ทั้งหมดถ้าฉันไม่ผิด และด้วยเหตุนี้จึงไม่มี "พลังงาน 0.8" ที่สามารถกำหนดให้ทดสอบได้
ไฮเซนเบิร์ก

ฉันเห็นด้วยอย่างเต็มที่กับคุณในจุดที่ต้องมีการทดสอบทฤษฎีกับข้อมูลใหม่ แต่ในกรณีของรัฐศาสตร์หรือเศรษฐศาสตร์มหภาคที่เรามีเพียงหลายประเทศและหลายปีที่ผ่านมาความพยายามจำเป็นต้องถูกขัดขวางหรือไม่?
ไฮเซนเบิร์ก

@Anh ทุกวินาทีมีข้อมูลใหม่ที่จะเพิ่ม ทฤษฎีควรทำนายอนาคต ในทางดาราศาสตร์มีการทำนายตำแหน่งของดาวหางเช่น นอกจากนี้คุณคำนวณพลังงานสำหรับค่าพารามิเตอร์ที่คาดหวัง ดังนั้นในกรณีของคำพูดพวกเขาจะอ้างถึงพลังในการทดสอบทฤษฎีที่ทำนายความสัมพันธ์อย่างน้อย r = .5
ขวด

หากต้องการชี้แจง r = 0.5 จะเป็นตัวอย่างของความสัมพันธ์ที่ทำนายไว้โดยทฤษฎี
ขวด

2

ฉันจะกล่าวง่ายๆว่าการทดสอบสมมติฐานว่างเปล่านั้นเกี่ยวกับสมมติฐานว่างเท่านั้น และโดยทั่วไปแล้วสมมติฐานว่างไม่ได้เป็นสิ่งที่น่าสนใจและอาจไม่ใช่ "สถานะเดิม" - โดยเฉพาะอย่างยิ่งในการทดสอบสมมติฐานชนิดถดถอย บ่อยครั้งที่ในสาขาสังคมศาสตร์ไม่มีสถานะที่เป็นอยู่ดังนั้นสมมติฐานว่างสามารถกำหนดเองได้โดยพลการ สิ่งนี้ทำให้การวิเคราะห์แตกต่างกันอย่างมากเนื่องจากจุดเริ่มต้นไม่ได้กำหนดไว้ดังนั้นงานวิจัยที่แตกต่างกันเริ่มต้นด้วยสมมติฐานว่างที่แตกต่างกันซึ่งส่วนใหญ่น่าจะเป็นไปตามข้อมูลที่มีอยู่ เปรียบเทียบสิ่งนี้กับกฎการเคลื่อนที่ของนิวตัน - มันสมเหตุสมผลที่จะให้มันเป็นสมมุติฐานว่างและพยายามหาทฤษฎีที่ดีกว่าจากจุดเริ่มต้นนี้

นอกจากนี้ค่า p ไม่ได้คำนวณความน่าจะเป็นที่ถูกต้อง - เราไม่ต้องการทราบเกี่ยวกับความน่าจะเป็นท้ายถ้าสมมติฐานทางเลือกมีแนวโน้มมากขึ้นเมื่อคุณเคลื่อนที่ต่อไปสู่ก้อย สิ่งที่คุณต้องการจริงๆคือทฤษฎีคาดการณ์ได้ดีแค่ไหน ตัวอย่างเช่นสมมติว่าฉันคาดการณ์ว่ามีโอกาส 50% ของ "ฝักบัวอาบน้ำขนาดเล็ก" และคู่แข่งของฉันคาดการณ์ว่ามีโอกาส 75% สิ่งนี้กลายเป็นสิ่งที่ถูกต้องและเราสังเกตเห็นฝักบัวสายอ่อน ตอนนี้เมื่อตัดสินใจว่าสภาพอากาศคนถูกต้องคุณไม่ควรให้เครดิตการคาดการณ์ของฉันเพิ่มเติมสำหรับการให้โอกาส 40% ของ "พายุฝนฟ้าคะนอง" หรือเอาเครดิตออกจากคู่แข่งของฉันเพื่อให้ "พายุฝนฟ้าคะนอง" โอกาส 0%

IDH

BF=P(D|HI)P(D|H¯I)

HBF=H0.001

104,490,00052,263,471yBin(n,0.5)y|θBin(n,θ)θU(0,1)yBetaBin(n,1,1)DU(0,,n)p=0.00015

BF=(ny)2n1n+1=(n+1)!2ny!(ny)!=11.90

1n+1=0.00000000960.00000011

นี่เป็นความจริงโดยเฉพาะอย่างยิ่งสำหรับตัวอย่างที่ Gelman วิพากษ์วิจารณ์ - มีการทดสอบสมมติฐานเพียงครั้งเดียวจริง ๆ และไม่ได้คิดมากนัก) สิ่งที่คำอธิบายทางเลือกคืออะไร (โดยเฉพาะอย่างยิ่งในการทำให้สับสน ทางเลือกที่ได้รับการสนับสนุนจากการวิจัยก่อนหน้านี้และที่สำคัญที่สุดคือ c) พวกเขาคาดการณ์อะไรบ้าง (ถ้ามี) ซึ่งแตกต่างอย่างมากจากโมฆะ?

H¯H1,,HKHk0.010.1

K

HK+1=Something else not yet thought of
HK+1H1,,HKH0HAH1,,HK
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.