กฎการหยุดที่เป็นทางเลือกไม่ได้อยู่ในตำราเรียน


16

กฎการหยุดส่งผลกระทบต่อความสัมพันธ์ระหว่างค่า P และอัตราข้อผิดพลาดที่เกี่ยวข้องกับการตัดสินใจ รายงานล่าสุดโดย Simmons และคณะ 2011เหรียญเป็นปริญญาอิสระของนักวิจัยเพื่ออธิบายชุดของพฤติกรรมที่พวกเขาคิดว่าจะรับผิดชอบต่อรายงานจำนวนมากในวรรณคดีจิตวิทยาที่พบว่าไม่สามารถทำซ้ำได้

จากพฤติกรรมเหล่านั้นกฎการหยุดชั่วคราวหรือการวิเคราะห์ชั่วคราวที่ไม่ได้ประกาศเป็นสิ่งที่ฉันสนใจในขณะนี้ฉันอธิบายถึงผลกระทบของอัตราความผิดพลาดที่มีต่อนักเรียนของฉัน แต่ดูเหมือนจะไม่ได้อธิบายไว้ในหนังสือเรียนที่นักเรียนใช้ ใช้!). ในร้านหนังสือหลักในมหาวิทยาลัยของฉันมีหนังสือสถิติสิบสี่เล่มที่มุ่งเป้าไปที่นักเรียนระดับเบื้องต้นในสาขาวิชาต่าง ๆ เช่นวิทยาศาสตร์ชีวภาพธุรกิจวิศวกรรม ฯลฯ มีเพียงตำราเดียวเท่านั้นที่มีรายการดัชนี "การทดสอบตามลำดับ" และไม่มีรายการดัชนี ' หยุดกฎ '

มีตำราสถิติระดับเบื้องต้นที่อธิบายถึงปัญหากฎการหยุดแบบไม่บังคับหรือไม่?

Simmons, JP, Nelson, LD และ Simonsohn, U. (2011) false-positive จิตวิทยา: ความยืดหยุ่นไม่เปิดเผยในการเก็บรวบรวมข้อมูลและการวิเคราะห์อนุญาตให้นำเสนอสิ่งใดเป็นสําคัญ วิทยาศาสตร์จิตวิทยา, 22 (11), 1359–1366 ดอย: 10.1177 / 0956797611417632


1
ปัญหาหายไปหรือไม่ถ้าคุณทิ้งสถิติผู้ใช้บ่อยและใช้วิธีไอทีหรือแบบเบย์ (หรือแม้กระทั่งการเรียนรู้ด้วยเครื่องจักรบริสุทธิ์ขึ้นอยู่กับขนาดของชุดข้อมูลของคุณ) นั่นไม่ได้เป็นความจริง - การตอบโต้กับผู้ใช้ได้ของ Fisher และ NP ไม่เข้ากันเลยทำให้เกิดปัญหาใด ๆ ในอนาคตจะไม่มีผู้พบเห็นบ่อยขึ้นอีก
thedude

1
ใช่ปัญหาจะหายไปหากไม่มีการใช้วิธีการที่ควรปฏิบัติตามหลักการความถี่ อย่างไรก็ตามอนาคตเช่นนี้อาจไม่เกิดขึ้นในโลกนี้ มันคืออะไร?
Michael Lew - คืนสถานะโมนิก้า

2
@Michael: เกือบจะไม่ต้องสงสัยเลย (เช่น IT) หมายถึง "ทฤษฎีข้อมูล"
พระคาร์ดินัล

ในหัวข้อที่เกี่ยวข้อง: errorstatistics.com/2013/04/06/…
คุณพ่อ

2
@thedude โดยใช้กรอบทฤษฎีที่แตกต่างกันแนะนำปัญหาอื่นปัญหาที่นี่คือคุณกำลังปฏิบัติกับคณิตศาสตร์เป็นอย่างอื่นนอกเหนือจากคำอธิบายของโลก สถิติผู้ใช้บ่อยเป็นวิธีหนึ่งที่มีประโยชน์มากในการอธิบายโลก, แบบเบย์ก็เป็นอีกวิธีหนึ่ง จะไม่ให้คุณมีออราเคิลของความเป็นจริง
พอใจ

คำตอบ:


2

คุณไม่สามารถหยุดกฎได้โดยไม่ต้องคำนึงถึงการกระจายของคุณและขนาดเอฟเฟกต์ของคุณซึ่งคุณไม่เคยรู้มาก่อน

ใช่แล้วเราต้องเน้นขนาดของเอฟเฟกต์ - และมันไม่เคยถูกมองว่าถูกต้องเพื่อพิจารณาเฉพาะค่า p และแน่นอนว่าเราไม่ควรแสดงตารางหรือกราฟที่แสดงค่า p หรือค่า F แทนที่จะเป็นขนาดเอฟเฟกต์

มีปัญหากับการทดสอบการอนุมานทางสถิติแบบดั้งเดิม (ซึ่งโคเฮนบอกว่ามีคุณค่าต่อตัวย่อของมันและฟิชเชอร์และเพียร์สันจะหันไปที่หลุมศพทั้งคู่หากพวกเขาเห็นทุกสิ่งที่ทำ

ในการกำหนด N คุณต้องกำหนดความสำคัญเป้าหมายและขีด จำกัด พลังงานแล้วรวมถึงการตั้งสมมติฐานจำนวนมากเกี่ยวกับการแจกจ่ายและโดยเฉพาะอย่างยิ่งคุณต้องกำหนดขนาดของเอฟเฟกต์ที่คุณต้องการสร้างด้วย Indolering นั้นถูกต้องตรงที่ควรเป็นจุดเริ่มต้น - ขนาดของเอฟเฟกต์ขั้นต่ำสุดที่ควรจะคุ้มทุนคืออะไร!

"สถิติใหม่" คือการสนับสนุนให้แสดงขนาดผลกระทบ (ตามความแตกต่างของคู่ที่เหมาะสม) พร้อมกับค่าเบี่ยงเบนมาตรฐานหรือความแปรปรวนที่เกี่ยวข้อง (เพราะเราจำเป็นต้องเข้าใจการแจกแจง) และค่าเบี่ยงเบนมาตรฐานหรือช่วงความเชื่อมั่น ล็อคค่า p และการตัดสินใจเกี่ยวกับว่าคุณกำลังทำนายทิศทางหรือเดิมพันแต่ละวิธี) แต่การตั้งค่าเอฟเฟกต์ขั้นต่ำของเครื่องหมายที่ระบุพร้อมการคาดคะเนทางวิทยาศาสตร์ทำให้สิ่งนี้ชัดเจน - แม้ว่าค่าเริ่มต้นก่อนวิทยาศาสตร์คือการลองผิดลองถูกและมองหาความแตกต่าง แต่อีกครั้งคุณได้ตั้งสมมติฐานเกี่ยวกับภาวะปกติหากคุณไปทางนี้

อีกวิธีหนึ่งคือการใช้กล่องแปลงเป็นวิธีการที่ไม่ใช้พารามิเตอร์ แต่อนุสัญญาเกี่ยวกับหนวดและค่าผิดปกติแตกต่างกันอย่างกว้างขวางและแม้กระทั่งจากนั้นก็เกิดขึ้นในสมมติฐานการกระจาย

ปัญหาการหยุดไม่ใช่ปัญหาของการตั้งค่านักวิจัยรายบุคคลหรือไม่ได้ตั้งค่า N แต่เรามีชุมชนนักวิจัยหลายพันคนโดยที่ 1,000 คนมากกว่า 1 / อัลฟ่าสำหรับระดับ 0.05 ดั้งเดิม คำตอบปัจจุบันได้เสนอให้จัดทำสถิติสรุป (หมายถึง stddev, stderr - หรือสอดคล้องกัน "ไม่ใช่พารามิเตอร์ - รุ่นมัธยฐาน ฯลฯ เช่นเดียวกับ boxplot) เพื่ออำนวยความสะดวก meta-analysis และนำเสนอผลรวมจากการทดลองทั้งหมดไม่ว่าจะเกิดขึ้น ถึงระดับอัลฟาโดยเฉพาะหรือไม่

ที่เกี่ยวข้องอย่างใกล้ชิดคือปัญหาการทดสอบหลายอย่างซึ่งเต็มไปด้วยความยากลำบากและที่การทดลองจะถูกเก็บไว้ oversimplistic ในชื่อของการรักษาอำนาจในขณะที่วิธี overcomplex เสนอให้วิเคราะห์ผลลัพธ์

ฉันไม่คิดว่าจะมีบทหนังสือตำราที่เกี่ยวข้องกับเรื่องนี้ได้อย่างชัดเจนเนื่องจากเรายังมีความคิดเล็กน้อยว่าเรากำลังทำอะไร ...

ในขณะนี้วิธีที่ดีที่สุดน่าจะใช้สถิติดั้งเดิมที่เหมาะสมที่สุดกับปัญหาต่อไปรวมกับการแสดงสถิติสรุป - ผลกระทบและข้อผิดพลาดมาตรฐานและ N เป็นสิ่งที่สำคัญที่สุด การใช้ช่วงความเชื่อมั่นนั้นโดยทั่วไปเทียบเท่ากับ T-test ที่สอดคล้องกัน แต่อนุญาตให้เปรียบเทียบผลลัพธ์ใหม่กับสิ่งตีพิมพ์ที่มีความหมายมากขึ้นเช่นเดียวกับการอนุญาตให้นักจริยธรรมส่งเสริมการทำซ้ำและเผยแพร่การทดลองที่ทำซ้ำและ meta-analyzes

ในแง่ของข้อมูลทฤษฎีหรือวิธีเบส์พวกเขาใช้เครื่องมือต่าง ๆ และตั้งสมมติฐานที่แตกต่างกัน แต่ก็ยังไม่มีคำตอบทั้งหมดและในที่สุดก็เผชิญกับปัญหาเดียวกันหรือแย่กว่านั้นเพราะการอนุมานแบบเบย์ก้าวถอยหลังจากการสรุป คำตอบและเพียงแค่เพิ่มหลักฐานที่เกี่ยวข้องกับการสันนิษฐานหรือไม่มีนักบวช

การเรียนรู้ของเครื่องในที่สุดก็มีผลลัพธ์ที่ต้องพิจารณาอย่างมีนัยสำคัญ - บ่อยครั้งกับ CIs หรือ T-Test บ่อยครั้งที่มีกราฟหวังจับคู่มากกว่าแค่เปรียบเทียบและใช้เวอร์ชั่นชดเชยอย่างเหมาะสมเมื่อการแจกแจงไม่ตรงกัน นอกจากนี้ยังมีข้อถกเถียงเกี่ยวกับการบูตสแตรปและการตรวจสอบข้ามและความเอนเอียงและความแปรปรวน ที่เลวร้ายที่สุดก็คือมันมีแนวโน้มที่จะสร้างและทดสอบจำนวนโมเดลทางเลือกโดยเพียงการกำหนดพารามิเตอร์อัลกอริธึมทั้งหมดในกล่องเครื่องมือจำนวนมากอย่างละเอียดเพื่อนำไปใช้กับชุดข้อมูลที่เก็บถาวรเพื่อให้สามารถทำการทดสอบได้หลายแบบ ที่แย่ที่สุดก็คือมันยังคงอยู่ในยุคมืดโดยใช้ความถูกต้องแม่นยำหรือแย่กว่านั้นคือการวัดแบบ F สำหรับการประเมิน - แทนที่จะใช้วิธีที่มีโอกาสถูกต้อง

ฉันได้อ่านบทความจำนวนมากเกี่ยวกับปัญหาเหล่านี้แล้ว แต่ไม่พบสิ่งที่น่าเชื่อถือเลยยกเว้นการสำรวจเชิงลบหรือเอกสารการวิเคราะห์เมตาที่ดูเหมือนว่าบ่งบอกว่านักวิจัยส่วนใหญ่ไม่จัดการและตีความสถิติอย่างถูกต้องตามมาตรฐาน "เก่าหรือใหม่ พลัง, การทดสอบหลายครั้ง, การปรับขนาดและการหยุดก่อนกำหนด, การตีความข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่น, ... นี่เป็นเพียงบางประเด็น

โปรดยิงฉันลง - ฉันต้องการพิสูจน์ว่าผิด! ในมุมมองของฉันมีน้ำมาก แต่เรายังไม่พบทารก! ในขั้นตอนนี้ไม่มีความคิดเห็นหรือแนวทางของแบรนด์เนมที่ดูเหมือนว่าจะเป็นคำตอบและผู้ที่ต้องการทิ้งทุกอย่างอื่นอาจทำให้ลูกเสีย


มันไม่ใช่เรื่องของการยิงคุณฉันไม่คิดว่าจะมีวิธีแก้ปัญหาเหล่านี้ได้ เราเป็นมนุษย์ที่รู้จักรูปแบบในโลกนี้เราต้องตัดสินด้วยความถูกต้องบรรจบกัน หลังจากความพยายามของเขาในการพิสูจน์ว่าพระเจ้ามีอยู่จริงเดส์การ์ตได้พิสูจน์ความถูกต้องตามกฎหมาย บางครั้งมันอยู่ที่นั่นบางครั้งมันก็ไม่ได้ แต่ส่วนใหญ่เราเพียงแค่วิ่งออกไปต่อต้านพลังการคำนวณองค์ความรู้เล็ก ๆ น้อย ๆ ของเรา
พอใจ

1

ฉันไม่เชื่อว่า "กฎการหยุด" ที่เป็นทางเลือกเป็นเทคนิคศัพท์เกี่ยวกับการหยุดที่เหมาะสมที่สุด อย่างไรก็ตามฉันสงสัยว่าคุณจะพบกับการสนทนาเชิงลึกในหัวข้อในตำราสถิติจิตวิทยาระดับเริ่มต้น

เหตุผลที่เหยียดหยามสำหรับสิ่งนี้คือนักเรียนนักศึกษาสาขาสังคมศาสตร์ทุกคนมีทักษะทางคณิตศาสตร์ที่ไม่ดี คำตอบที่ดีกว่า IMHO คือการทดสอบแบบง่าย ๆ ไม่เหมาะสำหรับการทดลองทางสังคมศาสตร์ส่วนใหญ่ เราต้องดูความแข็งแรงของเอฟเฟกต์และดูว่ามันช่วยแก้ไขความแตกต่างระหว่างกลุ่มหรือไม่ อดีตสามารถบ่งชี้ว่าหลังเป็นไปได้แต่นั่นคือทั้งหมดที่มันสามารถทำได้

มาตรการของการใช้สวัสดิการการควบคุมของรัฐและการกลายเป็นเมืองล้วนมีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติกับมาตรการของพฤติกรรมทางศาสนา อย่างไรก็ตามเพียงแค่ระบุ p-value กำลังทำการทดสอบในความสัมพันธ์เชิงสาเหตุทั้งหมดหรือไม่มีอะไรเลย ดูต่อไปนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ผลลัพธ์จากการใช้จ่ายด้านสวัสดิการและความเป็นเมืองมีค่า p-นัยสำคัญทางสถิติ แต่การใช้จ่ายด้านสวัสดิการมีความสัมพันธ์กันอย่างมาก นั่นสวัสดิการการใช้จ่ายการแสดงดังกล่าวมีความสัมพันธ์ที่แข็งแกร่งกับมาตรการอื่น ๆ ของศาสนา ( อัตราที่ไม่ใช่ศาสนาเช่นเดียวกับความสะดวกสบายในศาสนา ) ที่กลายเป็นเมืองไม่ได้บรรลุ p-value ของ< .10บอกว่ากลายเป็นเมืองที่ไม่ได้ส่งผลกระทบต่อความเชื่อทางศาสนาทั่วไป แต่โปรดทราบว่าแม้การใช้จ่ายสวัสดิการไม่ได้อธิบายไอร์แลนด์หรือฟิลิปปินส์แสดงให้เห็นว่าบางส่วนผลกระทบอื่น ๆ (s) จะเปรียบเทียบแข็งแกร่งกว่าที่ของการใช้จ่ายสวัสดิการ

การใช้ "กฎการหยุด" สามารถนำไปสู่ผลบวกปลอมโดยเฉพาะอย่างยิ่งในขนาดตัวอย่างขนาดเล็กของจิตวิทยา จิตวิทยาในฐานะที่เป็นสนามถูกกักตัวไว้โดยนักวิเคราะห์สถิติเหล่านี้ อย่างไรก็ตามการวางความเชื่อทั้งหมดของเราลงบนค่า p ตามอำเภอใจก็ค่อนข้างโง่เช่นกัน แม้ว่าเราทุกคนจะส่งตัวอย่างขนาดและคำแถลงสมมุติฐานไปยังวารสารก่อนดำเนินการทดสอบเราจะยังคงพบข้อผิดพลาดที่เป็นเท็จเนื่องจากสถาบันการศึกษามีการรวมกลุ่มกันเพื่อให้มีนัยสำคัญทางสถิติ

สิ่งที่ถูกต้องที่จะทำคือไม่หยุดการทำเหมืองข้อมูลสิ่งที่ต้องทำคือการอธิบายผลลัพธ์ที่สัมพันธ์กับผลกระทบของมัน ทฤษฎีที่ถูกตัดสินไม่เพียง แต่จากความถูกต้องของการทำนายของพวกเขา แต่ยังโดยยูทิลิตี้ของการคาดการณ์เหล่านั้น ไม่ว่าวิธีการวิจัยจะดีแค่ไหนยาที่รักษาอาการหวัดได้ดีขึ้น 1% ไม่คุ้มกับค่าใช้จ่ายในการบรรจุลงในแคปซูล

การปรับปรุงเพื่อให้ชัดเจนฉันเห็นด้วยอย่างยิ่งว่านักสังคมศาสตร์ควรได้รับมาตรฐานที่สูงขึ้น: เราจำเป็นต้องปรับปรุงการศึกษามอบเครื่องมือทางสังคมศาสตร์ที่ดีขึ้นและเพิ่มระดับนัยสำคัญเป็น 3-sigma ฉันพยายามที่จะเน้นจุดที่เป็นตัวแทน: การศึกษาจิตวิทยาส่วนใหญ่ไม่มีค่าเพราะขนาดของเอฟเฟกต์เล็กมาก

แต่ด้วย Amazon Turk ฉันสามารถชดเชยการศึกษา 10 parralel และรักษาระดับความเชื่อมั่น 3-sigma ได้อย่างถูกต้อง แต่ถ้าความแข็งแกร่งของเอฟเฟกต์มีขนาดเล็กแสดงว่ามีภัยคุกคามที่สำคัญต่อความถูกต้องภายนอก ผลกระทบของการบิดเบือนอาจเกิดจากข่าวหรือการเรียงลำดับคำถามหรือ ...

ฉันไม่มีเวลาสำหรับการเขียนเรียงความ แต่ปัญหาคุณภาพภายในสังคมศาสตร์มีมากกว่าวิธีการทางสถิติที่เส็งเคร็ง


ฉันเข้าใจว่ามีการรวมตัวกันของการสังสรรค์ทางสังคม (โดยปกติแล้วเป็นการศึกษาที่ไม่ใช่การทดลอง) และการทดลองทางคลินิกที่นี่ อย่างไรก็ตามประโยคแรกของคุณไม่สมเหตุสมผล: การหยุดกฎเป็นเรื่องใหญ่ในการวิจัยทางคลินิก เหตุผลสำหรับเรื่องนี้คือหลายตัวที่สมมติฐานความสัมพันธ์ผ่านการทดสอบตามลำดับเป็นส่วนหนึ่งของprespecifiedแผนวิเคราะห์ อย่างไรก็ตามลิงก์ในคำถาม OPs ไม่ใช่ปัญหาของคณิตศาสตร์ที่ไม่ดี แต่เป็นหนึ่งในวิทยาศาสตร์ที่ไม่ดี ดำเนินการทดสอบทางสถิติหลายอย่างเพื่อ "รู้สึก" การวิเคราะห์ที่ถูกต้องและหยุดเมื่อมีความสำคัญคือวิทยาศาสตร์ที่ไม่ดีไม่ว่าคุณจะตัดมัน
AdamO

@ Adamo ฉันเห็นด้วย! เมื่อฉันเขียนสิ่งนี้ฉันเป็นนักศึกษาระดับปริญญาตรีที่พยายามใช้วิธีการขุดข้อมูลและเมื่อฉันไปเพื่อให้แน่ใจว่าฉันทำทุกอย่างถูกต้อง (ซึ่งฉันเป็น) ปฏิกิริยาเริ่มต้นที่ฉันได้รับจากอาจารย์และนักสถิติคือ ... ไร้เดียงสา กระแทกแดกดันขั้นตอนการปฏิบัติการมาตรฐานสำหรับห้องปฏิบัติการทางสังคมศาสตร์คือดำเนินการศึกษานำร่องจนกว่าพวกเขาจะพบสิ่งที่น่าสนใจ ฉันกำลังทำสิ่งเดียวกัน แต่จริงๆแล้วพยายามชดเชยมัน: p
Indolering

0

บทความที่คุณอ้างถึงไม่ได้กล่าวถึงกฎการหยุดและดูเหมือนว่าจะมีปัญหาเล็กน้อยในมือ ความสัมพันธ์เพียงเล็กน้อยของพวกเขาคือการทดสอบหลายครั้งซึ่งเป็นแนวคิดทางสถิติไม่ใช่การทดสอบทางวิทยาศาสตร์

ในวรรณคดีของการทดลองทางคลินิกคุณจะพบว่ากฎการหยุดทำอย่างเข้มงวดกับข้อมูลที่ชัดเจนเกี่ยวกับเงื่อนไขที่การศึกษาจะ "ดู": ขึ้นอยู่กับปีปฏิทินหรือการลงทะเบียนบุคคลปีการตั้งค่าระดับอัลฟ่าและ นอกจากนี้ยังมีขอบเขตของผลกระทบสำหรับการรักษาที่ "มีประสิทธิภาพ" และ "อันตราย" อันที่จริงเราควรจะมองไปที่การปฏิบัติที่เข้มงวดของการศึกษาดังกล่าวเป็นตัวอย่างของวิทยาศาสตร์ทำดี องค์การอาหารและยาจะกล่าวต่อไปอีกว่าหลังจากการค้นพบประสิทธิภาพอย่างมีนัยสำคัญนอกเหนือจากที่กำหนดไว้แล้วจะต้องมีการทดลองครั้งที่สองเพื่อตรวจสอบการค้นพบเหล่านี้ เรื่องนี้ยังคงเป็นปัญหาอยู่มากดังนั้นโธมัสเฟลมมิงจึงแนะนำว่าควรทำการศึกษาทางคลินิกทุกครั้งรับการตรวจสอบกับการทดลองยืนยันที่สองโดยอิสระดำเนินการโดยนิติบุคคลแยกต่างหาก เลวร้ายคือปัญหาของข้อผิดพลาดที่เป็นบวกเมื่อพิจารณาชีวิตและการดูแลทางการแพทย์

ด้วยการกำกับดูแลที่ไร้พิษภัยดูเหมือนว่าสาขาวิทยาศาสตร์อื่น ๆ มีการพัฒนาจริยธรรมที่ไม่ดีในการวิจัย อันที่จริงสังคมศาสตร์ไม่ได้ส่งผลกระทบต่อการรักษาที่ผู้คนได้รับพวกเขาจัดการในเชิงนามธรรมและแบบจำลองทางความคิดซึ่งเพิ่มความเข้าใจของเราเกี่ยวกับการทำงานร่วมกันของทฤษฎีและการสังเกต อย่างไรก็ตามผู้บริโภคของสังคมศาสตร์, ฆราวาสหรือวิทยาศาสตร์มักถูกนำเสนอด้วยการค้นพบที่ขัดแย้งกัน: ช็อคโกแลตเป็นสิ่งที่ดีสำหรับคุณ, ช็อคโกแลตเป็นสิ่งที่ไม่ดีสำหรับคุณ (ช็อคโกแลตเป็นสิ่งที่ดีสำหรับคุณน้ำตาลและไขมันในช็อคโกแลตไม่ดีสำหรับคุณ) เพศเป็นสิ่งที่ดีสำหรับคุณการแต่งงานทำให้คุณเศร้า / การแต่งงานทำให้คุณมีความสุข ฟิลด์นี้ถูกสะเพร่าด้วยวิทยาศาสตร์ที่ไม่ดี แม้ฉันมีความผิดในการทำงานเกี่ยวกับการวิเคราะห์ที่ฉันไม่พอใจกับภาษาสาเหตุอย่างยิ่งซึ่งถูกผูกติดอยู่กับคำแนะนำที่แข็งแกร่งเกี่ยวกับนโยบายและการสนับสนุนจากรัฐบาลกลางโดยไม่ยุติธรรมโดยสิ้นเชิงและมันก็ถูกตีพิมพ์

บทความของซิมมอนส์อธิบายอย่างมีประสิทธิภาพการเปิดเผยข้อมูลจะช่วยในการอธิบายประเภทของ "ทางลัด" ที่นักวิจัยทำในการศึกษาสังคมได้อย่างไร ซิมมอนส์แสดงในตารางที่ 1 เป็นตัวอย่างของวิธีการขุดลอกข้อมูลเพิ่มอัตราการผิดพลาดเชิงบวกอย่างผิดพลาดอย่างมากในลักษณะที่เป็นแบบฉบับของนักวิทยาศาสตร์ที่ผิดจรรยาบรรณ "การตกปลาเพื่อการค้นพบ" บทสรุปของการค้นพบในตารางที่ 2 อธิบายประเด็นที่ถูกละเว้นบ่อยครั้งของบทความซึ่งจะช่วยปรับปรุงความเข้าใจอย่างมากว่ามีการดำเนินการวิเคราะห์มากกว่าหนึ่งรายการอย่างไร

เพื่อสรุปกฎการหยุดจะเหมาะสมกับสมมติฐานที่กำหนดไว้ล่วงหน้าเท่านั้น: กฎเหล่านี้มีจริยธรรมและต้องการวิธีการทางสถิติ บทความของซิมมอนส์ยอมรับว่าการวิจัยส่วนใหญ่ไม่ได้ให้สิทธิ์เช่นนั้นและมันก็ไม่ถูกต้องตามหลักจริยธรรม แต่ภาษาทางสถิตินั้นน่าสนใจเพราะเหตุใดจึงผิด


ฉันไม่เข้าใจว่าทำไมคุณถึงพูดว่าเอกสารที่อ้างถึงมีปัญหาเล็กน้อยในมือ มันมีหัวข้อที่เรียกว่า "การมองอย่างใกล้ชิดกับความยืดหยุ่นในขนาดตัวอย่าง" ซึ่งทั้งหมดนี้เกี่ยวกับการหยุดที่ไม่จำเป็น มีลักษณะอื่น
Michael Lew - คืนสถานะโมนิก้า

@MichaelLew เพื่อสรุปคำตอบ: การหยุดกฎเกี่ยวข้องกับการทดลองทางคลินิกการสรรหาและการติดตาม แต่การทดสอบสมมติฐานที่กำหนดไว้เพียงครั้งเดียวนี่เป็นวิธีปฏิบัติที่ยอมรับได้ในการวิจัยอุปกรณ์ FDA และตัวแทนการรักษา บทความของซิมมอนส์กล่าวถึงจรรยาบรรณการวิจัยหลักเกณฑ์และการแฮ็ก p-Hacking ในงานวิจัยและนักวิชาการด้านเวชศาสตร์สังคม คุณสามารถอธิบายได้อย่างแม่นยำมากขึ้นว่าคุณเห็นความสัมพันธ์อย่างไร บางทีคุณสามารถแก้ไขโพสต์ของคุณเพื่อกำหนดคำศัพท์และให้การอ้างอิงถึงวรรณกรรมอื่น ๆ โดยเฉพาะเกี่ยวกับ "กฎการหยุด" ซึ่ง AFAIK ไม่มีอยู่นอกการทดลองทางคลินิก
AdamO

ฉันยังไม่คิดว่าลักษณะของคุณ "สาขาวิทยาศาสตร์อื่น ๆ มีจรรยาบรรณที่ไม่ดีในการวิจัย" มีความยุติธรรมหรือเป็นประโยชน์ ประเด็นคำถามเดิมของฉันคือดูเหมือนว่าจะไม่มีเหตุผลใดที่ผู้ใช้สถิตินอกเวลาจะต้องตระหนักถึงปัญหาที่อาจเกิดขึ้นจากการวิเคราะห์ชั่วคราวที่ไม่ได้ประกาศ มันไม่ยุติธรรมที่จะเรียกความไม่รู้ที่ผิดจรรยาบรรณ
Michael Lew - คืนสถานะโมนิก้า

@MichaelLew คุณนิยามว่าอะไรคือ "การวิเคราะห์ชั่วคราว"
AdamO

อดัมฉันไม่คิดว่าคุณถูกต้องในการบอกว่า "กฎการหยุดไม่อยู่นอกการทดลองทางคลินิก" พวกเขาอาจไม่ได้รับการกล่าวถึงนอกการทดลองทางคลินิก (ดูคำถามเดิมของฉัน) แต่มีอยู่สำหรับการทดลองทุกครั้ง แม้แต่การทดลองขนาดตัวอย่างที่แน่นอนก็ยังมีกฎการหยุด 'ดำเนินการต่อจนกว่าจะบรรลุขนาดตัวอย่าง'
Michael Lew - คืนสถานะโมนิก้า
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.