ข้อผิดพลาดในการออกแบบการทดลอง: หลีกเลี่ยงการทดลองที่ตายแล้ว


27

ฉันเจอคำพูดนี้หลายครั้ง:

การปรึกษานักสถิติหลังจากการทดลองเสร็จสิ้นมักจะเป็นเพียงการขอให้เขาทำการทดสอบชันสูตรศพ บางทีเขาอาจพูดได้ว่าการทดลองเสียชีวิตจากอะไร - โรนัลด์ฟิชเชอร์ (2481)

สำหรับฉันดูเหมือนว่าอาจจะเกรงใจเล็กน้อย ตัวอย่างเดียวที่ฉันเคยพบอธิบายว่าการทดลองตายโดยไม่มีการออกแบบที่ดีคือการขาดการควบคุมหรือการควบคุมที่ไม่ดี ตัวอย่างเช่นการทดลองที่ควบคุมการใช้ปุ๋ย แต่ไม่สามารถควบคุมสภาพแวดล้อมที่จำเป็นสำหรับการใช้งาน อาจเป็นเพียงฉัน แต่ดูเหมือนว่าการอ่านอย่างรวดเร็วในส่วน Wikipedia เกี่ยวกับหลักการออกแบบของ Fisherจะครอบคลุมฐานส่วนใหญ่

ในฐานะนักสถิติคุณเห็นการออกแบบปัญหาที่เกี่ยวข้องกับการทดสอบกับข้อมูลบ่อยเพียงใด พวกมันเกี่ยวข้องกับปัจจัยบางอย่างที่ฟิชเชอร์พูดถึงเสมอหรือมีข้อผิดพลาดร้ายแรงอื่น ๆ ที่เราไม่ควรมองหานักวิทยาศาสตร์ที่ผ่านการฝึกอบรมทางสถิติหรือไม่?


4
บ่อยแค่ไหน: บ่อยมาก ในการเรียกการทดลองว่า "คนตาย" มักจะไปไกลเกินไป แต่ฉันมีการทดลองหลายอย่างที่ฉันเห็นว่าดีขึ้นมากด้วยการเปลี่ยนแปลงเพียงเล็กน้อยในการออกแบบ
mark999

3
ฉันเห็นไม่กี่ ในขณะที่มันอาจจะเกรงใจในขณะนี้โปรดจำไว้ว่าเมื่อฟิชเชอร์กล่าวว่าคุณไม่สามารถมองหาวิกิพีเดีย อัตรานี้อาจสูงขึ้นมากในช่วงแรก ๆ
Glen_b -Reinstate Monica

4
ยินดีที่คุณยกประเด็นนี้ ฉันยังอยากรู้เกี่ยวกับสิ่งที่อาจจะเป็นครั้งแรกที่ฉันได้เห็นตัวระบุสี่เท่า: "สำหรับฉันดูเหมือนว่าอาจจะเกรงใจเล็กน้อย" :-)
rolando2

1
@ rolando2: เฮ้ก็คือฟิชเชอร์ เขาได้รับการคัดเลือกทั้งหมด: D
naught101

5
ฉันได้เห็น - ตามตัวอักษร - หลายพันชุดข้อมูลในอาชีพของฉัน ส่วนใหญ่ถูกรวบรวมเพื่อวัตถุประสงค์ที่เป็นทางการเช่นการปฏิบัติตามข้อกำหนดด้านกฎระเบียบ ฉันจำไม่ได้ว่ามีซิงเกิ้ลที่ไม่มีปัญหาเกี่ยวกับการออกแบบ นี่ไม่ได้เป็นการบอกว่าชุดข้อมูลนั้นไร้ประโยชน์หรือ "ตาย": แต่ในเกือบทุกกรณีงานของฉันคือ (เพื่อทำการเปรียบเทียบทางการแพทย์ต่อไป) ก่อนที่จะฟื้นชุดข้อมูลใหม่และจากนั้นนำไปใช้กับวัตถุประสงค์ที่ตั้งใจถ้าเป็นไปได้
whuber

คำตอบ:


14

ฉันเชื่อว่าฟิชเชอร์มีความหมายในคำพูดที่โด่งดังของเขานอกเหนือไปจากการพูดว่า "เราจะทำการออกแบบแบบเต็มรูปแบบสำหรับการศึกษาของเรา" หรือวิธีการออกแบบอื่น ให้คำปรึกษากับนักสถิติเมื่อการวางแผนการทดสอบหมายถึงการคิดถึงทุกแง่มุมของปัญหาด้วยวิธีที่ชาญฉลาดรวมถึงวัตถุประสงค์การวิจัยตัวแปรใดที่เกี่ยวข้องการรวบรวมข้อมูลการจัดการข้อมูลข้อผิดพลาดการประเมินระดับกลางว่าการทดลองดำเนินไปอย่างไรและมาก มากกว่า. บ่อยครั้งที่ฉันพบว่ามันเป็นเรื่องสำคัญที่จะต้องเห็นทุกแง่มุมของการทดลองที่นำเสนอเพื่อทำความเข้าใจว่าปัญหาอยู่ตรงไหน

ประสบการณ์ของฉันส่วนใหญ่มาจากการใช้งานทางการแพทย์ ปัญหาที่ฉันพบบางอย่างที่สามารถป้องกันได้โดยการปรึกษาสถิติล่วงหน้า:

  • ขนาดตัวอย่างที่ไม่เพียงพอคือจำนวนหนึ่งในรายการนี้ บ่อยครั้งที่ข้อมูลจากการศึกษาก่อนหน้านี้มีอยู่และมันจะง่ายต่อการประเมินขนาดตัวอย่างที่ต้องการอย่างสมเหตุสมผล ในกรณีเหล่านี้การขอความช่วยเหลือเพียงอย่างเดียวมักจะทำการวิเคราะห์เชิงพรรณนาของข้อมูลอย่างละเอียดและให้สัญญาว่าจะทำการวิจัยเพิ่มเติมในบทความต่อไป (ไม่ใช่การเผยแพร่โดยทั่วไปไม่ใช่ตัวเลือกหลังจากแพทย์ใช้เวลาอันมีค่า)
  • การดำเนินการทดลองถูกปล่อยไว้เพื่อความสะดวกและโอกาสแทนที่จะออกแบบ ตัวอย่างที่ฉันกำลังทำงานอยู่มีการรวบรวมการวัดเมื่อเวลาผ่านไป เวลาในการวัดความถี่ในการวัดและระยะเวลาสิ้นสุดการตรวจสอบทั้งหมดนั้นแตกต่างกันอย่างมากระหว่างบุคคล การเพิ่มจำนวนการวัดต่อบุคคลและการกำหนดวันที่วัดและสิ้นสุดระยะเวลาการติดตามจะเป็นงานพิเศษที่ค่อนข้างน้อย (ในกรณีนี้) และจะเป็นประโยชน์อย่างมากต่อการศึกษา
  • การควบคุมปัจจัยรบกวนที่ไม่ดีซึ่งสามารถควบคุมได้ง่าย เช่นการวัดบางครั้งดำเนินการในวันที่เก็บตัวอย่างและบางครั้งก็ปล่อยให้ความเป็นไปได้ที่ตัวอย่างจะลดลง
  • การจัดการข้อมูลที่ไม่ดีรวมถึงรายการโปรดส่วนตัวของฉัน "ฉันปัดเศษข้อมูลก่อนที่จะใส่ลงในคอมพิวเตอร์เพราะเครื่องไม่ถูกต้องในการวัด" บ่อยครั้งที่ข้อมูลที่เกี่ยวข้องนั้นไม่ได้ถูกรวบรวมและเป็นไปไม่ได้ที่จะได้รับมันหลังจากข้อเท็จจริง

บ่อยครั้งที่ปัญหาเกี่ยวกับการศึกษากลับไปสู่ความคิดขั้นต้นของการวิจัย:

  • บางครั้งข้อมูลถูกรวบรวมโดยไม่มีวัตถุประสงค์ที่ชัดเจนและเพียง แต่สันนิษฐานว่ามันจะมีประโยชน์อย่างใด การสร้างสมมติฐานและ "ผลลัพธ์ที่สำคัญ" นั้นถูกทิ้งไว้ให้กับสถิติ
  • และตรงกันข้าม: ข้อมูลถูกคัดลอกมาพร้อมกับจุดประสงค์ในการพิสูจน์จุดเฉพาะที่ PI มีอยู่ในหัวของเขาโดยไม่คำนึงถึงข้อมูลและสิ่งที่สามารถพิสูจน์ได้จริง เวลานี้นักสถิติควรจะใส่ตราประทับของเขาที่มีความสำคัญในข้อสรุปก่อนเขียนโดยไม่มีข้อสรุปที่ได้รับการปรับในหน้าของข้อมูล

จนถึงตอนนี้สิ่งนี้ดูเหมือนว่านักสถิติจะทนทุกข์ทรมานและความสมบูรณ์ทางวิทยาศาสตร์อาจเกิดขึ้นเมื่อ PI พยายามผลักดันข้อสรุปที่ไม่ได้รับการสนับสนุนจากข้อมูล (เป็นการสนทนาที่สนุกเสมอ) แต่ทีมทดลองก็ประสบเช่นกันเพราะพวกเขาทำงานพิเศษที่ไม่จำเป็น (ในขณะที่ไม่ได้ทำงานที่จำเป็น) ในระหว่างขั้นตอนการทดลองและต้องใช้เวลามากขึ้นในการพูดคุยกับนักสถิติหลังจากข้อเท็จจริงเพราะพวกเขาไม่ได้รับคำแนะนำมาก่อน และแน่นอนกระดาษขั้นสุดท้ายจะแย่กว่านั้นจะมีข้อสรุปน้อยลง (และ "คาดเดา" มากขึ้น) และมีแนวโน้มว่าจะไม่ทำให้มันกลายเป็นวารสารที่มีผลกระทบสูงที่ PI ต้องการ


สำหรับเรื่องที่สองของชุดกระสุนปืนที่สองของคุณฉันคิดว่าเหตุผลปกติของการศึกษาคือการรวบรวมข้อมูลโดยมีจุดประสงค์เพื่อพิสูจน์จุดที่เฉพาะเจาะจง
Robert Jones

1
แน่นอนว่าคุณพูดถูก ฉันสั้นไปหน่อย สิ่งที่ฉันหมายถึงคือสถานการณ์ที่ PI ที่มุ่งมั่นมากที่จะพิสูจน์จุดและข้อมูลคุณภาพต่ำที่ไม่สามารถพิสูจน์จุดนั้น (บ่อยครั้งเนื่องจากปัญหาการออกแบบขั้นพื้นฐาน) มารวมกัน
Rob Hall

12

สองคำ: ขนาดตัวอย่าง ... การวิเคราะห์พลังงานเป็นสิ่งจำเป็น โดยการรวมนักสถิติที่มีความสามารถไว้ในทีมของคุณตั้งแต่เริ่มต้นคุณจะช่วยให้คุณไม่ต้องกังวลมากเมื่อคุณเขียนผลลัพธ์และหัวข้อการสนทนาของต้นฉบับหรือรายงานของคุณ

มันเป็นเรื่องธรรมดาเกินไปสำหรับผู้ตรวจสอบหลักในการรวบรวมข้อมูลก่อนที่จะปรึกษากับนักสถิติที่มีความคาดหวังของ "แบบจำลองการทำนาย" หรือ "ความสัมพันธ์เชิงสาเหตุ" จากกลุ่มตัวอย่างที่น้อยกว่า 30 คน หาก PI ปรึกษากับนักสถิติก่อนรวบรวมข้อมูลสถิติจะสามารถแจ้ง PI หลังจากการวิเคราะห์ที่เหมาะสมเพื่อรวบรวมข้อมูล / วิชาเพิ่มเติมหรือเพื่อปรับโครงสร้างเป้าหมายของแผน / โครงการวิเคราะห์ของพวกเขา


1
ฉันไม่เห็นด้วยกับ "การวิเคราะห์พลังงานเป็นสิ่งจำเป็น" ฉันคิดว่าผู้คนจำนวนมากพูดเกินความสำคัญของการวิเคราะห์พลังงาน
mark999

3
@ mark999: อาจเป็นได้ แต่ก็ไม่ได้คัดค้านความสำคัญของการทำการวิเคราะห์พลังงานก่อนที่จะทำการทดสอบซึ่งฉันเข้าใจว่าเป็นประเด็นของ Matt
Scortchi - Reinstate Monica

3
@ mark999: พวกเขาสามารถกลายเป็นประโยชน์ได้แน่นอน แต่ภายใต้สถานการณ์ใดที่คุณไม่แนะนำให้ทำการวิเคราะห์พลังงานใด ๆ (ฉันรวมถึงการประมาณความกว้างของช่วงความเชื่อมั่นที่คาดไว้) ก่อนที่จะทำการทดสอบ ฉันคิดได้เพียงแค่ (1) การศึกษานำร่องที่คุณสนใจเพียงแค่ทำงานผ่านโปรโตคอลและประมาณข้อผิดพลาดโดยประมาณ & (2) การทดลองที่คุณไม่สามารถเลือกขนาดตัวอย่างด้วยเหตุผลบางอย่าง การวิเคราะห์พลังงานซ้ำซ้อน
Scortchi - Reinstate Monica

2
@ mark999: ฉันคิดว่าเราทำ สำหรับกรณีของคุณ (B) ฉันขอแนะนำการศึกษานำร่อง -> การวิเคราะห์พลังงาน -> การทดลองเพื่อทดสอบสมมติฐานหรือประเมินขนาดผลกระทบเป็นแผนที่ไม่สามารถเข้าถึงได้
Scortchi - Reinstate Monica

3
แม้ว่าคุณจะมีขนาดตัวอย่างคงที่ฉันก็ไม่เห็นเหตุผลใด ๆ ที่จะฝังหัวคุณลงบนพื้นทรายและหลีกเลี่ยงการวิเคราะห์พลังงาน (การตอบสนองที่สมเหตุสมผลต่อข้อ จำกัด ของทรัพยากร
Andy W

11

ฉันคิดว่ามันขึ้นอยู่กับว่าคุณตีความคำว่า "การออกแบบ" อย่างเข้มงวดแค่ไหน บางครั้งมันก็ถูกนำไปใช้เพื่อหมายถึงการสุ่มสมบูรณ์เทียบกับการสุ่มบล็อก ฯลฯ ฉันไม่คิดว่าฉันเคยเห็นการศึกษาที่เสียชีวิตจากสิ่งนั้น นอกจากนี้ตามที่คนอื่น ๆ พูดถึงฉันสงสัยว่า "ตายแล้ว" นั้นแรงเกินไป แต่ก็ขึ้นอยู่กับว่าคุณตีความคำว่าอย่างไร แน่นอนฉันเคยเห็นการศึกษาที่ 'ไม่สำคัญ' (และต่อมานักวิจัยไม่ได้พยายามเผยแพร่ผล) ภายใต้สมมติฐานที่ว่าการศึกษาเหล่านี้อาจมีนัยสำคัญหากดำเนินการแตกต่างกัน (ตามคำแนะนำที่ชัดเจนที่ฉันจะให้) และด้วยเหตุนี้ได้รับการตีพิมพ์อาจมีคุณสมบัติเป็น "ตาย" ในแง่ของความคิดนี้ปัญหาด้านพลังงานที่ได้รับจาก @RobHall และ @MattReichenbach ค่อนข้างตรงไปตรงมา แต่มีพลังมากกว่าขนาดตัวอย่างและสิ่งเหล่านั้นอาจตกอยู่ภายใต้แนวคิดที่หลวมของ "การออกแบบ" นี่คือตัวอย่างบางส่วน:

  • ไม่รวบรวม / บันทึก / หรือทิ้งข้อมูล
    ฉันทำงานเกี่ยวกับการศึกษาที่นักวิจัยสนใจว่าลักษณะเฉพาะนั้นเกี่ยวข้องกับมะเร็งหรือไม่ พวกเขาได้หนูจากสองบรรทัด (เช่นสายพันธุกรรม, หนูถูกเพาะพันธุ์สำหรับคุณสมบัติบางอย่าง) ที่หนึ่งบรรทัดคาดว่าจะมีลักษณะมากกว่าอีก อย่างไรก็ตามลักษณะที่เป็นปัญหานั้นไม่ได้วัดจริงแม้ว่าจะเป็นไปได้ก็ตาม สถานการณ์นี้คล้ายคลึงกับการแบ่งขั้วหรือการแยกตัวแปรต่อเนื่องซึ่งจะช่วยลดพลังงาน อย่างไรก็ตามแม้ว่าผลลัพธ์จะเป็น 'สำคัญ' พวกเขาก็จะให้ข้อมูลน้อยกว่าถ้าเรารู้ขนาดของลักษณะสำหรับเมาส์แต่ละตัว

    อีกกรณีในหัวข้อเดียวกันนี้ไม่ได้คิดและรวบรวมโควาเรียที่ชัดเจน

  • การออกแบบแบบสอบถามไม่ดี
    ฉันเพิ่งทำงานเกี่ยวกับการศึกษาที่มีการสำรวจความพึงพอใจของผู้ป่วยภายใต้เงื่อนไขสองประการ อย่างไรก็ตามไม่มีรายการใดถูกทำคะแนนย้อนกลับ ดูเหมือนว่าผู้ป่วยส่วนใหญ่เพิ่งลงรายการและทำเครื่องหมาย 5s ทั้งหมด ( เห็นด้วยอย่างยิ่ง ) อาจเป็นไปได้โดยไม่ต้องอ่านรายการ มีปัญหาอื่น ๆ อยู่บ้าง แต่นี่ก็ค่อนข้างชัดเจน เพื่อนที่ดูแลการศึกษาบอกฉันว่าเธอที่เข้าร่วมได้สนับสนุนให้เธออย่างชัดเจนที่จะไม่ให้สัตว์แพทย์ทำการศึกษากับนักสถิติคนแรกแม้ว่าเราจะว่างและสะดวกสำหรับการให้คำปรึกษาดังกล่าว


โอ้โฮ ... กับคนแรกสิ่งที่ไม่พวกเขาวัด? ที่ดูเหมือนเล็กน้อยเอ่อชัดเจน หรือว่าพวกเขาได้รับการรับรองล่วงหน้าว่าคุณสมบัตินั้นแตกต่างกันไปในแต่ละบรรทัดหรือไม่? ตัวอย่างที่สองคือเท่ห์การสุ่มเลือกที่คนส่วนใหญ่ไม่คิด
naught101

5
มันเป็นแค่การทดสอบ 1 สายพันธุ์เทียบกับอีกสายพันธุ์หนึ่ง ลักษณะที่เป็นปัญหานั้นมักจะสูงกว่าสำหรับหนึ่งบรรทัด แต่มีการทับซ้อนกัน - การแจกแจงจะไม่แยกออกจากกันโดยสิ้นเชิง
gung - Reinstate Monica

ฉันมีประสบการณ์คล้ายกันในประเด็นที่ 1: อุปกรณ์ microfluidic ได้รับการตั้งค่าให้รู้จักเซลล์บางประเภท ส่วนผสมของเซลล์ที่รับรู้และเซลล์ควบคุมถูกฉีดและสตรีมวิดีโอ + สัญญาณที่จะใช้สำหรับการรับรู้ได้รับมา น่าเสียดายที่ในขณะที่สตรีมวิดีโอสามารถใช้เป็นข้อมูลอ้างอิงได้ว่ามีเซลล์อยู่ที่เครื่องตรวจจับในช่วงเวลาที่กำหนดหรือไม่ไม่มีวิธีที่จะบอกว่าเซลล์ประเภทนั้นเป็นจริงหรือไม่ดังนั้นจึงไม่มีวิธีการตรวจสอบว่าสัญญาณจริงหรือ false false หรือไม่มีสัญญาณเป็น true positive หรือ false positive ...
cbeleites รองรับ Monica

8

ฉันเคยเห็นปัญหาแบบนี้ในการทดลองทางจิตวิทยาและการสำรวจ

ในกรณีหนึ่งการทดลองทั้งหมดจะต้องถูกเขียนด้วยประสบการณ์การเรียนรู้ มีปัญหาในหลาย ๆ ระดับที่ทำให้เกิดผลลัพธ์ที่สับสน แต่ผลลัพธ์ที่ดูเหมือนจะให้การสนับสนุนสมมติฐานบางอย่าง ในท้ายที่สุดฉันสามารถช่วยวางแผนการทดลองที่เข้มงวดยิ่งขึ้นซึ่งโดยพื้นฐานแล้วมีอำนาจมากพอที่จะปฏิเสธสมมติฐานได้

ในอีกกรณีหนึ่งฉันถูกส่งแบบสำรวจที่ได้รับการออกแบบและดำเนินการแล้วและมีปัญหาหลายอย่างที่ส่งผลให้เกิดความสนใจหลายด้าน ยกตัวอย่างเช่นในประเด็นสำคัญพวกเขาถามว่าลูกค้าหันหน้าหนีจากกิจกรรมกี่ครั้งเนื่องจากลูกค้าเต็มเมื่อพวกเขามาถึง ปัญหาคือไม่มีคำถามเกี่ยวกับช่วงเวลาดังนั้นคุณไม่สามารถบอกความแตกต่างระหว่างคนที่พยายามเข้าร่วมได้ 4 ครั้งและถูกเบี่ยงเบนไป 4 ครั้งกับคนที่พยายามเข้าร่วม 40 ครั้งและหันไปเพียง 4 ครั้ง .

ฉันไม่ใช่นักสถิติผู้ผ่านการฝึกอบรม แต่ถ้าพวกเขามาหาฉันล่วงหน้าฉันจะสามารถช่วยพวกเขาแก้ไขปัญหาเหล่านี้และได้ผลลัพธ์ที่ดีขึ้น ในกรณีแรกมันยังคงน่าผิดหวัง "ขออภัยสมมติฐานของคุณดูไม่น่าจะเกิดขึ้นอย่างมาก" แต่มันอาจช่วยพวกเขาในการทดลองครั้งที่สอง ในกรณีที่สองมันจะให้คำตอบสำหรับคำถามที่สำคัญและจะทำให้ผลลัพธ์คมชัดขึ้น (ปัญหาอีกประการหนึ่งคือพวกเขาสำรวจสถานที่หลายแห่งในช่วงเวลาหนึ่งและอย่างน้อยบางคนก็ทำการสำรวจหลายครั้งโดยไม่มีคำถามเช่น "คุณเคยทำแบบสำรวจนี้ที่อื่นหรือไม่")

อาจไม่ใช่ปัญหาด้านสถิติ แต่ในทั้งสองกรณีนี้ผู้เชี่ยวชาญด้านโดเมนที่ชาญฉลาดมีการศึกษาที่ดีได้สร้างเครื่องมือที่มีข้อบกพร่องและผลลัพธ์คือการทดลองที่ตายแล้วและการทดลองหนึ่งครั้งกับการตัดแขนขา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.