คุณไม่สามารถหยุดกฎได้โดยไม่ต้องคำนึงถึงการกระจายของคุณและขนาดเอฟเฟกต์ของคุณซึ่งคุณไม่เคยรู้มาก่อน
ใช่แล้วเราต้องเน้นขนาดของเอฟเฟกต์ - และมันไม่เคยถูกมองว่าถูกต้องเพื่อพิจารณาเฉพาะค่า p และแน่นอนว่าเราไม่ควรแสดงตารางหรือกราฟที่แสดงค่า p หรือค่า F แทนที่จะเป็นขนาดเอฟเฟกต์
มีปัญหากับการทดสอบการอนุมานทางสถิติแบบดั้งเดิม (ซึ่งโคเฮนบอกว่ามีคุณค่าต่อตัวย่อของมันและฟิชเชอร์และเพียร์สันจะหันไปที่หลุมศพทั้งคู่หากพวกเขาเห็นทุกสิ่งที่ทำ
ในการกำหนด N คุณต้องกำหนดความสำคัญเป้าหมายและขีด จำกัด พลังงานแล้วรวมถึงการตั้งสมมติฐานจำนวนมากเกี่ยวกับการแจกจ่ายและโดยเฉพาะอย่างยิ่งคุณต้องกำหนดขนาดของเอฟเฟกต์ที่คุณต้องการสร้างด้วย Indolering นั้นถูกต้องตรงที่ควรเป็นจุดเริ่มต้น - ขนาดของเอฟเฟกต์ขั้นต่ำสุดที่ควรจะคุ้มทุนคืออะไร!
"สถิติใหม่" คือการสนับสนุนให้แสดงขนาดผลกระทบ (ตามความแตกต่างของคู่ที่เหมาะสม) พร้อมกับค่าเบี่ยงเบนมาตรฐานหรือความแปรปรวนที่เกี่ยวข้อง (เพราะเราจำเป็นต้องเข้าใจการแจกแจง) และค่าเบี่ยงเบนมาตรฐานหรือช่วงความเชื่อมั่น ล็อคค่า p และการตัดสินใจเกี่ยวกับว่าคุณกำลังทำนายทิศทางหรือเดิมพันแต่ละวิธี) แต่การตั้งค่าเอฟเฟกต์ขั้นต่ำของเครื่องหมายที่ระบุพร้อมการคาดคะเนทางวิทยาศาสตร์ทำให้สิ่งนี้ชัดเจน - แม้ว่าค่าเริ่มต้นก่อนวิทยาศาสตร์คือการลองผิดลองถูกและมองหาความแตกต่าง แต่อีกครั้งคุณได้ตั้งสมมติฐานเกี่ยวกับภาวะปกติหากคุณไปทางนี้
อีกวิธีหนึ่งคือการใช้กล่องแปลงเป็นวิธีการที่ไม่ใช้พารามิเตอร์ แต่อนุสัญญาเกี่ยวกับหนวดและค่าผิดปกติแตกต่างกันอย่างกว้างขวางและแม้กระทั่งจากนั้นก็เกิดขึ้นในสมมติฐานการกระจาย
ปัญหาการหยุดไม่ใช่ปัญหาของการตั้งค่านักวิจัยรายบุคคลหรือไม่ได้ตั้งค่า N แต่เรามีชุมชนนักวิจัยหลายพันคนโดยที่ 1,000 คนมากกว่า 1 / อัลฟ่าสำหรับระดับ 0.05 ดั้งเดิม คำตอบปัจจุบันได้เสนอให้จัดทำสถิติสรุป (หมายถึง stddev, stderr - หรือสอดคล้องกัน "ไม่ใช่พารามิเตอร์ - รุ่นมัธยฐาน ฯลฯ เช่นเดียวกับ boxplot) เพื่ออำนวยความสะดวก meta-analysis และนำเสนอผลรวมจากการทดลองทั้งหมดไม่ว่าจะเกิดขึ้น ถึงระดับอัลฟาโดยเฉพาะหรือไม่
ที่เกี่ยวข้องอย่างใกล้ชิดคือปัญหาการทดสอบหลายอย่างซึ่งเต็มไปด้วยความยากลำบากและที่การทดลองจะถูกเก็บไว้ oversimplistic ในชื่อของการรักษาอำนาจในขณะที่วิธี overcomplex เสนอให้วิเคราะห์ผลลัพธ์
ฉันไม่คิดว่าจะมีบทหนังสือตำราที่เกี่ยวข้องกับเรื่องนี้ได้อย่างชัดเจนเนื่องจากเรายังมีความคิดเล็กน้อยว่าเรากำลังทำอะไร ...
ในขณะนี้วิธีที่ดีที่สุดน่าจะใช้สถิติดั้งเดิมที่เหมาะสมที่สุดกับปัญหาต่อไปรวมกับการแสดงสถิติสรุป - ผลกระทบและข้อผิดพลาดมาตรฐานและ N เป็นสิ่งที่สำคัญที่สุด การใช้ช่วงความเชื่อมั่นนั้นโดยทั่วไปเทียบเท่ากับ T-test ที่สอดคล้องกัน แต่อนุญาตให้เปรียบเทียบผลลัพธ์ใหม่กับสิ่งตีพิมพ์ที่มีความหมายมากขึ้นเช่นเดียวกับการอนุญาตให้นักจริยธรรมส่งเสริมการทำซ้ำและเผยแพร่การทดลองที่ทำซ้ำและ meta-analyzes
ในแง่ของข้อมูลทฤษฎีหรือวิธีเบส์พวกเขาใช้เครื่องมือต่าง ๆ และตั้งสมมติฐานที่แตกต่างกัน แต่ก็ยังไม่มีคำตอบทั้งหมดและในที่สุดก็เผชิญกับปัญหาเดียวกันหรือแย่กว่านั้นเพราะการอนุมานแบบเบย์ก้าวถอยหลังจากการสรุป คำตอบและเพียงแค่เพิ่มหลักฐานที่เกี่ยวข้องกับการสันนิษฐานหรือไม่มีนักบวช
การเรียนรู้ของเครื่องในที่สุดก็มีผลลัพธ์ที่ต้องพิจารณาอย่างมีนัยสำคัญ - บ่อยครั้งกับ CIs หรือ T-Test บ่อยครั้งที่มีกราฟหวังจับคู่มากกว่าแค่เปรียบเทียบและใช้เวอร์ชั่นชดเชยอย่างเหมาะสมเมื่อการแจกแจงไม่ตรงกัน นอกจากนี้ยังมีข้อถกเถียงเกี่ยวกับการบูตสแตรปและการตรวจสอบข้ามและความเอนเอียงและความแปรปรวน ที่เลวร้ายที่สุดก็คือมันมีแนวโน้มที่จะสร้างและทดสอบจำนวนโมเดลทางเลือกโดยเพียงการกำหนดพารามิเตอร์อัลกอริธึมทั้งหมดในกล่องเครื่องมือจำนวนมากอย่างละเอียดเพื่อนำไปใช้กับชุดข้อมูลที่เก็บถาวรเพื่อให้สามารถทำการทดสอบได้หลายแบบ ที่แย่ที่สุดก็คือมันยังคงอยู่ในยุคมืดโดยใช้ความถูกต้องแม่นยำหรือแย่กว่านั้นคือการวัดแบบ F สำหรับการประเมิน - แทนที่จะใช้วิธีที่มีโอกาสถูกต้อง
ฉันได้อ่านบทความจำนวนมากเกี่ยวกับปัญหาเหล่านี้แล้ว แต่ไม่พบสิ่งที่น่าเชื่อถือเลยยกเว้นการสำรวจเชิงลบหรือเอกสารการวิเคราะห์เมตาที่ดูเหมือนว่าบ่งบอกว่านักวิจัยส่วนใหญ่ไม่จัดการและตีความสถิติอย่างถูกต้องตามมาตรฐาน "เก่าหรือใหม่ พลัง, การทดสอบหลายครั้ง, การปรับขนาดและการหยุดก่อนกำหนด, การตีความข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่น, ... นี่เป็นเพียงบางประเด็น
โปรดยิงฉันลง - ฉันต้องการพิสูจน์ว่าผิด! ในมุมมองของฉันมีน้ำมาก แต่เรายังไม่พบทารก! ในขั้นตอนนี้ไม่มีความคิดเห็นหรือแนวทางของแบรนด์เนมที่ดูเหมือนว่าจะเป็นคำตอบและผู้ที่ต้องการทิ้งทุกอย่างอื่นอาจทำให้ลูกเสีย