เท่าที่การทดสอบความสำคัญดำเนินไป (หรือสิ่งอื่นใดที่ทำสิ่งเดียวกันกับการทดสอบความสำคัญ) ฉันคิดมานานแล้วว่าวิธีที่ดีที่สุดในสถานการณ์ส่วนใหญ่มีแนวโน้มที่จะประเมินขนาดของเอฟเฟ็กต์มาตรฐานด้วยช่วงความมั่นใจ 95% ขนาดผลกระทบ ไม่มีอะไรใหม่ที่นั่น - คุณสามารถสลับไปมาระหว่างทางคณิตศาสตร์ได้ - ถ้าค่า p สำหรับ 'ไม่มีศูนย์' คือ <.05 ดังนั้น 0 จะอยู่นอก 95% CI และตรงกันข้าม ในความคิดของฉันข้อดีของมันคือจิตวิทยา; นั่นคือทำให้ข้อมูลสำคัญที่มีอยู่ แต่คนไม่สามารถมองเห็นได้เมื่อรายงานค่า p เท่านั้น ตัวอย่างเช่นเป็นเรื่องง่ายที่จะเห็นว่าผลกระทบนั้นสำคัญมาก 'แต่มีขนาดเล็กอย่างน่าขัน หรือ 'ไม่สำคัญ' แต่เพียงเพราะแถบข้อผิดพลาดมีขนาดใหญ่ในขณะที่ผลโดยประมาณเป็นสิ่งที่คุณคาดหวังมากหรือน้อย เหล่านี้สามารถจับคู่กับค่าดิบและ CI ของพวกเขา
ตอนนี้ในหลายสาขาค่าดิบมีความหมายอย่างแท้จริงและฉันรู้ว่าทำให้เกิดคำถามว่ามันยังคุ้มค่าหรือไม่ที่จะคำนวณขนาดของเอฟเฟกต์เนื่องจากเรามีค่าเช่นค่าเฉลี่ยและความลาดชัน ตัวอย่างอาจดูที่การเจริญเติบโตแบบแคระแกรน เรารู้ว่ามันหมายความว่าอะไรสำหรับเด็กชายอายุ 20 ปีที่ผิวขาวจะสั้นลง 6 +/- 2 นิ้ว (เช่น 15 +/- 5 ซม.) มากกว่าที่พวกเขาจะทำเช่นนั้นทำไมถึงพูดถึง ? ฉันมักจะคิดว่ายังคงมีค่าในการรายงานทั้งและฟังก์ชั่นสามารถเขียนเพื่อคำนวณสิ่งเหล่านี้เพื่อให้มันเป็นงานพิเศษเล็ก ๆ น้อย ๆ แต่ฉันตระหนักว่าความคิดเห็นจะแตกต่างกันไป ฉันยืนยันว่าการประเมินจุดด้วยช่วงความเชื่อมั่นจะแทนที่ค่า p เป็นส่วนแรกของการตอบกลับของฉัน d= - 1.6 ± .5
ในทางกลับกันฉันคิดว่าคำถามที่ใหญ่กว่าคือ 'เป็นสิ่งที่การทดสอบความสำคัญทำในสิ่งที่เราต้องการจริงๆหรือไม่' ฉันคิดว่าปัญหาที่แท้จริงคือสำหรับคนส่วนใหญ่ที่วิเคราะห์ข้อมูล (เช่นผู้ปฏิบัติงานที่ไม่ใช่นักสถิติ) การทดสอบที่สำคัญอาจกลายเป็นการวิเคราะห์ข้อมูลทั้งหมด สำหรับฉันแล้วสิ่งที่สำคัญที่สุดคือการมีวิธีคิดที่จะคิดเกี่ยวกับสิ่งที่เกิดขึ้นกับข้อมูลของเราและการทดสอบสมมติฐานที่ว่างเปล่านั้นสำคัญที่สุดก็คือส่วนเล็ก ๆ ของสิ่งนั้น ขอยกตัวอย่างจินตภาพ (ฉันยอมรับว่านี่เป็นภาพล้อเลียน แต่น่าเสียดายที่ฉันกลัวว่ามันจะเป็นไปได้)
บ๊อบทำการศึกษารวบรวมข้อมูลบางอย่างหรืออย่างอื่น เขาคาดว่าข้อมูลจะได้รับการกระจายโดยปกติการจัดกลุ่มรอบค่าบางอย่างแน่นหนาและตั้งใจที่จะทำการทดสอบหนึ่งตัวอย่างเพื่อดูว่าข้อมูลของเขานั้นแตกต่างอย่างมีนัยสำคัญจากค่าที่กำหนดไว้ล่วงหน้าหรือไม่ หลังจากรวบรวมตัวอย่างของเขาเขาตรวจสอบเพื่อดูว่าข้อมูลของเขามีการกระจายตามปกติและพบว่าพวกเขาไม่ได้ พวกมันไม่มีก้อนเนื้อที่อยู่ตรงกลาง แต่ค่อนข้างสูงในช่วงเวลาที่กำหนดและตามด้วยหางยาวซ้าย บ๊อบกังวลเกี่ยวกับสิ่งที่เขาควรทำเพื่อให้แน่ใจว่าการทดสอบของเขาถูกต้อง เขาลงเอยด้วยการทำอะไรบางอย่าง (เช่นการแปลงการทดสอบแบบไม่อิงพารามิเตอร์ ฯลฯ ) แล้วรายงานสถิติการทดสอบและค่า p
ฉันหวังว่ามันจะไม่ออกมาอย่างน่ารังเกียจ ฉันไม่ได้ตั้งใจจะล้อเลียนใคร แต่ฉันคิดว่าสิ่งนี้จะเกิดขึ้นเป็นครั้งคราว หากสถานการณ์นี้เกิดขึ้นเราทุกคนสามารถตกลงกันได้ว่ามันเป็นการวิเคราะห์ข้อมูลที่ไม่ดี อย่างไรก็ตามปัญหาไม่ใช่ว่าสถิติทดสอบหรือ p-value ผิด เราสามารถวางได้ว่าข้อมูลนั้นได้รับการจัดการอย่างเหมาะสมในแง่นั้น. ฉันจะยืนยันว่าปัญหาคือบ๊อบมีส่วนร่วมในสิ่งที่คลีฟแลนด์เรียกว่า "การวิเคราะห์ข้อมูลการท่องจำ" เขาดูเหมือนจะเชื่อว่าจุดเดียวคือการได้รับค่า p ที่ถูกต้องและคิดว่าน้อยมากเกี่ยวกับข้อมูลของเขานอกเหนือจากการใฝ่หาเป้าหมายนั้น เขาอาจเปลี่ยนไปใช้ข้อเสนอแนะของฉันด้านบนและรายงานขนาดเอฟเฟกต์มาตรฐานที่มีช่วงความมั่นใจ 95% และมันจะไม่เปลี่ยนสิ่งที่ฉันเห็นว่าเป็นปัญหาที่ใหญ่กว่า (นี่คือสิ่งที่ฉันหมายถึงโดยการทำ "สิ่งเดียวกัน "ด้วยวิธีอื่น) ในกรณีเฉพาะนี้ความจริงที่ว่าข้อมูลไม่ได้ดูอย่างที่เขาคาดหวัง (เช่นไม่ใช่ปกติ) เป็นข้อมูลจริงมันน่าสนใจและอาจมีความสำคัญมาก แต่ข้อมูลนั้นก็ถูกโยนทิ้งไป บ๊อบไม่รู้จักสิ่งนี้เพราะเน้นการทดสอบที่สำคัญ สำหรับใจของฉันนั่นคือปัญหาจริงที่มีการทดสอบอย่างมีนัยสำคัญ
ให้ฉันพูดถึงมุมมองอื่น ๆ ที่ได้รับการกล่าวถึงและฉันต้องการที่จะชัดเจนว่าฉันไม่ได้วิจารณ์ใคร
- มีการกล่าวถึงบ่อยครั้งว่าหลายคนไม่เข้าใจค่า p (เช่นคิดว่าพวกเขาน่าจะเป็นโมฆะจริง) ฯลฯ บางครั้งก็เป็นที่ถกเถียงกันอยู่ว่าถ้ามีคนเพียงคนเดียวที่ใช้วิธีเบส์ปัญหาเหล่านี้จะ ไปให้พ้น. ฉันเชื่อว่าผู้คนสามารถเข้าถึงการวิเคราะห์ข้อมูลแบบเบย์ในลักษณะที่ไม่น่าเชื่อและมีกลไก อย่างไรก็ตามฉันคิดว่าความเข้าใจที่ผิดเกี่ยวกับความหมายของค่า p จะเป็นอันตรายน้อยลงหากไม่มีใครคิดว่าการรับค่า p เป็นเป้าหมาย
- การมีอยู่ของ 'ข้อมูลขนาดใหญ่' โดยทั่วไปไม่เกี่ยวข้องกับปัญหานี้ ข้อมูลขนาดใหญ่ทำให้เห็นได้ชัดว่าการจัดระเบียบการวิเคราะห์ข้อมูลใน 'ความสำคัญ' ไม่ใช่วิธีการที่มีประโยชน์
- ฉันไม่เชื่อว่าปัญหาเกิดขึ้นจากการทดสอบสมมติฐาน หากผู้คนต้องการดูว่าค่าที่ประเมินนั้นอยู่นอกช่วงเวลาหรือไม่แทนที่จะเป็นค่าที่มีค่าอาจมีปัญหาเดียวกันหลายเรื่องเกิดขึ้น (อีกครั้งฉันต้องการชัดเจนฉันรู้ว่าคุณไม่ใช่ 'Bob' )
- สำหรับบันทึกฉันต้องการพูดถึงว่าข้อเสนอแนะของฉันเองจากย่อหน้าแรกไม่ได้แก้ไขปัญหาดังที่ฉันพยายามชี้ให้เห็น
สำหรับฉันนี้เป็นปัญหาหลัก: สิ่งที่เราต้องการจริงๆคือทางจริยธรรมจะคิดเกี่ยวกับสิ่งที่เกิดขึ้น สิ่งที่หมายถึงในสถานการณ์ที่กำหนดไม่ได้ถูกตัดและทำให้แห้ง วิธีการที่จะให้นักเรียนในชั้นเรียนวิธีการไม่ชัดเจนหรือง่าย การทดสอบความสำคัญมีความเฉื่อยและประเพณีเบื้องหลังมากมาย ในชั้นเรียนสถิติมันชัดเจนว่าต้องสอนอะไรและอย่างไร สำหรับนักเรียนและผู้ปฏิบัติงานเป็นไปได้ที่จะพัฒนาสคีแนวคิดเพื่อทำความเข้าใจเนื้อหาและรายการตรวจสอบ / ผังงาน (ฉันเคยเห็นบ้าง!) สำหรับการวิเคราะห์ การทดสอบความสำคัญสามารถพัฒนาเป็นวิเคราะห์ข้อมูลการท่องจำตามธรรมชาติโดยไม่มีใครโง่หรือขี้เกียจหรือไม่ดี นั่นคือปัญหา