ผมจะเน้นคำตอบนี้กับคำถามที่เฉพาะเจาะจงของสิ่งที่เป็นทางเลือกในการ -valuesp
มี21 บทความอภิปรายที่ตีพิมพ์พร้อมกับคำสั่ง ASA (เป็นวัสดุเสริม): โดย Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, แซนเดอร์กรีนแลนด์, จอห์นไอโอนิดิส, โจเซฟฮอโรวิทซ์, วาเลนจอห์นสัน, ไมเคิลลาวิน, ไมเคิลลิว, Rod Little, Deborah Mayo, มิเคเล่มิลลาร์, ชาร์ลส์พูล ฉันแสดงรายการทั้งหมดสำหรับการค้นหาในอนาคต) คนเหล่านี้อาจครอบคลุมความคิดเห็นที่มีอยู่ทั้งหมดเกี่ยวกับค่าและการอนุมานเชิงสถิติp
ฉันตรวจสอบเอกสารทั้งหมด 21 เรื่องแล้ว
น่าเสียดายที่พวกเขาส่วนใหญ่ไม่ได้พูดถึงทางเลือกที่แท้จริงแม้ว่าคนส่วนใหญ่จะเกี่ยวกับข้อ จำกัด ความเข้าใจผิดและปัญหาอื่น ๆ อีกมากมายเกี่ยวกับค่า (สำหรับการป้องกันค่าดูค่า Benjamini, Mayo และ Senn) สิ่งนี้ชี้ให้เห็นว่าทางเลือกอื่นถ้าไม่ใช่นั้นหาง่ายและ / หรือเพื่อปกป้องพีpp
ดังนั้นให้เราดูรายการ "แนวทางอื่น ๆ " ที่ระบุในคำสั่ง ASA (ดังที่ยกมาในคำถามของคุณ):
[วิธีอื่น ๆ ] รวมถึงวิธีการที่เน้นการประมาณค่าการทดสอบเช่นความมั่นใจความน่าเชื่อถือหรือช่วงการทำนาย วิธีการแบบเบย์ มาตรการทางเลือกของหลักฐานเช่นอัตราส่วนความน่าจะเป็นหรือปัจจัยเบย์ และแนวทางอื่น ๆ เช่นการสร้างแบบจำลองเชิงทฤษฎีการตัดสินใจและอัตราการค้นพบที่ผิด
ช่วงความเชื่อมั่น
ช่วงความเชื่อมั่นเป็นเครื่องมือ frequentist ที่จะไปมือในมือกับ -values; การรายงานช่วงความเชื่อมั่น (หรือเทียบเท่าเช่นค่าเฉลี่ยข้อผิดพลาดมาตรฐานของค่าเฉลี่ย) พร้อมกับค่ามักเป็นความคิดที่ดี± pp±p
บางคน (ไม่อยู่ในกลุ่มคู่กรณี ASA) ที่ชี้ให้เห็นว่าช่วงความเชื่อมั่นควรเปลี่ยน -values หนึ่งในผู้สนับสนุนที่เปิดเผยมากที่สุดของวิธีนี้คือเจฟฟ์คัมมิงซึ่งเรียกมันว่าสถิติใหม่ (ชื่อที่ฉันพบว่าน่ากลัว) ดูเช่นบล็อกโพสต์นี้โดยอูล Schimmack สำหรับคำติชมรายละเอียด: ทบทวนคัมมิง (2014) สถิติใหม่: Reselling สถิติเก่าเป็นสถิติใหม่ ดูเพิ่มเติมเราไม่สามารถที่จะศึกษาขนาดผลในโพสต์บล็อกของห้องปฏิบัติการโดย Uri Simonsohn สำหรับจุดที่เกี่ยวข้องp
ดูหัวข้อนี้ (และคำตอบของฉันในนั้น) เกี่ยวกับข้อเสนอแนะที่คุ้นเคยโดย Norm Matloff ที่ฉันอ้างว่าเมื่อรายงาน CIs หนึ่งยังคงต้องการรายงานค่าด้วยเช่นกัน: อะไรคือตัวอย่างที่ดีและน่าเชื่อถือที่ p-values มีประโยชน์อย่างไรp
บางคนอื่น ๆ (ไม่ใช่ในหมู่ ASA disputants), อย่างไรก็ตาม, ยืนยันว่าช่วงความเชื่อมั่น, เป็นเครื่องมือที่ใช้บ่อย, ถูกเข้าใจผิดว่าเป็น value และควรจะถูกกำจัดด้วย ดูเช่นMorey et al. ในปี 2015 การเข้าใจผิดของการวางความเชื่อมั่นในช่วงความเชื่อมั่นที่เชื่อมโยงโดย @Tim ที่นี่ในความคิดเห็น นี่คือการอภิปรายที่เก่าแก่มากp
วิธีการแบบเบย์
(ฉันไม่ชอบว่าคำสั่ง ASA กำหนดรายการอย่างไรช่วงเวลาที่น่าเชื่อถือและปัจจัย Bayes แสดงรายการแยกต่างหากจาก "วิธีการแบบเบย์" แต่เห็นได้ชัดว่าเป็นเครื่องมือแบบเบย์ฉันจึงนับพวกเขาด้วยกันที่นี่)
มีวรรณคดีขนาดใหญ่และมีความเห็นเกี่ยวกับการถกเถียงแบบเบย์กับการถกเถียงกันบ่อยๆ ดูตัวอย่างเช่นเมื่อเร็ว ๆ นี้สำหรับความคิดบางอย่าง: เมื่อใด (ถ้าเคย) เป็นวิธีการที่พบบ่อยดีกว่า Bayesian อย่างมาก? การวิเคราะห์แบบเบย์มีเหตุผลอย่างสมบูรณ์หากมีนักบวชที่มีข้อมูลดีและทุกคนยินดีที่จะคำนวณและรายงานหรือแทน จากp ( H 0 : θ = 0 | data ) p ( ข้อมูลอย่างน้อยสุดขีด| H 0 )p(θ|data)p(H0:θ=0|data)p(data at least as extreme|H0)- แต่อนิจจาผู้คนมักจะไม่มีนักบวชที่ดี ผู้ทดลองบันทึกหนู 20 ตัวทำอะไรในเงื่อนไขเดียวและหนู 20 ตัวทำสิ่งเดียวกันในเงื่อนไขอื่น การคาดการณ์คือประสิทธิภาพของหนูในอดีตจะเกินประสิทธิภาพของหนูหลัง แต่ไม่มีใครจะเต็มใจหรือสามารถระบุชัดเจนก่อนการแตกต่างประสิทธิภาพ (แต่ดูคำตอบของ @ FrankHarrell ที่ซึ่งเขาสนับสนุนโดยใช้ "นักบวชที่สงสัย")
Bayesians ที่ตายยากแนะนำให้ใช้วิธีการแบบเบย์แม้ว่าจะไม่มีผู้ให้ข้อมูลใด ๆ ก็ตาม ตัวอย่างหนึ่งที่ผ่านมาเป็นKrushke 2012 ประมาณคชกรรมใช้แทน -testtย่อเจียมดีที่สุดเท่าที่ ความคิดคือการใช้แบบจำลอง Bayesian กับ Priors uninformative อ่อนแอเพื่อคำนวณหลังสำหรับผลของดอกเบี้ย (เช่น, เช่น, ความแตกต่างของกลุ่ม) ความแตกต่างในทางปฏิบัติกับการใช้เหตุผลบ่อย ๆ ดูเหมือนจะน้อยและเท่าที่ฉันสามารถเห็นวิธีการนี้ยังไม่เป็นที่นิยม ดู"uninformative ก่อน" คืออะไร เราสามารถมีข้อมูลที่ไม่มีข้อมูลได้จริงหรือไม่? สำหรับการอภิปรายในสิ่งที่ "uninformative" (คำตอบ: ไม่มีสิ่งนั้นดังนั้นการโต้เถียง)
อีกทางเลือกหนึ่งที่จะกลับไปที่แฮโรลด์เจฟฟรีย์ขึ้นอยู่กับการทดสอบแบบเบย์(ซึ่งต่างจากการประมาณแบบเบย์) และใช้ปัจจัยแบบเบย์ หนึ่งในผู้ที่มีคารมคมคายมากขึ้นคือ Eric-Jan Wagenmakers ซึ่งได้ตีพิมพ์บทความนี้จำนวนมากในช่วงไม่กี่ปีที่ผ่านมา คุณสมบัติสองประการของวิธีนี้คุ้มค่าที่จะเน้นที่นี่ ก่อนอื่นให้ดูที่Wetzels et al., 2012, การทดสอบสมมติฐานแบบเบส์เริ่มต้นสำหรับการออกแบบ ANOVAเพื่อแสดงให้เห็นว่าผลลัพธ์ของการทดสอบแบบเบย์ดังกล่าวนั้นแข็งแกร่งเพียงใดขึ้นอยู่กับทางเลือกเฉพาะของสมมติฐานทางเลือกหน้าH1และการแจกแจงพารามิเตอร์ ("ก่อนหน้า") มันวางตัว ประการที่สองเมื่อเลือก "สมเหตุสมผล" ก่อนหน้านี้ (Wagenmakers โฆษณา Jeffreys 'ที่เรียกว่า "ค่าเริ่มต้น" นักบวช) ผลลัพธ์ของปัจจัย Bayes มักจะกลายเป็นค่อนข้างสอดคล้องกับค่ามาตรฐานดูตัวอย่างจากร่างนี้โดย Marsman & Wagenmakers :p
ดังนั้นในขณะที่ Wagenmakers และคณะ ยืนยันว่า value นั้นมีข้อบกพร่องอย่างลึกล้ำและ Bayes factor เป็นวิธีที่จะไป แต่ก็ไม่น่าแปลกใจเลย ... (เพื่อความยุติธรรมจุดWetzels et al. 2011คือ value ใกล้กับ Bayes factor เท่านั้น บ่งบอกถึงหลักฐานที่อ่อนแอมากต่อโมฆะ แต่โปรดทราบว่าสิ่งนี้สามารถจัดการได้อย่างง่ายดายในกระบวนทัศน์ของผู้ใช้บ่อยโดยใช้เข้มงวดมากขึ้นซึ่งเป็นสิ่งที่ผู้คนจำนวนมากเรียกร้องอยู่แล้ว) p 0.05 αpp0.05α
อีกหนึ่งเอกสารยอดนิยมของ Wagenmakers และคณะ ในการป้องกันปัจจัย Bayes คือ 2011 ทำไมนักจิตวิทยาต้องเปลี่ยนวิธีที่พวกเขาวิเคราะห์ข้อมูลของพวกเขา: กรณีของ psiซึ่งเขาระบุว่ากระดาษที่น่าอับอายของ Bem ในการทำนายอนาคตจะไม่ถึงข้อสรุปที่ผิดพลาดหากพวกเขาใช้ปัจจัยของ Bayes แทนเท่านั้น ของ -values ดูโพสต์บล็อกรอบคอบโดยอูล Schimmack สำหรับรายละเอียด (และน่าเชื่อถือ IMHO) เคาน์เตอร์อาร์กิวเมนต์: ทำไมนักจิตวิทยาไม่ควรเปลี่ยนวิธีการวิเคราะห์ข้อมูลของพวกเขา: ปีศาจอยู่ในการเริ่มต้นก่อนp
ดูเพิ่มเติมการทดสอบแบบเบส์เริ่มต้นนั้นมีอคติต่อโพสต์บล็อกขนาดเล็กโดย Uri Simonsohn
เพื่อความสมบูรณ์ผมพูดถึงว่าWagenmakers 2007 วิธีการแก้ปัญหาการปฏิบัติเพื่อให้ปัญหาที่แพร่หลายของ -valuespแนะนำให้ใช้ BIC เป็นประมาณปัจจัย Bayes เพื่อแทนที่ -values BIC ไม่ได้ขึ้นอยู่กับก่อนหน้านี้และแม้ว่าจะเป็นชื่อมันก็ไม่ได้เป็นแบบเบย์จริงๆ ฉันไม่แน่ใจว่าจะคิดอย่างไรเกี่ยวกับข้อเสนอนี้ ดูเหมือนว่าเมื่อไม่นานมานี้ Wagenmakers เป็นที่นิยมมากกว่าในการทดสอบแบบเบย์กับนักบวชชั้นสูงของ Jeffreysp
สำหรับการอภิปรายเพิ่มเติมเกี่ยวกับการประมาณค่าแบบเบย์กับการทดสอบแบบเบย์ดูการประมาณค่าแบบเบย์หรือการทดสอบแบบเบย์ และลิงก์ในนั้น
ปัจจัยขั้นต่ำของ Bayes
ในบรรดาข้อพิพาท ASA นี้ได้รับคำแนะนำอย่างชัดเจนจาก Benjamin & Berger และโดย Valen Johnson (เอกสารสองฉบับเท่านั้นที่เกี่ยวกับการเสนอทางเลือกที่เป็นรูปธรรม) คำแนะนำเฉพาะของพวกเขาแตกต่างกันเล็กน้อย แต่มีความคล้ายคลึงกันในจิตวิญญาณ
μ=00.5μ0.50p(H0)ppp−eplog(p)p−elog(p)1020p โดย Steven Goodman ด้วย
ปรับปรุงในภายหลัง: ดูการ์ตูนที่ดีที่อธิบายแนวคิดเหล่านี้ในวิธีที่ง่าย
pp
p−4πlog(p)−−−−−−−−−√510
สำหรับคำวิจารณ์สั้น ๆ เกี่ยวกับกระดาษของ Johnson ดูคำตอบของ Andrew Gelman และ @ Xi'anใน PNAS สำหรับการโต้แย้งโต้แย้งกับ Berger & Sellke 1987 ให้ดูCasella & Berger 1987 (Berger ที่แตกต่างกัน!) ในบรรดาเอกสารการอภิปรายของ APA สตีเฟ่นเซนน์โต้แย้งอย่างชัดเจนต่อวิธีการใด ๆ เหล่านี้:
P
ดูการอ้างอิงในบทความของ Senn รวมถึงรายการที่บล็อกของ Mayo
คำสั่ง ASA แสดงรายการ "การสร้างแบบจำลองเชิงทฤษฎีการตัดสินใจและอัตราการค้นพบที่ผิดพลาด" เป็นอีกทางเลือกหนึ่ง ฉันไม่รู้ว่าพวกเขากำลังพูดถึงอะไรและฉันก็มีความสุขที่เห็นสิ่งนี้ตามที่ระบุไว้ในกระดาษอภิปรายโดยสตาร์ค:
pp
ppppp
หากต้องการอ้างอิงจากบทความสนทนาของ Andrew Gelman:
pp
และจาก Stephen Senn:
P
p<0.05p
[... ] ไม่ต้องมองหาเวทมนตร์ทางเลือกให้กับ NHST พิธีกรรมเชิงกลเชิงวัตถุอื่น ๆ เพื่อแทนที่มัน มันไม่มีอยู่จริง