ASA กล่าวถึงข้อ จำกัด ของ


100

เรามีแท็กหลายเธรดที่ติดแท็กเป็นที่เปิดเผยความเข้าใจผิดมากมายเกี่ยวกับพวกเขา สิบเดือนที่ผ่านมาเรามีหัวข้อเกี่ยวกับวารสารจิตวิทยาที่ "ต้องห้าม" -valuespตอนนี้สมาคมอเมริกันสถิติ (2016)กล่าวว่ามีการวิเคราะห์ของเราที่เรา "ไม่ควรจบลงด้วยการคำนวณที่ -value"p

สมาคมสถิติอเมริกัน (ASA) เชื่อว่าชุมชนวิทยาศาสตร์จะได้รับประโยชน์จากคำแถลงอย่างเป็นทางการที่อธิบายถึงหลักการที่ใช้กันอย่างแพร่หลายในการใช้และการตีความอย่างเหมาะสมp

คณะกรรมการระบุวิธีการอื่น ๆ ซึ่งอาจเป็นทางเลือกหรือข้อมูลเพิ่มเติมเกี่ยวกับค่า :p

ในมุมมองของการใช้ผิดวิธีที่แพร่หลายและความเข้าใจผิดเกี่ยวกับค่า , สถิติบางคนชอบที่จะเสริมหรือแม้กระทั่งแทนที่ค่า ด้วยวิธีการอื่น ๆ เหล่านี้รวมถึงวิธีการที่เน้นการประมาณค่าการทดสอบเช่นความมั่นใจความน่าเชื่อถือหรือช่วงการทำนาย วิธีการแบบเบย์ มาตรการทางเลือกของหลักฐานเช่นอัตราส่วนความน่าจะเป็นหรือปัจจัยเบย์ และแนวทางอื่น ๆ เช่นการสร้างแบบจำลองเชิงทฤษฎีการตัดสินใจและอัตราการค้นพบที่ผิด มาตรการและวิธีการทั้งหมดเหล่านี้ขึ้นอยู่กับสมมติฐานต่อไป แต่พวกเขาอาจระบุขนาดของผลกระทบโดยตรง (และความไม่แน่นอนที่เกี่ยวข้อง) หรือว่าสมมติฐานนั้นถูกต้องหรือไม่พีpp

ดังนั้นขอจินตนาการหลัง -values ความเป็นจริง ASA แสดงวิธีการบางอย่างที่สามารถใช้แทนค่าแต่ทำไมถึงดีกว่า ข้อใดที่สามารถทดแทนชีวิตจริงสำหรับนักวิจัยที่ใช้ค่าสำหรับทุกชีวิตของเขา? ฉันคิดว่าชนิดของคำถามนี้จะปรากฏในโพสต์ -values ความเป็นจริงดังนั้นบางทีเรามาพยายามที่จะเป็นขั้นตอนหนึ่งไปข้างหน้าของพวกเขา อะไรคือทางเลือกที่สมเหตุสมผลที่สามารถนำไปใช้นอกกรอบได้? ทำไมวิธีนี้ควรทำให้นักวิจัยหัวหน้าบรรณาธิการหรือผู้อ่านนำของคุณเข้าใจพีพีพีpppp

เนื่องจากรายการบล็อกติดตามผลนี้แนะนำค่าจึงไม่สามารถเอาชนะได้ในความเรียบง่าย:p

p-value ต้องการเพียงแบบจำลองทางสถิติสำหรับพฤติกรรมของสถิติภายใต้สมมติฐานว่างเพื่อเก็บไว้ แม้ว่ารูปแบบของสมมติฐานทางเลือกจะใช้ในการเลือกสถิติ "ดี" (ซึ่งจะใช้สำหรับการสร้าง p-value) รูปแบบทางเลือกนี้ไม่จำเป็นต้องถูกต้องเพื่อให้ p-value ถูกต้องและ มีประโยชน์ (เช่น: ข้อผิดพลาดประเภทการควบคุม I ในระดับที่ต้องการในขณะที่ให้พลังงานในการตรวจจับผลกระทบจริง) ในทางตรงกันข้ามวิธีการทางสถิติอื่น ๆ (มหัศจรรย์และมีประโยชน์) เช่นอัตราส่วนความน่าจะเป็นการประมาณขนาดผลกระทบช่วงความเชื่อมั่นหรือวิธีเบย์ทุกคนต้องการตัวแบบที่สันนิษฐานว่าจะเก็บสถานการณ์ที่กว้างกว่าไม่ใช่แค่การทดสอบว่าง

พวกเขาหรืออาจจะไม่จริงและเราสามารถแทนที่ได้อย่างง่ายดาย?

ฉันรู้ว่ามันกว้าง แต่คำถามหลักนั้นง่าย: อะไรคือสิ่งที่ดีที่สุด (และทำไม) ทางเลือกในชีวิตจริงของค่าที่สามารถใช้แทนได้p


ASA (2016) งบ ASA บนนัยสำคัญทางสถิติและ -values P นักสถิติชาวอเมริกัน (ในการกด)


3
มุ่งมั่นที่จะกลายเป็นคำถามคลาสสิก +1! วิธีการแบบเบย์เพราะมันช่วยให้เราสามารถตอบคำถามที่เรามักจะสนใจ ได้แก่ : ในแง่ของหลักฐาน (ข้อมูล) ความน่าจะเป็นที่สมมติฐานเป็นจริงคืออะไร?
Christoph Hanck

9
"โพสต์เป็นจริง -value" มีแหวน dystopian ดีไป p
Marc Claesen

4
เอกสารการสนทนาที่โพสต์พร้อมกับคำสั่ง ASA นั้นควรค่าแก่การอ่านเนื่องจากบางข้อมีคำแนะนำเกี่ยวกับสิ่งที่สามารถแทนที่ค่า p ได้ เนื้อหาเพิ่มเติม
Seth

2
ฉันโพสต์คำถามที่เกี่ยวข้องตามส่วนอื่นของรายงาน ASA ซึ่งเป็นหนึ่งในคำเตือนเกี่ยวกับการละเมิดค่า p ที่อาจเกิดขึ้น: เรารู้มากแค่ไหนเกี่ยวกับการแฮ็ค p
Silverfish

1
ในฐานะที่เป็นความคิดเห็นสำหรับคำถามของฉันมีเธรดที่ดีที่กล่าวถึงหัวข้อที่คล้ายกัน: stats.stackexchange.com/questions/17897/…
ทิม

คำตอบ:


100

ผมจะเน้นคำตอบนี้กับคำถามที่เฉพาะเจาะจงของสิ่งที่เป็นทางเลือกในการ -valuesp

มี21 บทความอภิปรายที่ตีพิมพ์พร้อมกับคำสั่ง ASA (เป็นวัสดุเสริม): โดย Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, แซนเดอร์กรีนแลนด์, จอห์นไอโอนิดิส, โจเซฟฮอโรวิทซ์, วาเลนจอห์นสัน, ไมเคิลลาวิน, ไมเคิลลิว, Rod Little, Deborah Mayo, มิเคเล่มิลลาร์, ชาร์ลส์พูล ฉันแสดงรายการทั้งหมดสำหรับการค้นหาในอนาคต) คนเหล่านี้อาจครอบคลุมความคิดเห็นที่มีอยู่ทั้งหมดเกี่ยวกับค่าและการอนุมานเชิงสถิติp

ฉันตรวจสอบเอกสารทั้งหมด 21 เรื่องแล้ว

น่าเสียดายที่พวกเขาส่วนใหญ่ไม่ได้พูดถึงทางเลือกที่แท้จริงแม้ว่าคนส่วนใหญ่จะเกี่ยวกับข้อ จำกัด ความเข้าใจผิดและปัญหาอื่น ๆ อีกมากมายเกี่ยวกับค่า (สำหรับการป้องกันค่าดูค่า Benjamini, Mayo และ Senn) สิ่งนี้ชี้ให้เห็นว่าทางเลือกอื่นถ้าไม่ใช่นั้นหาง่ายและ / หรือเพื่อปกป้องพีpp

ดังนั้นให้เราดูรายการ "แนวทางอื่น ๆ " ที่ระบุในคำสั่ง ASA (ดังที่ยกมาในคำถามของคุณ):

[วิธีอื่น ๆ ] รวมถึงวิธีการที่เน้นการประมาณค่าการทดสอบเช่นความมั่นใจความน่าเชื่อถือหรือช่วงการทำนาย วิธีการแบบเบย์ มาตรการทางเลือกของหลักฐานเช่นอัตราส่วนความน่าจะเป็นหรือปัจจัยเบย์ และแนวทางอื่น ๆ เช่นการสร้างแบบจำลองเชิงทฤษฎีการตัดสินใจและอัตราการค้นพบที่ผิด

  1. ช่วงความเชื่อมั่น

    ช่วงความเชื่อมั่นเป็นเครื่องมือ frequentist ที่จะไปมือในมือกับ -values; การรายงานช่วงความเชื่อมั่น (หรือเทียบเท่าเช่นค่าเฉลี่ยข้อผิดพลาดมาตรฐานของค่าเฉลี่ย) พร้อมกับค่ามักเป็นความคิดที่ดี± pp±p

    บางคน (ไม่อยู่ในกลุ่มคู่กรณี ASA) ที่ชี้ให้เห็นว่าช่วงความเชื่อมั่นควรเปลี่ยน -values หนึ่งในผู้สนับสนุนที่เปิดเผยมากที่สุดของวิธีนี้คือเจฟฟ์คัมมิงซึ่งเรียกมันว่าสถิติใหม่ (ชื่อที่ฉันพบว่าน่ากลัว) ดูเช่นบล็อกโพสต์นี้โดยอูล Schimmack สำหรับคำติชมรายละเอียด: ทบทวนคัมมิง (2014) สถิติใหม่: Reselling สถิติเก่าเป็นสถิติใหม่ ดูเพิ่มเติมเราไม่สามารถที่จะศึกษาขนาดผลในโพสต์บล็อกของห้องปฏิบัติการโดย Uri Simonsohn สำหรับจุดที่เกี่ยวข้องp

    ดูหัวข้อนี้ (และคำตอบของฉันในนั้น) เกี่ยวกับข้อเสนอแนะที่คุ้นเคยโดย Norm Matloff ที่ฉันอ้างว่าเมื่อรายงาน CIs หนึ่งยังคงต้องการรายงานค่าด้วยเช่นกัน: อะไรคือตัวอย่างที่ดีและน่าเชื่อถือที่ p-values มีประโยชน์อย่างไรp

    บางคนอื่น ๆ (ไม่ใช่ในหมู่ ASA disputants), อย่างไรก็ตาม, ยืนยันว่าช่วงความเชื่อมั่น, เป็นเครื่องมือที่ใช้บ่อย, ถูกเข้าใจผิดว่าเป็น value และควรจะถูกกำจัดด้วย ดูเช่นMorey et al. ในปี 2015 การเข้าใจผิดของการวางความเชื่อมั่นในช่วงความเชื่อมั่นที่เชื่อมโยงโดย @Tim ที่นี่ในความคิดเห็น นี่คือการอภิปรายที่เก่าแก่มากp

  2. วิธีการแบบเบย์

    (ฉันไม่ชอบว่าคำสั่ง ASA กำหนดรายการอย่างไรช่วงเวลาที่น่าเชื่อถือและปัจจัย Bayes แสดงรายการแยกต่างหากจาก "วิธีการแบบเบย์" แต่เห็นได้ชัดว่าเป็นเครื่องมือแบบเบย์ฉันจึงนับพวกเขาด้วยกันที่นี่)

    • มีวรรณคดีขนาดใหญ่และมีความเห็นเกี่ยวกับการถกเถียงแบบเบย์กับการถกเถียงกันบ่อยๆ ดูตัวอย่างเช่นเมื่อเร็ว ๆ นี้สำหรับความคิดบางอย่าง: เมื่อใด (ถ้าเคย) เป็นวิธีการที่พบบ่อยดีกว่า Bayesian อย่างมาก? การวิเคราะห์แบบเบย์มีเหตุผลอย่างสมบูรณ์หากมีนักบวชที่มีข้อมูลดีและทุกคนยินดีที่จะคำนวณและรายงานหรือแทน จากp ( H 0 : θ = 0 | data ) p ( ข้อมูลอย่างน้อยสุดขีด| H 0 )p(θ|data)p(H0:θ=0|data)p(data at least as extreme|H0)- แต่อนิจจาผู้คนมักจะไม่มีนักบวชที่ดี ผู้ทดลองบันทึกหนู 20 ตัวทำอะไรในเงื่อนไขเดียวและหนู 20 ตัวทำสิ่งเดียวกันในเงื่อนไขอื่น การคาดการณ์คือประสิทธิภาพของหนูในอดีตจะเกินประสิทธิภาพของหนูหลัง แต่ไม่มีใครจะเต็มใจหรือสามารถระบุชัดเจนก่อนการแตกต่างประสิทธิภาพ (แต่ดูคำตอบของ @ FrankHarrell ที่ซึ่งเขาสนับสนุนโดยใช้ "นักบวชที่สงสัย")

    • Bayesians ที่ตายยากแนะนำให้ใช้วิธีการแบบเบย์แม้ว่าจะไม่มีผู้ให้ข้อมูลใด ๆ ก็ตาม ตัวอย่างหนึ่งที่ผ่านมาเป็นKrushke 2012 ประมาณคชกรรมใช้แทน -testtย่อเจียมดีที่สุดเท่าที่ ความคิดคือการใช้แบบจำลอง Bayesian กับ Priors uninformative อ่อนแอเพื่อคำนวณหลังสำหรับผลของดอกเบี้ย (เช่น, เช่น, ความแตกต่างของกลุ่ม) ความแตกต่างในทางปฏิบัติกับการใช้เหตุผลบ่อย ๆ ดูเหมือนจะน้อยและเท่าที่ฉันสามารถเห็นวิธีการนี้ยังไม่เป็นที่นิยม ดู"uninformative ก่อน" คืออะไร เราสามารถมีข้อมูลที่ไม่มีข้อมูลได้จริงหรือไม่? สำหรับการอภิปรายในสิ่งที่ "uninformative" (คำตอบ: ไม่มีสิ่งนั้นดังนั้นการโต้เถียง)

    • อีกทางเลือกหนึ่งที่จะกลับไปที่แฮโรลด์เจฟฟรีย์ขึ้นอยู่กับการทดสอบแบบเบย์(ซึ่งต่างจากการประมาณแบบเบย์) และใช้ปัจจัยแบบเบย์ หนึ่งในผู้ที่มีคารมคมคายมากขึ้นคือ Eric-Jan Wagenmakers ซึ่งได้ตีพิมพ์บทความนี้จำนวนมากในช่วงไม่กี่ปีที่ผ่านมา คุณสมบัติสองประการของวิธีนี้คุ้มค่าที่จะเน้นที่นี่ ก่อนอื่นให้ดูที่Wetzels et al., 2012, การทดสอบสมมติฐานแบบเบส์เริ่มต้นสำหรับการออกแบบ ANOVAเพื่อแสดงให้เห็นว่าผลลัพธ์ของการทดสอบแบบเบย์ดังกล่าวนั้นแข็งแกร่งเพียงใดขึ้นอยู่กับทางเลือกเฉพาะของสมมติฐานทางเลือกหน้าH1และการแจกแจงพารามิเตอร์ ("ก่อนหน้า") มันวางตัว ประการที่สองเมื่อเลือก "สมเหตุสมผล" ก่อนหน้านี้ (Wagenmakers โฆษณา Jeffreys 'ที่เรียกว่า "ค่าเริ่มต้น" นักบวช) ผลลัพธ์ของปัจจัย Bayes มักจะกลายเป็นค่อนข้างสอดคล้องกับค่ามาตรฐานดูตัวอย่างจากร่างนี้โดย Marsman & Wagenmakers :p

      ปัจจัยเบส์เทียบกับค่า p

      ดังนั้นในขณะที่ Wagenmakers และคณะ ยืนยันว่า value นั้นมีข้อบกพร่องอย่างลึกล้ำและ Bayes factor เป็นวิธีที่จะไป แต่ก็ไม่น่าแปลกใจเลย ... (เพื่อความยุติธรรมจุดWetzels et al. 2011คือ value ใกล้กับ Bayes factor เท่านั้น บ่งบอกถึงหลักฐานที่อ่อนแอมากต่อโมฆะ แต่โปรดทราบว่าสิ่งนี้สามารถจัดการได้อย่างง่ายดายในกระบวนทัศน์ของผู้ใช้บ่อยโดยใช้เข้มงวดมากขึ้นซึ่งเป็นสิ่งที่ผู้คนจำนวนมากเรียกร้องอยู่แล้ว) p 0.05 αpp0.05α

      อีกหนึ่งเอกสารยอดนิยมของ Wagenmakers และคณะ ในการป้องกันปัจจัย Bayes คือ 2011 ทำไมนักจิตวิทยาต้องเปลี่ยนวิธีที่พวกเขาวิเคราะห์ข้อมูลของพวกเขา: กรณีของ psiซึ่งเขาระบุว่ากระดาษที่น่าอับอายของ Bem ในการทำนายอนาคตจะไม่ถึงข้อสรุปที่ผิดพลาดหากพวกเขาใช้ปัจจัยของ Bayes แทนเท่านั้น ของ -values ดูโพสต์บล็อกรอบคอบโดยอูล Schimmack สำหรับรายละเอียด (และน่าเชื่อถือ IMHO) เคาน์เตอร์อาร์กิวเมนต์: ทำไมนักจิตวิทยาไม่ควรเปลี่ยนวิธีการวิเคราะห์ข้อมูลของพวกเขา: ปีศาจอยู่ในการเริ่มต้นก่อนp

      ดูเพิ่มเติมการทดสอบแบบเบส์เริ่มต้นนั้นมีอคติต่อโพสต์บล็อกขนาดเล็กโดย Uri Simonsohn

    • เพื่อความสมบูรณ์ผมพูดถึงว่าWagenmakers 2007 วิธีการแก้ปัญหาการปฏิบัติเพื่อให้ปัญหาที่แพร่หลายของ -valuespแนะนำให้ใช้ BIC เป็นประมาณปัจจัย Bayes เพื่อแทนที่ -values BIC ไม่ได้ขึ้นอยู่กับก่อนหน้านี้และแม้ว่าจะเป็นชื่อมันก็ไม่ได้เป็นแบบเบย์จริงๆ ฉันไม่แน่ใจว่าจะคิดอย่างไรเกี่ยวกับข้อเสนอนี้ ดูเหมือนว่าเมื่อไม่นานมานี้ Wagenmakers เป็นที่นิยมมากกว่าในการทดสอบแบบเบย์กับนักบวชชั้นสูงของ Jeffreysp


    สำหรับการอภิปรายเพิ่มเติมเกี่ยวกับการประมาณค่าแบบเบย์กับการทดสอบแบบเบย์ดูการประมาณค่าแบบเบย์หรือการทดสอบแบบเบย์ และลิงก์ในนั้น

  3. ปัจจัยขั้นต่ำของ Bayes

    ในบรรดาข้อพิพาท ASA นี้ได้รับคำแนะนำอย่างชัดเจนจาก Benjamin & Berger และโดย Valen Johnson (เอกสารสองฉบับเท่านั้นที่เกี่ยวกับการเสนอทางเลือกที่เป็นรูปธรรม) คำแนะนำเฉพาะของพวกเขาแตกต่างกันเล็กน้อย แต่มีความคล้ายคลึงกันในจิตวิญญาณ

    • μ=00.5μ0.50p(H0)pppeplog(p)pelog(p)1020p โดย Steven Goodman ด้วย

      ปรับปรุงในภายหลัง: ดูการ์ตูนที่ดีที่อธิบายแนวคิดเหล่านี้ในวิธีที่ง่าย

      pp

      ปัจจัย Mininum Bayes

    • p4πlog(p)510


    สำหรับคำวิจารณ์สั้น ๆ เกี่ยวกับกระดาษของ Johnson ดูคำตอบของ Andrew Gelman และ @ Xi'anใน PNAS สำหรับการโต้แย้งโต้แย้งกับ Berger & Sellke 1987 ให้ดูCasella & Berger 1987 (Berger ที่แตกต่างกัน!) ในบรรดาเอกสารการอภิปรายของ APA สตีเฟ่นเซนน์โต้แย้งอย่างชัดเจนต่อวิธีการใด ๆ เหล่านี้:

    P

    ดูการอ้างอิงในบทความของ Senn รวมถึงรายการที่บล็อกของ Mayo

  4. คำสั่ง ASA แสดงรายการ "การสร้างแบบจำลองเชิงทฤษฎีการตัดสินใจและอัตราการค้นพบที่ผิดพลาด" เป็นอีกทางเลือกหนึ่ง ฉันไม่รู้ว่าพวกเขากำลังพูดถึงอะไรและฉันก็มีความสุขที่เห็นสิ่งนี้ตามที่ระบุไว้ในกระดาษอภิปรายโดยสตาร์ค:

    pp


ppppp

หากต้องการอ้างอิงจากบทความสนทนาของ Andrew Gelman:

pp

และจาก Stephen Senn:

P

p<0.05p

[... ] ไม่ต้องมองหาเวทมนตร์ทางเลือกให้กับ NHST พิธีกรรมเชิงกลเชิงวัตถุอื่น ๆ เพื่อแทนที่มัน มันไม่มีอยู่จริง


1
@ amoeba ขอบคุณนี่เป็นบทสรุปที่ยอดเยี่ยม! ฉันเห็นด้วยกับความสงสัยของคุณ - กระทู้นี้ส่วนหนึ่งเกิดขึ้นเพราะฉันแบ่งปัน ในขณะนี้ฉันเปิดเธรดไว้โดยไม่มีคำตอบที่ยอมรับเพราะบางคนอาจให้ตัวอย่างและข้อโต้แย้งที่น่าเชื่อว่ามีทางเลือกที่ดีและจริงบางอย่างอยู่
ทิม

1
@amoeba เกี่ยวกับ Wagenmakers และ BIC เป็นการดีที่จะเปรียบเทียบกับคำวิจารณ์เช่นโดย Gelman: andrewgelman.com/2008/10/23/i_hate_bic_blah
Tim

2
นี่เป็นคำตอบที่น่าประทับใจอย่างแท้จริงที่ควรได้รับจากการโหวตใน CV ฉันอาจเพิ่มความโปรดปรานอีกครั้งหลังจากทิม
gung

ขอบคุณ @gung ฉันดีใจที่ได้ยินเช่นนั้นมันมีความหมายมากมายจากคุณ ฉันควรพูดว่าฉันคุ้นเคยกับการทดสอบแบบเบย์เพียงผิวเผินเท่านั้นและไม่มีประสบการณ์ในการทำอะไรเลย ดังนั้นคำตอบนี้ให้ข้อมูลสรุปของสิ่งที่ฉันอ่าน แต่มันไม่ใช่ความเห็นของผู้เชี่ยวชาญ
อะมีบา

1
ไม่คุณไม่จำเป็นต้องมีข้อมูลมาก่อนเพื่อให้เบย์ทำงานได้ดี ดังที่สปิเกลฮาลเทอร์แสดงให้เห็นอย่างดีนักปุโรหิตที่สงสัยมีบทบาทสำคัญและใช้งานง่าย ความน่าจะเป็นหลังเบย์มีข้อดีที่สำคัญ
Frank Harrell

27

นี่คือสองเซ็นต์ของฉัน

ฉันคิดว่าในบางจุดนักวิทยาศาสตร์หลายคนกล่าวว่า "ทฤษฎีบท" ดังต่อไปนี้:

p-value<0.05my hypothesis is true.

และการปฏิบัติที่ไม่ดีส่วนใหญ่มาจากที่นี่

p

ฉันเคยทำงานกับคนที่ใช้สถิติโดยไม่เข้าใจจริงๆและนี่คือสิ่งที่ฉันเห็น:

  1. p<0.05

  2. p<0.05

  3. 0.05

ทั้งหมดนี้ทำโดยนักวิทยาศาสตร์ที่มีความรอบรู้และซื่อสัตย์ไม่มีความรู้สึกรุนแรงในการโกง ทำไม IMHO เพราะทฤษฎีบท 1

p0.05p<0.05p<0.05

p

p

p>0.05

  1. H0:μ1μ2pH0p=0.2

pp(μ1>μ2|x)p(μ1<μ2|x)μ1>μ2μ2>μ1

อีกกรณีที่เกี่ยวข้องคือเมื่อผู้เชี่ยวชาญต้องการ:

  1. μ1>μ2>μ3μ1=μ2=μ3μ1>μ2>μ3

การกล่าวถึงสมมุติฐานทางเลือกเป็นทางแก้ปัญหาเดียวในการแก้ปัญหานี้

ดังนั้นการใช้อัตราต่อรองหลังปัจจัยเบย์หรืออัตราส่วนความน่าจะเป็นร่วมกันด้วยความมั่นใจ / ช่วงเวลาที่น่าเชื่อถือดูเหมือนว่าจะลดปัญหาหลักที่เกี่ยวข้อง

p

pp

บทสรุปสองเซ็นต์ของฉัน

p


บางทีคุณอาจแก้ไขตัวอย่างของคุณให้ชัดเจนยิ่งขึ้นตั้งแต่ตอนนี้คุณคำนวณอะไรอยู่ข้อมูลอะไรและตัวเลขมาจากไหน
ทิม

@ Tim Tks สำหรับ feedbak คุณกำลังอ้างอิงตัวอย่างใด
peuhp

"ลองเปรียบเทียบ (เพียงเพราะเรามีข้อมูล) เป็นสมมติฐาน: นำข้อมูล 10 และ 10 คำนวณค่า p ค้นหา 0.2 =" .... "
ทิม

1
ฉันยังไม่คิดว่า "รู้" สมมติฐานของคุณเป็นจริงแม้ว่าข้อมูลที่ดูเหมือนจะแนะนำเป็นอย่างอื่นนั้นเป็นสิ่งที่ไม่ดี เห็นได้ชัดว่านี่เป็นความรู้สึกของ Gregor Mendel เมื่อมีสิ่งผิดปกติเกิดขึ้นกับการทดลองของเขาเพราะเขามีสัญชาตญาณที่แข็งแกร่งซึ่งทฤษฎีของเขาถูกต้อง
dsaxton

@dsaxton เห็นด้วยกับคุณอย่างเต็มที่ อาจจะไม่ชัดเจนนัก แต่นี่เป็นสิ่งหนึ่งที่ฉันพยายามแสดงให้เห็นในจุดที่ 1 ของฉัน: p-value ไม่ใช่กุญแจสำคัญที่สุดของการอุปนัยทางวิทยาศาสตร์ มันเป็นการวัดทางสถิติของหลักฐานที่ส่งผ่านโดยข้อมูลจำนวนหนึ่งในเงื่อนไขบางประการ และในกรณีที่คุณมีเหตุผลภายนอกมากเกินไปที่จะคิดว่า hyp นั้นเป็นความจริง แต่เมื่อข้อมูลมีค่า "ดี" p สิ่งอื่น ๆ อาจถูกพูดถึงตามที่คุณกล่าวถึงอย่างเหมาะสม ฉันจะพยายามทำให้ชัดเจนยิ่งขึ้นใน anwser ของฉัน
peuhp

24

P

  1. ซอฟต์แวร์เพิ่มเติมสามารถใช้ได้สำหรับวิธีการที่ใช้บ่อยกว่าวิธีแบบเบย์
  2. ขณะนี้การวิเคราะห์แบบเบย์บางอย่างใช้เวลานานในการทำงาน
  3. วิธีการแบบเบย์ต้องการการคิดและการลงทุนที่มากขึ้น ฉันไม่สนใจส่วนการคิด แต่เวลามักสั้นดังนั้นเราจึงใช้ทางลัด
  4. bootstrap เป็นเทคนิคประจำวันที่มีความยืดหยุ่นสูงและมีประโยชน์ซึ่งเชื่อมต่อกับโลกของผู้ใช้บ่อยกว่า Bayesian

PP ทำให้ต้องทำการปรับหลายระดับโดยพลการแม้กระทั่งการปรับเปลี่ยนลักษณะข้อมูลที่อาจส่งผลกระทบ แต่จริง ๆ แล้วไม่ได้

P

ยกเว้นแบบจำลองเชิงเส้นแบบเกาส์และการแจกแจงแบบ exponential เกือบทุกอย่างที่เราทำกับการอนุมานแบบบ่อยนั้นเป็นค่าประมาณ (ตัวอย่างที่ดีคือแบบจำลองลอจิสติกแบบไบนารีซึ่งทำให้เกิดปัญหา ด้วยการอนุมานแบบเบย์ทุกสิ่งจะถูกต้องภายในข้อผิดพลาดในการจำลอง (และคุณสามารถจำลองเพิ่มเติมเพื่อรับความน่าจะเป็นหลัง / ช่วงเวลาที่น่าเชื่อถือ)

ฉันได้เขียนบัญชีโดยละเอียดเกี่ยวกับความคิดและการวิวัฒนาการของฉันที่http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html


3
p

2
p

3
t

1
แฟรงค์ขอบคุณ ฉันไม่คุ้นเคยกับการทดสอบแบบเบย์ (และไม่เคยได้ยินเกี่ยวกับ Box & Tiao มาก่อน) แต่ความประทับใจโดยทั่วไปของฉันคือปัจจัยแบบเบย์ที่การทดสอบแบบเบย์นั้นขึ้นอยู่กับตัวเลือกที่ไม่เจาะจงก่อนหน้านั้น ไปและตัวเลือกเหล่านี้อาจเป็นเรื่องยากที่จะกระตุ้น ฉันเดาเหมือนกันว่าจะเป็นช่วงเวลาที่น่าเชื่อถือ - พวกเขาจะขึ้นอยู่กับทางเลือกของผู้รู้ก่อน มันไม่จริงเหรอ? ถ้าเป็นเช่นนั้นแล้วจะจัดการกับมันอย่างไร?
อะมีบา

2
ใช่แม้ว่าฉันจะไม่ใช้ปัจจัยของเบย์ วิธีการแบบบ่อยครั้งเลือกก่อนเช่นกัน - วิธีการหนึ่งที่ละเว้นความรู้อื่น ๆ ทั้งหมดเกี่ยวกับเรื่อง ฉันชอบวิธีก่อนหน้านี้ที่สงสัยของ Spiegelhalter ในโลกอุดมคติคุณจะปล่อยให้คนที่คลางแคลงใจมาก่อน
Frank Harrell

6

ผู้ทำนายยอดเยี่ยมScott Armstrongจาก Wharton ตีพิมพ์บทความเมื่อเกือบ 10 ปีที่แล้วที่มีชื่อว่าSignificance Tests Harm Progress ความคืบหน้าในการพยากรณ์ในวารสารระหว่างประเทศเกี่ยวกับการพยากรณ์วารสารที่เขาร่วมก่อตั้ง แม้ว่านี่จะเป็นการคาดการณ์ แต่ก็สามารถสรุปได้ทั่วไปในการวิเคราะห์ข้อมูลหรือการตัดสินใจใด ๆ ในบทความเขาระบุว่า:

"การทดสอบนัยสำคัญทางสถิติเป็นอันตรายต่อความก้าวหน้าทางวิทยาศาสตร์ความพยายามในการค้นหาข้อยกเว้นสำหรับข้อสรุปนี้มีจนถึงปัจจุบันไม่มีใครเลย"

นี่คือการอ่านที่ยอดเยี่ยมสำหรับผู้ที่สนใจในมุมมองตรงกันข้ามของการทดสอบอย่างมีนัยสำคัญและค่า P

เหตุผลที่ฉันชอบบทความนี้เป็นเพราะ Armstrong ให้ทางเลือกในการทดสอบความสำคัญซึ่งรวบรัดและสามารถเข้าใจได้ง่ายโดยเฉพาะอย่างยิ่งสำหรับผู้ที่ไม่ใช่นักสถิติเช่นฉัน นี่เป็นความคิดเห็นที่ดีกว่าบทความ ASA ที่อ้างถึงในคำถาม:ป้อนคำอธิบายรูปภาพที่นี่

ทั้งหมดนี้ฉันยังคงกอดและนับตั้งแต่หยุดใช้การทดสอบที่สำคัญหรือดูค่า P ยกเว้นเมื่อฉันทำการทดลองแบบสุ่มหรือการทดลองแบบกึ่งทดลอง ฉันต้องเพิ่มการทดลองแบบสุ่มมีน้อยมากในทางปฏิบัติยกเว้นในอุตสาหกรรมยา / วิทยาศาสตร์เพื่อชีวิตและในบางสาขาในวิศวกรรม


4
คุณหมายถึงอะไร "การทดลองแบบสุ่มมีน้อยมากในทางปฏิบัติยกเว้นในอุตสาหกรรมยาและในบางสาขาในวิศวกรรม" การทดลองแบบสุ่มมีอยู่ทั่วไปในชีววิทยาและจิตวิทยา
อะมีบา

ฉันแก้ไขมันเพื่อรวมวิทยาศาสตร์เพื่อชีวิต
ทำนาย

2
โอเค แต่พูดว่าแรนด์นั้น ประสบการณ์ เป็น "หายากมาก" ยกเว้นในยาและวิทยาศาสตร์เพื่อชีวิตและจิตวิทยาโดยทั่วไปแล้วบอกว่าพวกเขาเป็น "ธรรมดามาก" ดังนั้นฉันไม่แน่ใจเกี่ยวกับประเด็นของคุณ
อะมีบา

6

p

p. ฉันยังคงคิดว่านี่เป็นวิธีการที่เพียงพอซึ่งทำให้เกิดคำถามเกี่ยวกับการบังคับใช้ทางวิทยาศาสตร์ของการค้นพบในมือของผู้เชี่ยวชาญด้านเนื้อหาเหล่านั้น ตอนนี้ข้อผิดพลาดที่เราพบในแอปพลิเคชั่นที่ทันสมัยนั้นไม่ได้เป็นความผิดพลาดทางสถิติในฐานะวิทยาศาสตร์ ที่เล่นก็คือการตกปลาการคาดการณ์และการพูดเกินจริง ที่จริงถ้า (พูด) ผู้เชี่ยวชาญโรคหัวใจควรนอนและอ้างว่ายาที่ลดความดันโลหิตเฉลี่ย 0.1 มม. ปรอทเป็น "นัยสำคัญทางคลินิก" ไม่มีสถิติใดที่จะป้องกันเราจากความไม่ซื่อสัตย์ประเภทนั้น

เราจำเป็นต้องยุติการตัดสินใจเชิงอนุมานเชิงสถิติ เราควรพยายามคิดให้ดีเกินกว่าสมมติฐาน ช่องว่างที่เพิ่มขึ้นระหว่างยูทิลิตี้ทางคลินิกและการขับเคลื่อนการตรวจสอบสมมติฐานทำให้ความสมบูรณ์ของวิทยาศาสตร์ลดลง การศึกษา "ที่สำคัญ" นั้นมีการชี้นำอย่างมาก แต่ไม่ค่อยให้สัญญากับการค้นพบที่มีความหมายทางคลินิก

สิ่งนี้ชัดเจนถ้าเราตรวจสอบคุณสมบัติของข้อสรุปที่ขับเคลื่อนด้วยการอนุมาน:

  • สมมติฐานว่างที่ระบุไว้มีการวางแผนไม่เห็นด้วยกับความรู้ในปัจจุบันและท้าทายเหตุผลหรือความคาดหวัง
  • สมมติฐานอาจมีการเปลี่ยนแปลงไปจนถึงจุดที่ผู้เขียนพยายามทำให้ สถิติไม่ค่อยสอดคล้องกับการสนทนาที่ตามมาในบทความมากนักกับผู้เขียนที่อ้างถึงว่าตัวอย่างเช่นการศึกษาเชิงสังเกตการณ์ของพวกเขามีผลกระทบต่อนโยบายสาธารณะและการเผยแพร่ประชาสัมพันธ์
  • สมมติฐานมีแนวโน้มที่จะไม่สมบูรณ์ในแง่ที่ว่าพวกเขาไม่ได้กำหนดจำนวนประชากรที่น่าสนใจอย่างเพียงพอและมีแนวโน้มที่จะนำไปสู่

สำหรับฉันแล้วทางเลือกนั้นมีวิธีการวิเคราะห์อย่างน้อยก็เป็นวิธีเชิงคุณภาพ ผลลัพธ์ทั้งหมดควรได้รับการตรวจอย่างเข้มงวดกับการค้นพบและความแตกต่าง "ที่คล้ายกัน" อื่น ๆ ที่อธิบายอย่างระมัดระวังโดยเฉพาะอย่างยิ่งโดยเฉพาะอย่างยิ่งเกณฑ์การยกเว้น / การแยกหน่วยหรือเครื่องชั่งที่ใช้สำหรับการเปิดเผย / ผลลัพธ์ )

เราต้องดำเนินการทดลองยืนยันอิสระ ผู้คนจำนวนมากถูกยั่วยุโดยการทดลองที่สำคัญเพียงครั้งเดียว แต่หากไม่มีการทำซ้ำเราไม่สามารถเชื่อมั่นได้ว่าการศึกษานั้นถูกต้องตามหลักจริยธรรม หลายคนสร้างอาชีพทางวิทยาศาสตร์จากหลักฐานที่ผิดพลาด


"ข้อเสนอแนะดั้งเดิมของฟิชเชอร์คือนักวิทยาศาสตร์ควรเปรียบเทียบคุณภาพ p-value กับพลังของการศึกษาและวาดข้อสรุปที่นั่น" ฉันรักประเด็นนี้ --- คุณมีข้อมูลอ้างอิงที่ฉันสามารถอ้างอิงได้ที่ฟิชเชอร์พูดสิ่งนี้หรือไม่ มันจะเป็นการก้าวไปข้างหน้าอย่างมากถ้านักวิทยาศาสตร์ย้ายจากการแบ่งขั้วที่เรียบง่ายของ p <0.05 เป็นขั้วต่อที่เรียบง่ายเพียงเล็กน้อยเท่านั้น: "ถ้า p <0.05 และพลังงานสูงเรามีหลักฐานที่แข็งแกร่งพอสมควรถ้า p> 0.05 หรือ กำลังไฟต่ำเราจะระงับการตัดสินเกี่ยวกับสมมติฐานนี้จนกว่าเราจะได้รับข้อมูลเพิ่มเติม "
civilstat

6

ppp

สองการอ้างอิงจากวรรณกรรมทางการแพทย์คือ (1) โดย Langman, MJS มีสิทธิ์ในการประมาณและช่วงความเชื่อมั่น และการ์ดเนอร์ MJ และ Altman, DG ได้รับช่วงความเชื่อมั่นมากกว่าค่า {P}: การประมาณค่ามากกว่าการทดสอบสมมติฐาน


2
ที่จริงแล้ว CI ไม่แสดงขนาดและความแม่นยำของผลการตรวจสอบเช่น Morey et al (2015) "การเข้าใจผิดเกี่ยวกับความเชื่อมั่นในช่วงความเชื่อมั่น" Psychological Bulletin & Review: learnbayes.org/papers/confidenceIntervalsFallacy
Tim

8
@ ทิมกระดาษที่ดีฉันไม่เคยเห็นมาก่อน ฉันชอบตัวอย่างเรือดำน้ำ ขอบคุณสำหรับลิงค์ แต่เราควรบอกว่ามันถูกเขียนโดยสมัครพรรคพวกเบย์ที่แท้จริง: "ช่วงเวลาที่ไม่ใช่แบบเบย์มีคุณสมบัติที่ไม่พึงประสงค์แม้กระทั่งคุณสมบัติที่แปลกประหลาดซึ่งจะนำไปสู่นักวิเคราะห์ที่มีเหตุผลที่จะปฏิเสธพวกเขา นักวิเคราะห์ที่สมเหตุสมผล! ความเย่อหยิ่งที่น่าประทับใจ
อะมีบา

1
@ amoeba เห็นด้วยฉันแค่ยกตัวอย่างเคาน์เตอร์เนื่องจากสำหรับฉันมันไม่ชัดเจนว่าทางเลือกนั้นชัดเจนและตรงตามที่อาจปรากฏตั้งแต่แรกเห็น
ทิม

4
ในขณะที่น่าสนใจฉันไม่พบตัวอย่างเรือดำน้ำทั้งหมดที่น่าสนใจ นักสถิติที่ไม่มีความคิดจะให้เหตุผลในแบบที่เป็นตัวอย่าง คุณไม่หยุดคิดและใช้วิธีสุ่มสี่สุ่มห้ากับทุกสถานการณ์เพียงเพราะมันมีประโยชน์กับคนอื่น
dsaxton

2
@amoeba: ในเครื่องหมายคำพูดนั้น "ช่วงเวลาที่ไม่ใช่แบบเบย์" หมายถึงช่วงเวลาที่กล่าวถึงในตัวอย่างนั้นไม่ใช่ช่วงเวลาทั้งหมดที่สมเหตุสมผลโดยตรรกะที่ไม่ใช่แบบเบย์ ดูที่นี่สำหรับบริบทเพิ่มเติม: stats.stackexchange.com/questions/204530/…
richarddmorey

1

ตัวเลือกของฉันคือการใช้ค่า p ต่อไป แต่เพียงเพิ่มความมั่นใจ / ช่วงเวลาที่เชื่อถือได้และอาจเป็นช่วงระยะการทำนายผลลัพธ์หลัก มีหนังสือที่ดีมากโดยดักลาสอัลท์แมน (สถิติที่มีความเชื่อมั่นไวลีย์) และด้วยวิธีเพิ่มประสิทธิภาพและวิธีการ MCMC คุณสามารถสร้างช่วงเวลาที่มีเหตุผลได้อย่างมีเหตุผล


6
ฉันคิดว่าคุณไม่ได้ตอบคำถามหลักซึ่งก็คือ "ทำไมพวกเขาถึงดีกว่า" / "ทำไมวิธีนี้ควรโน้มน้าวใจนักวิจัยหัวหน้าบรรณาธิการหรือผู้อ่านของคุณ" คุณสามารถพัฒนาตัวเลือกของคุณ?
peuhp

1. เพียงแค่เปิดใช้งานการปฏิบัติปัจจุบัน 2. มีแนวโน้มที่จะทำ "การทดสอบนัยสำคัญทางแบ็คดอร์" กับ CI ต่อไป, 3. การทดสอบความสำคัญ (ด้วยค่า p หรือ CIs) นำไปสู่อัตราการทำซ้ำที่ต่ำ (ดูบทความโดย Tim Lash) 4. นักวิจัยไม่สามารถใส่ใจเพื่อกำหนดขอบเขตหรือนัยสำคัญทางคลินิกได้ล่วงหน้า
AdamO

1

p

  • พัฒนาแบบจำลองที่ซับซ้อนยิ่งขึ้นซึ่งสามารถจำลองผลลัพธ์ในประชากรเป้าหมาย
  • ระบุและวัดคุณลักษณะของประชากรเป้าหมายที่สามารถนำไปใช้ในการตัดสินใจการรักษาหรือนโยบาย
  • ประมาณการโดยใช้วิธีการจำลองการสูญเสียที่คาดหวังในหน่วยดิบของปริมาณเป้าหมายเช่นปีชีวิต, ปีการปรับปรุงคุณภาพชีวิต, ดอลลาร์, ผลผลิตพืชผล ฯลฯ และเพื่อประเมินความไม่แน่นอนของการประมาณการนั้น

โดยทั้งหมดนี่ไม่ได้ขัดขวางการทดสอบความสำคัญของสมมติฐานปกติ แต่เป็นการเน้นย้ำว่าการค้นพบที่สำคัญทางสถิตินั้นเร็วมากขั้นตอนตัวกลางบนเส้นทางสู่การค้นพบที่แท้จริงและเราควรคาดหวังว่านักวิจัยจะทำอะไรได้มากกว่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.