ค่า p ไม่มีประโยชน์และอันตรายต่อการใช้งานหรือไม่?


36

บทความ " The Odds, อัพเดทอย่างต่อเนื่อง" จาก NY Timesเกิดขึ้นเพื่อดึงดูดความสนใจของฉัน จะสั้นก็กล่าวว่า

[สถิติแบบเบย์] พิสูจน์ให้เห็นแล้วว่ามีประโยชน์อย่างยิ่งในการเข้าถึงปัญหาที่ซับซ้อนรวมถึงการค้นหาเช่น Coast Guard ที่ใช้ในปี 2013 เพื่อค้นหาชาวประมงที่ขาดหายไป John Aldridge (แม้ว่าจะยังไม่ถึงตอนนี้ก็ตาม ...... สถิติแบบเบย์กำลังกระเพื่อมผ่านทุกสิ่งตั้งแต่ฟิสิกส์จนถึงการวิจัยมะเร็งนิเวศวิทยาจนถึงจิตวิทยา ...

ในบทความนี้ยังมีการวิพากษ์วิจารณ์เกี่ยวกับค่า p ของผู้ถี่ประจำเช่น:

ผลลัพธ์มักจะถูกพิจารณาว่า“ มีนัยสำคัญทางสถิติ” ถ้าค่า p น้อยกว่า 5 เปอร์เซ็นต์ แต่มีอันตรายในประเพณีนี้ Andrew Gelman ศาสตราจารย์ด้านสถิติของโคลัมเบียกล่าว แม้ว่านักวิทยาศาสตร์จะทำการคำนวณอย่างถูกต้องเสมอ - และพวกเขาไม่ทำเขาให้เหตุผล - ยอมรับทุกสิ่งด้วยค่า p-value 5 เปอร์เซ็นต์ซึ่งหมายความว่าหนึ่งใน 20 ของผลลัพธ์“ นัยสำคัญทางสถิติ” ไม่มีอะไรเลยนอกจากเสียงรบกวนแบบสุ่ม

นอกจากนี้ข้างต้นบางทีกระดาษที่มีชื่อเสียงที่สุดที่วิจารณ์ p-value ก็คืออันนี้ - "วิธีการทางวิทยาศาสตร์: ข้อผิดพลาดทางสถิติ" โดย Regina Nuzzo จากธรรมชาติซึ่งมีการถกประเด็นทางวิทยาศาสตร์จำนวนมากโดยวิธีการ p-value p-value hacking เป็นต้น

ค่า P, 'มาตรฐานทองคำ' ของความถูกต้องทางสถิติไม่น่าเชื่อถือเท่าที่นักวิทยาศาสตร์หลายคนคิด ...... บางทีการเข้าใจผิดที่เลวร้ายที่สุดคือการหลอกลวงตัวเองซึ่งนักจิตวิทยา Uri Simonsohn แห่งมหาวิทยาลัยเพนซิลเวเนีย มันยังเป็นที่รู้จักกันในนามการขุดลอกข้อมูลสอดแนมตกปลาการไล่ล่าอย่างมีนัยสำคัญและการจุ่มสองครั้ง “ P-hacking” Simonsohn กล่าว“ พยายามหลายสิ่งจนกว่าคุณจะได้ผลลัพธ์ที่ต้องการ” - แม้ไม่รู้ตัว ...... "การค้นพบนั้นดูเหมือนว่าจะได้รับจากการแฮ็ค p ผู้เขียนได้ทิ้งเงื่อนไขข้อหนึ่งไว้เพื่อให้ค่า p โดยรวมน่าจะน้อยกว่า. 05" และ "เธอเป็น p-hacker เธอตรวจสอบข้อมูลอยู่เสมอขณะที่กำลังรวบรวมข้อมูล”

อีกสิ่งหนึ่งคือพล็อตที่น่าสนใจดังนี้จากที่นี่พร้อมความคิดเห็นเกี่ยวกับพล็อต

ไม่ว่าผลกระทบของคุณจะเล็กเพียงใดคุณสามารถทำงานอย่างหนักในการรวบรวมข้อมูลเพื่อผ่านเกณฑ์ของ p <.05 ตราบใดที่เอฟเฟกต์ที่คุณกำลังศึกษาไม่มีอยู่จริงค่า p ก็แค่วัดความพยายามของคุณในการรวบรวมข้อมูล

ป้อนคำอธิบายรูปภาพที่นี่

จากทั้งหมดข้างต้นคำถามของฉันคือ:

  1. อะไรคือเหตุผลของ Andrew Gelman ในการอ้างอิงบล็อกที่สองหมายความว่าอะไร เหตุใดเขาจึงตีความค่า p-value 5 เปอร์เซ็นต์ว่า "ผลลัพธ์ที่มีนัยสำคัญทางสถิติหนึ่งใน 20 รายการสังเกต แต่เป็นสัญญาณรบกวนแบบสุ่ม" ฉันไม่มั่นใจเนื่องจากค่า p ถูกใช้เพื่อการอนุมานในการศึกษาเดียว ประเด็นของเขาดูเหมือนจะเกี่ยวข้องกับการทดสอบหลายครั้ง

    Update:ตรวจสอบบล็อกของ Andrew Gelman เกี่ยวกับเรื่องนี้: ไม่ฉันไม่ได้พูดอย่างนั้น! (เครดิตให้กับ @Scortchi, @whuber)

  2. ได้รับการวิพากษ์วิจารณ์เกี่ยวกับ p-value และยังมีเกณฑ์ข้อมูลจำนวนมากเช่น AIC, BIC,ของ Mallow สำหรับการประเมินความสำคัญของแบบจำลอง (ดังนั้นตัวแปร) เราไม่ควรใช้ p-value สำหรับการเลือกตัวแปรเลย แต่ใช้เกณฑ์การเลือกโมเดลเหล่านั้นหรือCp

  3. มีแนวทางปฏิบัติที่ดีในการใช้ p-value สำหรับการวิเคราะห์ทางสถิติซึ่งอาจนำไปสู่ผลการวิจัยที่น่าเชื่อถือมากขึ้นหรือไม่?
  4. กรอบการสร้างแบบจำลองแบบเบย์จะเป็นวิธีที่ดีกว่าในการดำเนินการตามที่นักสถิติบางคนสนับสนุนหรือไม่ โดยเฉพาะวิธีการแบบเบย์มีแนวโน้มที่จะแก้ไขการค้นพบที่ผิดพลาดหรือจัดการกับปัญหาข้อมูลหรือไม่ ฉันไม่เชื่อที่นี่เช่นกันเนื่องจากก่อนหน้านี้เป็นแบบอัตนัยในวิธีการแบบเบย์ มีการศึกษาภาคปฏิบัติและมีชื่อเสียงที่แสดงให้เห็นว่าวิธีการแบบเบย์นั้นดีกว่าค่า p ของผู้ใช้เป็นประจำหรืออย่างน้อยในบางกรณี?

    อัปเดต:ฉันจะสนใจเป็นพิเศษว่ามีบางกรณีที่วิธีการแบบเบย์มีความน่าเชื่อถือมากกว่าวิธีการแบบ p-value ของผู้ใช้ประจำหรือไม่ ด้วย "ความน่าเชื่อถือ" ฉันหมายถึงวิธีการแบบเบย์มีโอกาสน้อยที่จะจัดการข้อมูลเพื่อผลลัพธ์ที่ต้องการ ข้อเสนอแนะใด ๆ


อัปเดต 6/9/2558

เพิ่งสังเกตเห็นข่าวและคิดว่ามันเป็นการดีที่จะเอามันมาที่นี่เพื่อการอภิปราย

จิตวิทยาวารสารห้ามค่า P

การทดสอบทางสถิติที่ถกเถียงกันได้ถึงจุดจบในที่สุดแล้วอย่างน้อยก็ในวารสารเดียว เมื่อต้นเดือนที่แล้วบรรณาธิการของจิตวิทยาสังคมขั้นพื้นฐานและจิตวิทยาประยุกต์ (BASP) ประกาศว่าวารสารจะไม่เผยแพร่เอกสารที่มีค่า P เพราะสถิติมักถูกใช้เพื่อสนับสนุนการวิจัยที่มีคุณภาพต่ำกว่า

พร้อมกับกระดาษเมื่อเร็ว ๆ นี้"ค่า P fickle สร้างผลลัพธ์ที่ไม่สามารถผลิตคืนได้" จากธรรมชาติเกี่ยวกับค่า P

อัปเดต 5/8/2559

ย้อนกลับไปเมื่อเดือนมีนาคมสมาคมสถิติอเมริกัน (ASA) ออกแถลงการณ์เกี่ยวกับนัยสำคัญทางสถิติและค่า p "... คำแถลง ASA นั้นมีจุดประสงค์เพื่อนำการวิจัยไปสู่ ​​'post p <0.05 ยุค'"

คำสั่งนี้มี 6 หลักการที่กล่าวถึงการใช้ค่า p ในทางที่ผิด:

  1. ค่า P สามารถระบุว่าข้อมูลไม่เข้ากันกับแบบจำลองทางสถิติที่ระบุได้อย่างไร
  2. ค่า P ไม่ได้วัดความน่าจะเป็นที่สมมติฐานที่ศึกษาเป็นจริงหรือความน่าจะเป็นที่ข้อมูลถูกสร้างขึ้นโดยการสุ่มโอกาสเพียงอย่างเดียว
  3. ข้อสรุปทางวิทยาศาสตร์และการตัดสินใจทางธุรกิจหรือนโยบายไม่ควรขึ้นอยู่กับว่าค่า p ผ่านเกณฑ์เฉพาะ
  4. การอนุมานที่เหมาะสมนั้นต้องการการรายงานและความโปร่งใสที่ครบถ้วน
  5. ค่า p หรือค่านัยสำคัญทางสถิติไม่ได้วัดขนาดของผลกระทบหรือความสำคัญของผลลัพธ์
  6. ค่า p-value ไม่ได้ให้หลักฐานที่ดีเกี่ยวกับแบบจำลองหรือสมมติฐาน

รายละเอียด: "คำสั่งของเอเอสเอพีค่า: บริบทกระบวนการและวัตถุประสงค์"


11
Re 1: ฉันสงสัยว่า Gelman block อาจจะมีการคัดลอกผิดเพราะมันจำเป็นต้องมีสมมติฐานที่แข็งแกร่ง (counterfactual) เพื่อให้ถูกต้อง หากทุกสิ่งที่เคยศึกษาในโลกตามสมมติฐานว่างของพวกเขาและสมมติฐานว่างทั้งหมดเป็นแบบง่าย (และไม่รวมกัน) จากนั้นการก่อสร้าง 5% ของค่า p ทั้งหมดที่น้อยกว่าจะเกิดขึ้นโดยบังเอิญ - เป็น "เสียงรบกวนแบบสุ่ม" อย่างไรก็ตามหากคนทำอย่างละเอียดการทดลองที่กว้างขวางซึ่งสมมติฐานทางเลือกเป็นจริง (เช่นในใบเสนอราคาสุดท้าย) ดังนั้นค่า p-value ทั้งหมดจะน้อยกว่าและจะไม่มี "เสียง" 0.050.05
whuber


4
หาดี @Scortchi! สำหรับบันทึก - ในกรณีที่ลิงก์ไม่ดี - Gelman ปฏิเสธการกำหนดลักษณะ NY Times อย่างเด่นชัด (แม้ว่าจะมีไหวพริบดี) และเขียนว่า "การยอมรับทุกสิ่งด้วยค่า p-value 5 เปอร์เซ็นต์สามารถนำไปสู่การค้นพบปลอม - กรณีที่สังเกต" รูปแบบที่มีนัยสำคัญทางสถิติ” ในข้อมูลไม่ได้สะท้อนรูปแบบที่สอดคล้องกันในประชากร - มากกว่า 5 เปอร์เซ็นต์ของเวลา "
whuber

3
อ้างอิงถึงความคิดเห็นของคุณ "ตราบใดที่เอฟเฟ็กต์ที่คุณกำลังเรียนอยู่ไม่มีอยู่จริง" นั่นคือประเด็นของการศึกษาที่เกี่ยวข้องกับค่า p - เพื่อตรวจสอบว่าเอฟเฟกต์ที่คุณกำลังศึกษานั้นมีอยู่จริงหรือไม่ ข้อมูลที่คุณรวบรวมเป็นเพียงเพราะมีโอกาสสุ่ม การลดค่า p ด้วยการเพิ่มขนาดตัวอย่างจะให้เสียงทางคณิตศาสตร์อย่างสมบูรณ์และในความเป็นจริงแล้วตัวเลือกเดียวเท่านั้น คุณไม่มีทาง "แฮ็ค" ค่า p จากมุมมองที่เข้าใจง่ายมันทำให้รู้สึกว่าการใช้ความพยายามมากขึ้นในการรวบรวมข้อมูลจะแปลเป็นความมั่นใจที่สูงขึ้นในข้อสรุปที่คุณดึงออกมา
David Webb

1
@DavidWebb เห็นด้วย หากขนาดเอฟเฟกต์มีขนาดเล็กก็ไม่เป็นไรและจะง่ายกว่าที่จะบอกว่าเอฟเฟกต์ขนาดใหญ่หรือเล็กจะมีข้อมูลมากขึ้น หากคุณสามารถรับข้อมูลเพิ่มเติมได้คุณควร
Destan

คำตอบ:


25

นี่คือความคิดบางอย่าง:

  1. ในฐานะที่เป็น @whuber บันทึกฉันสงสัย Gelman กล่าวว่า (แม้ว่าเขาอาจจะพูดอะไรบางอย่างที่คล้ายกันทำให้เกิดเสียง) ร้อยละห้าของกรณีที่ค่า Null เป็นจริงจะให้ผลลัพธ์ที่สำคัญ (ข้อผิดพลาดประเภท I) โดยใช้ค่าอัลฟาเท่ากับ. 05 ถ้าเราคิดว่าพลังที่แท้จริงสำหรับการศึกษาทั้งหมดที่เป็นโมฆะเป็นเท็จแถลงการณ์อาจเป็นจริงได้เฉพาะในกรณีที่อัตราส่วนของการศึกษาดำเนินการโดยที่โมฆะเป็นจริงกับการศึกษาที่โมฆะนั้นเป็นเท็จ\% 80%100/118.7584%
  2. เกณฑ์การเลือกแบบจำลองเช่น AIC สามารถมองเห็นได้ว่าเป็นวิธีการเลือกค่าที่เหมาะสม เพื่อทำความเข้าใจนี้มากขึ้นอย่างเต็มที่ก็อาจจะช่วยให้การอ่าน @ คำตอบ Glen_b ของที่นี่: แบบขั้นตอนการถดถอยใน R - ที่สำคัญ p-value ยิ่งไปกว่านั้นไม่มีอะไรขัดขวางผู้คนจาก 'AIC-hacking' ถ้า AIC กลายเป็นข้อกำหนดสำหรับการตีพิมพ์ p
  3. คำแนะนำที่ดีที่จะกระชับแบบจำลองในลักษณะดังกล่าวที่คุณไม่ได้ทำให้คุณ -values จะเป็นหนังสือแฟรงก์ Harrell ของการถดถอยการสร้างแบบจำลองกลยุทธ์ p
  4. ฉันไม่ได้ต่อต้านการใช้วิธีแบบเบย์อย่างดื้อรั้น แต่ฉันไม่เชื่อว่าพวกเขาจะแก้ปัญหานี้ได้ ตัวอย่างเช่นคุณสามารถเก็บรวบรวมข้อมูลได้ตลอดเวลาจนกว่าช่วงเวลาที่เชื่อถือได้จะไม่รวมค่าใด ๆ ที่คุณต้องการปฏิเสธอีกต่อไป ดังนั้นคุณจึงมี 'ช่วงเวลาที่น่าเชื่อถือ' อย่างที่ฉันเห็นมันปัญหาคือผู้ฝึกหัดจำนวนมากไม่สนใจในการวิเคราะห์ทางสถิติที่พวกเขาใช้ดังนั้นพวกเขาจะใช้วิธีใดก็ตามที่พวกเขาต้องการในวิธีที่ไม่คิดและกลไก สำหรับข้อมูลเพิ่มเติมเกี่ยวกับมุมมองของฉันที่นี่มันอาจจะช่วยในการอ่านคำตอบของฉัน: ผลขนาดเป็นสมมติฐานสำหรับการทดสอบอย่างมีนัยสำคัญ

10
(+1) วิธีง่ายๆในการแฮ็กช่วงเวลาที่น่าเชื่อถือคือการนำมาใช้ก่อน :-) ก่อน แน่นอนว่าไม่มีผู้ปฏิบัติที่มีความเชี่ยวชาญจะทำเช่นนี้ - Gelman เน้นการใช้การประเมินความอ่อนไหว, hyperpriors ที่ไม่เป็นทางการและอื่น ๆ - แต่จากนั้นไม่มีผู้ใช้ที่มีความสามารถในการทดสอบสมมติฐานใด ๆ ในทางกลับกันในการวิเคราะห์แบบเบย์อาจเป็นการยากที่จะซ่อนสิ่งที่กำลังทำอยู่โดยสมมติว่ามีการเปิดเผยก่อนหน้านี้อย่างชัดเจน - เปรียบเทียบกับการวิเคราะห์ที่ไม่มีเอกสารทั้งหมดซึ่งอาจเกี่ยวข้องกับการแฮ็คค่า p
whuber

1
@ โฮเบอร์มันเป็นเรื่องจริง แต่ฉันคิดว่าเราสามารถแยกแยะปัญหาใด ๆ ที่มีความไม่เหมาะสมหรือความเป็นส่วนตัวของเรื่องก่อนหน้า หากเอฟเฟกต์จริงไม่ใช่ 0 อย่างแน่นอนข้อมูล w / เพียงพอในที่สุดช่วงเวลาที่น่าเชื่อถือจะไม่รวม 0 เช่นเดียวกับที่ p จะเป็น <.05 (cf คำพูดสุดท้าย) ดังนั้นคุณสามารถเก็บข้อมูลได้จนกว่าคุณจะได้รับ ผลลัพธ์ที่คุณต้องการโดยไม่คำนึงถึงก่อน
gung - Reinstate Monica

4
จุดที่ดี ฉันถูกเตือนให้นึกถึงคำถามล่าสุดเกี่ยวกับการทำนายความล้มเหลวในผลิตภัณฑ์ 10,000 รายการหลังจากที่สังเกตว่าไม่มีความล้มเหลวใน 100,000 รายการ คำตอบนั้นค่อนข้างอ่อนไหวไปก่อนเพราะความล้มเหลวหายากมาก นี่อาจเป็นสถานการณ์พิเศษที่ "พิสูจน์กฎ"; มันแสดงให้เห็นว่าในความเป็นจริงมันเป็นไปไม่ได้ที่จะรวบรวมข้อมูลที่เพียงพอเพื่อให้ได้ผลลัพธ์ที่ต้องการ นั่นคือเมื่อลูกค้าบางคนเริ่มขอร้องให้นักสถิติที่จะ "ทำมายากลของพวกเขา" เพื่อให้บรรลุผลลัพธ์ที่ต้องการ! ผู้อ่านหลายคนอาจรู้สึกกดดันก่อนหน้านี้
whuber

1
@gung ในการทดลองทางคลินิกที่ใช้งานจริงมีเกณฑ์การหยุดที่ระยะต่าง ๆ สำหรับการสรรหาอาสาสมัครเพิ่มเติมสำหรับการทดลอง ในแง่ที่ว่าวิธีการแบบเบย์เสียงจะมีโอกาสน้อยที่จะจัดการกับช่วงเวลาที่น่าเชื่อถือดังนั้นข้อสรุปการวิจัย?
Aaron Zeng

2
@AaronZeng ดูเหมือนว่าเกณฑ์การหยุดอย่างชัดเจนจะมีผลกับมุมมองของผู้ใช้ประจำและเบย์ ฉันไม่เห็นข้อได้เปรียบ / ผลเสียสุทธิใด ๆ ที่นี่
gung - Reinstate Monica

8

สำหรับฉันสิ่งหนึ่งที่น่าสนใจที่สุดเกี่ยวกับการโต้เถียง p-hacking คือประวัติทั้งหมดของ p <= 0.05 ในฐานะ "ครั้งหนึ่งในดวงจันทร์สีน้ำเงิน" มาตรฐานความสำคัญทางสถิติตามที่ Joseph Kaldane บันทึกไว้ในบทความ JASA เกี่ยวกับสถิติทางนิติเวช ย้อนกลับไปในยุค 90 ขึ้นอยู่กับทฤษฎีทางสถิติใด ๆ มันเป็นแบบแผนฮิวริสติกแบบง่าย ๆ และกฎง่ายๆที่เริ่มต้นด้วย RA Fisher และตั้งแต่นั้นมาได้รับการแก้ไขหรืออุทิศให้เป็นสถานะ "ไม่ต้องสงสัย" ในปัจจุบัน Bayesian หรือไม่, เวลานั้นเกินกำหนดนานที่จะท้าทายมาตรฐานการวัดนี้หรืออย่างน้อยก็ให้ความสงสัยที่มันสมควรได้รับ

ที่กล่าวว่าการตีความของฉันเกี่ยวกับประเด็นของ Gelman ก็คือกระบวนการตรวจสอบโดยเพื่อนจะให้ความสำคัญทางสถิติเชิงบวกและลงโทษผลลัพธ์ที่ไม่มีนัยสำคัญโดยไม่ตีพิมพ์บทความเหล่านั้น สิ่งนี้ไม่ว่าการเผยแพร่การค้นพบที่ไม่สำคัญจะมีผลกระทบอย่างมากต่อการคิดและสร้างทฤษฎีสำหรับโดเมนที่กำหนดหรือไม่ Gelman, Simonshohn และคนอื่น ๆ ได้ชี้ให้เห็นถึงการละเมิดในระดับนัยสำคัญ 0.05 ในงานวิจัยที่ผ่านการตรวจสอบและตีพิมพ์โดยถือตัวอย่างของการค้นพบที่ไร้สาระ แต่ยังมีนัยสำคัญทางสถิติในการวิจัยอาถรรพณ์สังคมและจิตวิทยา หนึ่งในมหันต์ที่สุดคือการค้นพบที่สำคัญทางสถิติว่าหญิงตั้งครรภ์มีแนวโน้มที่จะสวมชุดสีแดง Gelman ยืนยันว่าในกรณีที่ไม่มีความท้าทายเชิงตรรกะต่อผลลัพธ์ทางสถิติคำอธิบายที่อาจไม่มีความหมาย ที่นี่เขาอ้างถึงอันตรายจากการประกอบอาชีพของอุตสาหกรรมที่มีข้อโต้แย้งทางเทคนิคและลึกซึ้งเกินไปที่ทำอะไรเล็กน้อยหรือไม่มีอะไรที่จะเพิ่มการอภิปรายระหว่างผู้ชมทั่วไป

นี่คือประเด็นที่ Gary King ทำให้โกรธเมื่อเขาขอร้องนักวิทยาศาสตร์การเมืองเชิงปริมาณ (และโดยการขยายทุก quants) เพื่อหยุดกลไกการรายงานทางเทคนิคเช่น "ผลลัพธ์นี้มีความสำคัญที่ ap <= 0.05 ระดับ" และเคลื่อนไปสู่การตีความที่สำคัญยิ่งขึ้น . นี่คือคำพูดจากกระดาษของเขา

(1) ถ่ายทอดการประมาณการที่แม่นยำเชิงตัวเลขของปริมาณของผลประโยชน์ที่สำคัญมากที่สุด (2) รวมถึงมาตรการที่ไม่แน่นอนของความไม่แน่นอนเกี่ยวกับการประมาณการเหล่านั้นและ (3) ต้องการความรู้เฉพาะเล็กน้อยเพื่อให้เข้าใจ ข้อความเรียบง่ายต่อไปนี้ตรงตามเกณฑ์ของเรา: 'สิ่งอื่น ๆ ที่เท่าเทียมกันปีการศึกษาเพิ่มเติมจะเพิ่มรายได้ประจำปีของคุณโดยเฉลี่ย 1,500 ดอลลาร์บวกหรือลบประมาณ 500 ดอลลาร์' นักเรียนมัธยมปลายคนใดก็ตามจะเข้าใจประโยคนั้นไม่ว่าโมเดลทางสถิติจะมีความซับซ้อนเพียงใดและคอมพิวเตอร์ที่ทรงพลังใช้ในการผลิต

ประเด็นของ King นั้นได้รับการดำเนินการเป็นอย่างดีและกำหนดทิศทางของการอภิปรายที่จำเป็น

ทำส่วนใหญ่ของการวิเคราะห์ทางสถิติ: การปรับปรุงการตีความและการนำเสนอ , คิง, Tomz และ Wittenberg ในปี 2002 Am Jour ของ Poli วิทย์


2
+1 ขอบคุณสำหรับการมีส่วนร่วมที่สามารถอ่านได้ให้ข้อมูลและมีน้ำใจ
whuber

@whuber ขอบคุณสำหรับคำพูดที่ใจดี เวลาจะบอกได้ว่าผู้เข้าร่วมคนอื่นเห็นด้วยหรือไม่
Mike Hunter

2
ฉันอาจถูกเพิกถอน แต่ฉันชอบที่จะคิดว่าผู้ลงคะแนนเสียงที่ใช้งานของเราบางคนไม่ได้ลงคะแนนบนพื้นฐานของข้อตกลงหรือความขัดแย้ง . ท้ายที่สุดข้อความโฮเวอร์เหนือไอคอน upvote จะอ่านว่า "คำตอบนี้มีประโยชน์" ไม่ใช่ "ฉันเห็นด้วยกับผู้ชายคนนี้" (นี้ไม่ต้องวุ่นวายกับการออกเสียงลงคะแนนในเว็บไซต์เมตาของเราซึ่งไม่ศึกษาระดับปริญญามีความหมายของข้อตกลง.) หลักฐานบางอย่างสำหรับการแสดงผลนี้จะ afforded โดยหลายป้ายนักกีฬาที่ได้รับรางวัล
whuber

@Whuber ความแตกต่างที่คุณชี้ให้เห็นนั้นถูกบันทึกไว้อย่างถูกต้อง
Mike Hunter

@whuber กระทู้นี้เป็นแหล่งที่มาของการใช้คำว่าdeludedในการแชทของเราในวันอื่น ๆ
Mike Hunter

5

นี่คือความคิดของฉันเกี่ยวกับคำถาม 3 หลังจากอ่านความคิดเห็นและคำตอบที่ลึกซึ้งทั้งหมด

บางทีคำแนะนำเชิงปฏิบัติหนึ่งข้อในการวิเคราะห์ทางสถิติเพื่อหลีกเลี่ยงการแฮ็กค่า p คือการดูที่ขนาดทางวิทยาศาสตร์ (หรือทางชีวภาพทางคลินิก ฯลฯ ) ที่สำคัญ / มีความหมาย

โดยเฉพาะการวิจัยควรกำหนดขนาดของเอฟเฟกต์ล่วงหน้าที่สามารถประกาศให้เป็นประโยชน์หรือมีความหมายก่อนการวิเคราะห์ข้อมูลหรือแม้กระทั่งก่อนการรวบรวมข้อมูล ตัวอย่างเช่นถ้าปล่อยให้แสดงผลของยาแทนที่จะทดสอบสมมติฐานต่อไปนี้เราควรทดสอบเสมอ โดยที่เป็นขนาดเอฟเฟกต์ที่กำหนดไว้ล่วงหน้าเพื่ออ้างสิทธิ์นัยสำคัญθ

H0:θ=0vs.Ha:θ0,
H0:θ<δvs.Ha:θδ,
δ

นอกจากนี้เพื่อหลีกเลี่ยงการใช้ขนาดตัวอย่างที่มีขนาดใหญ่เกินไปในการตรวจจับผลกระทบขนาดของกลุ่มตัวอย่างที่จำเป็นต้องนำมาพิจารณาด้วย นั่นคือเราควรวางข้อ จำกัด กับขนาดตัวอย่างสูงสุดที่ใช้สำหรับการทดสอบ

เพื่อสรุป

  1. เราต้องการเกณฑ์ที่กำหนดไว้ล่วงหน้าสำหรับขนาดเอฟเฟกต์ที่มีความหมายเพื่อประกาศความสำคัญ
  2. เราจำเป็นต้องกำหนดเกณฑ์สำหรับขนาดตัวอย่างที่ใช้ในการทดสอบเพื่อหาปริมาณว่าขนาดเอฟเฟกต์ที่มีความหมายนั้นสามารถตรวจจับได้อย่างไร

จากด้านบนบางทีเราสามารถหลีกเลี่ยงผลกระทบ "นัยสำคัญ" เล็กน้อยที่อ้างโดยขนาดตัวอย่างขนาดใหญ่


[อัพเดท 6/9/2558]

เกี่ยวกับคำถามที่ 3 นี่คือคำแนะนำบางส่วนจากรายงานล่าสุดจากธรรมชาติ: "ค่า P fickle สร้างผลลัพธ์ที่ไม่สามารถแก้ไขได้"ดังที่ฉันได้กล่าวไว้ในส่วนของคำถาม

  1. รายงานการประเมินขนาดของเอฟเฟกต์และความแม่นยำของพวกเขาเช่นช่วงความมั่นใจ 95% เนื่องจากข้อมูลที่ให้ข้อมูลมากกว่านั้นจะตอบคำถามที่เหมือนกันว่าความแตกต่างหรือความสัมพันธ์หรือการเชื่อมโยงแข็งแกร่งเพียงใด
  2. ใส่ค่าประมาณขนาดผลกระทบและ CIs 95% ลงในบริบทของการศึกษาทางวิทยาศาสตร์ / คำถามที่เฉพาะเจาะจงและมุ่งเน้นไปที่ความเกี่ยวข้องของการตอบคำถามเหล่านั้นและลดค่าความไม่แน่นอน P;
  3. แทนที่การวิเคราะห์พลังงานด้วย " การวางแผนเพื่อความแม่นยำ " เพื่อกำหนดขนาดตัวอย่างที่ต้องการสำหรับการประเมินขนาดผลกระทบเพื่อให้ได้ระดับความแม่นยำที่กำหนดไว้

[สิ้นสุดอัปเดต 6/9/2558]


4
หากคุณเขียนคุณกำลังเถียงกับการทดสอบความเท่าเทียมซึ่งฉันคิดว่าเป็นเรื่องดีที่ต้องทำในหลาย ๆ สถานการณ์ (โดยทั่วไปแล้วการทดสอบสมมติฐานจะไม่นำเสนอเหมือนกับสถานการณ์ที่สองเนื่องจากมีผลลัพธ์ที่เป็นไปได้ที่ไม่ได้อยู่ในค่าว่างหรือทางเลือก)H0:θ=δ
Andy W

@AndyW ขอบคุณสำหรับความคิดเห็น ฉันเปลี่ยนคำตอบแล้ว เสียงนั้นจะเป็นตัวเลือกที่ดีกว่าไหม
Aaron Zeng

2
+1 สำหรับการอ้างอิงถึงบทความของธรรมชาตินั้น มันมีข้อมูลที่น่าพิศวงบางอย่างเช่น (การบอกกล่าว) การตีความแบบเบย์ของค่า p: "เป็นตัวอย่างถ้าการศึกษาได้รับ P = 0.03 มีโอกาส 90% ที่การศึกษาซ้ำจะส่งคืนค่า P ที่ใดที่หนึ่ง ระหว่างช่วงกว้างของ 0-0.6 (ช่วงการทำนาย 90%) ในขณะที่โอกาสของ P <0.05 เป็นเพียง 56% " ฉันสงสัยว่าการเขียนก่อนหน้านี้ที่ผู้เขียนเขียนคืออะไร - และทำไมถึงเกี่ยวข้อง
whuber

@AndyW และ Aaron Zeng ที่ดียิ่งขึ้นคือการรวมผลลัพธ์จากการทดสอบทั้งสองแบบสำหรับความแตกต่างและการทดสอบเพื่อความเท่าเทียม ด้วยวิธีการนี้จะทำการวางทั้งขนาดเอฟเฟกต์ที่เกี่ยวข้องและกำลังทางสถิติลงในข้อสรุปที่ชัดเจน (ดูหัวข้อการทดสอบความเกี่ยวข้อง)
อเล็กซิส

3

ในการใช้งานร่วมสมัยค่า p หมายถึงความน่าจะเป็นสะสมของข้อมูลที่ได้รับจากสมมติฐานว่างที่หรือมากกว่าเกณฑ์ คือPฉันคิดว่ามีแนวโน้มที่จะเป็นสมมุติฐานของ 'ไม่มีผล' โดยปกติแล้วจะถูกพร็อกซีโดยการเปรียบเทียบกับความน่าจะเป็นที่จะได้ผลลัพธ์แบบสุ่มที่ไม่น่าพอใจในการทดลองจำนวนหนึ่ง ขึ้นอยู่กับสนามมันแตกต่างกันจาก 5% ลงไป 0.1% หรือน้อยกว่า อย่างไรก็ตามไม่จำเป็นต้องเป็นการเปรียบเทียบกับการสุ่มP(D|H0)αH0H0

  1. ก็หมายความว่าผล 1/20 อาจปฏิเสธโมฆะเมื่อพวกเขาไม่ควร หากใช้วิทยาศาสตร์เป็นข้อสรุปในการทดลองเดียวแล้วคำสั่งจะป้องกันได้ มิฉะนั้นหากการทดสอบสามารถทำซ้ำได้มันจะบอกเป็นนัยว่า 19/20 จะไม่ถูกปฏิเสธ คุณธรรมของเรื่องราวคือการทดลองควรทำซ้ำได้

  2. วิทยาศาสตร์เป็นประเพณีที่มีพื้นฐานมาจาก "ความเที่ยงธรรม" ดังนั้น "ความน่าจะเป็นเป้าหมาย" ตามธรรมชาติแล้ว จำได้ว่าการทดลองควรจะแสดงให้เห็นถึงการควบคุมระดับสูงมักจะใช้การออกแบบบล็อกและการสุ่มเพื่อควบคุมปัจจัยภายนอกการศึกษา ดังนั้นการเปรียบเทียบกับการสุ่มจึงเหมาะสมเพราะปัจจัยอื่น ๆ ทั้งหมดควรได้รับการควบคุมยกเว้นสำหรับปัจจัยที่อยู่ภายใต้การศึกษา เทคนิคเหล่านี้ประสบความสำเร็จอย่างสูงในด้านการเกษตรและอุตสาหกรรมก่อนที่จะถูกส่งไปยังวิทยาศาสตร์

  3. ฉันไม่แน่ใจว่าการขาดข้อมูลเป็นปัญหาอย่างแท้จริงหรือไม่ เป็นที่น่าสังเกตว่าสำหรับหลาย ๆ คนในสาขาที่ไม่ใช่คณิตศาสตร์นั้นสถิติเป็นเพียงช่องสำหรับทำเครื่องหมาย

  4. ฉันขอแนะนำให้อ่านทั่วไปเกี่ยวกับทฤษฎีการตัดสินใจที่รวมสองกรอบงาน มันเพียงลงมาเพื่อใช้ข้อมูลเท่าที่คุณมี สถิติผู้ใช้บ่อยสมมติว่าพารามิเตอร์ในโมเดลมีค่าที่ไม่รู้จักจากการแจกแจงแบบคงที่ Bayesians สมมติว่าพารามิเตอร์ในแบบจำลองมาจากการแจกแจงตามเงื่อนไขที่เรารู้ หากมีข้อมูลเพียงพอที่จะจัดทำข้อมูลก่อนหน้านี้และเพียงพอที่จะอัปเดตให้เป็นภาพหลังที่ถูกต้อง หากไม่มีแล้วคุณอาจท้ายด้วยผลลัพธ์ที่เลวร้ายกว่า


1

การทำซ้ำของผลการทดสอบทางสถิติ

นี่คือแบบฝึกหัดสั้น ๆ ที่ง่าย ๆ เพื่อประเมินความสามารถในการทำซ้ำของการตัดสินใจบนพื้นฐานของการทดสอบทางสถิติ

พิจารณาสมมติฐานว่าง H0 พร้อมชุดของสมมติฐานทางเลือกที่มี H1 และ H2 ตั้งค่าขั้นตอนการทดสอบสมมติฐานทางสถิติที่ระดับนัยสำคัญ 0.05 เพื่อให้ได้กำลัง 0.8 หาก H1 เป็นจริง ต่อไปสมมติว่าพลังงานสำหรับ H2 คือ 0.5 ในการประเมินความสามารถในการทำซ้ำของผลการทดสอบการพิจารณานั้นจะดำเนินการตามขั้นตอนการทดสอบสองครั้ง เริ่มต้นจากสถานการณ์ที่ H0 เป็นจริงความน่าจะเป็นสำหรับผลลัพธ์ของการทดสอบร่วมแสดงในตารางที่ 1 ความน่าจะเป็นที่จะไม่สามารถทำการตัดสินใจซ้ำได้คือ 0.095

ตารางที่ 1. ความถี่ถ้า H0 เป็นจริง

Frequency.of.decisionReject.H0Retain.H0Reject.H00.00250.0475Retain.H00.04750.9025

ความถี่เปลี่ยนไปตามสภาวะที่แท้จริงของธรรมชาติที่เปลี่ยนแปลงไป สมมติว่า H1 เป็นจริง H0 สามารถถูกปฏิเสธตามที่ออกแบบด้วยพลัง 0.8 ความถี่ที่เกิดขึ้นสำหรับผลลัพธ์ที่แตกต่างกันของการทดสอบแบบร่วมจะแสดงในตารางที่ 2 ความน่าจะเป็นที่จะไม่สามารถทำการตัดสินใจซ้ำได้คือ 0.32

ตารางที่ 2. ความถี่, หาก H1 เป็นจริง

Frequency.of.decisionReject.H0Retain.H0Reject.H00.640.16Retain.H00.160.04

สมมติว่า H2 เป็นจริง H0 จะถูกปฏิเสธด้วยความน่าจะเป็นที่ 0.5 ความถี่ที่เกิดขึ้นสำหรับผลลัพธ์ที่แตกต่างกันของการทดสอบแบบร่วมจะแสดงในตารางที่ 3 ความน่าจะเป็นที่จะไม่สามารถทำการตัดสินใจซ้ำได้คือ 0.5

ตารางที่ 3. ความถี่ถ้า H2 เป็นจริง

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

ขั้นตอนการทดสอบออกแบบมาเพื่อควบคุมข้อผิดพลาดประเภทที่ 1 (การปฏิเสธสมมติฐานว่างแม้ว่ามันจะเป็นจริง) โดยมีความน่าจะเป็นที่ 0.05 และข้อ จำกัด ประเภท II ข้อผิดพลาด (ไม่มีการปฏิเสธสมมติฐานว่างแม้ว่ามันจะผิดและ H1 เป็นจริง) ถึง 0.2 สำหรับทั้งสองกรณีด้วย H0 หรือ H1 ถือว่าเป็นจริงสิ่งนี้จะนำไปสู่ความถี่ที่ไม่สำคัญ: 0.095 และ 0.32 ตามลำดับสำหรับการตัดสินใจ "ไม่ทำซ้ำ", "ขัดแย้ง" หากการทดลองเดียวกันซ้ำสองครั้ง สถานการณ์เลวร้ายลงด้วยความถี่สูงถึง 0.5 สำหรับการตัดสินใจ "ไม่ทำซ้ำ", "ขัดแย้ง" หากสถานะที่แท้จริงของธรรมชาติอยู่ระหว่างโมฆะ - และสมมติฐานทางเลือกที่ใช้ในการออกแบบการทดลอง

สถานการณ์สามารถดีขึ้นได้ - หากข้อผิดพลาดประเภท 1 ถูกควบคุมอย่างเข้มงวดมากขึ้นหรือหากสถานะที่แท้จริงของธรรมชาติอยู่ไกลจากโมฆะซึ่งส่งผลให้พลังในการปฏิเสธโมฆะที่ใกล้เคียงกับ 1

ดังนั้นหากคุณต้องการการตัดสินใจที่ทำซ้ำได้มากขึ้นให้เพิ่มระดับความสำคัญและอำนาจการทดสอบของคุณ ไม่น่าประหลาดใจมาก ...


(+1) แต่คุณไม่สามารถตั้งค่าpเป็น 5% ก่อนการทดสอบ - คิดว่าคุณหมายถึง "ระดับนัยสำคัญ"
Scortchi - Reinstate Monica

ขอขอบคุณ. สิ่งเดียวกันในประโยคสุดท้าย: "ลดระดับความสำคัญและเพิ่มพลัง"
Scortchi - Reinstate Monica

ฉันคิดว่าปัญหาที่ใหญ่ที่สุดที่มีค่า p คือผู้คนสร้างความสับสนให้พวกเขาด้วยนัยสำคัญ ดังนั้นถ้า p <.05 หมายความว่าขนาดเอฟเฟกต์ที่ค้นพบนั้นใหญ่พอที่จะสำคัญ ฉันถูกขอให้ทำงานเพื่อสร้างผลกระทบที่สำคัญ [อย่างมาก] โดยการสร้างค่า p
user54285
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.