นี่เป็นวิธีแก้ไขปัญหาค่า p หรือไม่


67

ในเดือนกุมภาพันธ์ 2559 สมาคมสถิติอเมริกันออกแถลงการณ์อย่างเป็นทางการเกี่ยวกับนัยสำคัญทางสถิติและค่า p หัวข้อของเราเกี่ยวกับมันกล่าวถึงปัญหาเหล่านี้อย่างกว้างขวาง อย่างไรก็ตามไม่มีผู้มีอำนาจออกมาเสนอทางเลือกที่ได้รับการยอมรับในระดับสากลจนถึงปัจจุบัน สมาคมสถิติอเมริกัน (ASS) ได้เผยแพร่การตอบสนองค่า p: มีอะไรต่อไป

"p-value ไม่ค่อยดีเท่าไหร่"

เราคิดว่า ASA ไม่ได้ไปไกลพอ ถึงเวลาที่ต้องยอมรับว่ายุคของค่า p จบลงแล้ว นักสถิติได้ใช้พวกเขาในการทำให้นักศึกษาปริญญาตรียุ่งเหยิงหลอกนักวิทยาศาสตร์และบรรณาธิการหลอกไปทุกที่ แต่โลกเริ่มมองผ่านอุบายนี้ เราจำเป็นต้องละทิ้งความพยายามในช่วงต้นศตวรรษที่ 20 โดยนักสถิติเพื่อควบคุมการตัดสินใจ เราต้องกลับไปที่สิ่งที่ใช้งานได้จริง

ข้อเสนอ ASS อย่างเป็นทางการคือ:

แทนที่ค่า p, ASS สนับสนุน STOP (ขั้นตอนการ SeaT-Of-Pants) วิธีการที่ได้รับเกียรติและผ่านการทดสอบครั้งนี้ถูกใช้โดยชาวกรีกโบราณชายยุคฟื้นฟูศิลปวิทยาและนักวิทยาศาสตร์ทุกคนจนกระทั่งโรนัลด์ฟิชเชอร์เข้ามาและทำลายสิ่งต่างๆ STOP นั้นง่ายตรงตามข้อมูลและเชื่อถือได้ เพื่อดำเนินการร่างอำนาจ (ชายที่มีอายุมากกว่าโดยการตั้งค่า) ตรวจสอบข้อมูลและตัดสินใจว่าพวกเขาเห็นด้วยกับความเห็นของเขา เมื่อเขาตัดสินใจว่าจะทำผลก็คือ“ สำคัญ” มิฉะนั้นแล้วมันก็ไม่ใช่และทุกคนจะต้องลืมเรื่องทั้งหมด

หลักการ

การตอบสนองที่อยู่ของแต่ละหกหลักการ ASA

  1. STOP สามารถระบุว่าข้อมูลไม่เข้ากันกับแบบจำลองทางสถิติที่ระบุได้อย่างไร

    เราชอบวลีนี้เพราะมันเป็นวิธีแฟนซีในการบอกว่า STOP จะตอบคำถามใด ๆ ใช่หรือไม่ ซึ่งแตกต่างจากค่า p หรือกระบวนการทางสถิติอื่น ๆ มันไม่มีข้อสงสัย เป็นการตอบสนองที่สมบูรณ์แบบสำหรับผู้ที่พูดว่า“ เราไม่ต้องการสมมติฐานว่างเปล่าของกลิ่นเหม็น! อะไร *!! @ คืออะไร ไม่มีใครสามารถคิดได้ว่ามันควรจะเป็นอะไร”

  2. STOP ไม่ได้วัดความน่าจะเป็นที่สมมติฐานเป็นจริง: จริง ๆ แล้วตัดสินใจว่าจริงหรือไม่

    ทุกคนสับสนกับความน่าจะเป็น ด้วยการกำจัดความน่าจะเป็นออกจากภาพ STOP ทำให้ไม่จำเป็นต้องเรียนปริญญาตรีและบัณฑิตศึกษาเป็นเวลาหลายปี ตอนนี้ทุกคน (ที่อายุมากพอสมควรและเป็นผู้ชาย) สามารถทำการวิเคราะห์ทางสถิติโดยไม่ต้องเจ็บปวดและทรมานจากการฟังแม้แต่การบรรยายทางสถิติครั้งเดียวหรือใช้งานซอฟต์แวร์อาร์เคนที่พ่นเอาต์พุตที่ไม่สามารถเข้าใจได้

  3. ข้อสรุปทางวิทยาศาสตร์และการตัดสินใจทางธุรกิจหรือนโยบายสามารถขึ้นอยู่กับสามัญสำนึกและตัวเลขอำนาจที่แท้จริง

    การตัดสินใจที่สำคัญเกิดขึ้นเสมอโดยเจ้าหน้าที่ดังนั้นเราจะยอมรับและตัดพ่อค้าคนกลางออก การใช้ STOP จะทำให้นักสถิติอิสระทำสิ่งที่เหมาะสมที่สุดสำหรับ: การใช้ตัวเลขเพื่อทำให้งงงวยความจริงและชำระความพึงพอใจของผู้มีอำนาจ

  4. การอนุมานที่เหมาะสมนั้นต้องการการรายงานและความโปร่งใสที่ครบถ้วน

    STOP เป็นขั้นตอนทางสถิติที่โปร่งใสและชัดเจนที่สุดเท่าที่เคยคิดค้นมา: คุณดูข้อมูลและตัดสินใจ มันช่วยลดความสับสนของการทดสอบ z, การทดสอบที, การทดสอบไคสแควร์และขั้นตอนซุปตัวอักษร (ANOVA! GLM! MLE!) ที่ผู้คนใช้เพื่อซ่อนความจริงที่ว่าพวกเขาไม่มีเงื่อนงำความหมายของข้อมูล

  5. STOP วัดความสำคัญของผลลัพธ์

    นี่คือความชัดเจนในตนเอง: ถ้าบุคคลที่อยู่ในอำนาจใช้ STOP ดังนั้นผลลัพธ์จะต้องสำคัญ

  6. ด้วยตัวเอง STOP ให้การวัดที่ดีของหลักฐานเกี่ยวกับรูปแบบหรือสมมติฐาน

    เราไม่ต้องการท้าทายผู้มีอำนาจใช่ไหม? นักวิจัยและผู้มีอำนาจตัดสินใจจะรับรู้ว่า STOP ให้ข้อมูลทั้งหมดที่พวกเขาจำเป็นต้องรู้ ด้วยเหตุผลเหล่านี้การวิเคราะห์ข้อมูลอาจสิ้นสุดด้วย STOP ไม่จำเป็นต้องมีแนวทางอื่นเช่นค่า p, การเรียนรู้ของเครื่องหรือโหราศาสตร์

แนวทางอื่น ๆ

นักสถิติบางคนชอบวิธีการที่เรียกว่า "Bayesian" ซึ่งเป็นทฤษฎีบทที่คลุมเครือซึ่งตีพิมพ์โดยนักบวชในศตวรรษที่ 18 ถูกนำมาใช้อย่างไร้เหตุผลในการแก้ปัญหาทุกปัญหา ผู้ให้การสนับสนุนที่ระบุไว้มากที่สุดยอมรับวิธีการเหล่านี้อย่างอิสระคือ“ อัตนัย” หากเราจะใช้วิธีการแบบอัตนัยเห็นได้ชัดว่ายิ่งผู้มีอำนาจและมีความรู้มากขึ้นก็เป็นผู้มีอำนาจในการตัดสินใจ STOP จึงปรากฏเป็นข้อ จำกัด เชิงตรรกะของวิธี Bayes ทั้งหมด ทำไมต้องใช้ความพยายามในการคำนวณที่น่ากลัวเหล่านั้นและใช้เวลาในการคำนวณคอมพิวเตอร์มากเมื่อคุณสามารถแสดงข้อมูลให้กับคนที่รับผิดชอบและถามเขาว่าความคิดเห็นของเขาคืออะไร? ตอนจบของเรื่อง.

อีกชุมชนหนึ่งเพิ่งเกิดขึ้นเพื่อท้าทายฐานะปุโรหิตของนักสถิติ พวกเขาเรียกตัวเองว่า "ผู้เรียนรู้กล" และ "นักวิทยาศาสตร์ด้านข้อมูล" แต่พวกเขาเป็นเพียงแฮ็กเกอร์ที่มองหาสถานะที่สูงขึ้น มันเป็นตำแหน่งอย่างเป็นทางการของ ASS ที่คนเหล่านี้ควรจะจัดตั้งองค์กรวิชาชีพของพวกเขาเองหากพวกเขาต้องการให้ผู้คนจริงจังกับพวกเขา


คำถาม

นี่เป็นคำตอบสำหรับปัญหาที่ ASA ระบุด้วยการทดสอบค่า p และค่าสมมติฐานว่างหรือไม่ มันสามารถรวมกระบวนทัศน์ของ Bayesian และ Frequentist เข้าด้วยกันได้จริง ๆ


11
"Donald Trump สำหรับผู้ตัดสิน STOP ASS สูงสุด: สร้างสถิติที่ยอดเยี่ยมอีกครั้ง!"
Alex R.

14
STOP อย่างชัดเจนเป็นกระบวนการที่ไม่ดี ฉันประหลาดใจที่สิ่งนี้ได้หลบหนีองค์กรนักวิชาการที่ได้รับความนิยมเช่น ASS เพื่อปัญญาทำไมเสียเวลาดูข้อมูลทั้งหมดหรือไม่ เพียงให้คำตอบใช่ / ไม่ใช่ วิธีการนี้ใช้อยู่ในปัจจุบันแล้วเพื่อผลที่ดีเยี่ยม กรณีศึกษามีมากมายโดยเฉพาะอย่างยิ่งในสหรัฐอเมริการะหว่างปีหารด้วย 4
พระคาร์ดินัล

4
ฉันคิดว่าธุรกิจยังได้รับประโยชน์อย่างมากจากการใช้วิธีการเหล่านี้เนื่องจากพวกเขาไม่ต้องแบกรับภาระค่าใช้จ่ายจำนวนมากในการจ้างคนเพื่อวิเคราะห์ข้อมูลของพวกเขาอีกต่อไป
dsaxton

4
@henry ราวกับว่าแท็ก [april-1] ไม่ได้บอกเราอย่างนั้นเหรอ?
Glen_b

9
@ เฮนรี่อย่างจริงจัง? คุณช่วยแสดงให้เราเห็นองค์กรปลอมที่ได้รับความนิยมมากกว่าหนึ่งในสี่ล้านครั้งเมื่อคุณใช้ชื่อ Google
whuber

คำตอบ:


18

ฉันได้รับการสนับสนุนสำหรับวิธีการใหม่ของฉันในการตัดสินใจทางสถิติที่เรียกว่า RADD: R oll A D amn Dเช่น นอกจากนี้ยังเน้นประเด็นสำคัญทั้งหมด

1) RADD สามารถระบุความเข้ากันได้ของข้อมูลด้วยแบบจำลองทางสถิติที่ระบุ

หากคุณหมุนตัวเลขที่สูงขึ้นเห็นได้ชัดว่าหลักฐานเป็นที่นิยมมากในโมเดลของคุณ! ประโยชน์พิเศษคือถ้าเราต้องการความมั่นใจมากยิ่งขึ้นเราสามารถหมุนตายด้วยด้านมากขึ้น คุณสามารถหาลูกเต๋าเข้าข้างได้ 100 ใบถ้าค้นหาพอ!

2) RADD สามารถตัดสินใจได้ว่าสมมติฐานเป็นจริงหรือไม่

คุณจะต้องหมุนตาย 2 ด้านคือพลิกเหรียญ

3) RADD สามารถใช้ในการตัดสินใจทางธุรกิจหรือนโยบาย

รับกลุ่มผู้กำหนดนโยบายในห้องและให้พวกเขาทั้งหมดหมุนลูกเต๋า! ชนะสูงสุด!

4) RADD นั้นโปร่งใส

สามารถบันทึกผลได้และสามารถเก็บรักษาตัวแม่พิมพ์เพื่อการวิจัยต่อไปได้ *

5) RADD วัดความสำคัญของผลลัพธ์

เห็นได้ชัดว่าการกลิ้งที่สูงขึ้นหมายถึงเหตุการณ์สำคัญที่เกิดขึ้น

6) RADD ให้หลักฐานที่ดี

เราไม่ได้บอกว่าม้วนที่สูงกว่าดีกว่าใช่ไหม

ดังนั้นไม่ STOP ไม่ใช่คำตอบ คำตอบคือ RADD


7
เพื่อไม่ให้ลืมมันสามารถตรวจสอบให้แน่ใจว่าการควบคุมความผิดพลาดประเภทที่ 1 (ในระดับที่ต้องการได้รับลูกเต๋าด้านข้างอย่างเพียงพอ) เช่นโดยการปฏิเสธสมมติฐานว่างเมื่อหนึ่งใน 5 ด้านที่มีจำนวนสูงสุด 100 ด้านขึ้นมาเพื่อให้บรรลุ อัตราความผิดพลาดประเภท 5%
Björn

1
คุณลืมที่จะพูดถึงรูปทรงหลายเหลี่ยมสงบเย็นและบางรูปทรงหลายเหลี่ยมที่ไม่สงบเย็น
Alexis

17

ฉันต้องพูดจากประสบการณ์ของฉันว่าในความเป็นจริงทางธุรกิจ STOP เป็นเกณฑ์การตัดสินใจเริ่มต้นที่ต้องการp- ค่านิยมและผู้ใช้บ่อยอื่น ๆ หรือวิธีเบย์ จากมุมมองทางธุรกิจ STOP ให้คำตอบที่ง่ายและชัดเจนสิ่งที่ทำให้เชื่อถือได้มากกว่าวิธี "ความน่าจะเป็น" ที่ไม่แน่นอน ยิ่งไปกว่านั้นในกรณีส่วนใหญ่จะง่ายต่อการปรับใช้และปรับให้เข้ากับการเปลี่ยนแปลงความเป็นจริงได้ง่ายกว่าวิธีอื่น ๆ การตัดสินใจที่ใช่ / ไม่ใช่มีความน่าเชื่อถือมากขึ้นสำหรับผู้บริหารระดับกลางและระดับสูง "รายงาน STOP" ในกรณีส่วนใหญ่จะสั้นและง่ายต่อการอ่านกว่ารายงานตามข้อมูล ยิ่งไปกว่านั้นการใช้วิธีนี้ทำให้นายจ้างของคุณสามารถลดค่าใช้จ่ายสำหรับนักวิทยาศาสตร์ข้อมูลและใบอนุญาต SAS ฉันจะบอกว่าปัญหาเดียวกับ STOP คือมันยากที่จะทำให้การนำเสนอ PowerPoint แสดงผล STOP ได้ยากขึ้น แต่นี่เป็นสาขาที่กำลังพัฒนาแบบไดนามิกดังนั้นจึงอาจเสนอวิธีการสร้างภาพข้อมูลในอนาคตได้ดีขึ้น


6
เมื่อสไลด์ PowerPoint ที่มีข้อสรุปได้รับการบรรยายสรุปแล้วมันก็สายเกินไปที่จะเปลี่ยนแปลงดังนั้นจึงมีสองตัวเลือกทำการวิเคราะห์ให้เหมาะกับข้อสรุปหรือไม่ต้องกังวลกับการวิเคราะห์เลย
Mark L. Stone

12
@ MarkL.Stone แน่นอน! ฉันชอบความคิดในการทำแปลงเพื่อนำเสนอก่อนที่จะเห็นข้อมูลความคิดนั้นมีรากฐานมาจากการคิดแบบเบย์และฉันเรียกพวกเขาว่าการจัดลำดับความสำคัญ :) ฉันคิดว่าวิธีการนี้ปรากฏครั้งแรกในการพิมพ์ที่นี่: dilbert.com/strip/ 2008-05-08
ทิม

15

นี่เป็นส่วนเสริมของการอภิปรายค่า p น่าสนใจ แต่ค่อนข้างค้างในความคิดของฉันเตือนฉันของกระดาษที่ไม่ซ้ำกันที่เผยแพร่เมื่อหลายปีก่อนในฉบับคริสต์มาสของวารสารการแพทย์อังกฤษ (BMJ) ซึ่งคริสต์มาสทุกเผยแพร่งานวิจัยจริง บทความ โดยเฉพาะอย่างยิ่งงานของIsaacs และ Fitzgerald นี้ได้เน้นถึงเจ็ดทางเลือกหลักในการใช้ยาตามหลักฐาน (เช่นการปฏิบัติของแพทย์ตามหลักฐานทางคลินิกและทางสถิติจริง):

  • ยาตามความเด่นชัด
  • ยาตามพาหนะพาหนะ
  • ยาตามภาษาฝีปาก
  • ยาตามความสุขุม
  • ยารักษาโรค
  • ยารักษาโรคประสาท
  • ยาตามความเชื่อมั่น

ที่น่าสนใจที่สุดคือคุณต้องดูที่คอลัมน์ที่เน้นอุปกรณ์การวัดและหน่วยการวัดสำหรับรายการข้างต้น (เช่นเครื่องตรวจการได้ยินและเดซิเบลสำหรับยาที่ใช้กับยานพาหนะ!)


4
+1 ขอบคุณสำหรับการสนับสนุนที่ยอดเยี่ยมอย่างสมบูรณ์แบบในจิตวิญญาณของคำถาม (1) เพียงเพื่อชี้แจง: มันคือการอภิปราย p-value ที่คุณพบว่า "เก่า" หรือเพียงแค่คำถามนี้? (2) คุณจะรู้ว่าจะหาข้อมูลอ้างอิงได้จากที่ไหน (6) "เงินเดือนเจเอ็กซ์" ฉันแน่ใจว่ามันจะมีผู้อ่านตัวยงมากมายหากเป็นที่รู้จักกันดีกว่า
whuber

5
(1) การสนับสนุนของคุณคือ 'ได้รับการรับรองสด' (เพื่ออ้างถึง rottentomatoes.com) ในทางกลับกันฉันพบว่าการเน้นไปที่ข้อ จำกัด ของค่า p ค่อนข้างมาก ในยุคของการเรียนรู้ของเครื่องจักรข้อมูลขนาดใหญ่และความรู้ทางวิทยาศาสตร์ที่ไม่ดีในที่สาธารณะท่าทางของ ASA อาจดูเหมือนเป็นคนทำโทษเล็กน้อย (2) ฉันคิดว่าคุณจะพบบทความที่อยู่ในวารสารเดียวกันที่พวกเขาตีพิมพ์แบบสุ่มทดลองแนะนำในส่วนอื่น ๆ BMJ คริสต์มาส: bmj.com/content/327/7429/1459
Joe_74

ฉันมักจะลืมว่ามันเป็นยาตามความเชื่อมั่นที่ใช้การอนุมานอิง Dunning-Kruger หรือไม่?
Alexis
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.