บทความ " The Odds, อัพเดทอย่างต่อเนื่อง" จาก NY Timesเกิดขึ้นเพื่อดึงดูดความสนใจของฉัน จะสั้นก็กล่าวว่า
[สถิติแบบเบย์] พิสูจน์ให้เห็นแล้วว่ามีประโยชน์อย่างยิ่งในการเข้าถึงปัญหาที่ซับซ้อนรวมถึงการค้นหาเช่น Coast Guard ที่ใช้ในปี 2013 เพื่อค้นหาชาวประมงที่ขาดหายไป John Aldridge (แม้ว่าจะยังไม่ถึงตอนนี้ก็ตาม ...... สถิติแบบเบย์กำลังกระเพื่อมผ่านทุกสิ่งตั้งแต่ฟิสิกส์จนถึงการวิจัยมะเร็งนิเวศวิทยาจนถึงจิตวิทยา ...
ในบทความนี้ยังมีการวิพากษ์วิจารณ์เกี่ยวกับค่า p ของผู้ถี่ประจำเช่น:
ผลลัพธ์มักจะถูกพิจารณาว่า“ มีนัยสำคัญทางสถิติ” ถ้าค่า p น้อยกว่า 5 เปอร์เซ็นต์ แต่มีอันตรายในประเพณีนี้ Andrew Gelman ศาสตราจารย์ด้านสถิติของโคลัมเบียกล่าว แม้ว่านักวิทยาศาสตร์จะทำการคำนวณอย่างถูกต้องเสมอ - และพวกเขาไม่ทำเขาให้เหตุผล - ยอมรับทุกสิ่งด้วยค่า p-value 5 เปอร์เซ็นต์ซึ่งหมายความว่าหนึ่งใน 20 ของผลลัพธ์“ นัยสำคัญทางสถิติ” ไม่มีอะไรเลยนอกจากเสียงรบกวนแบบสุ่ม
นอกจากนี้ข้างต้นบางทีกระดาษที่มีชื่อเสียงที่สุดที่วิจารณ์ p-value ก็คืออันนี้ - "วิธีการทางวิทยาศาสตร์: ข้อผิดพลาดทางสถิติ" โดย Regina Nuzzo จากธรรมชาติซึ่งมีการถกประเด็นทางวิทยาศาสตร์จำนวนมากโดยวิธีการ p-value p-value hacking เป็นต้น
ค่า P, 'มาตรฐานทองคำ' ของความถูกต้องทางสถิติไม่น่าเชื่อถือเท่าที่นักวิทยาศาสตร์หลายคนคิด ...... บางทีการเข้าใจผิดที่เลวร้ายที่สุดคือการหลอกลวงตัวเองซึ่งนักจิตวิทยา Uri Simonsohn แห่งมหาวิทยาลัยเพนซิลเวเนีย มันยังเป็นที่รู้จักกันในนามการขุดลอกข้อมูลสอดแนมตกปลาการไล่ล่าอย่างมีนัยสำคัญและการจุ่มสองครั้ง “ P-hacking” Simonsohn กล่าว“ พยายามหลายสิ่งจนกว่าคุณจะได้ผลลัพธ์ที่ต้องการ” - แม้ไม่รู้ตัว ...... "การค้นพบนั้นดูเหมือนว่าจะได้รับจากการแฮ็ค p ผู้เขียนได้ทิ้งเงื่อนไขข้อหนึ่งไว้เพื่อให้ค่า p โดยรวมน่าจะน้อยกว่า. 05" และ "เธอเป็น p-hacker เธอตรวจสอบข้อมูลอยู่เสมอขณะที่กำลังรวบรวมข้อมูล”
อีกสิ่งหนึ่งคือพล็อตที่น่าสนใจดังนี้จากที่นี่พร้อมความคิดเห็นเกี่ยวกับพล็อต
ไม่ว่าผลกระทบของคุณจะเล็กเพียงใดคุณสามารถทำงานอย่างหนักในการรวบรวมข้อมูลเพื่อผ่านเกณฑ์ของ p <.05 ตราบใดที่เอฟเฟกต์ที่คุณกำลังศึกษาไม่มีอยู่จริงค่า p ก็แค่วัดความพยายามของคุณในการรวบรวมข้อมูล
จากทั้งหมดข้างต้นคำถามของฉันคือ:
อะไรคือเหตุผลของ Andrew Gelman ในการอ้างอิงบล็อกที่สองหมายความว่าอะไร เหตุใดเขาจึงตีความค่า p-value 5 เปอร์เซ็นต์ว่า "ผลลัพธ์ที่มีนัยสำคัญทางสถิติหนึ่งใน 20 รายการสังเกต แต่เป็นสัญญาณรบกวนแบบสุ่ม" ฉันไม่มั่นใจเนื่องจากค่า p ถูกใช้เพื่อการอนุมานในการศึกษาเดียว ประเด็นของเขาดูเหมือนจะเกี่ยวข้องกับการทดสอบหลายครั้ง
Update:ตรวจสอบบล็อกของ Andrew Gelman เกี่ยวกับเรื่องนี้: ไม่ฉันไม่ได้พูดอย่างนั้น! (เครดิตให้กับ @Scortchi, @whuber)
ได้รับการวิพากษ์วิจารณ์เกี่ยวกับ p-value และยังมีเกณฑ์ข้อมูลจำนวนมากเช่น AIC, BIC,ของ Mallow สำหรับการประเมินความสำคัญของแบบจำลอง (ดังนั้นตัวแปร) เราไม่ควรใช้ p-value สำหรับการเลือกตัวแปรเลย แต่ใช้เกณฑ์การเลือกโมเดลเหล่านั้นหรือ
- มีแนวทางปฏิบัติที่ดีในการใช้ p-value สำหรับการวิเคราะห์ทางสถิติซึ่งอาจนำไปสู่ผลการวิจัยที่น่าเชื่อถือมากขึ้นหรือไม่?
กรอบการสร้างแบบจำลองแบบเบย์จะเป็นวิธีที่ดีกว่าในการดำเนินการตามที่นักสถิติบางคนสนับสนุนหรือไม่ โดยเฉพาะวิธีการแบบเบย์มีแนวโน้มที่จะแก้ไขการค้นพบที่ผิดพลาดหรือจัดการกับปัญหาข้อมูลหรือไม่ ฉันไม่เชื่อที่นี่เช่นกันเนื่องจากก่อนหน้านี้เป็นแบบอัตนัยในวิธีการแบบเบย์ มีการศึกษาภาคปฏิบัติและมีชื่อเสียงที่แสดงให้เห็นว่าวิธีการแบบเบย์นั้นดีกว่าค่า p ของผู้ใช้เป็นประจำหรืออย่างน้อยในบางกรณี?
อัปเดต:ฉันจะสนใจเป็นพิเศษว่ามีบางกรณีที่วิธีการแบบเบย์มีความน่าเชื่อถือมากกว่าวิธีการแบบ p-value ของผู้ใช้ประจำหรือไม่ ด้วย "ความน่าเชื่อถือ" ฉันหมายถึงวิธีการแบบเบย์มีโอกาสน้อยที่จะจัดการข้อมูลเพื่อผลลัพธ์ที่ต้องการ ข้อเสนอแนะใด ๆ
อัปเดต 6/9/2558
เพิ่งสังเกตเห็นข่าวและคิดว่ามันเป็นการดีที่จะเอามันมาที่นี่เพื่อการอภิปราย
การทดสอบทางสถิติที่ถกเถียงกันได้ถึงจุดจบในที่สุดแล้วอย่างน้อยก็ในวารสารเดียว เมื่อต้นเดือนที่แล้วบรรณาธิการของจิตวิทยาสังคมขั้นพื้นฐานและจิตวิทยาประยุกต์ (BASP) ประกาศว่าวารสารจะไม่เผยแพร่เอกสารที่มีค่า P เพราะสถิติมักถูกใช้เพื่อสนับสนุนการวิจัยที่มีคุณภาพต่ำกว่า
พร้อมกับกระดาษเมื่อเร็ว ๆ นี้"ค่า P fickle สร้างผลลัพธ์ที่ไม่สามารถผลิตคืนได้" จากธรรมชาติเกี่ยวกับค่า P
อัปเดต 5/8/2559
ย้อนกลับไปเมื่อเดือนมีนาคมสมาคมสถิติอเมริกัน (ASA) ออกแถลงการณ์เกี่ยวกับนัยสำคัญทางสถิติและค่า p "... คำแถลง ASA นั้นมีจุดประสงค์เพื่อนำการวิจัยไปสู่ 'post p <0.05 ยุค'"
คำสั่งนี้มี 6 หลักการที่กล่าวถึงการใช้ค่า p ในทางที่ผิด:
- ค่า P สามารถระบุว่าข้อมูลไม่เข้ากันกับแบบจำลองทางสถิติที่ระบุได้อย่างไร
- ค่า P ไม่ได้วัดความน่าจะเป็นที่สมมติฐานที่ศึกษาเป็นจริงหรือความน่าจะเป็นที่ข้อมูลถูกสร้างขึ้นโดยการสุ่มโอกาสเพียงอย่างเดียว
- ข้อสรุปทางวิทยาศาสตร์และการตัดสินใจทางธุรกิจหรือนโยบายไม่ควรขึ้นอยู่กับว่าค่า p ผ่านเกณฑ์เฉพาะ
- การอนุมานที่เหมาะสมนั้นต้องการการรายงานและความโปร่งใสที่ครบถ้วน
- ค่า p หรือค่านัยสำคัญทางสถิติไม่ได้วัดขนาดของผลกระทบหรือความสำคัญของผลลัพธ์
- ค่า p-value ไม่ได้ให้หลักฐานที่ดีเกี่ยวกับแบบจำลองหรือสมมติฐาน
รายละเอียด: "คำสั่งของเอเอสเอพีค่า: บริบทกระบวนการและวัตถุประสงค์"