วลีp -hacking (เช่น: "data dredging" , "snooping" หรือ "Fishing") หมายถึงการทุจริตต่อหน้าที่ทางสถิติหลายรูปแบบซึ่งผลลัพธ์กลายเป็นนัยสำคัญทางสถิติเชิงประจักษ์ มีหลายวิธีในการจัดหาผลลัพธ์ "ที่สำคัญกว่า" ซึ่งรวมถึง แต่ไม่ จำกัด เพียง:
- วิเคราะห์เฉพาะชุดย่อย "น่าสนใจ" ของข้อมูลซึ่งพบรูปแบบ
- ล้มเหลวในการปรับอย่างเหมาะสมสำหรับการทดสอบหลายรายการโดยเฉพาะการทดสอบหลังการทดสอบและความล้มเหลวในการรายงานการทดสอบที่ไม่ได้มีนัยสำคัญ
- ลองการทดสอบที่แตกต่างกันของสมมติฐานเดียวกันเช่นทั้งการทดสอบแบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์ ( มีการพูดคุยกันในหัวข้อนี้ ) แต่มีการรายงานที่สำคัญที่สุดเท่านั้น
- ทำการทดลองกับการรวม / แยกจุดข้อมูลจนกว่าจะได้ผลลัพธ์ที่ต้องการ โอกาสครั้งหนึ่งเกิดขึ้นเมื่อ "การทำความสะอาดข้อมูลผิดปกติ" แต่เมื่อใช้คำจำกัดความที่คลุมเครือ (เช่นในการศึกษาทางเศรษฐมิติของ "ประเทศที่พัฒนาแล้ว" คำจำกัดความที่แตกต่างกันทำให้เกิดกลุ่มประเทศที่แตกต่างกัน) หรือเกณฑ์การคัดเลือกเชิงคุณภาพ อาจเป็นข้อโต้แย้งที่สมดุลอย่างละเอียดว่าวิธีการศึกษาเฉพาะนั้นมีความแข็งแกร่งเพียงพอที่จะรวม);
- ตัวอย่างก่อนหน้านี้เกี่ยวข้องกับการหยุดที่ไม่จำเป็นเช่นการวิเคราะห์ชุดข้อมูลและตัดสินใจว่าจะรวบรวมข้อมูลมากขึ้นหรือไม่ขึ้นอยู่กับข้อมูลที่เก็บจนถึงปัจจุบัน ("นี่เป็นสิ่งสำคัญเกือบจะเป็นไปได้ลองวัดนักเรียนอีกสามคน!") ในการวิเคราะห์
- การทดลองระหว่างการปรับตัวแบบจำลองโดยเฉพาะอย่างยิ่ง covariates ที่จะรวม แต่ยังเกี่ยวกับการแปลงข้อมูล / รูปแบบการทำงาน
ดังนั้นเราจึงรู้ว่าการแฮ็คpสามารถทำได้ มันมักจะถูกระบุว่าเป็นหนึ่งใน"อันตรายของp-value "และถูกกล่าวถึงในรายงาน ASA เกี่ยวกับนัยสำคัญทางสถิติที่กล่าวถึงที่นี่ในการตรวจสอบข้ามดังนั้นเราจึงรู้ว่ามันเป็นสิ่งที่ไม่ดี แม้ว่าแรงจูงใจบางอย่างที่น่าสงสัยและ (โดยเฉพาะอย่างยิ่งในการแข่งขันเพื่อการตีพิมพ์ทางวิชาการ) มีแรงจูงใจในการต่อต้านที่เห็นได้ชัด แต่ฉันคิดว่ามันยากที่จะเข้าใจว่าทำไมมันถึงเกิดขึ้นจริง มีคนรายงานค่าpจากการถดถอยแบบขั้นตอน (เพราะพบขั้นตอนแบบขั้นตอน "สร้างแบบจำลองที่ดี" แต่ไม่ทราบว่ามีการรายงานp-values เป็นโมฆะ) อยู่ในค่ายหลัง แต่ผลที่ได้ยังคงเป็นหน้า -hacking ภายใต้ล่าสุดของจุด bullet ของฉันข้างต้น
มีหลักฐานแน่ชัดว่าp -hacking คือ "ออกไปข้างนอก" เช่นHead et al (2015)มองหาสัญญาณบอกเล่าเรื่องราวของมันที่ติดอยู่กับวรรณคดีทางวิทยาศาสตร์ แต่สถานะปัจจุบันของหลักฐานของเราเกี่ยวกับเรื่องนี้คืออะไร? ฉันทราบว่าวิธีการที่ดำเนินการโดย Head et al นั้นไม่ใช่ข้อโต้แย้งดังนั้นสถานะปัจจุบันของวรรณคดีหรือความคิดทั่วไปในชุมชนวิชาการจะน่าสนใจ ตัวอย่างเช่นเรามีความคิดเกี่ยวกับ:
- เพียงวิธีการที่แพร่หลายเป็นและสิ่งที่ขอบเขตที่เราสามารถแยกความแตกต่างที่เกิดขึ้นจากการตีพิมพ์อคติ ? (ความแตกต่างนี้มีความหมายหรือไม่?)
- ผลกระทบรุนแรงโดยเฉพาะที่ขอบเขตหรือไม่ ยกตัวอย่างเช่นเอฟเฟกต์ที่คล้ายกันที่p ≈ 0.01หรือว่าเราเห็นค่าp- value ทั้งหมดที่ได้รับผลกระทบหรือไม่?
- รูปแบบในการแฮ็คp-pแตกต่างกันไปตามสาขาวิชาหรือไม่?
- เรามีความคิดใด ๆ ซึ่งกลไกของพี -hacking (ซึ่งบางส่วนมีการระบุไว้ในจุด bullet ข้างต้น) เป็นเรื่องธรรมดามากที่สุด? มีบางรูปแบบที่พิสูจน์ได้ยากกว่าการตรวจจับอื่น ๆ เพราะพวกเขา "ปลอมตัวดีกว่า" หรือไม่?
อ้างอิง
หัวหน้า, ML, Holman, L. , Lanfear, R. , Kahn, AT, & Jennions, MD (2015) ขอบเขตและผลกระทบของพี -hacking ในด้านวิทยาศาสตร์ PLoS Biol , 13 (3), e1002106