หลายครั้งที่ฉันเจอคำเตือนแบบไม่เป็นทางการกับ "การสอดแนมข้อมูล" (นี่เป็นตัวอย่างที่น่าขบขัน ) และฉันคิดว่าฉันมีความคิดที่เข้าใจง่ายเกี่ยวกับสิ่งที่แปลว่าอะไรและทำไมมันถึงเป็นปัญหา
ในทางกลับกัน "การวิเคราะห์ข้อมูลเชิงสำรวจ" ดูเหมือนจะเป็นขั้นตอนที่ได้รับการยกย่องอย่างสมบูรณ์ในทางสถิติอย่างน้อยก็ตัดสินจากความจริงที่ว่าหนังสือที่มีชื่อนั้นยังคงอ้างถึงในฐานะคลาสสิก
ในสายงานของฉันฉันมักจะเจอสิ่งที่ดูเหมือนฉันชอบอาละวาด "ข้อมูลการสอดแนม" หรือบางทีมันอาจจะอธิบายได้ดีกว่าว่า " การทรมานข้อมูล" แม้ว่าผู้ที่ทำมันดูเหมือนจะเห็นกิจกรรมเดียวกันกับการสำรวจที่สมเหตุสมผลและไม่มีเหตุผลทั้งหมด "
นี่คือสถานการณ์ทั่วไป: การทดลองที่มีราคาแพงเกิดขึ้น (โดยไม่ต้องคิดมากนักกับการวิเคราะห์ที่ตามมา) นักวิจัยดั้งเดิมไม่สามารถมองเห็น "เรื่องราว" ในข้อมูลที่รวบรวมได้อย่างง่ายดายใครบางคนจะถูกนำไปใช้เพื่อ "พ่อมดทางสถิติ" หลังจากการแบ่งและการทำให้ข้อมูลเป็นไปตามลำดับในที่สุดก็สามารถดึง "เรื่องราว" ที่เผยแพร่ได้ออกมา
แน่นอนว่ามักจะมี "การตรวจสอบความถูกต้อง" ถูกโยนลงในรายงาน / กระดาษขั้นสุดท้ายเพื่อแสดงให้เห็นว่าการวิเคราะห์ทางสถิติอยู่ในสภาพที่ดีและมากขึ้น แต่ทัศนคติการตีพิมพ์เผยแพร่ที่เห็นได้ชัดทั้งหมดทำให้ฉันสงสัย
น่าเสียดายที่ความเข้าใจที่ จำกัด ของฉันเกี่ยวกับสิ่งที่ต้องทำและไม่ได้ทำการวิเคราะห์ข้อมูลทำให้ฉันพ้นจากข้อสงสัยที่คลุมเครือเช่นนั้นดังนั้นการตอบสนองแบบอนุรักษ์นิยมของฉันคือการไม่สนใจสิ่งที่ค้นพบ
ความหวังของฉันคือไม่เพียง แต่เข้าใจถึงความแตกต่างระหว่างการสำรวจและการสอดแนม / การทรมาน แต่ยังรวมถึงและที่สำคัญกว่านั้นคือการเข้าใจหลักการและเทคนิคที่ดีกว่าสำหรับการตรวจจับเมื่อสายนั้นผ่านไปแล้ว วิธีที่สมเหตุสมผลสามารถอธิบายขั้นตอนการวิเคราะห์ที่น้อยกว่าที่ดีที่สุดและสามารถไปไกลกว่าการตอบสนองในปัจจุบันของฉันที่ค่อนข้างง่ายสำหรับการไม่เชื่อฟังผ้าห่ม
แก้ไข: ขอบคุณทุกท่านสำหรับความคิดเห็นและคำตอบที่น่าสนใจมาก เมื่อพิจารณาจากเนื้อหาของพวกเขาฉันคิดว่าฉันอาจไม่ได้อธิบายคำถามของฉันได้ดีพอ ฉันหวังว่าการอัปเดตนี้จะอธิบายให้ชัดเจน
คำถามของฉันที่นี่ไม่เกี่ยวข้องกับสิ่งที่ฉันควรทำมากนักเพื่อหลีกเลี่ยงการทรมานข้อมูลของฉัน (แม้ว่านี่จะเป็นคำถามที่ให้ความสนใจฉันด้วย) แต่: ฉันควรคำนึงถึง (หรือประเมิน) ผลลัพธ์ที่ฉันรู้มาอย่างไร "การทรมานข้อมูล" เช่นนั้น
สถานการณ์ได้รับความสนใจมากขึ้นในกรณีเหล่านั้น (ยิ่งหายาก) ยิ่งไปกว่านั้นฉันยังอยู่ในฐานะที่สามารถแสดงความคิดเห็นเกี่ยวกับ "สิ่งที่ค้นพบ" ก่อนที่พวกเขาจะได้รับการตีพิมพ์
เมื่อมาถึงจุดนี้สิ่งที่ฉันทำได้มากที่สุดก็คือพูดอะไรบางอย่างเช่น "ฉันไม่รู้ว่าฉันจะให้ความเชื่อถือได้มากแค่ไหนกับสิ่งที่ฉันค้นพบจากสิ่งที่ฉันรู้เกี่ยวกับสมมติฐานและขั้นตอนที่ทำให้พวกเขาได้รับ" นี่มันคลุมเครือเกินกว่าจะพูดได้ ต้องการไปไกลกว่าความคลุมเครือดังกล่าวเป็นแรงจูงใจสำหรับโพสต์ของฉัน
เพื่อความยุติธรรมข้อสงสัยของฉันที่นี่ขึ้นอยู่กับวิธีทางสถิติที่น่าสงสัยมากกว่า ในความเป็นจริงฉันเห็นหลังมากขึ้นเนื่องจากปัญหาที่ลึกกว่า: การรวมกันของทัศนคติขุนนางที่มีต่อการออกแบบการทดลองควบคู่ไปกับความมุ่งมั่นอย่างเป็นหมวดหมู่ในการเผยแพร่ผลลัพธ์ตามที่พวกเขายืน (เช่นไม่มีการทดลองเพิ่มเติม) แน่นอนว่าโครงการติดตามผลมักจะนึกถึง แต่มันก็เป็นคำถามที่ไม่น่าสนใจเลยว่าจะไม่มีกระดาษแผ่นเดียวออกมาพูด "ตู้เย็นที่เต็มไปด้วย 100,000 ตัวอย่าง"
สถิติเข้ามาในภาพเป็นเพียงวิธีการในการบรรลุวัตถุประสงค์สูงสุดนี้ ข้ออ้างเพียงอย่างเดียวสำหรับการยึดสถิติ (ที่สองในสถานการณ์ทั้งหมด) คือความท้าทายที่อยู่ตรงหน้าต่อสมมติฐานของ "การตีพิมพ์ด้วยค่าใช้จ่ายทั้งหมด" นั้นไร้ค่า
ในความเป็นจริงฉันสามารถนึกถึงการตอบสนองที่มีประสิทธิภาพเพียงข้อเดียวในสถานการณ์เช่นนี้: เพื่อเสนอการทดสอบทางสถิติบางอย่าง (ไม่ต้องการการทดสอบเพิ่มเติม) ที่ทดสอบคุณภาพการวิเคราะห์อย่างแท้จริง แต่ฉันไม่ได้มีสถิติในการสับ ความหวังของฉัน (ไร้เดียงสาในการหวนกลับ) คือการหาสิ่งที่ฉันสามารถศึกษาที่อาจทำให้ฉันมากับการทดสอบดังกล่าว ...
เมื่อฉันเขียนสิ่งนี้มันเริ่มขึ้นเมื่อฉันว่าถ้ามันไม่มีอยู่จริงโลกสามารถใช้สถิติย่อยใหม่หนึ่งสาขาเพื่อรองรับเทคนิคในการตรวจจับและเปิดเผย "การทรมานข้อมูล" (แน่นอนฉันไม่ได้หมายถึงการดำเนินการโดยการเปรียบเทียบ "การทรมาน": ปัญหาไม่ใช่ "การทรมานข้อมูล" ต่อรายการ แต่การค้นพบ "ปลอม" อาจนำไปสู่)