ตกลงคำเตือนอย่างยุติธรรม - นี่เป็นคำถามเชิงปรัชญาที่ไม่เกี่ยวข้องกับตัวเลข ฉันได้คิดมากเกี่ยวกับข้อผิดพลาดที่คืบคลานเข้าไปในชุดข้อมูลเมื่อเวลาผ่านไปและวิธีการที่นักวิเคราะห์ควรปฏิบัติต่อ - หรือว่าควรจะมีความสำคัญอย่างไร
สำหรับพื้นหลังฉันกำลังทำการวิเคราะห์เกี่ยวกับการศึกษาระยะยาวที่เกี่ยวข้องกับชุดข้อมูลจำนวนมากที่อาจถูกรวบรวมโดยคน 25 คนในช่วง 7-8 ปีที่ผ่านมา - ไม่มีใครเคยนำข้อมูลทั้งหมดมาสู่โครงสร้างที่สอดคล้องกัน (นั่นคืองานของฉัน) ฉันทำการป้อนข้อมูลจำนวนมาก (คัดลอกจากสมุดบันทึกของแล็บเก่า) และฉันก็พบข้อผิดพลาดเล็ก ๆ น้อย ๆ ที่คนอื่นทำรวมถึงการค้นหารายการข้อมูลที่อ่านยากหรือเป็นไปไม่ได้ส่วนใหญ่เป็นเพราะหมึก ได้จางหายไปเมื่อเวลาผ่านไป ฉันใช้บริบทเพื่อ 'คาดเดาที่ดีที่สุด' เกี่ยวกับสิ่งที่ข้อมูลพูดและออกจากจุดข้อมูลโดยสิ้นเชิงถ้าฉันไม่แน่ใจ แต่ฉันคิดถึงความจริงที่ว่าทุกครั้งที่มีการคัดลอกข้อมูลความถี่ของข้อผิดพลาดจะเพิ่มขึ้นอย่างหลีกเลี่ยงไม่ได้จนกว่าข้อมูลต้นฉบับจะสูญหายอย่างสมบูรณ์
ดังนั้นสิ่งนี้ทำให้ฉันมีความคิด: นอกเหนือจากข้อผิดพลาดของเครื่องมือ / การวัดและข้อผิดพลาดในการบันทึกมีองค์ประกอบ 'ข้อผิดพลาดในการจัดการข้อมูลพื้นฐาน' ที่จะเพิ่มขึ้นเมื่อเวลาผ่านไปและด้วยการจัดการข้อมูลมากขึ้น อีกวิธีหนึ่งในการระบุกฎข้อที่ 2 ของอุณหพลศาสตร์ใช่ไหมเอนโทรปีของข้อมูลจะเพิ่มขึ้นเสมอ) ดังนั้นฉันสงสัยว่าควรมี 'การแก้ไข' ที่นำเสนอเพื่ออธิบายประวัติชีวิตของชุดข้อมูลหรือไม่ (คล้ายกับการแก้ไข Bonferroni) กล่าวอีกนัยหนึ่งเราควรสมมติว่าชุดข้อมูลที่เก่ากว่าหรือมากกว่าที่คัดลอกนั้นมีความแม่นยำน้อยกว่าและหากเป็นเช่นนั้น
แต่แล้วความคิดอื่น ๆ ของฉันก็คือความผิดพลาดนั้นเป็นส่วนหนึ่งของการรวบรวมข้อมูลและการจัดการข้อมูลและเนื่องจากการทดสอบทางสถิติทั้งหมดได้รับการพัฒนาด้วยข้อมูลในโลกแห่งความจริงบางทีแหล่งที่มาของข้อผิดพลาดเหล่านี้
นอกจากนี้ประเด็นที่ควรกล่าวถึงอีกประการหนึ่งคือเนื่องจากข้อผิดพลาดของข้อมูลเป็นแบบสุ่มพวกเขามีแนวโน้มที่จะลดความแข็งแรงของการค้นพบมากกว่าที่จะปรับปรุง - กล่าวอีกนัยหนึ่งข้อผิดพลาดในการจัดการข้อมูลจะทำให้เกิดข้อผิดพลาดประเภทที่ 2 . ดังนั้นในบริบทจำนวนมากหากคุณกำลังใช้ข้อมูลเก่า / ที่น่าสงสัยและยังพบผลกระทบที่จะเพิ่มความมั่นใจของคุณว่าผลที่ได้นั้นเป็นจริง (เพราะมันแข็งแกร่งพอที่จะอยู่รอดได้นอกจากการเพิ่มข้อผิดพลาดแบบสุ่มในชุดข้อมูล) ดังนั้นด้วยเหตุผลนั้นบางที 'การแก้ไข' ควรจะเป็นไปในทางอื่น (เพิ่มระดับอัลฟาที่จำเป็นสำหรับ 'การค้นหา') หรือแค่ไม่รบกวนเรา
อย่างไรก็ตามขออภัยที่จะ verbose และป้านดังนั้นฉันไม่แน่ใจจริงๆวิธีการถามคำถามนี้รัดกุมมากขึ้น ขอบคุณสำหรับการแบกกับฉัน