การจัดการข้อมูลมีข้อผิดพลาด 'คิดราคา' ในการวิเคราะห์เชิงสถิติหรือไม่

ตกลงคำเตือนอย่างยุติธรรม - นี่เป็นคำถามเชิงปรัชญาที่ไม่เกี่ยวข้องกับตัวเลข ฉันได้คิดมากเกี่ยวกับข้อผิดพลาดที่คืบคลานเข้าไปในชุดข้อมูลเมื่อเวลาผ่านไปและวิธีการที่นักวิเคราะห์ควรปฏิบัติต่อ - หรือว่าควรจะมีความสำคัญอย่างไร

สำหรับพื้นหลังฉันกำลังทำการวิเคราะห์เกี่ยวกับการศึกษาระยะยาวที่เกี่ยวข้องกับชุดข้อมูลจำนวนมากที่อาจถูกรวบรวมโดยคน 25 คนในช่วง 7-8 ปีที่ผ่านมา - ไม่มีใครเคยนำข้อมูลทั้งหมดมาสู่โครงสร้างที่สอดคล้องกัน (นั่นคืองานของฉัน) ฉันทำการป้อนข้อมูลจำนวนมาก (คัดลอกจากสมุดบันทึกของแล็บเก่า) และฉันก็พบข้อผิดพลาดเล็ก ๆ น้อย ๆ ที่คนอื่นทำรวมถึงการค้นหารายการข้อมูลที่อ่านยากหรือเป็นไปไม่ได้ส่วนใหญ่เป็นเพราะหมึก ได้จางหายไปเมื่อเวลาผ่านไป ฉันใช้บริบทเพื่อ 'คาดเดาที่ดีที่สุด' เกี่ยวกับสิ่งที่ข้อมูลพูดและออกจากจุดข้อมูลโดยสิ้นเชิงถ้าฉันไม่แน่ใจ แต่ฉันคิดถึงความจริงที่ว่าทุกครั้งที่มีการคัดลอกข้อมูลความถี่ของข้อผิดพลาดจะเพิ่มขึ้นอย่างหลีกเลี่ยงไม่ได้จนกว่าข้อมูลต้นฉบับจะสูญหายอย่างสมบูรณ์

ดังนั้นสิ่งนี้ทำให้ฉันมีความคิด: นอกเหนือจากข้อผิดพลาดของเครื่องมือ / การวัดและข้อผิดพลาดในการบันทึกมีองค์ประกอบ 'ข้อผิดพลาดในการจัดการข้อมูลพื้นฐาน' ที่จะเพิ่มขึ้นเมื่อเวลาผ่านไปและด้วยการจัดการข้อมูลมากขึ้น อีกวิธีหนึ่งในการระบุกฎข้อที่ 2 ของอุณหพลศาสตร์ใช่ไหมเอนโทรปีของข้อมูลจะเพิ่มขึ้นเสมอ) ดังนั้นฉันสงสัยว่าควรมี 'การแก้ไข' ที่นำเสนอเพื่ออธิบายประวัติชีวิตของชุดข้อมูลหรือไม่ (คล้ายกับการแก้ไข Bonferroni) กล่าวอีกนัยหนึ่งเราควรสมมติว่าชุดข้อมูลที่เก่ากว่าหรือมากกว่าที่คัดลอกนั้นมีความแม่นยำน้อยกว่าและหากเป็นเช่นนั้น

แต่แล้วความคิดอื่น ๆ ของฉันก็คือความผิดพลาดนั้นเป็นส่วนหนึ่งของการรวบรวมข้อมูลและการจัดการข้อมูลและเนื่องจากการทดสอบทางสถิติทั้งหมดได้รับการพัฒนาด้วยข้อมูลในโลกแห่งความจริงบางทีแหล่งที่มาของข้อผิดพลาดเหล่านี้

นอกจากนี้ประเด็นที่ควรกล่าวถึงอีกประการหนึ่งคือเนื่องจากข้อผิดพลาดของข้อมูลเป็นแบบสุ่มพวกเขามีแนวโน้มที่จะลดความแข็งแรงของการค้นพบมากกว่าที่จะปรับปรุง - กล่าวอีกนัยหนึ่งข้อผิดพลาดในการจัดการข้อมูลจะทำให้เกิดข้อผิดพลาดประเภทที่ 2 . ดังนั้นในบริบทจำนวนมากหากคุณกำลังใช้ข้อมูลเก่า / ที่น่าสงสัยและยังพบผลกระทบที่จะเพิ่มความมั่นใจของคุณว่าผลที่ได้นั้นเป็นจริง (เพราะมันแข็งแกร่งพอที่จะอยู่รอดได้นอกจากการเพิ่มข้อผิดพลาดแบบสุ่มในชุดข้อมูล) ดังนั้นด้วยเหตุผลนั้นบางที 'การแก้ไข' ควรจะเป็นไปในทางอื่น (เพิ่มระดับอัลฟาที่จำเป็นสำหรับ 'การค้นหา') หรือแค่ไม่รบกวนเรา

อย่างไรก็ตามขออภัยที่จะ verbose และป้านดังนั้นฉันไม่แน่ใจจริงๆวิธีการถามคำถามนี้รัดกุมมากขึ้น ขอบคุณสำหรับการแบกกับฉัน

dataset error

— จัสแม็กซ์
แหล่งที่มา

มันเป็นคำถามที่ยอดเยี่ยม (+1) ถึงจุดหนึ่ง: มันอาจเป็นข้อผิดพลาดที่สำคัญในการจัดการกับข้อผิดพลาดของข้อมูลส่วนใหญ่ที่คุณพูดถึงว่า "สุ่ม" ตัวอย่างเช่นมีแนวโน้มที่จะมีการถ่ายเทไกลมากขึ้นของตัวเลข "0", "5", "6" และ "8" ระหว่างตรวจทานกว่าตัวเลขอื่น ๆ (และบางส่วนของเหล่านี้จะสามารถอ่านผิดเป็น "" และในทางกลับกัน ) นอกจากนี้การเปลี่ยนแปลงที่ทำกับค่าข้อมูลที่โดดเด่น (เช่นสุดขั้ว) มักจะมีการระบุและแก้ไขอย่างรวดเร็ว แม้ว่าจะมีองค์ประกอบของโอกาสในกระบวนการคอร์รัปชั่นเหล่านี้อยู่บ้าง แต่การกำหนดลักษณะที่ถูกต้องอาจเป็นปัญหาสำคัญ

— whuber

ทำไมคุณไม่จัดการกับข้อผิดพลาดในการจัดการข้อมูลเป็นส่วนหนึ่งของข้อผิดพลาดในการวัดและจัดการกับพวกเขาตามลำดับ? หากต้องการวัดจำนวนผู้ขับขี่สวนสนุกฉันจำเป็นต้องปรับใช้ 20 คนเพื่อดูประตูจากนั้นฉันสามารถพิจารณาทีม 20 คนนี้เป็นอุปกรณ์การวัดประเภทแปลก ๆ

— Aksakal

@whuber ยังคงสุ่มเพื่อผสม 8 และ 5 แม้ว่าอาจไม่มีความน่าจะเป็นเท่ากับเมื่อรวม 5 และ 7

— Aksakal

@whuber นั่นเป็นจุดที่น่าสนใจ (ความถี่ที่ไม่เท่ากันของข้อผิดพลาดการถอดความบางประเภท) ที่ฉันไม่ได้คิด คุณช่วยชี้ให้ฉันไปยังแหล่งข้อมูลใด ๆ เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับสิ่งนั้นได้ไหม มันทำให้ฉันสงสัยว่าการทดสอบคุณภาพข้อมูลสามารถพัฒนาได้ตามความถี่ของตัวเลขหรือไม่? ฉันเคยได้ยินการทดสอบที่คล้ายกันสำหรับข้อมูลที่ฉ้อโกง / ปลอมตามความถี่หลักดังนั้นฉันคิดว่าสิ่งที่คล้ายกันอาจเป็นไปได้ถ้าแนวโน้มที่คุณพูดถึงมีความสอดคล้องกัน

— Jas Max

@whuber อีกหนึ่งความคิด คุณพูดถึง 0, 5, 6, 8 มักจะสับสน - เพราะพวกมันดูเหมือนกัน? มันทำให้ฉันรู้ว่าแหล่งที่มาของข้อผิดพลาดที่แตกต่างกันจะมีข้อผิดพลาดในการแทนที่ลักษณะ - ตัวอย่างเช่นถ้าคุณได้ยินข้อมูล (บันทึกสิ่งที่บางคนพูด) จากนั้นฉันคิดว่า 5 และ 9 อาจจะสับสนบ่อยกว่า หากแหล่งที่มาของข้อผิดพลาดเป็นเอนโทรปี (การซีดจางของหมึกหรือการเคลื่อนที่ของอิเล็กตรอน) ฉันคิดว่าการทดแทนจะสุ่มมากขึ้น หากรูปแบบเหล่านี้มีอยู่คุณอาจตรวจสอบแหล่งที่มาของข้อผิดพลาดในชุดข้อมูลขนาดใหญ่โดยใช้ความถี่หลัก

— Jas Max

ฉันสองข้อเสนอแนะของ @Aksakal: หากนักวิเคราะห์เห็นข้อผิดพลาดในการวัดที่มีความสำคัญอาจเป็นไปได้ที่จะสามารถและควรได้รับการสร้างแบบจำลองอย่างชัดเจนเป็นส่วนหนึ่งของกระบวนการสร้างข้อมูล

ฉันเห็นสิ่งที่ต้องพิจารณาหลายประการที่ขัดแย้งกับการแนะนำปัจจัยการแก้ไขทั่วไปตามอายุของชุดข้อมูล

ประการแรกอายุอาจเป็นพร็อกซีที่แย่มากสำหรับระดับการเสื่อมของข้อมูล เทคโนโลยีของการทำซ้ำการบีบอัดและการอนุรักษ์และระดับของความพยายามและการดูแลที่เข้าไปตรวจสอบการถอดความที่ถูกต้องเป็นปัจจัยสำคัญ บางตำราโบราณ (เช่นพระคัมภีร์) ได้รับการอนุรักษ์มานานหลายศตวรรษด้วยความเสื่อมศูนย์เห็นได้ชัด ตัวอย่าง VHS ของคุณในขณะที่ถูกกฎหมายนั้นผิดปกติจริง ๆ แล้วในแต่ละเหตุการณ์การทำซ้ำจะมีข้อผิดพลาดอยู่เสมอและไม่มีวิธีที่ง่ายในการตรวจสอบและแก้ไขข้อผิดพลาดในการถอดความ - หากมีการใช้เทคโนโลยีราคาถูก ฉันคาดหวังว่าข้อผิดพลาดที่แนะนำจะลดลงอย่างมากโดยการลงทุนในระบบที่มีราคาแพงกว่า

จุดสุดท้ายนี้เป็นเรื่องทั่วไปมากกว่า: การอนุรักษ์ข้อมูลและการขยายพันธุ์เป็นกิจกรรมทางเศรษฐกิจ คุณภาพของการส่งนั้นขึ้นอยู่กับทรัพยากรที่นำไปใช้อย่างมาก ตัวเลือกเหล่านี้จะขึ้นอยู่กับความสำคัญของการรับรู้ข้อมูลกับใครก็ตามที่ทำซ้ำและส่งสัญญาณ

การพิจารณาทางเศรษฐกิจนำไปใช้กับนักวิเคราะห์เช่นกัน มีปัจจัยอื่น ๆ อีกมากมายที่คุณสามารถนำมาพิจารณาเมื่อทำการวิเคราะห์ของคุณ ข้อผิดพลาดในการถอดความข้อมูลจะมีมากพอและสำคัญพอที่จะต้องคำนึงถึงอะไร ลางสังหรณ์ของฉันคือ: เงื่อนไขดังกล่าวไม่ธรรมดา ยิ่งไปกว่านั้นหากการย่อยสลายข้อมูลที่เป็นไปได้มีความสำคัญพอที่จะนำมาใช้ในการวิเคราะห์ของคุณก็อาจเป็นเรื่องสำคัญที่จะต้องพยายามสร้างแบบจำลองกระบวนการอย่างชัดเจนแทนที่จะใส่ขั้นตอน "การแก้ไข" ทั่วไป

ในที่สุดก็มีความจำเป็นต้องพัฒนาเช่นปัจจัยการแก้ไขทั่วไปเดอโนโว มีทฤษฎีทางสถิติและการปฏิบัติที่สำคัญอยู่แล้วสำหรับการวิเคราะห์ชุดข้อมูลซึ่งข้อผิดพลาดในการวัดถูกมองว่ามีความสำคัญ

สรุปแล้วมันเป็นความคิดที่น่าสนใจ แต่ฉันไม่คิดว่ามันควรกระตุ้นการเปลี่ยนแปลงในการฝึกวิเคราะห์

— อาร์เธอร์เล็ก
แหล่งที่มา