ช่วยให้เข้าใจวิธีการบันทึกข้อมูล
ผมขอร่วมเรื่อง ครั้งหนึ่งนานมาแล้วชุดข้อมูลจำนวนมากถูกเก็บไว้ในกระดาษสำเนาที่ซีดจางเท่านั้น ในวันที่มืดมนเหล่านั้นฉันได้ทำสัญญากับองค์กร (มีสายเลือดและขนาดที่ยอดเยี่ยมหลายคนอาจเป็นเจ้าของหุ้น) เพื่อบันทึกข้อมูลการตรวจสอบด้านสิ่งแวดล้อมที่คอมพิวเตอร์ของโรงงานผลิตแห่งหนึ่ง เมื่อต้องการทำสิ่งนี้ฉันทำเครื่องหมายชั้นวางของรายงานห้องปฏิบัติการ (เพื่อแสดงว่าข้อมูลอยู่ที่ไหน) สร้างแบบฟอร์มการป้อนข้อมูลและทำสัญญากับหน่วยงานชั่วคราวสำหรับการรู้หนังสือพนักงานเพื่อพิมพ์ข้อมูลลงในแบบฟอร์ม (ใช่คุณต้องจ่ายเพิ่มสำหรับคนที่สามารถอ่านได้) เนื่องจากคุณค่าและความไวของข้อมูลฉันจึงดำเนินการตามกระบวนการนี้ควบคู่ไปกับคนงานสองคนในเวลาเดียวกัน (ซึ่งโดยปกติจะเปลี่ยนทุกวัน) ใช้เวลาสองสามสัปดาห์ ฉันเขียนซอฟต์แวร์เพื่อเปรียบเทียบรายการสองชุดโดยระบุและแก้ไขข้อผิดพลาดทั้งหมดที่ปรากฏขึ้นอย่างเป็นระบบ
เด็กชายอยู่ที่นั่นผิดพลาด! มีอะไรผิดพลาด? วิธีที่ดีในการอธิบายและวัดความผิดพลาดอยู่ที่ระดับของบันทึกพื้นฐานซึ่งในสถานการณ์นี้เป็นคำอธิบายของผลการวิเคราะห์เดียว (ความเข้มข้นของสารเคมีบางอย่างบ่อยครั้ง) สำหรับตัวอย่างเฉพาะที่ได้รับ ณ จุดตรวจสอบที่กำหนดบน วันที่กำหนด ในการเปรียบเทียบสองชุดข้อมูลฉันพบ:
ข้อผิดพลาดของการละเว้น : ชุดข้อมูลหนึ่งจะมีการบันทึกชุดข้อมูลอื่นจะไม่ สิ่งนี้มักจะเกิดขึ้นเพราะ (ก) บรรทัดหนึ่งหรือสองจะมองข้ามที่ด้านล่างของหน้าหรือ (b) หน้าทั้งหมดจะถูกข้าม
ข้อผิดพลาดที่ชัดเจนของการละเว้นซึ่งเป็นข้อผิดพลาดในการป้อนข้อมูล บันทึกจะถูกระบุด้วยชื่อจุดตรวจสอบวันที่และ "analyte" (มักจะเป็นชื่อทางเคมี) หากสิ่งเหล่านี้มีข้อผิดพลาดในการพิมพ์มันจะไม่ถูกจับคู่กับบันทึกอื่น ๆ ที่เกี่ยวข้อง ผลบันทึกที่ถูกต้องจะหายไปและบันทึกที่ไม่ถูกต้องจะปรากฏขึ้น
การทำสำเนาปลอม ผลลัพธ์เดียวกันสามารถปรากฏในหลาย ๆ แหล่งได้รับการคัดลอกหลายครั้งและดูเหมือนจะเป็นมาตรการที่ทำซ้ำจริงเมื่อพวกเขาไม่ได้ รายการที่ซ้ำกันนั้นตรงไปตรงมาเพื่อตรวจสอบ แต่การตัดสินใจว่าพวกเขาจะผิดพลาดขึ้นอยู่กับการรู้ว่าซ้ำกันควรปรากฏในชุดข้อมูล บางครั้งคุณก็ไม่รู้
ข้อผิดพลาดในการป้อนข้อมูลแฟรงก์ คนที่ "ดี" นั้นง่ายต่อการจับเพราะพวกเขาเปลี่ยนประเภทของข้อมูล: โดยใช้ตัวอักษร "O" สำหรับตัวเลข "0" เช่นเปลี่ยนตัวเลขเป็นตัวเลขที่ไม่ใช่ตัวเลข ข้อผิดพลาดที่ดีอื่น ๆ จะเปลี่ยนค่ามากจนสามารถตรวจพบได้พร้อมกับการทดสอบทางสถิติ (ในกรณีหนึ่งตัวเลขนำหน้าใน "1,000,010 mg / Kg" ถูกตัดออกโดยทิ้งค่า 10 นั่นเป็นการเปลี่ยนแปลงครั้งใหญ่เมื่อคุณพูดถึงความเข้มข้นของสารกำจัดศัตรูพืช!) ความผิดพลาดที่ไม่ดีนั้นยากที่จะจับเพราะเปลี่ยน ค่าเป็นค่าที่เหมาะกับ (เรียงลำดับ) กับส่วนที่เหลือของข้อมูลเช่นการพิมพ์ "80" สำหรับ "50" (ความผิดพลาดประเภทนี้เกิดขึ้นกับซอฟต์แวร์ OCR ตลอดเวลา)
การเปลี่ยนรูป. สามารถป้อนค่าที่ถูกต้อง แต่เชื่อมโยงกับคีย์บันทึกที่ไม่ถูกต้อง สิ่งนี้เป็นเรื่องร้ายกาจเนื่องจากลักษณะทางสถิติทั่วโลกของชุดข้อมูลอาจยังคงไม่เปลี่ยนแปลง แต่สามารถสร้างความแตกต่างปลอมระหว่างกลุ่มได้ อาจเป็นเพียงกลไกอย่างการป้อนข้อมูลสองครั้งเท่านั้นที่สามารถตรวจจับข้อผิดพลาดเหล่านี้ได้
เมื่อคุณทราบถึงข้อผิดพลาดและรู้หรือมีทฤษฎีว่าเกิดขึ้นอย่างไรคุณสามารถเขียนสคริปต์เพื่อหมุนรอบชุดข้อมูลของคุณเพื่อหาข้อผิดพลาดที่เป็นไปได้และตั้งค่าสถานะเพื่อให้ความสนใจต่อไป คุณไม่สามารถแก้ไขได้ตลอดเวลา แต่อย่างน้อยคุณสามารถรวมฟิลด์ "ความคิดเห็น" หรือ "ธงคุณภาพ" เพื่อประกอบข้อมูลตลอดการวิเคราะห์ในภายหลัง
ตั้งแต่เวลานั้นฉันได้ให้ความสนใจกับปัญหาคุณภาพของข้อมูลและมีโอกาสอีกมากมายที่จะทำการตรวจสอบที่ครอบคลุมของชุดข้อมูลเชิงสถิติขนาดใหญ่ ไม่มีใครสมบูรณ์แบบ; พวกเขาทั้งหมดได้รับประโยชน์จากการตรวจสอบคุณภาพ หลักการบางข้อที่ฉันได้พัฒนาในช่วงหลายปีที่ผ่านมาสำหรับการทำเช่นนี้
เมื่อใดก็ตามที่เป็นไปได้ให้สร้างความซ้ำซ้อนในขั้นตอนการป้อนข้อมูลและการถอดความข้อมูล: การตรวจสอบผลรวมยอดผลงานที่ทำซ้ำ: สิ่งใดก็ตามที่สนับสนุนการตรวจสอบภายในโดยอัตโนมัติของความสอดคล้อง
หากเป็นไปได้ให้สร้างและใช้ประโยชน์จากฐานข้อมูลอื่นซึ่งอธิบายถึงข้อมูลที่ควรมีลักษณะ:นั่นคือเมทาดาทาที่คอมพิวเตอร์อ่านได้ ตัวอย่างเช่นในการทดลองยาคุณอาจรู้ล่วงหน้าว่าผู้ป่วยทุกคนจะถูกมองเห็นสามครั้ง สิ่งนี้ช่วยให้คุณสามารถสร้างฐานข้อมูลที่มีระเบียนที่ถูกต้องทั้งหมดและตัวระบุของพวกเขาด้วยค่าที่กำลังรอการกรอกข้อมูลเหล่านั้นด้วยข้อมูลที่ให้คุณแล้วตรวจสอบข้อมูลที่ซ้ำซ้อนการละเว้นและข้อมูลที่ไม่คาดคิด
ทำให้ข้อมูลของคุณเป็นปกติ (โดยเฉพาะนำข้อมูลเหล่านั้นไปไว้ในรูปแบบปกติอย่างน้อยสี่ ) โดยไม่คำนึงว่าคุณวางแผนที่จะจัดรูปแบบชุดข้อมูลเพื่อการวิเคราะห์อย่างไร สิ่งนี้บังคับให้คุณสร้างตารางของเอนทิตีที่แตกต่างกันทุกแนวคิดที่คุณกำลังสร้างโมเดล (ในกรณีด้านสิ่งแวดล้อมนี้จะรวมถึงตารางของสถานที่ตรวจสอบตัวอย่างสารเคมี (คุณสมบัติช่วงปกติ ฯลฯ ) การทดสอบตัวอย่างเหล่านั้น (การทดสอบมักจะครอบคลุมชุดของสารเคมี) และผลการทดสอบแต่ละรายการ ในการทำเช่นนั้นคุณจะสร้างการตรวจสอบคุณภาพข้อมูลและความสอดคล้องอย่างมีประสิทธิภาพและระบุค่าที่อาจสูญหายหรือซ้ำซ้อนหรือไม่สอดคล้องกันจำนวนมาก
ความพยายามนี้ (ซึ่งต้องการทักษะการประมวลผลข้อมูลที่ดี แต่ตรงไปตรงมา) มีประสิทธิภาพอย่างน่าอัศจรรย์ หากคุณปรารถนาที่จะวิเคราะห์ชุดข้อมูลขนาดใหญ่หรือซับซ้อนและไม่มีความรู้ในการทำงานที่ดีเกี่ยวกับฐานข้อมูลเชิงสัมพันธ์และทฤษฎีของพวกเขาให้เพิ่มข้อมูลนั้นลงในรายการสิ่งที่ต้องเรียนรู้โดยเร็วที่สุด มันจะจ่ายเงินปันผลตลอดอาชีพของคุณ
มักจะดำเนินการเป็นจำนวนมากการตรวจสอบ "โง่" คุณอาจจะสามารถ สิ่งเหล่านี้เป็นการตรวจสอบอัตโนมัติของสิ่งที่ชัดเจนเช่นวันที่ตกอยู่ในช่วงเวลาที่คาดไว้จำนวนผู้ป่วย (หรือสารเคมีหรืออะไรก็ตาม) จะเพิ่มขึ้นอย่างถูกต้องเสมอว่าค่านั้นสมเหตุสมผลเสมอ (เช่น pH ต้องอยู่ระหว่าง 0 ถึง 14 และอาจเป็น ช่วงแคบลงมากสำหรับการอ่านการอ่านค่า pH ในเลือด) และอื่น ๆ นี่คือที่ความเชี่ยวชาญด้านโดเมนสามารถได้รับความช่วยเหลือมากที่สุด: นักสถิติสามารถถามคำถามโง่ ๆ ของผู้เชี่ยวชาญและใช้คำตอบเพื่อตรวจสอบข้อมูลได้อย่างน่ากลัว
แน่นอนยิ่งกว่านั้นสามารถพูดได้ - หัวเรื่องมีมูลค่าหนังสือ - แต่ควรเพียงพอที่จะกระตุ้นความคิด