การตรวจสอบความสอดคล้องคืออะไร?


11

ฉันถูกถามคำถามเช่น "คุณตรวจสอบความสอดคล้องในงานประจำวันของคุณหรือไม่" ระหว่างการสัมภาษณ์ทางโทรศัพท์สำหรับตำแหน่งนักชีวสถิติ ฉันไม่รู้จะตอบยังไง ข้อมูลใด ๆ ที่มีความนิยม

คำตอบ:


17

ในรายการของ chl ซึ่งมุ่งเน้นไปที่ข้อผิดพลาดในการประมวลผลข้อมูลที่ตรงไปตรงมาฉันจะเพิ่มการตรวจสอบข้อผิดพลาดของตัวลบข้อมูลเพื่อตอบคำถามและปัญหาต่อไปนี้ (ไม่ได้อยู่ในลำดับที่แน่นอน

  1. สมมติว่าความสมบูรณ์ของฐานข้อมูลเป็นข้อมูลที่สมเหตุสมผลหรือไม่? พวกเขาประมาณสอดคล้องกับความคาดหวังหรือรุ่นทั่วไปหรือพวกเขาจะทำให้คนที่คุ้นเคยกับข้อมูลที่คล้ายกันประหลาดใจ?

  2. ข้อมูลมีความสอดคล้องกันภายในหรือไม่ ตัวอย่างเช่นถ้าเขตข้อมูลหนึ่งควรจะเป็นผลรวมของอีกสองเขตข้อมูลได้หรือไม่

  3. ข้อมูลมีความสมบูรณ์เพียงใด สิ่งเหล่านี้ระบุไว้ในช่วงการวางแผนการรวบรวมข้อมูลหรือไม่ มีข้อมูลพิเศษที่ไม่ได้วางแผนไว้หรือไม่? ถ้าเป็นเช่นนั้นทำไมพวกเขาถึงอยู่ที่นั่น?

  4. การวิเคราะห์ส่วนใหญ่โดยนัยหรือเป็นแบบจำลองข้อมูลอย่างชัดเจนและรวมถึงความเป็นไปได้ของการเปลี่ยนแปลงจากคำอธิบายทั่วไป แต่ละโมเดลดังกล่าวเสนอวิธีการเฉพาะของตนเองในการระบุค่าผิดปกติ - ข้อมูลที่เบี่ยงเบนอย่างน่าทึ่งจากคำอธิบายทั่วไป มีการพยายามระบุและทำความเข้าใจผู้ผิดในแต่ละขั้นตอนของการสำรวจและวิเคราะห์หรือไม่?

  5. ในหลายกรณีนักวิเคราะห์สามารถแนะนำข้อมูลเพิ่มเติมในการวิเคราะห์เพื่อตรวจสอบคุณภาพและข้อมูลเชิงลึก ตัวอย่างเช่นชุดข้อมูลจำนวนมากในวิทยาศาสตร์ธรรมชาติและสังคมรวมถึงธุรกิจรวมถึงข้อมูลตำแหน่งที่ตั้ง (อย่างน้อยโดยปริยาย): ตัวระบุของภูมิภาคสำมะโน; ชื่อประเทศรัฐมณฑล; รหัสไปรษณีย์ของลูกค้า และอื่น ๆ แม้ว่าบางที - โดยเฉพาะอย่างยิ่งถ้า - ความสัมพันธ์เชิงพื้นที่ไม่ใช่องค์ประกอบของ EDA หรือการสร้างแบบจำลองนักวิเคราะห์สามารถเข้าร่วมข้อมูลเพื่อเป็นตัวแทนทางภูมิศาสตร์ของสถานที่และทำแผนที่เพื่อหารูปแบบและค่าผิดปกติ

  6. หนึ่งในข้อผิดพลาดที่ร้ายกาจที่สุดที่สามารถคืบเข้าไปในการวิเคราะห์คือการสูญเสียข้อมูล เมื่อทำการแยกฟิลด์การสรุปข้อมูลการฟอร์แมตชุดข้อมูล ฯลฯ หากรายการหนึ่งหรือสองรายการถูกดร็อปจากชุดข้อมูลขนาดใหญ่ แต่บางครั้งบางสิ่งบางอย่างที่สำคัญจะหายไปกับความลำบากใจอย่างมากหากมีการค้นพบ การตรวจสอบง่าย ๆ เช่นการเปรียบเทียบก่อนและหลังการนับและผลรวมของข้อมูลต้องเกิดขึ้นเป็นประจำเพื่อป้องกันสิ่งต่าง ๆ

  7. ข้อผิดพลาดร้ายกาจอื่นเกี่ยวข้องกับการแปลงชนิดในการคำนวณแบบดิจิทัล ตัวอย่างเช่นเมื่อเร็ว ๆ นี้ฉันต้องสร้างคีย์ (สำหรับการจับคู่ไฟล์ข้อมูลสองไฟล์) ออกจากฟิลด์จุดลอย ซอฟต์แวร์ (Stata) นำเข้าฟิลด์เป็นโฟลว์ความแม่นยำเดียวในไฟล์เดียว แต่ด้วยเหตุผลใดก็ตามในฐานะโฟลเซชั่นความแม่นยำสองเท่าในไฟล์อื่น ส่วนใหญ่ค่าที่ตรงกัน แต่ในบางกรณีเนื่องจากการปัดเศษที่แตกต่างกันพวกเขาไม่ได้ ข้อมูลบางส่วนสูญหายไป ฉันจับได้เพียงเพราะแอปพลิเคชันของ (6) โดยทั่วไปจะจ่ายเพื่อตรวจสอบความสอดคล้องของชนิดข้อมูลภาคสนาม: ints เทียบกับลอยความยาวของสตริง ฯลฯ

  8. หากมีการใช้สเปรดชีตในขั้นตอนการวิเคราะห์ใด ๆให้คาดหวังว่าจะเลวร้ายที่สุด ปัญหาคือว่าการกดแป้นผิดพลาดอาจทำให้ข้อมูลเสียหายได้ เมื่อผลลัพธ์มีความสำคัญการจ่ายไปเรื่อย ๆ - ส่งออกไปยังสเปรดชีตทำการวิเคราะห์นำเข้าและเปรียบเทียบอย่างเป็นระบบเพื่อให้แน่ใจว่าไม่มีสิ่งใดเกิดขึ้น

  9. เมื่อใดก็ตามที่มีการอัปเดตฐานข้อมูลจะเป็นการดีที่จะหยุดชั่วคราวและดำเนินการอย่างเป็นระบบเปรียบเทียบกับฐานข้อมูลเก่าเพื่อให้แน่ใจว่าไม่มีอะไรที่สูญหายถูกเปลี่ยนแปลงหรือเสียหายในกระบวนการ

  10. ในระดับที่สูงขึ้นเมื่อใดก็ตามที่มีการดำเนินการประเมิน (เช่นการถดถอย PCA หรืออะไรก็ตาม) มันคุ้มค่าที่จะดำเนินการโดยใช้เทคนิคที่แตกต่างเพื่อตรวจสอบความไวหรือความผิดพลาดที่อาจเกิดขึ้นในรหัส เช่นติดตามการถดถอย OLS ด้วยรูปแบบการถดถอยที่แข็งแกร่งและเปรียบเทียบค่าสัมประสิทธิ์ สำหรับผลลัพธ์ที่สำคัญสามารถรู้สึกสบายใจที่ได้รับคำตอบโดยใช้แพลตฟอร์มซอฟต์แวร์ที่แตกต่างกันสอง (หรือมากกว่า)

บางที "การตรวจสอบความสอดคล้อง" ทั่วไปที่ดีที่สุดที่ทุกคนสามารถทำได้คือการทำกราฟทุกอย่างตั้งแต่เนิ่น ๆ และบ่อยครั้ง


8

ฉันคิดว่าสิ่งนี้เกี่ยวข้องกับการควบคุมคุณภาพบางรูปแบบเกี่ยวกับความถูกต้องของข้อมูลและโดยเฉพาะอย่างยิ่งคุณตรวจสอบเป็นประจำว่าฐานข้อมูลการทำงานของคุณไม่เสียหาย (เนื่องจากข้อผิดพลาดระหว่างการถ่ายโอนคัดลอกหรือหลังการปรับปรุงหรือการตรวจสุขภาพ) นี่อาจหมายถึงการทำให้มั่นใจว่าการคำนวณระดับกลางของคุณได้รับการตรวจสอบซ้ำ (ด้วยตนเองหรือผ่านรหัสหรือมาโครเพิ่มเติมในซอฟต์แวร์สถิติของคุณ)

ข้อมูลอื่น ๆ ที่อาจจะพบได้ที่นี่: The ไอซี E6 (R1) คู่มืออ้างอิงเกี่ยวกับแนวทางการปฏิบัติทางคลินิกที่ดีจากภูมิภาค EMEA, แนวทางในการปฏิบัติงานในห้องปฏิบัติการทางคลินิกที่ดีหรือการวิจัยทางคลินิกการศึกษาผู้วิจัยกล่องเครื่องมือ


1

เพื่อเพิ่มจุดดีอื่น ๆ

เมื่อใช้ Excel ฉันมักจะสร้างหมายเลขเคสเป็นคอลัมน์แรกสำหรับแต่ละบรรทัดซึ่งจะถูกคัดลอกไปยังคอลัมน์สุดท้าย Excel ดูเหมือนจะมีความสุขมากในการจัดเรียงคอลัมน์เพียงไม่กี่ครั้งทำให้เกิดความสับสนวุ่นวายหากคุณไม่ระมัดระวังในการเลือกทั้งหมด คุณอาจไม่ทราบด้วยซ้ำว่าสิ่งนี้เกิดขึ้น ความสามารถในการตรวจสอบว่าหมายเลขเคสเห็นด้วยในคอลัมน์แรกและสุดท้ายของบรรทัดเป็นข้อควรระวังที่มีประโยชน์

ฉันมักจะตรวจสอบค่าผิดปกติ

แนะนำให้ป้อนข้อมูลสองครั้งโดยแยกคนสำหรับงานที่สำคัญ

เมื่อป้อนข้อมูลจากเอกสารกระดาษเป็นความคิดที่ดีที่จะใช้ตัวระบุอ้างอิงเพื่อให้สามารถอ้างอิงกลับไปยังเอกสารและบรรทัดที่แน่นอนซึ่งรายการนั้นได้มาจากการป้อนหมายเลขของแบบฟอร์มการป้อนข้อมูลช่วยด้วยสิ่งนี้

แก้ไข - รายการอื่น - ฉันรู้ว่าการแก้ไขสเปรดชีตนั้นเต็มไปด้วยปัญหา แต่มันง่ายกว่ามากในการล้างข้อมูลด้วย อย่างไรก็ตามฉันยังเก็บเวอร์ชันที่ไม่มีการแก้ไขดั้งเดิมไว้ด้วยเพื่อให้การเปลี่ยนแปลงใด ๆ สามารถตรวจสอบได้หรือในกรณีที่เลวร้ายที่สุดที่ได้รับการกู้คืน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.