มีสิ่งพื้นฐานที่คุณสามารถทำได้กับชุดข้อมูลใด ๆ :
- ตรวจสอบค่า (การยอมรับความยาวสตริง, ชนิดข้อมูล, รูปแบบการจัดรูปแบบ, การมีอยู่ของฟิลด์ที่ต้องการ, ฯลฯ )
- ความถูกต้องของช่วง (ข้อมูลที่ถูกต้องดูเหมือนจะตกอยู่ในช่วงค่าที่คาดหวังหรือไม่)
- การประมวลผลเบื้องต้น (ถ้าฉันพยายามวิเคราะห์ข้อมูลนี้ฉันสามารถดำเนินการขั้นพื้นฐานได้โดยไม่เกิดข้อผิดพลาด)
- การรายงานเบื้องต้น (เรียกใช้รายงานกับชุดข้อมูลและตรวจสอบให้แน่ใจว่าผ่านการทดสอบสติ)
- การกำหนดค่า null เทียบกับค่าว่างกับศูนย์เทียบกับค่าเท็จสำหรับคอลัมน์ข้อมูลใด ๆ
- การระบุข้อมูลที่ไม่เข้าที่ (ค่าตัวเลขแตกต่างจากค่าอื่น ๆ ในชุดข้อมูลค่าสตริงที่ดูเหมือนว่าพวกมันอาจสะกดผิด ฯลฯ )
- การกำจัดหรือแก้ไขข้อมูลที่ผิดพลาดอย่างเห็นได้ชัด
การทำความเข้าใจข้อมูลเพื่อระบุข้อผิดพลาดเป็นเกมลูกที่แตกต่างกันโดยสิ้นเชิงและมันสำคัญมาก
ตัวอย่างเช่นคุณสามารถมีกฎที่ระบุว่าหมายเลขซีเรียลต้องแสดงอยู่ในชุดข้อมูลที่กำหนดและหมายเลขซีเรียลนั้นต้องเป็นตัวอักษรและตัวเลขที่มีความยาวสตริงสูงสุด 255 และความยาวสตริงต่ำสุดที่ 5
เมื่อดูที่ข้อมูลคุณอาจพบว่าหมายเลขซีเรียลหนึ่งค่าอ่าน"PLEASE ENTER SERIAL"
ถูกต้องสมบูรณ์ แต่ผิด
นั่นเป็นสิ่งที่ชัดเจน แต่บอกว่าคุณกำลังประมวลผลข้อมูลหุ้นและคุณมีช่วงราคาสำหรับ 1,000 หุ้นที่อยู่ภายใต้ดอลลาร์ ผู้คนจำนวนมากไม่รู้ว่าราคาหุ้นที่ต่ำมากนั้นไม่ถูกต้องในการแลกเปลี่ยนบางอย่าง คุณต้องการความรู้เกี่ยวกับข้อมูลของคุณเพื่อทำความเข้าใจว่าสิ่งที่คุณเห็นนั้นเป็นปัญหาหรือไม่
ในโลกแห่งความเป็นจริงคุณไม่จำเป็นต้องมีความเข้าใจอย่างถ่องแท้ในข้อมูลของคุณ
วิธีที่ฉันหลีกเลี่ยงปัญหาคือการใช้ประโยชน์จากคนรอบตัวฉัน สำหรับชุดข้อมูลขนาดเล็กฉันสามารถขอให้ใครบางคนตรวจสอบข้อมูลได้อย่างครบถ้วน สำหรับกลุ่มใหญ่การดึงกลุ่มตัวอย่างแบบสุ่มและขอให้ผู้อื่นทำการตรวจสอบสติในข้อมูลนั้นมีความเหมาะสมมากกว่า
นอกจากนี้การสอบถามแหล่งที่มาของข้อมูลและความน่าเชื่อถือของแหล่งข้อมูลนั้นมีความสำคัญเพียงใด ฉันมักจะมีแหล่งข้อมูลที่ขัดแย้งกันหลายครั้งและเราสร้างกฎเพื่อกำหนด "แหล่งที่มาของความจริง" บางครั้งชุดข้อมูลหนึ่งมีข้อมูลที่ยอดเยี่ยมในแง่มุมที่กำหนด แต่ชุดข้อมูลอื่นมีความแข็งแกร่งในด้านอื่น ๆ
ข้อมูลที่ป้อนด้วยตนเองมักเป็นสิ่งที่ฉันสงสัยมากที่สุด แต่ในบางกรณีมันมีความแข็งแกร่งกว่าสิ่งใด ๆ ที่สามารถรับได้ผ่านระบบอัตโนมัติ