4
วิธีแก้ปัญหาการวิเคราะห์ข้อมูล
ฉันเจอปัญหาต่อไปนี้แล้วซึ่งฉันพบว่าเป็นเรื่องปกติ ฉันมีข้อมูลขนาดใหญ่พูดไม่กี่ล้านแถว ฉันเรียกใช้การวิเคราะห์ที่ไม่สำคัญกับมันเช่นแบบสอบถาม SQL ซึ่งประกอบด้วยแบบสอบถามย่อยหลายรายการ ฉันได้รับผลบางอย่างที่ระบุเช่นคุณสมบัติ X นั้นเพิ่มขึ้นเมื่อเวลาผ่านไป ตอนนี้มีสองสิ่งที่เป็นไปได้ที่อาจนำไปสู่การที่: X เพิ่มขึ้นตามกาลเวลา ฉันมีข้อบกพร่องในการวิเคราะห์ของฉัน ฉันจะทดสอบได้อย่างไรว่าสิ่งที่เกิดขึ้นครั้งแรกไม่ใช่ครั้งที่สอง? ตัวดีบักแบบชาญฉลาดแม้ว่าจะมีอยู่ก็ไม่สามารถช่วยได้เนื่องจากผลลัพธ์ระดับกลางยังคงประกอบด้วยบรรทัดหลายล้านบรรทัด สิ่งเดียวที่ฉันคิดได้ก็คือสร้างชุดข้อมูลสังเคราะห์ขนาดเล็กที่มีคุณสมบัติที่ฉันต้องการทดสอบและเรียกใช้การวิเคราะห์เป็นชุดทดสอบ มีเครื่องมือในการทำเช่นนี้หรือไม่? โดยเฉพาะอย่างยิ่ง แต่ไม่ จำกัด เฉพาะ SQL