ฉันเจอปัญหาต่อไปนี้แล้วซึ่งฉันพบว่าเป็นเรื่องปกติ
ฉันมีข้อมูลขนาดใหญ่พูดไม่กี่ล้านแถว ฉันเรียกใช้การวิเคราะห์ที่ไม่สำคัญกับมันเช่นแบบสอบถาม SQL ซึ่งประกอบด้วยแบบสอบถามย่อยหลายรายการ ฉันได้รับผลบางอย่างที่ระบุเช่นคุณสมบัติ X นั้นเพิ่มขึ้นเมื่อเวลาผ่านไป
ตอนนี้มีสองสิ่งที่เป็นไปได้ที่อาจนำไปสู่การที่:
- X เพิ่มขึ้นตามกาลเวลา
- ฉันมีข้อบกพร่องในการวิเคราะห์ของฉัน
ฉันจะทดสอบได้อย่างไรว่าสิ่งที่เกิดขึ้นครั้งแรกไม่ใช่ครั้งที่สอง? ตัวดีบักแบบชาญฉลาดแม้ว่าจะมีอยู่ก็ไม่สามารถช่วยได้เนื่องจากผลลัพธ์ระดับกลางยังคงประกอบด้วยบรรทัดหลายล้านบรรทัด
สิ่งเดียวที่ฉันคิดได้ก็คือสร้างชุดข้อมูลสังเคราะห์ขนาดเล็กที่มีคุณสมบัติที่ฉันต้องการทดสอบและเรียกใช้การวิเคราะห์เป็นชุดทดสอบ มีเครื่องมือในการทำเช่นนี้หรือไม่? โดยเฉพาะอย่างยิ่ง แต่ไม่ จำกัด เฉพาะ SQL