ตามที่คุณทราบอย่างถูกต้องวันนี้ "ข้อมูลขนาดใหญ่" เป็นสิ่งที่ทุกคนต้องการที่จะบอกว่าพวกเขาได้รับซึ่งสร้างความผ่อนคลายในวิธีที่ผู้คนนิยามคำว่า โดยทั่วไปแล้วฉันจะบอกว่าคุณกำลังรับมือกับข้อมูลขนาดใหญ่อย่างแน่นอนหากเครื่องชั่งนั้นไม่สามารถจัดการกับเทคโนโลยีแบบดั้งเดิมเช่น RDBMS ได้อีกต่อไปอย่างน้อยที่สุดโดยไม่ต้องเติมเต็มด้วยเทคโนโลยีข้อมูลขนาดใหญ่เช่น Hadoop
ข้อมูลของคุณมีขนาดใหญ่เพียงใดเพื่อให้เป็นกรณีที่เป็นที่ถกเถียงกัน นี่คือโพสต์บล็อก (ค่อนข้างเร้าใจ) ที่อ้างว่าไม่ใช่กรณีที่มีข้อมูลน้อยกว่า 5 TB (เพื่อความชัดเจนมันไม่ได้อ้างว่า "น้อยกว่า 5 TB ไม่ใช่ข้อมูลขนาดใหญ่" แต่เพียง "น้อยกว่า 5 TB ไม่ใหญ่พอที่คุณต้องการ Hadoop")
แต่แม้ในชุดข้อมูลขนาดเล็กเทคโนโลยีข้อมูลขนาดใหญ่เช่น Hadoop สามารถมีข้อได้เปรียบอื่น ๆ รวมถึงความเหมาะสมในการใช้งานแบทช์เล่นได้ดีกับข้อมูลที่ไม่มีโครงสร้าง (เช่นเดียวกับข้อมูลที่โครงสร้างไม่ทราบล่วงหน้าหรืออาจเปลี่ยนแปลง) ปรับขนาดโดยการเพิ่มโหนดแทนการเพิ่มเซิร์ฟเวอร์ที่มีอยู่ของคุณ) และ (เป็นหนึ่งในผู้ให้ความเห็นในบันทึกการโพสต์ที่ลิงก์ด้านบน) ความสามารถในการรวมการประมวลผลข้อมูลของคุณเข้ากับชุดข้อมูลภายนอก โทรไปยังเซิร์ฟเวอร์อื่น) เทคโนโลยีอื่น ๆ ที่เกี่ยวข้องกับข้อมูลขนาดใหญ่เช่นฐานข้อมูล NoSql เน้นประสิทธิภาพการทำงานที่รวดเร็วและความพร้อมใช้งานที่สอดคล้องกันในขณะที่จัดการกับชุดข้อมูลขนาดใหญ่รวมทั้งสามารถจัดการข้อมูลกึ่งโครงสร้างที่ไม่มีโครงสร้างและขยายในแนวนอน
แน่นอน RDBMS แบบดั้งเดิมมีข้อดีของตัวเองรวมถึงการรับประกันกรด (Atomicity, Consistency, Isolation, Durability) และประสิทธิภาพที่ดีขึ้นสำหรับการดำเนินการบางอย่างรวมถึงการมีมาตรฐานที่สูงขึ้นเป็นผู้ใหญ่มากขึ้นและ (สำหรับผู้ใช้จำนวนมาก) ดังนั้นแม้สำหรับข้อมูล "ใหญ่" ที่ไม่อาจโต้แย้งได้ก็อาจทำให้รู้สึกโหลดอย่างน้อยส่วนหนึ่งของข้อมูลของคุณลงในฐานข้อมูล SQL แบบดั้งเดิมและใช้งานร่วมกับเทคโนโลยีข้อมูลขนาดใหญ่
ดังนั้นคำจำกัดความที่ใจกว้างกว่าก็คือคุณมีข้อมูลขนาดใหญ่ตราบใดที่มันใหญ่พอที่เทคโนโลยีข้อมูลขนาดใหญ่จะให้มูลค่าเพิ่มแก่คุณ แต่อย่างที่คุณเห็นนั่นอาจขึ้นอยู่กับขนาดของข้อมูลของคุณ แต่ขึ้นอยู่กับว่าคุณต้องการทำงานกับมันอย่างไรและมีความต้องการประเภทใดบ้างในแง่ของความยืดหยุ่นความสอดคล้องและประสิทธิภาพ วิธีที่คุณใช้ข้อมูลของคุณมีความเกี่ยวข้องกับคำถามมากกว่าสิ่งที่คุณใช้สำหรับ (เช่นการขุดข้อมูล) ที่กล่าวว่าการใช้การทำเหมืองข้อมูลและการเรียนรู้เครื่องมีแนวโน้มที่จะให้ผลลัพธ์ที่มีประโยชน์มากขึ้นถ้าคุณมีชุดข้อมูลขนาดใหญ่เพียงพอที่จะทำงานด้วย