คำจำกัดความของ "ข้อมูลขนาดใหญ่" คืออะไร?


23

มีหรือไม่

คำจำกัดความทั้งหมดที่ฉันสามารถหาได้อธิบายขนาดความซับซ้อน / ความหลากหลายหรือความเร็วของข้อมูล

คำจำกัดความของวิกิพีเดียเป็นสิ่งเดียวที่ฉันพบด้วยจำนวนจริง

ขนาดข้อมูลขนาดใหญ่เป็นเป้าหมายที่เคลื่อนไหวอยู่ตลอดเวลาตั้งแต่ปี 2555 ตั้งแต่ไม่กี่โหลเทราไบต์ไปจนถึงระดับเพตาไบต์จำนวนมากในชุดข้อมูลเดียว

อย่างไรก็ตามสิ่งนี้ดูเหมือนจะขัดแย้งกับคำนิยาม MIKE2.0ซึ่งอ้างอิงในย่อหน้าถัดไปซึ่งบ่งชี้ว่าข้อมูล "ใหญ่" อาจมีขนาดเล็กและเซ็นเซอร์ 100,000 ตัวบนเครื่องบินที่สร้างข้อมูลเพียง 3GB เท่านั้นถือว่าใหญ่

ไอบีเอ็มแม้จะพูดว่า:

ข้อมูลขนาดใหญ่นั้นง่ายกว่าเรื่องของขนาด

มีขนาดการเน้นย้ำในความหมายของพวกเขา

O'Reilly ได้เน้น "volume, velocity and variety"เช่นกัน แม้ว่าจะอธิบายได้ดีและในเชิงลึกยิ่งขึ้นความหมายดูเหมือนว่าจะเป็นการแฮชของผู้อื่น - หรือในทางกลับกันแน่นอน

ผมคิดว่าคอมพิวเตอร์รายสัปดาห์บทความชื่อผลรวมถึงจำนวนของบทความค่อนข้างดี"อะไรคือข้อมูลขนาดใหญ่และวิธีที่จะสามารถนำมาใช้เพื่อให้ได้เปรียบในการแข่งขัน"

แต่ ZDNet ชนะด้วยสิ่งต่อไปนี้ตั้งแต่ปี 2012 :

“ บิ๊กดาต้า” เป็นวลีที่จับตามองจากช่องทางการคำนวณประสิทธิภาพสูงของตลาดไอที ... หากมีใครเข้าร่วมการนำเสนอจากซัพพลายเออร์เทคโนโลยีสิบรายคำนิยามที่แตกต่างกันสิบห้าข้อนั้นน่าจะเกิดขึ้น แน่นอนแต่ละคำนิยามมีแนวโน้มที่จะสนับสนุนความต้องการผลิตภัณฑ์และบริการของซัพพลายเออร์นั้น ๆ ลองจินตนาการว่า

โดยทั่วไป "ข้อมูลขนาดใหญ่" คือ "ใหญ่" ในรูปแบบหรือรูปแบบ

"ใหญ่" คืออะไร? มันเป็นเชิงปริมาณในเวลาปัจจุบันหรือไม่?

หากคำว่า "ใหญ่" ไม่มีเงื่อนไขจะมีคำจำกัดความที่ไม่ขึ้นอยู่กับลักษณะทั่วไปเพียงอย่างเดียวหรือไม่?


7
"ใหญ่" คืออะไร? มันเป็นปริมาณในเวลาปัจจุบันหรือไม่? แน่ใจ ใหญ่กว่าที่คุณสามารถจัดการได้ในเวลาปัจจุบัน;)
Oded

1
@ มีมากเกินไปคุณจะต้องกำหนด "จัดการ" แล้ว :-)
Ben

14
หากคุณต้องถามว่าคุณมีจำนวนไม่มากพอที่จะนับ ;)
FrustratedWithFormsDesigner

@ Ben - ที่กำหนดไว้แตกต่างกันสำหรับแต่ละบุคคลและระบบ ...
Oded

4
"ใหญ่" น่าจะหมายถึง "ยากที่จะจัดการ" เพียงพอที่จะไม่พอดีในหน่วยความจำเติมดิสก์ใช้เวลาในการถ่ายโอนผ่านเครือข่าย ฯลฯ

คำตอบ:


42

ไม่มีเลย มันเป็น buzzword

แม้ว่าตัววิเคราะห์จะเป็นข้อมูลของคุณนั้นเกินความสามารถของระบบดั้งเดิม ข้อมูลมีขนาดใหญ่เกินไปที่จะเก็บไว้ในดิสก์ที่ใหญ่ที่สุดการสืบค้นใช้เวลานานเกินไปโดยไม่มีการเพิ่มประสิทธิภาพพิเศษเครือข่ายหรือดิสก์ไม่สามารถรองรับการรับส่งข้อมูลขาเข้าได้ดาต้าวิวแบบเก่าจะไม่รองรับการสร้างภาพ / ขนาด / ความกว้างของข้อมูล ...

โดยพื้นฐานแล้วข้อมูลของคุณอยู่นอกเหนือจากจุดเปลี่ยนที่กำหนดไว้อย่างไม่ดีซึ่ง "เพียงเพิ่มฮาร์ดแวร์มากขึ้น" จะไม่ถูกตัดออก


+1 และยิ่งกว่านั้นสิ่งที่นับว่า "ใหญ่" นั้นเปลี่ยนแปลงอยู่ตลอดเวลาเนื่องจากฮาร์ดแวร์ที่ดีกว่าจับได้และเครื่องมือที่ปรับแต่งไว้ก่อนหน้านี้กลายเป็นสิ่งที่ครบกำหนดมาตรฐานและขายเชิงพาณิชย์เพื่อจัดการกับปัญหาดังกล่าว
FrustratedWithFormsDesigner

ในคำอื่น ๆ : ไม่คิดไม่ไม่ไม่ :-)
Ben

นอกจากนี้ก่อนที่ข้อมูลขนาดใหญ่จะกลายเป็นเรื่องใหญ่ บริษัท และสถาบันการวิจัยหลายแห่งก็ทำเรื่องข้อมูลขนาดใหญ่ไปแล้ว เฉพาะตอนนี้กับความท้าทายของสื่อสังคมออนไลน์ / ข้อมูลขนาดใหญ่ทั้งหมดมันกลายเป็นกระแสหลักมากขึ้น
พอล Hiemstra

2

ตามที่ชี้ในลิงค์ Oracle (แสดงความคิดเห็นโดย Immad Careem) oracle.com/us/technologies/big-data/index.html Big Data คือทุกสิ่งที่ไม่ใช่ข้อมูลเชิงสัมพันธ์ที่จัดเก็บใน RDBMS ไม่กี่ปีก่อนโฆษณาเป็นเพียงข้อมูลจำนวนมาก ตอนนี้มันเติบโตและได้รับการสนับสนุนจากนักการตลาดให้เป็นข้อมูลพิเศษบางอย่าง

มีเหตุผลรองหลายประการ (นอกเหนือจากการตลาด) เพื่อพิจารณา Big Data เป็นเรื่องจริง

  1. การประดิษฐ์แผนที่ลด
  2. เทคโนโลยี NOSQL เช่น Hadoop
  3. วิวัฒนาการบางอย่างใน RDBMS แบบดั้งเดิมได้รับอิทธิพลจากความต้องการประเภทข้อมูลที่ไม่มีโครงสร้าง
  4. อาจมีเทคโนโลยีฮาร์ดแวร์บางอย่างที่นำเสนอโดย บริษัท EMC2

2
"การประดิษฐ์แผนที่ลด"? คุณต้องล้อเล่น
Telastyn

1
"ทุกสิ่งที่ไม่ใช่ข้อมูลเชิงสัมพันธ์" เป็นคำจำกัดความที่อาจมาจากใครบางคนที่เป็นศูนย์กลางของ RDB ว่าเป็นออราเคิล (และมันผิด) ภายใต้คำจำกัดความนั้นทุกดัชนี SolR ทุกฐานข้อมูล MongoDB และทุก Berkley DB คือ "ข้อมูลขนาดใหญ่" และนั่นเป็นเพียงโง่
Joachim Sauer

0

ด้วยการใช้คำตอบของ Doug Laneyเป็นจุดเริ่มต้นเรากลับทำการออกแบบรายการคำจำกัดความของ Big Data ตอนนี้มากกว่า 30 และแข็งแกร่งขึ้น รายการของเราของคำนิยามสำหรับ "ข้อมูลขนาดใหญ่" ตั้งอยู่ที่นี่

เรายินดีต้อนรับการแก้ไขรายการกราฟิกและอื่น ๆ


-1

ดีใจมากที่ได้เห็นโอเรลลีและคนอื่น ๆ ยึดติดกับข้อมูลขนาดใหญ่ 3Vs ของการ์ตเนอร์ซึ่งเราได้เปิดตัวครั้งแรกเมื่อ 11 ปีที่แล้ว สำหรับการอ้างอิงนี่เป็นชิ้นเดิมที่ผมเขียนในปี 2001: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

นิยามที่อัปเดตล่าสุดของการ์ทเนอร์ยังตระหนักถึงคุณค่า: "ข้อมูลขนาดใหญ่เป็นสินทรัพย์ข้อมูลที่มีปริมาณความเร็วและ / หรือความหลากหลายที่ต้องใช้รูปแบบการประมวลผลข้อมูลเชิงนวัตกรรมเพื่อการค้นพบเชิงลึกการตัดสินใจและกระบวนการอัตโนมัติ"

นอกจากนี้เรายังได้พัฒนาวิธีการวัดปริมาณข้อมูลตามเวกเตอร์ทั้งสามที่กำหนดไว้ในแง่ของการยอมรับเทคโนโลยี อย่างไรก็ตามฉันไม่สามารถแบ่งปันแบบสาธารณะ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.