Big Data คืออะไร


44

ฉันถูกถามคำถามหลายต่อหลายครั้ง:

Big-Data คืออะไร

ทั้งนักเรียนและญาติของฉันที่เก็บเรื่องปากต่อปากเกี่ยวกับสถิติและ ML

ฉันพบโพสต์ CVนี้ และฉันรู้สึกว่าฉันเห็นด้วยกับคำตอบเดียวที่นั่น

หน้าวิกิพีเดียยังมีความคิดเห็นบางอย่างกับมัน แต่ผมไม่แน่ใจว่าผมเห็นด้วยจริงๆกับทุกอย่างที่มี

แก้ไข: (ผมรู้สึกว่าหน้าวิกิพีเดียขาดในการอธิบายวิธีการที่จะแก้ไขปัญหานี้และกระบวนทัศน์ที่ผมพูดถึงด้านล่าง)

ฉันเพิ่งเข้าร่วมการบรรยายโดยEmmanuel Candèsซึ่งเขาได้แนะนำกระบวนทัศน์ Big-Data เป็น

รวบรวมข้อมูลก่อนถามคำถามในภายหลัง

นี่คือความแตกต่างที่สำคัญจากการวิจัยที่ขับเคลื่อนด้วยสมมติฐานซึ่งคุณกำหนดสมมติฐานขึ้นมาก่อนแล้วจึงรวบรวมข้อมูลเพื่อพูดอะไรบางอย่างเกี่ยวกับมัน

เขาเข้าไปมีส่วนร่วมในประเด็นการหาปริมาณความน่าเชื่อถือของสมมติฐานที่เกิดจากการสอดแนมข้อมูล สิ่งสำคัญที่ฉันนำออกมาจากการบรรยายของเขาคือเราต้องเริ่มควบคุมFDR จริง ๆและเขานำเสนอวิธีการน็อคออฟให้ทำเช่นนั้น

ฉันคิดว่า CV ควรมีคำถามว่า Big-Data คืออะไรและคำจำกัดความของคุณคืออะไร ฉันรู้สึกว่ามี"คำจำกัดความ" ที่แตกต่างกันมากมายซึ่งเป็นการยากที่จะเข้าใจว่ามันคืออะไรหรืออธิบายให้ผู้อื่นทราบหากไม่มีมติทั่วไปเกี่ยวกับสิ่งที่มันประกอบด้วย

ฉันรู้สึกว่า"คำนิยาม / กระบวนทัศน์ / คำอธิบาย" ที่จัดทำโดยCandèsเป็นสิ่งที่ใกล้เคียงที่สุดที่ฉันเห็นด้วยความคิดของคุณคืออะไร?

แก้ไข 2:ฉันรู้สึกว่าคำตอบควรให้อะไรมากกว่าคำอธิบายของข้อมูลเอง มันควรเป็นการรวมกันของข้อมูล / วิธีการ / กระบวนทัศน์

แก้ไข 3:ฉันรู้สึกว่าการสัมภาษณ์กับ Michael Jordan นี้สามารถเพิ่มบางสิ่งลงในตารางได้เช่นกัน

EDIT4:ฉันตัดสินใจเลือกคำตอบที่ได้รับการโหวตสูงสุดว่าเป็นคำตอบที่ถูกต้อง แม้ว่าฉันคิดว่าคำตอบทั้งหมดเพิ่มบางสิ่งบางอย่างในการสนทนาและฉันเองรู้สึกว่านี่เป็นคำถามของกระบวนทัศน์ของวิธีการที่เราสร้างสมมติฐานและทำงานกับข้อมูล ฉันหวังว่าคำถามนี้จะทำหน้าที่เป็นแหล่งอ้างอิงสำหรับผู้ที่กำลังมองหาข้อมูลขนาดใหญ่ ฉันหวังว่าหน้า Wikipedia จะมีการเปลี่ยนแปลงเพื่อเน้นย้ำถึงปัญหาการเปรียบเทียบหลายรายการและการควบคุม FDR


55
"ข้อมูลขนาดใหญ่เป็นเรื่องเพศวัยรุ่น: ทุกคนพูดถึงมันไม่มีใครรู้วิธีทำอย่างนั้นจริง ๆ ทุกคนคิดว่าคนอื่นกำลังทำอยู่ดังนั้นทุกคนจึงอ้างว่าทำ" Simon Matthews
Alexander Lutsenko

4
คำพูดนี้ไม่ถูกต้องอีกต่อไป เมื่อเร็ว ๆ นี้ผู้คนกำลังสร้างผลงานพิเศษมากมาย หากคุณดูการแข่งขันใน Kaggle บริษัท ต่างๆกำลังปรับปรุงธุรกิจของพวกเขาและสร้างรายได้เป็นจำนวนมากโดยการใช้จ่ายเงินไม่มาก ตัวอย่างอื่น ๆ สำหรับการใช้งาน Big Data สามารถดูได้ที่นี่: linkedin.com/pulse/…
Metariat

5
@ XuanQuangDO ฉันเห็นด้วย อย่าใช้คำพูดนี้อย่างจริงจัง
Alexander Lutsenko

6
@ XuanQuangDO: ดีฉันแน่ใจว่าวัยรุ่นบางคนมีเพศสัมพันธ์พิเศษ แต่มันก็ไม่ได้เปลี่ยนความจริงที่ว่ามีคนจำนวนมากที่ไร้ความสามารถหรือหลงผิดไปรอบ ๆ เช่นกันซึ่งผู้คนจะล้อเลียนเยาะเย้ย ;-)
Steve Jessop

คำตอบ:


54

ฉันมีความสุขที่ได้เข้าร่วมฟังการบรรยายที่ดร. Hadley Wickham จากชื่อเสียงของ RStudio เขากำหนดไว้อย่างนั้น

  • Big Data: ไม่สามารถใส่หน่วยความจำในคอมพิวเตอร์เครื่องเดียว:> 1 TB
  • ข้อมูลปานกลาง: ใส่หน่วยความจำในเซิร์ฟเวอร์: 10 GB - 1 TB
  • ข้อมูลขนาดเล็ก: ใส่หน่วยความจำในแล็ปท็อป: <10 GB

Hadley ยังเชื่อว่าอย่างน้อยข้อมูลส่วนใหญ่สามารถลดปัญหาการจัดการและจำนวนน้อยมากจริง ๆ แล้วเป็นข้อมูลขนาดใหญ่จริง เขาระบุว่าสิ่งนี้เป็น "Big Data Mirage"

  • 90% สามารถลดลงเป็นปัญหาข้อมูลขนาดเล็ก / ขนาดกลางด้วยการย่อย / สุ่มตัวอย่าง / สรุป
  • 9% สามารถลดปัญหาข้อมูลขนาดเล็กจำนวนมากได้
  • 1% มีขนาดใหญ่อย่างลดไม่ลง

สไลด์สามารถพบได้ที่นี่


2
@ GuðmundurEinarssonฉันเพิ่งแก้ไขไปขอบคุณคำแนะนำ
คริสซี

5
ในขณะที่ฉันไม่คิดว่ามีขอบเขตชัดเจนชัดเจนฉันคิดว่าโพสต์นี้ลึกซึ้งมาก เมื่อฉันทำงานใน บริษัท SW ฉันมีปฏิสัมพันธ์กับลูกค้าจำนวนไม่มากที่กำลังมองหา " โซลูชันข้อมูลขนาดใหญ่ "; ในความเป็นจริงพวกเขาพลาด SODIMM 16 GB
usεr11852พูดว่า Reinstate Monic

2
ด้วย 1TB SSD ปัจจุบันการจัดเก็บข้อมูลแบบไม่ลบเลือนไม่ไกลจากการจัดเก็บข้อมูลที่มีความผันผวนในความเร็ว ฉันรู้สึกว่าฉันคาดหวังว่าข้อมูลขนาดใหญ่จะใหญ่กว่า 1TB อาจอย่างน้อย 50 TB หรือบางอย่าง
Mehrdad

3
ด้วยความเคารพต่อคุณและ Hadley ข้อมูลการเสนอราคาไม่เพียงเกี่ยวกับปริมาณ โดยปกติข้อมูลการเสนอราคาจะถูกกำหนดผ่าน3Vและเมื่อเร็ว ๆ นี้โมเดล4V (เสนอโดย Gartner) - ดูคำตอบโดย Dawny33 ด้านล่าง อย่างไรก็ตามผู้เชี่ยวชาญบางคน (รวมทั้งจาก Gartner) พิจารณาอีกและพวกเขาให้เหตุผลที่สำคัญที่สุด V มิติที่ V ย่อมาจากมูลค่าทางธุรกิจ ตัวอย่างเช่นอ้างถึงโพสต์นี้และโพสต์นี้
Aleksandr Blekh

2
@AleksandrBlekh ความคิดเห็นของคุณมีทั้งการอภิปรายที่เหมาะสมยิ่งของการโต้เถียงรอบเงื่อนไขสำหรับ "ข้อมูลขนาดใหญ่" ในหมู่ผู้เชี่ยวชาญและการอ้างอิงบางอย่างเพื่อสนับสนุนการเรียกร้องของคุณเกี่ยวกับเรื่องนี้ ฉันคิดว่าคุณควรพิจารณาแปลงเป็นคำตอบ
Silverfish

19

ชุดข้อมูล / สตรีมเรียกว่าข้อมูลขนาดใหญ่หากเป็นไปตามทั้งสี่ V

  • ปริมาณ
  • ความเร็ว
  • ความจริง
  • ความหลากหลาย

จนกว่าจะไม่เป็นที่พอใจจนกว่าชุดข้อมูลจะไม่สามารถเรียกว่าเป็นข้อมูลขนาดใหญ่ได้

คำตอบที่คล้ายกันของฉันสำหรับการอ้างอิง


ต้องบอกว่าในฐานะนักวิทยาศาสตร์ข้อมูล ฉันพบว่ากรอบ Map-Reduce ดีมาก แบ่งข้อมูลของคุณทำการแมปแล้วผลลัพธ์ของขั้นตอนตัวทำแผนที่จะลดลงเป็นผลลัพธ์เดียว ฉันพบว่ากรอบงานนี้น่าสนใจจริง ๆ และเป็นประโยชน์ต่อโลกของข้อมูลอย่างไร

และนี่คือวิธีที่ฉันจัดการกับปัญหาข้อมูลระหว่างการทำงานทุกวัน:

  1. ฐานข้อมูลเรียงเป็นแนว: สิ่งเหล่านี้เป็นประโยชน์สำหรับนักวิทยาศาสตร์ด้านข้อมูล ฉันใช้ Aws Red Shiftเป็นที่เก็บข้อมูลคอลัมน์ ช่วยในการดำเนินการแบบสอบถาม SQL ที่ซับซ้อนและรวมเจ็บปวดน้อยลง ฉันพบว่ามันดีจริงๆโดยเฉพาะอย่างยิ่งเมื่อทีมการเติบโตของฉันถามคำถามที่ซับซ้อนบางอย่างและฉันไม่จำเป็นต้องพูดว่า "ใช่เรียกใช้แบบสอบถาม
  2. Spark และกรอบการลดแผนที่:เหตุผลได้รับการอธิบายข้างต้น

และนี่คือวิธีดำเนินการทดสอบข้อมูล:

  • ระบุปัญหาที่จะตอบ
  • แหล่งข้อมูลที่เป็นไปได้ตอนนี้แสดงรายการ
  • ท่อถูกออกแบบมาสำหรับการรับข้อมูลลงใน Redshift จากฐานข้อมูลท้องถิ่น ใช่ Spark มาที่นี่ มันมีประโยชน์จริงๆในช่วง DB -> S3 -> การเคลื่อนย้ายข้อมูล Redshift
  • จากนั้นแบบสอบถามและการวิเคราะห์ SQL จะทำกับข้อมูลใน Redshift

ใช่มีอัลกอริธึมข้อมูลขนาดใหญ่เช่นไฮเปอร์ล็อกล็อก ฯลฯ แต่ฉันไม่พบว่าจำเป็นต้องใช้

ใช่. ข้อมูลจะถูกรวบรวมก่อนสร้างสมมติฐาน


5
ฉันเห็นด้วยกับสิ่งเหล่านี้ แต่ฉันคิดว่าคำว่าข้อมูลขนาดใหญ่ครอบคลุมบางสิ่งมากกว่าตัวข้อมูลเอง นอกจากนี้ยังเป็นวิธีการที่นำไปใช้กับมันและกระบวนทัศน์ของการรวบรวมข้อมูลก่อนที่จะสร้างสมมติฐานเกี่ยวกับมัน
Gumeo

1
@ GuðmundurEinarssonฉันรีบเร่งดังนั้นต้องการให้คำตอบที่ดีที่สุดในเวลาอันสั้น ดังนั้นตอนนี้ฉันได้แก้ไขและขยายงานด้วยเวิร์กโฟลว์และความเข้าใจจากประสบการณ์ประจำวันของฉันด้วยข้อมูลขนาดใหญ่ในอุตสาหกรรม
Dawny33

1
Vs ทั้งสี่กำลังกลับด้านที่นี่เพื่อกำหนดข้อมูลขนาดใหญ่แทนที่จะเป็นคุณสมบัติที่มีความสำคัญของข้อมูลขนาดใหญ่ ตัวอย่างจำนวนมากสามารถสร้างจากข้อมูลขนาดใหญ่โดยไม่ต้องมี 4 รายการเหล่านั้นและบางรายการอาจแสดงอยู่ในอินโฟกราฟิกของ IBM
จอห์น

@ จอห์นใช่ V ของมีการเปลี่ยนแปลงมากจริงๆ นอกจากนี้ยังมีข้อโต้แย้งสำหรับ V ใหม่ ( ค่า )
Dawny33

1
ฉันไม่ได้บอกว่าพวกเขากำลังเปลี่ยนแปลงฉันกำลังบอกว่าคุณกำลังย้อนกลับคำอธิบายของคุณสมบัติบางอย่างเป็นคำจำกัดความที่ไม่ถูกต้อง มันเหมือนมีคนอธิบายสิ่งสำคัญกับพวกเขาเกี่ยวกับสุนัขในเรื่องความภักดีเสียงหัวเราะและการเลียและคนอื่น ๆ มาด้วยกันและบอกว่านั่นคือคำจำกัดความของสุนัข ที่กล่าวว่าฉันคิดว่าคุณมีทางที่ถูกต้องมากขึ้นในการพิจารณาการกลับทิศทางการวิเคราะห์ แต่จำเป็นต้องแนบกับขนาดของข้อมูลในทางเดียว ฉันคิดว่ามีวิธีที่ดีมากมายที่จะทำเช่นนั้นและมันจะดีมากถ้าคุณพัฒนามันขึ้นมา
จอห์น

14

ฉันคิดว่าคำจำกัดความที่เป็นประโยชน์เพียงอย่างเดียวของข้อมูลขนาดใหญ่คือข้อมูลซึ่งทำแคตาล็อกข้อมูลทั้งหมดเกี่ยวกับปรากฏการณ์เฉพาะ สิ่งที่ฉันหมายถึงคือแทนที่จะเก็บตัวอย่างจากประชากรที่น่าสนใจและเก็บข้อมูลการวัดในหน่วยเหล่านั้นข้อมูลขนาดใหญ่รวบรวมการวัดในประชากรทั้งหมดที่น่าสนใจ สมมติว่าคุณสนใจลูกค้าของ Amazon.com เป็นไปได้อย่างสมบูรณ์ที่ Amazon.com จะรวบรวมข้อมูลเกี่ยวกับการซื้อของลูกค้าทั้งหมดแทนที่จะติดตามเฉพาะผู้ใช้บางคนหรือติดตามการทำธุรกรรมบางอย่างเท่านั้น

ในใจของฉันคำจำกัดความที่ขึ้นอยู่กับขนาดหน่วยความจำของข้อมูลนั้นจะค่อนข้าง จำกัด จากการวัดนั้นทำให้คอมพิวเตอร์มีขนาดใหญ่พอไม่มีข้อมูลใดที่เป็นข้อมูลขนาดใหญ่ ที่สุดขีดของคอมพิวเตอร์ขนาดใหญ่ที่ไม่มีที่สิ้นสุดอาร์กิวเมนต์นี้อาจดูลดลง แต่ให้พิจารณากรณีของการเปรียบเทียบแล็ปท็อประดับผู้บริโภคของฉันกับเซิร์ฟเวอร์ของ Google เห็นได้ชัดว่าฉันมีปัญหาด้านลอจิสติกส์ขนาดใหญ่ซึ่งพยายามที่จะกลั่นกรองข้อมูลจำนวนมหาศาล แต่ Google มีทรัพยากรที่จะจัดการกับภารกิจนั้นได้อย่างคล่องแคล่ว ที่สำคัญกว่าขนาดของคอมพิวเตอร์ของคุณไม่ใช่คุณสมบัติที่แท้จริงของข้อมูลดังนั้นการกำหนดข้อมูลอย่างหมดจดโดยอ้างอิงกับเทคโนโลยีใดก็ตามที่คุณมีอยู่นั้นเหมือนกับระยะการวัดในแง่ของความยาวแขนของคุณ

อาร์กิวเมนต์นี้ไม่ได้เป็นเพียงพิธีการ ความต้องการรูปแบบการทำขนานที่ซับซ้อนและแพลตฟอร์มการคำนวณแบบกระจายหายไปเมื่อคุณมีพลังในการคำนวณเพียงพอ ดังนั้นถ้าเรายอมรับคำนิยามว่า Big Data นั้นใหญ่เกินกว่าที่จะใส่ลงใน RAM (หรือล่ม Excel หรืออะไรก็ตาม) หลังจากที่เราอัพเกรดเครื่องของเรา Big Data ก็จะมีอยู่ ดูเหมือนว่าโง่

แต่ลองดูข้อมูลบางอย่างเกี่ยวกับข้อมูลขนาดใหญ่และฉันจะเรียกสิ่งนี้ว่า "ข้อมูลเมตาขนาดใหญ่" โพสต์บล็อกนี้สังเกตถึงแนวโน้มที่สำคัญ: RAM ที่มีอยู่เพิ่มขึ้นอย่างรวดเร็วกว่าขนาดข้อมูลและอ้างว่า "Big RAM กำลังกินข้อมูลขนาดใหญ่" - นั่นคือด้วยโครงสร้างพื้นฐานที่เพียงพอคุณไม่มีปัญหาข้อมูลขนาดใหญ่อีกต่อไปคุณเพียงแค่ มีข้อมูลและคุณกลับไปที่โดเมนของวิธีการวิเคราะห์แบบเดิม

ยิ่งไปกว่านั้นวิธีการแสดงภาพที่แตกต่างกันจะมีขนาดแตกต่างกันดังนั้นจึงไม่ชัดเจนว่ามันหมายถึงอะไรที่จะต้องมีการกำหนด "ข้อมูลขนาดใหญ่" ไว้อ้างอิงในขนาดหน่วยความจำ หากข้อมูลของคุณถูกสร้างขึ้นในลักษณะที่เก็บข้อมูลซ้ำซ้อนจำนวนมาก (นั่นคือคุณเลือกการเข้ารหัสที่ไม่มีประสิทธิภาพ) คุณสามารถข้ามขีด จำกัด ของสิ่งที่คอมพิวเตอร์ของคุณสามารถจัดการได้อย่างง่ายดาย แต่ทำไมคุณถึงต้องการคำนิยามให้มีคุณสมบัตินี้? ในใจของฉันไม่ว่าชุดข้อมูลจะเป็น "ข้อมูลขนาดใหญ่" ไม่ควรขึ้นอยู่กับว่าคุณได้เลือกตัวเลือกที่มีประสิทธิภาพในการออกแบบการวิจัยหรือไม่

จากมุมมองของผู้ปฏิบัติงานข้อมูลขนาดใหญ่ตามที่ฉันกำหนดมันยังมีข้อกำหนดในการคำนวณ แต่ข้อกำหนดเหล่านี้เป็นข้อกำหนดเฉพาะของแอปพลิเคชัน การคิดผ่านการออกแบบฐานข้อมูล (ซอฟต์แวร์ฮาร์ดแวร์องค์กร) สำหรับการสังเกตนั้นแตกต่างจาก10 7104107การสังเกตการณ์และนั่นก็ดีมาก นี่ก็หมายความว่าข้อมูลขนาดใหญ่อย่างที่ฉันนิยามไว้อาจไม่ต้องการเทคโนโลยีพิเศษนอกเหนือจากสิ่งที่เราพัฒนาในสถิติแบบดั้งเดิม: ตัวอย่างและช่วงความมั่นใจยังคงมีประโยชน์อย่างสมบูรณ์และเป็นเครื่องมือที่ใช้ในการอนุมานเมื่อคุณต้องการคาดการณ์ ตัวแบบเชิงเส้นอาจให้คำตอบที่ยอมรับได้อย่างสมบูรณ์สำหรับบางคำถาม แต่ข้อมูลขนาดใหญ่ตามที่ฉันกำหนดอาจต้องใช้เทคโนโลยีใหม่ บางทีคุณอาจจำเป็นต้องจำแนกข้อมูลใหม่ในสถานการณ์ที่คุณมีตัวทำนายมากกว่าข้อมูลการฝึกอบรมหรือที่ตัวทำนายของคุณเติบโตไปพร้อมกับขนาดข้อมูลของคุณ ปัญหาเหล่านี้จะต้องใช้เทคโนโลยีที่ใหม่กว่า


นอกจากนี้ฉันคิดว่าคำถามนี้มีความสำคัญเพราะมันสัมผัสโดยปริยายว่าทำไมคำจำกัดความมีความสำคัญ - นั่นคือสำหรับใครที่คุณกำหนดหัวข้อ การอภิปรายของการเพิ่มสำหรับนักเรียนระดับประถมแรกไม่ได้เริ่มต้นด้วยทฤษฎีเซตมันเริ่มต้นด้วยการอ้างอิงถึงการนับวัตถุทางกายภาพ เป็นประสบการณ์ของฉันที่การใช้คำว่า "ข้อมูลขนาดใหญ่" ส่วนใหญ่เกิดขึ้นในสื่อยอดนิยมหรือในการสื่อสารระหว่างผู้ที่ไม่ได้เป็นผู้เชี่ยวชาญด้านสถิติหรือการเรียนรู้ของเครื่องจักร (ตัวอย่างเช่นสื่อการตลาดที่ชักชวนการวิเคราะห์ระดับมืออาชีพ) แสดงแนวคิดที่ว่าวิธีการคำนวณที่ทันสมัยหมายถึงการมีข้อมูลจำนวนมากที่สามารถถูกโจมตีได้ นี่คือเกือบทุกครั้งในบริบทของข้อมูลที่เปิดเผยข้อมูลเกี่ยวกับผู้บริโภคซึ่งอาจเป็นข้อมูลส่วนตัวหรือไม่ชัดเจนทันที

ดังนั้นความหมายแฝงและการวิเคราะห์โดยรอบการใช้งานร่วมกันของ "ข้อมูลขนาดใหญ่" จึงมีความคิดที่ว่าข้อมูลสามารถเปิดเผยสิ่งที่ซ่อนเร้นซ่อนเร้นหรือแม้แต่รายละเอียดส่วนตัวเกี่ยวกับชีวิตของบุคคลได้หากใช้วิธีการอนุมานที่เพียงพอ เมื่อสื่อรายงานข้อมูลขนาดใหญ่การเสื่อมสภาพของการไม่เปิดเผยตัวตนมักจะเป็นสิ่งที่พวกเขากำลังขับรถ - กำหนดสิ่งที่ "ข้อมูลขนาดใหญ่" ดูเหมือนว่าค่อนข้างเข้าใจผิดในแสงนี้เพราะสื่อมวลชนที่นิยมและไม่สนใจไม่มีความห่วงใย ฟอเรสต์และสนับสนุนเวกเตอร์แมชชีนเป็นต้นและพวกเขาไม่มีความรู้สึกท้าทายการวิเคราะห์ข้อมูลในระดับต่าง ๆ และนี่เป็นเรื่องปกติความกังวลจากมุมมองของพวกเขามีศูนย์กลางอยู่ที่ผลทางสังคมการเมืองและกฎหมายของยุคข้อมูลข่าวสาร คำจำกัดความที่แม่นยำสำหรับสื่อหรือผู้ไม่มีส่วนได้ส่วนเสียนั้นไม่มีประโยชน์จริง ๆ เพราะความเข้าใจของพวกเขาไม่แม่นยำเช่นกัน (อย่าคิดว่าฉันพอใจในตัวเอง - ฉันแค่สังเกตว่าทุกคนไม่สามารถเป็นผู้เชี่ยวชาญในทุกสิ่งได้)


7
นี้. "มันเป็นประสบการณ์ของผมว่าส่วนใหญ่ของการใช้คำว่าข้อมูลขนาดใหญ่เกิดขึ้นในการกดที่นิยมหรือในการสื่อสารระหว่างผู้คนที่ไม่ได้เป็นผู้เชี่ยวชาญในสถิติหรือการเรียนรู้เครื่อง (สื่อการตลาดชักชวนวิเคราะห์มืออาชีพตัวอย่าง)"
Momo

2
ฉันคิดว่าคุณโดนเล็บที่หัวด้วยย่อหน้าสุดท้ายของคุณ ฉันคิดว่ามีช่องว่างที่ชัดเจนระหว่างความเข้าใจสื่อที่ได้รับความนิยมและสิ่งที่ผู้คนในสถิติ / ML / วิทยาศาสตร์คิดว่าเป็นคำศัพท์ที่เป็นข้อมูลขนาดใหญ่ ฉันแค่รู้สึกว่าจำเป็นต้องมีฉันทามติที่ชัดเจนยิ่งขึ้นเกี่ยวกับสิ่งที่เป็นจริง เหตุผลหนึ่งที่มีการอ้างอิงเช่นว่าคนไม่สามารถจัดการคำหรือใช้ผิดเมื่อเห็นได้ชัดว่ามันไม่สามารถใช้งานได้
Gumeo

1
ฉันคิดว่าฉันเริ่มเห็นด้วยกับคุณมากขึ้นเรื่อย ๆ ฉันยังรู้สึกว่าประวัติส่วนตัวต้องการคำถามอ้างอิงที่ซึ่งผู้คนที่มีความสนใจและเข้าไปในหัวข้อนั้นใส่สองเซ็นต์ลงในเรื่องนั้น ฉันกำลังมองหาคำถามที่นี่และฉันรู้สึกว่าการสนทนานี้ไม่เพียงพอ
Gumeo

1
ฉันคิดว่านี่เป็นบทสนทนาที่มีค่าและฉันดีใจที่คุณถามคำถาม! และฉันดีใจที่คุณเห็นความคิดเห็นของฉันเป็นประโยชน์
Reinstate Monica

1
ฉันรักคำตอบนี้ด้วยเหตุผลหลายประการ ก่อนอื่นฉันคิดว่ามันสำคัญมากที่จะต้องเน้นว่า "ข้อมูลขนาดใหญ่" มีส่วนเกี่ยวข้องกับอัลกอริทึมที่ใช้ในการวิเคราะห์ ส่วนใหญ่มีอายุ 20-30 ปี (ป่าสุ่มการถดถอยเชิงเส้นเป็นต้น) และทำงานได้ดี บางคนในอุตสาหกรรมเชื่อว่า "ข้อมูลขนาดใหญ่" มาพร้อมกับอัลกอริธึมใหม่ที่แปลกใหม่เพราะพวกเขาอาจไม่รู้ด้วยซ้ำว่าการเรียนรู้ของเครื่องมีอยู่เป็นเวลาหลายปี ประการที่สอง "ข้อมูลขนาดใหญ่" ไม่เกี่ยวกับขนาด หากคุณมีเซิร์ฟเวอร์ที่มี RAM 128 Gb และสามารถใส่ทุกอย่างไว้ในหน่วยความจำที่ยอดเยี่ยม (ต่อ.)
SKD

7

ป้อนคำอธิบายรูปภาพที่นี่

การรวบรวมวรรณกรรมขนาดใหญ่ใน Big Data ฉันได้รวบรวมคำศัพท์มากถึง 14 "V" 13 เรื่องตามขนาด 11 เรื่อง:

  • ความถูกต้อง
  • ราคา,
  • ความแปรปรวน / แปรปรวน
  • ความหลากหลาย,
  • ความเร็ว,
  • ความจริง / Veraciousness,
  • มีชีวิต
  • virtuality,
  • การสร้างภาพ
  • ระเหย
  • ปริมาณ

เทอมที่ 14 คือ Vacuity ตามที่ที่ผ่านมาโพสต์ยั่วข้อมูลขนาดใหญ่ไม่ได้อยู่ ประเด็นหลักคือ:

  • “ ข้อมูลขนาดใหญ่” ไม่ใช่เรื่องใหญ่
  • “ ข้อมูลขนาดใหญ่” ส่วนใหญ่ไม่ได้มีประโยชน์จริงๆ
  • [เราควรเป็น] ใช้ประโยชน์จากข้อมูลขนาดเล็กให้มากที่สุด

คำจำกัดความที่เหมาะสมของ Big Data จะมีวิวัฒนาการด้วยฮาร์ดแวร์ซอฟต์แวร์ความต้องการและความรู้และอาจไม่ควรขึ้นอยู่กับขนาดที่แน่นอน ดังนั้นการขาดหายของข้อมูลขนาดใหญ่: ขอบเขตต่อไปสำหรับนวัตกรรมการแข่งขันและประสิทธิภาพการผลิตมิถุนายน 2554:

"Big data" หมายถึงชุดข้อมูลที่มีขนาดเกินความสามารถของเครื่องมือซอฟต์แวร์ฐานข้อมูลทั่วไปในการจับจัดเก็บจัดการและวิเคราะห์


1
บทความที่อ้างถึง "ว่าง" ดูเหมือนอ่อนแออย่างมาก มีความหมายว่า 30GB ของข้อมูล / วันไม่ใหญ่ (และขนาดนั้นเป็นองค์ประกอบเดียวของคำจำกัดความ) นอกจากนี้ยังเป็นที่ถกเถียงกันอยู่ว่าเนื่องจาก บริษัท ต่างๆบอกว่าข้อมูลของพวกเขาใหญ่กว่าที่เป็นจริงมาก ไม่มีคำจำกัดความที่ยิ่งใหญ่ให้ที่ใดก็ได้ และตัวอย่างทั้งหมดที่ใช้ในการแนะนำ "ไม่ใหญ่" มีหลายรายการของ V ที่นี่
จอห์น

"ว่าง" ไม่สามารถใช้ได้กับขนาดเท่านั้น อันที่จริงในหนึ่งซับสุดท้ายคำจำกัดความของคำว่าบิ๊กหมายถึงการพัฒนาให้สอดคล้องกับสถานะปัจจุบันของการปฏิบัติ สิ่งที่ยิ่งใหญ่ในอดีตถือได้ว่าเป็นเรื่องเล็ก ๆ ไม่กี่ปีต่อมา ที่นี่ฉันใช้คำศัพท์สำหรับกรณีที่ใช้ "ข้อมูลขนาดใหญ่" เป็นมนต์เวทมนตร์ที่มีสารบางอย่างดังที่แสดงในการ์ตูนด้านบน
Laurent Duval

1
เป็นไปได้อย่างไรที่ 14 เกณฑ์ทั้งหมดจะเริ่มต้นด้วยตัวอักษร V พวกเราทุกคนต่างให้ความสนใจคนที่นี่ c'mon!
Aksakal

โดยทั่วไปฉันเห็นด้วยนี่เป็นเพียงการแสดงให้เห็นว่าคำเช่น Big data มีแนวโน้มที่จะเป็นของอาณาจักรการตลาดมากกว่าสถิติ อย่างไรก็ตามฉันต้องการแบ่งปัน "คอลเลกชัน" ของคำศัพท์ที่ฉันได้อ่าน มันเริ่มต้นด้วย 3V จากนั้น 5V และบางครั้ง 7 เป็นต้นคำเหล่านั้นสามารถช่วยตรวจสอบคุณสมบัติของข้อมูลได้อย่างชัดเจน
Laurent Duval

4

ดูเหมือนว่าผู้คนจะจับจ้องอยู่ที่การคัดเลือกที่ยิ่งใหญ่ใน Big Data อย่างไรก็ตามขนาดเป็นเพียงหนึ่งในองค์ประกอบของคำนี้ (โดเมน) ไม่เพียงพอที่ชุดข้อมูลของคุณจะใหญ่ในการเรียกปัญหาของคุณ (โดเมน) เป็นข้อมูลขนาดใหญ่คุณต้องเข้าใจและวิเคราะห์และประมวลผลได้ยาก บางคนเรียกคุณสมบัตินี้ว่าไม่มีโครงสร้างแต่มันก็ไม่ได้เป็นเพียงโครงสร้าง แต่ยังไม่มีความสัมพันธ์ที่ชัดเจนระหว่างส่วนต่าง ๆ และองค์ประกอบของข้อมูล

พิจารณาชุดข้อมูลที่นักฟิสิกส์พลังงานสูงกำลังทำงานอยู่ในสถานที่เช่นเซิร์น พวกเขาได้ทำงานกับข้อมูลขนาดเพตาไบต์มาหลายปีก่อนที่คำศัพท์ข้อมูลขนาดใหญ่จะประกาศเกียรติคุณ แต่ถึงตอนนี้พวกเขาไม่ได้เรียกข้อมูลขนาดใหญ่เท่าที่ฉันรู้ ทำไม? เนื่องจากข้อมูลค่อนข้างเป็นปกติพวกเขารู้ว่าต้องทำอย่างไร พวกเขาอาจไม่สามารถอธิบายการสังเกตได้ทุกครั้งดังนั้นพวกเขาจึงทำงานกับรุ่นใหม่และอื่น ๆ

ตอนนี้เราเรียกปัญหาข้อมูลขนาดใหญ่ที่จัดการกับชุดข้อมูลที่มีขนาดที่สามารถสร้างได้ในไม่กี่วินาทีจาก LHC ใน CERN เหตุผลก็คือชุดข้อมูลเหล่านี้มักจะเป็นองค์ประกอบข้อมูลที่มาจากหลากหลายแหล่งที่มีรูปแบบที่แตกต่างกันความสัมพันธ์ที่ไม่ชัดเจนระหว่างข้อมูลและมูลค่าที่ไม่แน่นอนกับธุรกิจ มันอาจเป็นเพียง 1TB แต่มันยากที่จะประมวลผลเสียง, vidio, ข้อความ, คำพูด ฯลฯ ทั้งหมดดังนั้นในแง่ของความซับซ้อนและทรัพยากรที่ต้องใช้สิ่งนี้สำคัญกว่าข้อมูลของ CERN เราไม่รู้ด้วยซ้ำว่ามีข้อมูลที่เป็นประโยชน์ที่สังเกตเห็นได้ในชุดข้อมูลของเราหรือไม่

ดังนั้นการแก้ปัญหาข้อมูลขนาดใหญ่เกี่ยวข้องกับการแยกวิเคราะห์แยกองค์ประกอบข้อมูลที่ไม่ทราบค่าแล้วเชื่อมโยงเข้าด้วยกัน "การแยกวิเคราะห์" รูปภาพอาจเป็นปัญหาใหญ่ในตัวของมันเอง สมมติว่าคุณกำลังมองหาวิดีโอวงจรปิดจากถนนในเมืองพยายามดูว่าผู้คนโกรธแค้นหรือไม่และมันส่งผลกระทบต่ออุบัติเหตุบนท้องถนนที่เกี่ยวข้องกับคนเดินถนนหรือไม่ มีวิดีโอมากมายที่คุณสามารถค้นหาใบหน้าพยายามวัดอารมณ์ด้วยการแสดงออกแล้วเชื่อมโยงกับจำนวนชุดข้อมูลอุบัติเหตุรายงานตำรวจ ฯลฯ ขณะที่ควบคุมสภาพอากาศ (การตกตะกอนอุณหภูมิ) และการจราจรติดขัด คุณต้องการเครื่องมือจัดเก็บและวิเคราะห์ที่สนับสนุนชุดข้อมูลขนาดใหญ่ต่างชนิดกันและสามารถเชื่อมโยงข้อมูลเข้าด้วยกันได้อย่างมีประสิทธิภาพ

Big Data เป็นปัญหาการวิเคราะห์ที่ซับซ้อนโดยความซับซ้อนนั้นเกิดจากทั้งขนาดที่แท้จริงและความซับซ้อนของโครงสร้างและการเข้ารหัสข้อมูล


อินพุตที่ดี ความแตกต่างที่คุณให้ระหว่าง LHC และปัญหาข้อมูลกล้องวงจรปิดเป็นสิ่งที่คนมักพลาด
Gumeo

3

ฉันคิดว่าเหตุผลที่ผู้คนสับสนว่า Big Data คืออะไรเพราะพวกเขาไม่เห็นประโยชน์ของมัน มูลค่าของข้อมูลขนาดใหญ่ (เทคนิค) ไม่เพียง แต่เกี่ยวกับปริมาณข้อมูลที่คุณสามารถรวบรวมได้ แต่ยังรวมถึงการสร้างแบบจำลองการทำนายซึ่งในที่สุดก็มีความสำคัญมากกว่า:

  1. Predictive Modelingเปลี่ยนแปลงวิธีการทำสถิติและการคาดการณ์อย่างสมบูรณ์ทำให้เราเข้าใจข้อมูลของเราได้ดีขึ้นเนื่องจากโมเดลใหม่เทคนิคใหม่สามารถตรวจจับแนวโน้มที่ดีขึ้นเสียงของข้อมูลสามารถจับภาพฐานข้อมูล "หลายมิติ" ได้ ยิ่งมิติข้อมูลของเรามีอยู่ในฐานข้อมูลมากเท่าไหร่โอกาสที่เราจะสร้างโมเดลที่ดีก็จะยิ่งดีขึ้นเท่านั้น Predictive Modeling เป็นหัวใจสำคัญของคุณค่าของ Big Data
  2. ข้อมูลขนาดใหญ่ (ในแง่ของขนาดข้อมูล) เป็นขั้นตอนเบื้องต้นและมีไว้สำหรับการให้บริการแบบจำลองการทำนายโดย: เพิ่มฐานข้อมูลด้วยความเคารพต่อ: 1. จำนวนผู้ทำนาย (ตัวแปรเพิ่มเติม), 2. จำนวนการสังเกต

ตัวทำนายมากขึ้นเพราะตอนนี้เราสามารถจับข้อมูลที่เป็นไปไม่ได้ที่จะจับมาก่อน (เนื่องจากพลังงานของฮาร์ดแวร์ที่ จำกัด ความจุที่ จำกัด ในการทำงานกับข้อมูลที่ไม่มีโครงสร้าง) ตัวทำนายที่มากขึ้นหมายถึงโอกาสที่จะมีตัวทำนายที่สำคัญเช่นตัวแบบที่ดีกว่าการทำนายที่ดีกว่าการตัดสินใจที่ดีกว่าสามารถทำธุรกิจได้

การสังเกตเพิ่มเติมไม่เพียงทำให้โมเดลมีความแข็งแกร่งตลอดเวลา แต่ยังช่วยให้โมเดลเรียนรู้ / ตรวจจับทุกรูปแบบที่เป็นไปได้ที่สามารถนำเสนอ / สร้างในความเป็นจริง


3

สิ่งที่ยุ่งยากเกี่ยวกับ Big Data เทียบกับ antonym (น่าจะเป็นข้อมูลขนาดเล็ก?) คือมันเป็นสิ่งที่ต่อเนื่องกัน ข้อมูลขนาดใหญ่ที่ผู้คนไปถึงสเปกตรัมด้านหนึ่งคนข้อมูลขนาดเล็กไปที่อื่น แต่ไม่มีเส้นชัดเจนในทรายที่ทุกคนสามารถตกลงกันได้

ฉันจะดูความแตกต่างเชิงพฤติกรรมระหว่างสองคนนี้ ในสถานการณ์ข้อมูลขนาดเล็กคุณมีชุดข้อมูล "ขนาดเล็ก" และคุณต้องการให้คุณบีบข้อมูลให้มากที่สุดเท่าที่จะทำได้ในจุดข้อมูลทุกจุดที่เราทำได้ รับข้อมูลเพิ่มเติมคุณสามารถรับผลลัพธ์เพิ่มเติมได้ อย่างไรก็ตามการรับข้อมูลเพิ่มเติมอาจมีราคาแพง ข้อมูลที่รวบรวมมักถูก จำกัด ให้เหมาะสมกับแบบจำลองทางคณิตศาสตร์เช่นการทำแฟกทอเรียลบางส่วนของการทดสอบเพื่อคัดกรองพฤติกรรมที่น่าสนใจ

ในสถานการณ์ข้อมูลขนาดใหญ่คุณมีชุดข้อมูล "ใหญ่" แต่ชุดข้อมูลของคุณมีแนวโน้มที่จะไม่ถูก จำกัด โดยปกติคุณจะไม่โน้มน้าวใจลูกค้าให้ซื้อเฟอร์นิเจอร์ลาตินสแควร์เพียงเพื่อให้การวิเคราะห์ง่ายขึ้น แต่คุณมักจะมี gobs และ gobs ของข้อมูลที่มีโครงสร้างไม่ดี ในการแก้ปัญหาเหล่านี้เป้าหมายมีแนวโน้มที่จะไม่ "เลือกข้อมูลที่ดีที่สุดและบีบทุกอย่างที่คุณทำได้" เช่นเดียวกับที่อาจพยายามอย่างไร้เดียงสาหากใช้กับข้อมูลขนาดเล็ก เป้าหมายมีแนวโน้มมากขึ้นตามแนวของ "ถ้าคุณสามารถเอา smidgen ตัวเล็ก ๆ ออกจากดาต้าพอยท์ทุกชิ้นได้ผลรวมจะยิ่งใหญ่และลึกซึ้ง"

ระหว่างนั้นชุดข้อมูลขนาดกลางอยู่กับโครงสร้างที่ถูกต้อง นี่คือ "ปัญหาที่ยากมาก" ดังนั้นในตอนนี้เรามักจะจัดระเบียบเป็นสองค่าย: หนึ่งที่มีข้อมูลขนาดเล็กบีบออกจากบิตสุดท้ายและอีกอันที่มีข้อมูลขนาดใหญ่พยายามจัดการเพื่อให้จุดข้อมูลแต่ละจุดส่องประกายในตัวมันเอง ขวา. เมื่อเราก้าวไปข้างหน้าฉันคาดว่าจะเห็นกระบวนการข้อมูลขนาดเล็กมากขึ้นพยายามปรับให้เข้ากับชุดข้อมูลขนาดใหญ่ขึ้นและกระบวนการข้อมูลขนาดใหญ่ที่พยายามปรับให้เข้ากับข้อมูลที่มีโครงสร้างมากขึ้น


การจำแนกลักษณะของข้อมูลขนาดเล็กของคุณฟังดูเหมือนหนังสือของ Bem ในการวิเคราะห์ โปรดค้นหาคำวิจารณ์เกี่ยวกับเรื่องนี้เพราะเป็นวิธีที่ไม่เหมาะสมในการปฏิบัติกับชุดข้อมูลขนาดเล็กอื่น ๆ นอกเหนือจากการสำรวจภาคเอกชนเพื่อใช้เป็นฐานในการรวบรวมข้อมูลในอนาคต
จอห์น

@ จอห์นฉันอาจต้องดูพวกนั้น การวิพากษ์วิจารณ์มีความเพียงพอหรือไม่ที่ฉันไม่สามารถใช้การจำแนกลักษณะเป็นจุดอธิบายความต่อเนื่องได้?
Cort Ammon

มันเป็นเวลานานมากที่จะเข้าไปที่นี่ แต่ข้อความสำคัญคือคุณไม่บีบทุกอย่างที่คุณสามารถทำได้จากดาต้าพอยน์แต่ละอันด้วยข้อมูลขนาดเล็ก บางที google Gelman และทางแยก หรือองศาอิสระของผู้ทดลอง คุณต้องคิดเกี่ยวกับการวิเคราะห์ข้อมูลขนาดเล็กและขนาดใหญ่ที่แตกต่างกันไม่เพียง แต่เป็นจุดต่อเนื่อง
จอห์น

3

ฉันจะบอกว่ามีสามองค์ประกอบที่จำเป็นในการกำหนดข้อมูลขนาดใหญ่: ทิศทางของการวิเคราะห์ขนาดของข้อมูลที่เกี่ยวกับประชากรและขนาดของข้อมูลที่เกี่ยวข้องกับปัญหาการคำนวณ

คำถามนั้นวางตัวว่ามีการพัฒนาสมมติฐานหลังจากมีข้อมูลแล้ว ฉันไม่ได้ใช้ "รวบรวม" เพราะคิดว่าคำว่า "รวบรวม" หมายถึงวัตถุประสงค์และข้อมูลมักจะมีอยู่เพื่อวัตถุประสงค์ที่ไม่รู้จักในเวลานั้น การรวบรวมมักเกิดขึ้นในข้อมูลขนาดใหญ่โดยการนำข้อมูลที่มีอยู่มารวมกันในการให้บริการของคำถาม

ส่วนที่สำคัญที่สองคือมันไม่ใช่แค่ข้อมูลใด ๆ ที่การวิเคราะห์หลังการโพสต์สิ่งที่จะเรียกว่าการวิเคราะห์เชิงสำรวจด้วยชุดข้อมูลขนาดเล็กมีความเหมาะสม จำเป็นต้องมีขนาดที่เพียงพอซึ่งเชื่อว่าการประมาณการที่รวบรวมได้นั้นใกล้เพียงพอกับการประมาณการประชากรว่าปัญหาตัวอย่างขนาดเล็กจำนวนมากสามารถถูกเพิกเฉยได้ ด้วยเหตุนี้ฉันกังวลเล็กน้อยว่าขณะนี้มีการผลักดันในฟิลด์ไปสู่การแก้ไขเปรียบเทียบหลายรายการ หากคุณมีประชากรทั้งหมดหรือประมาณว่าคุณมีเหตุผลที่ดีที่จะเชื่อว่าถูกต้องการแก้ไขดังกล่าวควรเป็นที่สงสัย ในขณะที่ฉันรู้ว่ามันเกิดขึ้นว่าบางครั้งปัญหาถูกวางที่ทำให้ "ข้อมูลขนาดใหญ่" กลายเป็นตัวอย่างเล็ก ๆ (เช่นการถดถอยโลจิสติกขนาดใหญ่) ซึ่งลงมาเพื่อทำความเข้าใจว่าตัวอย่างขนาดใหญ่สำหรับคำถามใดคำถามหนึ่ง คำถามเปรียบเทียบหลายข้อควรเปลี่ยนเป็นคำถามขนาดเอฟเฟกต์แทน และแน่นอนว่าความคิดทั้งหมดที่คุณใช้ในการทดสอบด้วย alpha = 0.05 ซึ่งหลายคนยังคงทำกับข้อมูลขนาดใหญ่นั้นเป็นเรื่องไร้สาระ

และในที่สุดประชากรขนาดเล็กก็ไม่มีคุณสมบัติ ในบางกรณีมีประชากรน้อยและสามารถรวบรวมข้อมูลทั้งหมดที่จำเป็นในการตรวจสอบได้ง่ายมากและอนุญาตให้พบกับเกณฑ์สองข้อแรก ข้อมูลจะต้องมีขนาดเพียงพอที่จะกลายเป็นปัญหาการคำนวณ เช่นนี้ในบางวิธีเราต้องยอมรับว่า "ข้อมูลขนาดใหญ่" อาจเป็นคำที่มีชื่อเสียงและอาจเป็นปรากฏการณ์ที่เกิดขึ้นตลอดเวลาในการค้นหาคำจำกัดความที่เข้มงวด บางสิ่งที่ทำให้ "ข้อมูลขนาดใหญ่" ยิ่งใหญ่ตอนนี้จะหายไปในอีกไม่กี่ปีข้างหน้าและคำจำกัดความเช่น Hadley's ตามความสามารถของคอมพิวเตอร์จะดูแปลกตา แต่ปัญหาการคำนวณในระดับอื่นเป็นคำถามที่ไม่เกี่ยวกับความสามารถของคอมพิวเตอร์หรือเกี่ยวกับความสามารถของคอมพิวเตอร์ที่ไม่สามารถแก้ไขได้ ฉันคิดว่าในแง่ที่ว่าปัญหาของการกำหนด "

บางคนอาจทราบว่าฉันไม่ได้ให้ตัวอย่างหรือคำจำกัดความของ บริษัท ว่าปัญหาการคำนวณอย่างหนักสำหรับโดเมนนี้ (มีตัวอย่างมากมายโดยทั่วไปใน comp sci และบางอย่างที่เกี่ยวข้องซึ่งฉันจะไม่เข้าไป) ฉันไม่ต้องการทำเพราะฉันคิดว่าจะต้องเปิดค่อนข้าง เมื่อเวลาผ่านไปงานสะสมของหลาย ๆ คนมารวมกันเพื่อทำให้สิ่งนี้ง่ายขึ้นบ่อยครั้งผ่านการพัฒนาซอฟต์แวร์มากกว่าฮาร์ดแวร์ ณ จุดนี้ บางทีสนามจะต้องเติบโตเต็มที่เพื่อที่จะทำให้ความต้องการสุดท้ายนี้ถูกล้อมรอบอย่างแน่นหนา แต่ขอบนั้นจะคลุมเครืออยู่เสมอ


ขอบคุณสำหรับข้อมูลของคุณ! ฉันคิดว่าคุณให้ข้อมูลเชิงลึกที่มีค่าสำหรับกระทู้นี้ ฉันคิดว่าขนาดของข้อมูลที่ประชากรได้รับการมองข้ามที่นี่
Gumeo

1

Wikipedia ให้คำจำกัดความที่ชัดเจนมาก

ข้อมูลขนาดใหญ่เป็นคำที่กว้างสำหรับชุดข้อมูลที่มีขนาดใหญ่หรือซับซ้อนซึ่งแอปพลิเคชันการประมวลผลข้อมูลแบบดั้งเดิมไม่เพียงพอ (แหล่งที่มา https://en.wikipedia.org/wiki/Big_data )

คำจำกัดความง่ายๆอื่น ๆ ที่ฉันรู้คือ

ข้อมูลที่ไม่เหมาะกับหน่วยความจำคอมพิวเตอร์

น่าเสียดายที่ฉันจำการอ้างอิงนี้ไม่ได้ ทุกอย่างเกิดขึ้นจากคำจำกัดความนี้ - คุณต้องจัดการกับข้อมูลจำนวนมาก


0

ฉันจะเพิ่มว่าข้อมูลขนาดใหญ่เป็นการอ้างอิงถึงการทำงานกับชุดข้อมูลขนาดใหญ่ (ล้านแถวและ / หรือหลายพันล้านแถว) หรือพยายามค้นหาข้อมูล / รูปแบบในแหล่งข้อมูลกว้าง ๆ ที่คุณสามารถรวบรวมได้ทุกที่ในขณะนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.