ข้อมูลขนาดใหญ่มีขนาดใหญ่เพียงใด


86

ผู้คนจำนวนมากใช้คำว่าบิ๊กดาต้าในทางที่ค่อนข้างเป็นเชิงพาณิชย์ซึ่งเป็นวิธีการระบุว่าชุดข้อมูลขนาดใหญ่เกี่ยวข้องกับการคำนวณและดังนั้นวิธีแก้ปัญหาที่เป็นไปได้จะต้องมีประสิทธิภาพที่ดี แน่นอนว่าข้อมูลขนาดใหญ่มักจะดำเนินการข้อตกลงที่เกี่ยวข้องเช่นความยืดหยุ่นและมีประสิทธิภาพ แต่สิ่งที่กำหนดปัญหาเป็นฐานข้อมูลขนาดใหญ่ปัญหา?

การคำนวณต้องเกี่ยวข้องกับชุดของวัตถุประสงค์เฉพาะเช่นการขุดข้อมูล / การดึงข้อมูลหรืออัลกอริทึมสำหรับปัญหากราฟทั่วไปจะมีป้ายกำกับข้อมูลขนาดใหญ่หรือไม่ถ้าชุดข้อมูลมีขนาดใหญ่เพียงพอหรือไม่ นอกจากนี้วิธีการที่มีขนาดใหญ่เป็นขนาดใหญ่พอ (ถ้าเป็นไปได้ที่จะกำหนด)?


7
บทความที่ดีเกี่ยวกับเมื่อข้อมูลของคุณเริ่มมีขนาดใหญ่เกินไปสำหรับการใช้งานปกติ chrisstucchio.com/blog/2013/hadoop_hatred.html
Johnny000

18
"สิ่งใดที่ใหญ่เกินกว่าที่จะโหลดลงใน Excel" เป็นเรื่องตลกที่กำลังทำงานอยู่
Spacedman

1
ขึ้นอยู่กับว่ามันเพิ่งถูกโยนเข้ามาในฐานะ buzzword
John Robertson

มันแม่นยำ 1 GB นั่นคือทางลัดในหนังสือกฎ ไม่มีที่ว่างให้คลุมเครือ
Hack-R

นี่เป็นคำถามที่ยอดเยี่ยม ตามที่ระบุโดยความหลากหลายของคำตอบความหมายคือ ... ไม่ได้กำหนด
มนู H

คำตอบ:


86

สำหรับฉัน (มาจากพื้นหลังของฐานข้อมูลเชิงสัมพันธ์) "ข้อมูลขนาดใหญ่" ไม่ได้เกี่ยวกับขนาดข้อมูลเป็นหลัก (ซึ่งเป็นกลุ่มของคำตอบอื่น ๆ )

"Big Data" และ "Bad Data" มีความสัมพันธ์กันอย่างใกล้ชิด ฐานข้อมูลเชิงสัมพันธ์ต้องใช้ 'ข้อมูลที่เก่าแก่' หากข้อมูลอยู่ในฐานข้อมูลจะถูกต้องสะอาดและเชื่อถือได้ 100% ฐานข้อมูลเชิงสัมพันธ์ต้องการ "ข้อมูลที่ดีเยี่ยม" และใช้เวลาเงินและความรับผิดชอบจำนวนมากเพื่อให้แน่ใจว่าข้อมูลมีการเตรียมพร้อมเป็นอย่างดีก่อนที่จะโหลดลงในฐานข้อมูล หากข้อมูลอยู่ในฐานข้อมูลก็คือ 'กิตติคุณ' และจะกำหนดความเข้าใจระบบของความเป็นจริง

"ข้อมูลขนาดใหญ่" จัดการกับปัญหานี้จากทิศทางอื่น ข้อมูลมีการกำหนดไว้ไม่ดีข้อมูลส่วนใหญ่อาจไม่ถูกต้องและข้อมูลส่วนใหญ่อาจหายไป โครงสร้างและเค้าโครงของข้อมูลเป็นแบบเชิงเส้นตรงข้ามกับเชิงสัมพันธ์

ข้อมูลขนาดใหญ่ต้องมีปริมาณเพียงพอเพื่อให้ปริมาณข้อมูลที่ไม่ดีหรือข้อมูลที่ขาดหายไปนั้นไม่มีนัยสำคัญทางสถิติ เมื่อข้อผิดพลาดในข้อมูลของคุณเป็นเรื่องปกติพอที่จะยกเลิกซึ่งกันและกันเมื่อข้อมูลที่ขาดหายไปนั้นมีขนาดเล็กพอที่จะไม่สำคัญและเมื่อความต้องการในการเข้าถึงข้อมูลและอัลกอริธึมของคุณทำงานได้แม้ว่าข้อมูลไม่สมบูรณ์และไม่ถูกต้องก็ตาม .

"ข้อมูลขนาดใหญ่" ไม่ได้เกี่ยวกับไดรฟ์ข้อมูล แต่เป็นเรื่องเกี่ยวกับลักษณะของข้อมูล


6
+1 ผมสวยมากขอบคุณความเครียดจากข้อมูลขนาดใหญ่ในการเป็นไม่ได้เกี่ยวกับสิ่งที่มีขนาดและค่อนข้างเกี่ยวกับสิ่งที่เป็นเนื้อหา (ลักษณะของ)
รูเบนส์

4
นั่นคือมุมมองที่สดชื่นมาก ฉันไม่เคยได้ยินเรื่องนี้มาก่อน แต่มันเป็นเรื่องจริงมาก สิ่งนี้ชี้ให้เห็นว่าเทคโนโลยี SQL และ NoSQL นั้นไม่สามารถแข่งขันได้ แต่เป็นส่วนเสริม
Jay Godse

7
คุณกำลังพูดถึงข้อมูลที่ไม่มีโครงสร้างไม่ใช่ข้อมูลขนาดใหญ่ ข้อมูลที่ไม่มีโครงสร้างมักจะนำไปสู่โซลูชั่น NoSQL และข้อมูลขนาดใหญ่ในแอปพลิเคชัน แต่ยังคงแตกต่างกัน
TheGrimmScientist

ฉันคิดว่านี่เป็นมุมมองทางธุรกิจที่ดีว่าข้อมูลขนาดใหญ่คืออะไร แต่ไม่ตอบคำถามเฉพาะซึ่งค่อนข้างชี้ว่า "ข้อมูลขนาดใหญ่ใหญ่แค่ไหน"
wabbit

33

ตามที่คุณทราบอย่างถูกต้องวันนี้ "ข้อมูลขนาดใหญ่" เป็นสิ่งที่ทุกคนต้องการที่จะบอกว่าพวกเขาได้รับซึ่งสร้างความผ่อนคลายในวิธีที่ผู้คนนิยามคำว่า โดยทั่วไปแล้วฉันจะบอกว่าคุณกำลังรับมือกับข้อมูลขนาดใหญ่อย่างแน่นอนหากเครื่องชั่งนั้นไม่สามารถจัดการกับเทคโนโลยีแบบดั้งเดิมเช่น RDBMS ได้อีกต่อไปอย่างน้อยที่สุดโดยไม่ต้องเติมเต็มด้วยเทคโนโลยีข้อมูลขนาดใหญ่เช่น Hadoop

ข้อมูลของคุณมีขนาดใหญ่เพียงใดเพื่อให้เป็นกรณีที่เป็นที่ถกเถียงกัน นี่คือโพสต์บล็อก (ค่อนข้างเร้าใจ) ที่อ้างว่าไม่ใช่กรณีที่มีข้อมูลน้อยกว่า 5 TB (เพื่อความชัดเจนมันไม่ได้อ้างว่า "น้อยกว่า 5 TB ไม่ใช่ข้อมูลขนาดใหญ่" แต่เพียง "น้อยกว่า 5 TB ไม่ใหญ่พอที่คุณต้องการ Hadoop")

แต่แม้ในชุดข้อมูลขนาดเล็กเทคโนโลยีข้อมูลขนาดใหญ่เช่น Hadoop สามารถมีข้อได้เปรียบอื่น ๆ รวมถึงความเหมาะสมในการใช้งานแบทช์เล่นได้ดีกับข้อมูลที่ไม่มีโครงสร้าง (เช่นเดียวกับข้อมูลที่โครงสร้างไม่ทราบล่วงหน้าหรืออาจเปลี่ยนแปลง) ปรับขนาดโดยการเพิ่มโหนดแทนการเพิ่มเซิร์ฟเวอร์ที่มีอยู่ของคุณ) และ (เป็นหนึ่งในผู้ให้ความเห็นในบันทึกการโพสต์ที่ลิงก์ด้านบน) ความสามารถในการรวมการประมวลผลข้อมูลของคุณเข้ากับชุดข้อมูลภายนอก โทรไปยังเซิร์ฟเวอร์อื่น) เทคโนโลยีอื่น ๆ ที่เกี่ยวข้องกับข้อมูลขนาดใหญ่เช่นฐานข้อมูล NoSql เน้นประสิทธิภาพการทำงานที่รวดเร็วและความพร้อมใช้งานที่สอดคล้องกันในขณะที่จัดการกับชุดข้อมูลขนาดใหญ่รวมทั้งสามารถจัดการข้อมูลกึ่งโครงสร้างที่ไม่มีโครงสร้างและขยายในแนวนอน

แน่นอน RDBMS แบบดั้งเดิมมีข้อดีของตัวเองรวมถึงการรับประกันกรด (Atomicity, Consistency, Isolation, Durability) และประสิทธิภาพที่ดีขึ้นสำหรับการดำเนินการบางอย่างรวมถึงการมีมาตรฐานที่สูงขึ้นเป็นผู้ใหญ่มากขึ้นและ (สำหรับผู้ใช้จำนวนมาก) ดังนั้นแม้สำหรับข้อมูล "ใหญ่" ที่ไม่อาจโต้แย้งได้ก็อาจทำให้รู้สึกโหลดอย่างน้อยส่วนหนึ่งของข้อมูลของคุณลงในฐานข้อมูล SQL แบบดั้งเดิมและใช้งานร่วมกับเทคโนโลยีข้อมูลขนาดใหญ่

ดังนั้นคำจำกัดความที่ใจกว้างกว่าก็คือคุณมีข้อมูลขนาดใหญ่ตราบใดที่มันใหญ่พอที่เทคโนโลยีข้อมูลขนาดใหญ่จะให้มูลค่าเพิ่มแก่คุณ แต่อย่างที่คุณเห็นนั่นอาจขึ้นอยู่กับขนาดของข้อมูลของคุณ แต่ขึ้นอยู่กับว่าคุณต้องการทำงานกับมันอย่างไรและมีความต้องการประเภทใดบ้างในแง่ของความยืดหยุ่นความสอดคล้องและประสิทธิภาพ วิธีที่คุณใช้ข้อมูลของคุณมีความเกี่ยวข้องกับคำถามมากกว่าสิ่งที่คุณใช้สำหรับ (เช่นการขุดข้อมูล) ที่กล่าวว่าการใช้การทำเหมืองข้อมูลและการเรียนรู้เครื่องมีแนวโน้มที่จะให้ผลลัพธ์ที่มีประโยชน์มากขึ้นถ้าคุณมีชุดข้อมูลขนาดใหญ่เพียงพอที่จะทำงานด้วย


ความคิดเห็นนี้มีอายุเกือบ 5 ปีและในขณะที่บางส่วนยังคงเป็นความจริงเกณฑ์ 5 TB จากบล็อกที่ฉันอ้างมานั้นไม่เป็นความจริงอีกต่อไป ยกตัวอย่างเช่นไมโครซอฟท์ดีบีเอส "hyperscale" SQL ถึง 100 TB: docs.microsoft.com/en-us/azure/sql-database/... แน่นอนหนึ่งสามารถสันนิษฐานได้ว่าหลายองค์กรที่มีดีบีเอส SQL ขนาดใหญ่นอกจากนี้ยังมีการพูด, คลัสเตอร์ Spark เพื่อรองรับปริมาณงานที่แตกต่างกัน ไม่มีกฎที่คุณต้องเลือกอย่างใดอย่างหนึ่ง
ทิมกู๊ดแมน

21

จำนวนข้อมูลทั้งหมดในโลก: 2.8 zetabytes ในปี 2012 คาดว่าจะถึง 8 zetabytes ภายในปี 2015 ( แหล่งที่มา ) และเวลาเพิ่มขึ้นเป็นสองเท่าของ 40 เดือน ไม่สามารถใหญ่กว่านี้ได้ :)

ตัวอย่างขององค์กรขนาดใหญ่เดียว Facebook ดึง 500 เทราไบต์ต่อวันลงในคลังสินค้า 100 petabyte และเรียกใช้แบบสอบถาม 70k ต่อวัน ณ วันที่ 2012 ( แหล่งที่มา ) คลังสินค้าปัจจุบันของพวกเขาคือ> 300 petabytes

ข้อมูลขนาดใหญ่อาจเป็นสิ่งที่เป็นส่วนหนึ่งที่ดีของตัวเลข Facebook (1/100 อาจใช่ใช่ 1/100 อาจไม่ใช่: มันเป็นสเปกตรัมไม่ใช่ตัวเลขเดียว)

นอกเหนือจากขนาดแล้วฟีเจอร์บางอย่างที่ทำให้ "ใหญ่" ได้แก่ :

  • มีการวิเคราะห์อย่างแข็งขันไม่ใช่เก็บไว้ (อ้าง "ถ้าคุณไม่ได้รับประโยชน์จากข้อมูลขนาดใหญ่คุณจะไม่มีข้อมูลขนาดใหญ่คุณมีเพียงข้อมูลจำนวนมาก" Jay Parikh @ Facebook)

  • การสร้างและเรียกใช้คลังข้อมูลเป็นโครงการโครงสร้างพื้นฐานที่สำคัญ

  • มันมีการเติบโตในอัตราที่สำคัญ

  • มันไม่มีโครงสร้างหรือมีโครงสร้างที่ผิดปกติ

คำจำกัดความของการ์ตเนอร์: "ข้อมูลขนาดใหญ่มีปริมาณสูงความเร็วสูงและ / หรือสินทรัพย์ข้อมูลหลากหลายที่ต้องใช้การประมวลผลรูปแบบใหม่" (The 3Vs) ดังนั้นพวกเขาจึงคิดว่า "bigness" นั้นไม่เกี่ยวกับขนาดของชุดข้อมูลทั้งหมด ยังเกี่ยวกับความเร็วและโครงสร้างและชนิดของเครื่องมือที่จำเป็น


2
ถ้าจำนวนของข้อมูลในโลกเท่าทุกๆ 40 เดือนแล้วแน่นอนมันสามารถรับใหญ่กว่านั้น ; p
อากาศ

2
คนอื่น ๆ บรรยายข้อมูลขนาดใหญ่ 4 V ของIBMหรือแม้กระทั่ง 5 V DAVE BEULKE 2011
nmtoken

2
เดิม 3 V ถูกกำหนดไว้ในปี 2001 โดยดั๊ก Laney การจัดการข้อมูล 3D: ปริมาณการควบคุมข้อมูลความเร็วและความหลากหลาย
NmToken

13

สำหรับฉัน Big Data ส่วนใหญ่เกี่ยวกับเครื่องมือ (หลังจากนั้นคือที่ที่มันเริ่ม); ชุดข้อมูล "ใหญ่" เป็นชุดที่ใหญ่เกินกว่าที่จะจัดการด้วยเครื่องมือทั่วไปโดยเฉพาะอย่างยิ่งใหญ่พอที่จะเรียกใช้หน่วยความจำและการประมวลผลในคลัสเตอร์มากกว่าเครื่องเดียว กฎนี้ใช้ RDBMS แบบเดิมและต้องการเทคนิคใหม่สำหรับการประมวลผล โดยเฉพาะอย่างยิ่งกรอบคล้าย Hadoop ทำให้ง่ายต่อการกระจายการคำนวณไปยังกลุ่มที่ค่าใช้จ่ายในการ จำกัด รูปแบบของการคำนวณนี้ ฉันจะอ้างอิงที่สองให้กับhttp://www.chrisstucchio.com/blog/2013/hadoop_hatred.html; เทคนิค Big Data เป็นทางเลือกสุดท้ายสำหรับชุดข้อมูลซึ่งใหญ่เกินไปที่จะจัดการกับวิธีอื่นได้ ฉันจะบอกว่าชุดข้อมูลใด ๆ เพื่อจุดประสงค์ใด ๆ อาจมีคุณสมบัติได้หากมีขนาดใหญ่พอ - แม้ว่ารูปร่างของปัญหาจะเป็นเช่นนั้น "เครื่องมือข้อมูลขนาดใหญ่" ที่มีอยู่ไม่เหมาะสมมันก็น่าจะดีกว่าถ้าจะสร้างใหม่ ชื่อ.

แน่นอนว่ามีบางอย่างทับซ้อนกัน เมื่อฉัน (สั้น ๆ ) ทำงานที่ last.fm เราทำงานในชุดข้อมูลขนาด 50TB เดียวกันโดยใช้ Hadoop และในฐานข้อมูล SQL บนเซิร์ฟเวอร์ที่ไร้สาระพอสมควร (ฉันจำได้ว่ามันมี RAM 1TB และไม่กี่ปีที่ผ่านมา) ซึ่งหมายความว่ามันทั้งคู่เป็นและไม่ใช่ข้อมูลขนาดใหญ่ขึ้นอยู่กับงานที่คุณทำอยู่ แต่ฉันคิดว่านั่นเป็นลักษณะที่ถูกต้อง; คนที่ทำงานในงาน Hadoop พบว่ามีประโยชน์ในการไปที่การประชุม Big Data และเว็บไซต์ในขณะที่คนที่ทำงานเกี่ยวกับงาน SQL นั้นไม่ได้เป็นประโยชน์


10

ข้อมูลกลายเป็น "ใหญ่" เมื่อคอมพิวเตอร์ชุดสินค้าหนึ่งไม่สามารถจัดการปริมาณข้อมูลที่คุณมีได้อีกต่อไป มันระบุถึงจุดที่คุณต้องเริ่มคิดเกี่ยวกับการสร้างซูเปอร์คอมพิวเตอร์หรือใช้กลุ่มเพื่อประมวลผลข้อมูลของคุณ


7

Big Data นั้นถูกกำหนดโดยปริมาณของข้อมูลที่ถูกต้อง แต่ไม่เพียงเท่านั้น พิเศษของข้อมูลขนาดใหญ่คือการที่คุณต้องการในการจัดเก็บจำนวนมากของต่าง ๆและบางครั้งไม่มีโครงสร้างวัตถุดิบทุกครั้งและจากตันของเซ็นเซอร์มักจะสำหรับปีหรือทศวรรษที่ผ่านมา

นอกจากนี้คุณต้องการบางสิ่งบางอย่างที่ปรับขนาดได้เพื่อที่จะไม่ใช้เวลาครึ่งปีในการค้นหาข้อมูลกลับ

ดังนั้นนี่คือ Big Data ที่ซึ่งวิธีการดั้งเดิมจะไม่ทำงานอีกต่อไป SQL ไม่สามารถปรับขนาดได้ และ SQL จะทำงานกับข้อมูลที่มีโครงสร้างและเชื่อมโยงกันมาก (กับหลักและหลักในต่างประเทศ, Innerjoin, imbricated request ... )

โดยทั่วไปเนื่องจากพื้นที่จัดเก็บข้อมูลถูกลงและราคาถูกลงและข้อมูลมีค่ามากขึ้นเรื่อย ๆ ผู้จัดการใหญ่ขอวิศวกรให้บันทึกทุกอย่าง เพิ่มเซ็นเซอร์ใหม่นี้ให้กับมือถือเครือข่ายสังคมสิ่งที่ฝัง ... ฯลฯ ดังนั้นวิธีแบบดั้งเดิมจะใช้งานไม่ได้พวกเขาต้องค้นหาเทคโนโลยีใหม่ (เก็บทุกอย่างในไฟล์ในรูปแบบ json พร้อมกับดัชนีใหญ่สิ่งที่เราเรียกว่า noSQL)

ดังนั้นข้อมูลขนาดใหญ่อาจมีขนาดใหญ่มาก แต่อาจไม่ใหญ่มาก แต่ข้อมูลที่ซับซ้อนไม่มีโครงสร้างหรือข้อมูลต่าง ๆ ที่จะต้องจัดเก็บอย่างรวดเร็วและดำเนินการในรูปแบบดิบ เรามุ่งเน้นและจัดเก็บในตอนแรกจากนั้นเราจะดูวิธีการเชื่อมโยงทุกอย่างเข้าด้วยกัน


6

ฉันจะแบ่งปันว่าข้อมูลขนาดใหญ่เป็นอย่างไรในจีโนมิกส์โดยเฉพาะอย่างยิ่งการประกอบ de-novo

เมื่อเราจัดลำดับจีโนมของคุณ (เช่นตรวจหายีนนวนิยาย) เราจะอ่านพันล้านรุ่นต่อไป ดูภาพด้านล่างที่เราพยายามรวบรวมบางคนอ่าน

ป้อนคำอธิบายรูปภาพที่นี่

มันดูเรียบง่ายเหรอ? แต่ถ้าคุณมีคนอ่านนับพันล้านคนล่ะ เกิดอะไรขึ้นถ้าผู้อ่านที่มีข้อผิดพลาดตามลำดับ? จะทำอย่างไรถ้า RAM ของคุณมีหน่วยความจำไม่เพียงพอที่จะอ่านต่อ สิ่งที่เกี่ยวกับภูมิภาค DNA ซ้ำ ๆ เช่นองค์ประกอบ Aluทั่วไปมาก?

การประกอบ De-novo ทำได้โดยการสร้างกราฟ De-Bruijn :

ป้อนคำอธิบายรูปภาพที่นี่

กราฟเป็นโครงสร้างข้อมูลที่ขุดอย่างชาญฉลาดเพื่อแสดงการอ่านที่ทับซ้อนกัน มันไม่สมบูรณ์แบบ แต่จะดีกว่าการสร้างการซ้อนทับที่เป็นไปได้ทั้งหมดและเก็บไว้ในอาร์เรย์

กระบวนการแอสเซมบลีอาจใช้เวลาหลายวันกว่าจะเสร็จสมบูรณ์เนื่องจากมีเส้นทางจำนวนมากที่แอสเซมเบลอร์จะต้องสำรวจและยุบ

ในฟังก์ชั่นคุณมีข้อมูลขนาดใหญ่เมื่อ:

  • คุณไม่สามารถดุร้ายกับชุดค่าผสมทั้งหมด
  • คอมพิวเตอร์ของคุณมีหน่วยความจำกายภาพไม่เพียงพอที่จะจัดเก็บข้อมูล
  • คุณต้องลดขนาด (เช่น: ยุบเส้นทางกราฟที่ซ้ำซ้อน)
  • คุณโกรธเพราะคุณต้องรอหลายวันเพื่อทำอะไร
  • คุณต้องการโครงสร้างข้อมูลพิเศษเพื่อแสดงข้อมูล
  • คุณต้องกรองชุดข้อมูลเพื่อหาข้อผิดพลาด (เช่น: ข้อผิดพลาดในการเรียงลำดับ)

https://en.wikipedia.org/wiki/De_Bruijn_graph


5

มีสิ่งพิเศษสำหรับอัลกอริธึมกราฟคือคุณมีคำถามดั้งเดิมซึ่งทำให้เกิดความพิเศษซึ่งเป็นเรื่องเกี่ยวกับความสามารถในการแบ่งข้อมูลเป็นหลัก

สำหรับบางสิ่งเช่นการเรียงหมายเลขบนอาเรย์นั้นไม่ยากเกินกว่าที่จะแบ่งปัญหาในโครงสร้างข้อมูลให้เป็นส่วนที่เล็กกว่าเช่นที่นี่: เรียงลำดับการผสานแบบขนาน

NPhard

ดังนั้นในขณะที่ตัวเลข 10GB ในการจัดเรียงอาจเป็นปัญหาที่เข้าถึงได้ง่ายมากบนพีซีปกติ (คุณสามารถเข้าโปรแกรมแบบไดนามิกและคาดการณ์ได้ดีมากเกี่ยวกับผังโปรแกรม) การทำงานกับโครงสร้างข้อมูล 10GB สามารถท้าทายได้แล้ว

มีเฟรมเวิร์กเฉพาะจำนวนมากเช่นGraphX ​​ที่ใช้วิธีการและกระบวนทัศน์การคำนวณแบบพิเศษเพื่อหลีกเลี่ยงความท้าทายโดยธรรมชาติของกราฟ

ดังนั้นเพื่อตอบคำถามของคุณสั้น ๆ ดังที่คนอื่น ๆ กล่าวไว้เมื่อข้อมูลของคุณไม่พอดีกับหน่วยความจำหลักบนพีซีปกติ แต่คุณต้องการทั้งหมดเพื่อตอบปัญหาของคุณเป็นคำแนะนำที่ดีที่ข้อมูลของคุณค่อนข้างใหญ่อยู่แล้ว การติดฉลากที่แน่นอนขึ้นอยู่กับฉันคิดว่าโครงสร้างข้อมูลและคำถามถาม


4

ฉันคิดว่าข้อมูลขนาดใหญ่เริ่มต้นที่จุดที่ขนาดป้องกันคุณจากการทำสิ่งที่คุณต้องการ ในสถานการณ์ส่วนใหญ่มีข้อ จำกัด เกี่ยวกับเวลาทำงานที่ถือว่าเป็นไปได้ ในบางกรณีอาจใช้เวลาหนึ่งชั่วโมงในบางกรณีอาจใช้เวลาสองสามสัปดาห์ ตราบใดที่ข้อมูลไม่ใหญ่พอที่อัลกอริทึม O (n) เท่านั้นที่สามารถทำงานในกรอบเวลาที่เป็นไปได้คุณจะไม่เข้าถึงข้อมูลขนาดใหญ่

ฉันชอบคำจำกัดความนี้เนื่องจากไม่เชื่อเรื่องโวลุ่มระดับเทคโนโลยีและอัลกอริธึมเฉพาะ มันไม่ได้เป็นทรัพยากรที่ไม่เชื่อเรื่องพระเจ้าดังนั้นนักเรียนที่จบการศึกษาจะถึงจุดที่มีข้อมูลขนาดใหญ่ต่อหน้า Google

เพื่อให้สามารถหาปริมาณข้อมูลที่มีขนาดใหญ่ฉันชอบที่จะพิจารณาเวลาที่จำเป็นในการสำรองข้อมูล เนื่องจากความก้าวหน้าทางเทคโนโลยีปริมาณที่ถือว่าใหญ่บางปีที่ผ่านมาขณะนี้อยู่ในระดับปานกลาง เวลาในการสำรองข้อมูลดีขึ้นเนื่องจากเทคโนโลยีดีขึ้นเช่นเดียวกับเวลาทำงานของอัลกอริทึมการเรียนรู้ ฉันรู้สึกว่าเหมาะสมกว่าที่จะพูดถึงชุดข้อมูลที่ใช้เวลา X ชั่วโมงในการสำรองข้อมูลและไม่ใช่ชุดข้อมูล Y ไบต์

PS

เป็นสิ่งสำคัญที่จะต้องทราบว่าแม้ว่าคุณจะถึงจุดข้อมูลขนาดใหญ่และคุณไม่สามารถใช้อัลกอริทึมของความซับซ้อนได้มากกว่า O (n) ในทางตรงไปข้างหน้าคุณก็ยังมีอีกมากที่คุณสามารถทำได้เพื่อรับประโยชน์จากอัลกอริธึมดังกล่าว

ตัวอย่างเช่นการเลือกคุณสมบัติสามารถลดจำนวนคุณลักษณะที่อัลกอริทึมจำนวนมากที่ใช้เวลาทำงานขึ้นอยู่กับ ในการกระจายหางยาวหลายจุดโดยเน้นไปที่สิ่งของบางอย่างในหัวอาจเป็นประโยชน์ คุณสามารถใช้ตัวอย่างและเรียกใช้อัลกอริทึมที่ช้ากว่าได้


O(n)

4

ข้อมูลคือ "ข้อมูลขนาดใหญ่" หากปริมาณดังกล่าวว่ามีราคาไม่แพงในการวิเคราะห์บนคอมพิวเตอร์สินค้าโภคภัณฑ์สองเครื่องขึ้นไปแทนที่จะเป็นคอมพิวเตอร์ระดับสูงเครื่องหนึ่ง

นี่คือวิธีที่ระบบไฟล์ "BigFiles" ของ Google มีจุดกำเนิด เพจและบรินไม่สามารถจ่ายเซิร์ฟเวอร์ซันแฟนซีในการจัดเก็บและค้นหาดัชนีเว็บของพวกเขาดังนั้นติดคอมพิวเตอร์หลายเครื่องไว้


1

ฉันมักจะเห็นด้วยกับสิ่งที่ @Dan Levin พูดไปแล้ว ในที่สุดเนื่องจากเราต้องการดึงข้อมูลเชิงลึกที่เป็นประโยชน์จากข้อมูลแทนที่จะเก็บไว้มันเป็นความสามารถในการเรียนรู้อัลกอริทึม / ระบบที่ควรกำหนดสิ่งที่เรียกว่า "ข้อมูลขนาดใหญ่" เมื่อระบบ ML พัฒนาสิ่งที่เป็นข้อมูลขนาดใหญ่ในวันนี้จะไม่กลายเป็นข้อมูลขนาดใหญ่อีกต่อไปในวันพรุ่งนี้

วิธีหนึ่งในการกำหนด Big Data อาจเป็น:

  • Big data : ข้อมูลที่คุณไม่สามารถสร้างโมเดล ML ในเวลาที่เหมาะสม (1-2 ชั่วโมง)บนเวิร์กสเตชันทั่วไป (พร้อม RAM 4GB)
  • ข้อมูลที่ไม่ใช่ข้อมูลขนาดใหญ่ : ส่วนประกอบด้านบน

สมมติว่าคำจำกัดความนี้ตราบใดที่หน่วยความจำครอบครองโดยแต่ละแถว (ตัวแปรทั้งหมดสำหรับจุดข้อมูลเดียว) ไม่เกิน RAM ของเครื่องเราควรอยู่ในระบอบข้อมูลที่ไม่ใหญ่

หมายเหตุ: Vowpal Wabbit (โดยไกลจากระบบ ML ที่เร็วที่สุดในปัจจุบัน) สามารถเรียนรู้เกี่ยวกับชุดข้อมูลตราบเท่าที่แต่ละแถว (จุดข้อมูล) คือ <RAM (พูด 4GB) จำนวนแถวไม่ได้เป็นข้อ จำกัดเพราะมันใช้ SGD บนหลายคอร์ การพูดจากประสบการณ์คุณสามารถฝึกนางแบบด้วยคุณสมบัติ 10k และ 10 ล้านแถวบนแล็ปท็อปในหนึ่งวัน


1

"ข้อมูลขนาดใหญ่" เป็นเพียงข้อมูลจำนวนมาก ในขณะที่มันเป็นคำศัพท์ทางการตลาดมากกว่าสิ่งใดความหมายโดยทั่วไปคือคุณมีข้อมูลมากมายที่คุณไม่สามารถวิเคราะห์ข้อมูลทั้งหมดได้ในคราวเดียวเนื่องจากจำนวนหน่วยความจำ (RAM) ที่จะใช้ในการเก็บข้อมูลไว้ในหน่วยความจำ ประมวลผลและวิเคราะห์มันมากกว่าจำนวนหน่วยความจำที่มีอยู่

ซึ่งหมายความว่าการวิเคราะห์จะต้องทำในส่วนของข้อมูลแบบสุ่มซึ่งช่วยให้แบบจำลองที่จะสร้างเพื่อเปรียบเทียบกับส่วนอื่น ๆ ของข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.