วิศวกรรมซอฟต์แวร์ big-data

4

คำจำกัดความของ "ข้อมูลขนาดใหญ่" คืออะไร?

มีหรือไม่ คำจำกัดความทั้งหมดที่ฉันสามารถหาได้อธิบายขนาดความซับซ้อน / ความหลากหลายหรือความเร็วของข้อมูล คำจำกัดความของวิกิพีเดียเป็นสิ่งเดียวที่ฉันพบด้วยจำนวนจริง ขนาดข้อมูลขนาดใหญ่เป็นเป้าหมายที่เคลื่อนไหวอยู่ตลอดเวลาตั้งแต่ปี 2555 ตั้งแต่ไม่กี่โหลเทราไบต์ไปจนถึงระดับเพตาไบต์จำนวนมากในชุดข้อมูลเดียว อย่างไรก็ตามสิ่งนี้ดูเหมือนจะขัดแย้งกับคำนิยาม MIKE2.0ซึ่งอ้างอิงในย่อหน้าถัดไปซึ่งบ่งชี้ว่าข้อมูล "ใหญ่" อาจมีขนาดเล็กและเซ็นเซอร์ 100,000 ตัวบนเครื่องบินที่สร้างข้อมูลเพียง 3GB เท่านั้นถือว่าใหญ่ ไอบีเอ็มแม้จะพูดว่า: ข้อมูลขนาดใหญ่นั้นง่ายกว่าเรื่องของขนาด มีขนาดการเน้นย้ำในความหมายของพวกเขา O'Reilly ได้เน้น "volume, velocity and variety"เช่นกัน แม้ว่าจะอธิบายได้ดีและในเชิงลึกยิ่งขึ้นความหมายดูเหมือนว่าจะเป็นการแฮชของผู้อื่น - หรือในทางกลับกันแน่นอน ผมคิดว่าคอมพิวเตอร์รายสัปดาห์บทความชื่อผลรวมถึงจำนวนของบทความค่อนข้างดี"อะไรคือข้อมูลขนาดใหญ่และวิธีที่จะสามารถนำมาใช้เพื่อให้ได้เปรียบในการแข่งขัน" แต่ ZDNet ชนะด้วยสิ่งต่อไปนี้ตั้งแต่ปี 2012 : “ บิ๊กดาต้า” เป็นวลีที่จับตามองจากช่องทางการคำนวณประสิทธิภาพสูงของตลาดไอที ... หากมีใครเข้าร่วมการนำเสนอจากซัพพลายเออร์เทคโนโลยีสิบรายคำนิยามที่แตกต่างกันสิบห้าข้อนั้นน่าจะเกิดขึ้น แน่นอนแต่ละคำนิยามมีแนวโน้มที่จะสนับสนุนความต้องการผลิตภัณฑ์และบริการของซัพพลายเออร์นั้น ๆ ลองจินตนาการว่า โดยทั่วไป "ข้อมูลขนาดใหญ่" คือ "ใหญ่" ในรูปแบบหรือรูปแบบ "ใหญ่" คืออะไร? มันเป็นเชิงปริมาณในเวลาปัจจุบันหรือไม่? …

23 data-structures definition big-data

4

วิธีการเรียนรู้ Cloud Computing และข้อมูลขนาดใหญ่ที่บ้าน? [ปิด]

เป็นการยากที่จะบอกสิ่งที่ถูกถามที่นี่ คำถามนี้คลุมเครือคลุมเครือไม่สมบูรณ์กว้างเกินไปหรือโวหารและไม่สามารถตอบได้อย่างสมเหตุสมผลในรูปแบบปัจจุบัน สำหรับความช่วยเหลือในการทำความเข้าใจคำถามนี้เพื่อที่จะสามารถเปิด, ไปที่ศูนย์ช่วยเหลือ ปิดให้บริการใน7 ปีที่ผ่านมา ฉันต้องการเรียนรู้ Cloud Computing และ Big Data ที่บ้าน เป็นไปได้หรือไม่ที่จะเรียนรู้เทคโนโลยีเหล่านี้บนพีซีที่บ้าน? เทคโนโลยีใดที่จะเรียนรู้ใน Cloud Computing เทคโนโลยีใดที่จะเรียนรู้ Big Data (Hadoop)

15 learning cloud-computing big-data

3

เลือก C ++ หรือ Java สำหรับแอปพลิเคชันที่ต้องการ RAM จำนวนมากใช่ไหม [ปิด]

ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน6 ปีที่ผ่านมา ฉันกำลังคิดถึงแอปพลิเคชันทางวิทยาศาสตร์ที่ส่วนใหญ่ใช้โปรเซสเซอร์และมีน้ำหนักมากในการใช้งานฮีป (อย่างน้อยหลายกิกะไบต์) ช่วงเวลาอื่นของปีที่ฉันจะไปกับ C ++ อย่างมีความสุข แต่ในกรณีนี้ฉันสงสัยว่าการกระจายตัวตามธรรมชาติของตัวจัดการหน่วยความจำ C ++ อาจเป็นปัญหาร้ายแรงเมื่อเทียบกับข้อดีของตัวสะสมขนาดกะทัดรัดของ Java ใครสามารถชี้ให้เห็นตัวอย่างที่แท้จริงเกี่ยวกับสิ่งนี้

11 java c++ memory big-data

1

การจับคู่ชื่อบางส่วนในล้านเรคคอร์ด

เราได้พัฒนาแอพพลิเคชั่นบนเว็บสำหรับการจับคู่ชื่อ มันทำงานโดยการแบ่งชื่อออกเป็นส่วน ๆ และค่าSoundexของแต่ละส่วนจะถูกเก็บไว้ในฐานข้อมูล เมตริก Levenshtein ระยะทางที่ใช้ในการสมัครเปอร์เซ็นต์การจับคู่ของเสียงเช่นเดียวกับการสะกดคำกับชื่อที่กำหนด ที่รันไทม์เราโหลดเร็กคอร์ดทั้งหมดลงในหน่วยความจำและใช้ระยะทาง Levenshtein กับค่า Soundex ทั้งหมดและการสะกดคำของส่วนทั้งหมดของชื่อทั้งหมด สิ่งนี้ใช้ได้ดีในตอนแรกเพราะมีชื่อสูงสุด 20,000 ชื่อ แต่ตอนนี้ลูกค้าของเรารายหนึ่งมีชื่อ 30 ล้านชื่อ การโหลดรายการขนาดใหญ่นี้ลงในหน่วยความจำสำหรับคำขอแต่ละครั้งและการใช้การจับคู่ประเภทนี้เป็นวิธีที่น่าสมเพชโดยใช้หน่วยความจำและเวลาดำเนินการจำนวนมาก เรากำลังมองหาคำแนะนำในการค้นหาฐานข้อมูล 30 ล้านรายการขึ้นไปในอนาคตอันใกล้นี้ด้วยการจับคู่เปอร์เซ็นต์ของเสียงและการสะกดคำ ฟังก์ชั่นหลัก ผู้ใช้ปลายทางป้อนชื่อที่จะจับคู่และเปอร์เซ็นต์ขั้นต่ำ เราควรจะแสดงชื่อเหล่านั้นทั้งหมดในฐานข้อมูลที่ส่วนใดส่วนหนึ่งของชื่อตรงกับส่วนใดส่วนหนึ่งของชื่อที่กำหนดจนถึงเปอร์เซ็นต์ที่กำหนด ไม่จำเป็นต้องใช้ชื่อเต็มในการจับคู่ส่วนใดส่วนหนึ่งหากตรงกันไม่เกินเปอร์เซ็นต์ก็จะสำเร็จ ตัวอย่างเช่น. Given Name: Helen Hunt Name in DB: Holly Hunter ทั้งสองส่วนของชื่อทั้งสองไม่ตรงกันอย่างแน่นอน แต่ไม่เกินขอบเขตให้เราสมมติ 80% ดังนั้นหากผู้ใช้ป้อน 80% ดังนั้นชื่อใน DB จะต้องแสดงเป็นชื่อที่ตรงกัน

10 asp.net sql-server search oracle big-data

3

จะเก็บข้อมูล _structured_ จำนวนมากได้อย่างไร

แอปพลิเคชั่นจะรวบรวมตำแหน่งของผู้ใช้อย่างต่อเนื่อง (ประมาณทุกวินาที) และเก็บไว้ ข้อมูลนี้มีโครงสร้าง ในฐานข้อมูลเชิงสัมพันธ์มันจะถูกเก็บไว้เป็น: | user | timestamp | latitude | longitude | อย่างไรก็ตามมีข้อมูลมากเกินไป จะมี 60 × 60 × 24 = 86,400 บันทึกต่อผู้ใช้ทุกวัน แม้จะมีผู้ใช้ 1,000 ราย แต่ก็หมายถึงบันทึก 86,400,000 ต่อวัน และไม่เพียงบันทึก 86,400,000 ต่อวัน เนื่องจากบันทึกเหล่านี้จะถูกประมวลผลและเวอร์ชันที่ประมวลผลจะถูกเก็บไว้เช่นกัน ดังนั้นจงคูณจำนวนนั้นด้วยประมาณ 2 ฉันวางแผนจะใช้ข้อมูลอย่างไร โดยพื้นฐานแล้วฉันวางแผนที่จะสร้างข้อมูลตำแหน่งที่หยาบขึ้นเพื่อให้ง่ายต่อการใช้งาน นั่นคือ: เรียงลำดับข้อมูล wrt timestamps ที่ได้รับ ทำรายการนี้ตามลำดับพิจารณาว่าสถานที่มีการเปลี่ยนแปลงอย่างมีนัยสำคัญ (โดยการตรวจสอบว่าละติจูดและลองจิจูดเปลี่ยนไปมากน้อยเพียงใด) แสดงถึงการเปลี่ยนแปลงตำแหน่งที่ไม่สำคัญเป็นรายการเดียวในเอาต์พุต (ดังนั้นเอาต์พุตคือเวอร์ชันที่หยาบกว่าของข้อมูลตำแหน่ง) ทำซ้ำขั้นตอนนี้กับผลลัพธ์โดยกำหนดให้มีการเปลี่ยนแปลงละติจูดและลองจิจูดที่ยิ่งใหญ่ขึ้นเพื่อการเปลี่ยนแปลงที่สำคัญ ดังนั้นผลผลิตที่จะผลิตจากผลผลิตก่อนหน้านี้จะยิ่งทำให้หยาบยิ่งขึ้น ทำซ้ำขั้นตอนทั้งหมดเท่าที่จำเป็น …

9 database big-data

4

ทำไมข้อมูลขนาดใหญ่จำเป็นต้องใช้งานได้?

ฉันเริ่มทำงานในโครงการใหม่ที่เกี่ยวข้องกับ Big Data สำหรับการฝึกงานของฉัน ผู้จัดการของฉันแนะนำให้เริ่มการเรียนรู้การเขียนโปรแกรมฟังก์ชั่น (พวกเขาขอแนะนำสกาล่า) ฉันมีประสบการณ์ที่ต่ำต้อยโดยใช้ F # แต่ฉันไม่เห็นความสำคัญของการใช้กระบวนทัศน์การเขียนโปรแกรมนี้เนื่องจากมีราคาแพงในบางกรณี คณบดีพูดคุยเกี่ยวกับหัวข้อนี้ที่น่าสนใจและแบ่งปันความคิดของเขาว่าทำไม "Big Data" ที่นี่: http://www.youtube.com/watch?v=DFAdLCqDbLQ แต่มันไม่สะดวกเพราะ Big Data ไม่ได้แปล Hadoop เท่านั้น ในฐานะที่เป็น BigData แนวคิดที่คลุมเครือมาก ฉันลืมไปซักพักแล้ว ฉันพยายามหาตัวอย่างง่ายๆหนึ่งตัวอย่างเพื่อเปรียบเทียบระหว่างแง่มุมต่าง ๆ เมื่อเราจัดการกับข้อมูลเพื่อดูว่าวิธีการใช้งานมีราคาแพงหรือไม่ หากการเขียนโปรแกรมเชิงฟังก์ชั่นมีราคาแพงและใช้หน่วยความจำสำหรับข้อมูลขนาดเล็กทำไมเราต้องใช้กับ Big Data? นอกเหนือจากเครื่องมือแฟนซีฉันพยายามสร้างวิธีแก้ปัญหาสำหรับปัญหาเฉพาะและเป็นที่นิยมโดยใช้สามวิธีคือวิธีที่จำเป็นและวิธีการใช้งาน (การเรียกซ้ำโดยใช้คอลเลกชัน) ฉันเปรียบเทียบเวลาและความซับซ้อนเพื่อเปรียบเทียบระหว่างสามแนวทาง ฉันใช้ Scala เพื่อเขียนฟังก์ชันเหล่านี้เนื่องจากเป็นเครื่องมือที่ดีที่สุดในการเขียนอัลกอริทึมโดยใช้กระบวนทัศน์สามแบบ def main(args: Array[String]) { val start = System.currentTimeMillis() // Fibonacci_P val s = …

9 algorithms scala big-data

คำถามติดแท็ก big-data