Hadoop คืออะไรและใช้ทำอะไร [ปิด]


28

ฉันเพลิดเพลินกับการอ่าน ServerFault มาระยะหนึ่งแล้วและฉันได้พบกับหัวข้อเกี่ยวกับ Hadoop ฉันมีปัญหาเล็กน้อยในการค้นหาว่ามันทำอะไรจากมุมมองระดับโลก

ดังนั้นคำถามของฉันค่อนข้างง่าย: Hadoop คืออะไร มันทำอะไร ? ใช้ทำอะไร? ทำไมถึงเตะตูด

แก้ไข:หากใครเกิดขึ้นมีการสาธิต / คำอธิบายกรณีการใช้งานที่ใช้ Hadoop นั่นจะเป็นเรื่องที่ยอดเยี่ยม


Facebook ใช้งาน Hadoop อย่างหนัก (เช่นกันจริงๆ Hive ซึ่งเป็นเลเยอร์บน Hadoop) มีการเขียนที่ดีในหน้าวิศวกรรมของ Facebook facebook.com/note.php?note_id=89508453919
John Meagher

Hadoop เป็นเฟรมเวิร์กที่ทำให้การประมวลผลข้อมูลจำนวนมาก (ข้อมูลขนาดใหญ่ ) ง่ายโดยการกระจายกลุ่มข้อมูลระหว่างโหนด / เซิร์ฟเวอร์และทำให้กระบวนการทำงานแบบขนาน กระบวนการ / อัลกอริทึมนี้เรียกว่า MapReduce
Mr_Green

คำตอบ:


26

ตรงจากปากม้า :

Hadoop เป็นกรอบสำหรับการใช้งานแอพพลิเคชั่นบนคลัสเตอร์ขนาดใหญ่ที่สร้างขึ้นจากฮาร์ดแวร์สินค้าโภคภัณฑ์ เฟรมเวิร์ก Hadoop ให้แอปพลิเคชั่นทั้งความน่าเชื่อถือและการเคลื่อนไหวข้อมูล Hadoop ใช้กระบวนทัศน์การคำนวณที่ชื่อว่า Map / ย่อซึ่งแอปพลิเคชันจะถูกแบ่งออกเป็นชิ้นส่วนเล็ก ๆ ของงานซึ่งแต่ละอันอาจถูกดำเนินการหรือดำเนินการบนโหนดใด ๆ ในคลัสเตอร์ นอกจากนี้ยังมีระบบไฟล์แบบกระจาย (HDFS) ที่จัดเก็บข้อมูลบนโหนดการคำนวณซึ่งให้แบนด์วิดท์รวมที่สูงมากทั่วทั้งคลัสเตอร์ ทั้ง Map / Reduce และระบบไฟล์แบบกระจายได้รับการออกแบบเพื่อให้ความล้มเหลวของโหนดได้รับการจัดการโดยอัตโนมัติโดยเฟรมเวิร์ก

แผนที่ / ย่อเป็นกระบวนทัศน์การเขียนโปรแกรมที่ได้รับความนิยมจากGoogleซึ่งในงานแบ่งออกเป็นส่วนเล็ก ๆ และแจกจ่ายไปยังโหนดจำนวนมากสำหรับการประมวลผล (แผนที่) และผลลัพธ์จะถูกสรุปในคำตอบสุดท้าย (ลด ) Google และ Yahoo ใช้สิ่งนี้เพื่อเทคโนโลยีเครื่องมือค้นหาของพวกเขาเหนือสิ่งอื่นใด

Hadoop เป็นกรอบทั่วไปสำหรับการใช้รูปแบบการประมวลผลชนิดนี้ สำหรับสาเหตุที่ทำให้มันเตะตูดส่วนใหญ่เป็นเพราะมันมีคุณสมบัติที่เป็นระเบียบเช่นการยอมรับข้อบกพร่องและช่วยให้คุณสามารถนำฮาร์ดแวร์ชนิดใดก็ได้มารวมกันเพื่อทำการประมวลผล อีกทั้งยังปรับขนาดได้ดีมากหากปัญหาของคุณเหมาะกับกระบวนทัศน์

คุณสามารถอ่านทั้งหมดได้ที่เว็บไซต์เว็บไซต์

สำหรับตัวอย่างบางส่วนเปาโลให้ตัวอย่างเล็กน้อย แต่นี่คืออีกสองสามข้อที่คุณสามารถทำได้ซึ่งไม่ใช่เว็บศูนย์กลาง:

  • แสดงภาพยนตร์ 3 มิติ ขั้นตอน "แผนที่" กระจายเรขาคณิตสำหรับทุกเฟรมไปยังโหนดอื่นโหนดแสดงผลและเฟรมที่แสดงผลจะรวมกันอีกครั้งในขั้นตอน "ลด"
  • การคำนวณพลังงานในระบบในแบบจำลองโมเลกุล แต่ละเฟรมของวิถีระบบจะกระจายไปยังโหนดในขั้นตอน "แผนที่" โหนดคำนวณพลังงานสำหรับแต่ละเฟรม
    จากนั้นจะสรุปผลลัพธ์ในขั้นตอน "ลด"

โดยพื้นฐานแล้วตัวแบบนั้นทำงานได้ดีมากสำหรับปัญหาที่สามารถแยกย่อยลงในการคำนวณแบบแยกซึ่งคล้ายกันซึ่งเป็นอิสระอย่างสมบูรณ์และสามารถรวมกันอีกครั้งเพื่อให้ได้ผลลัพธ์สุดท้าย


ขอบคุณสำหรับคำตอบ. ดังนั้นโดยทั่วไปแล้วจะใช้แอพ (PHP? Java?) แล้วแบ่งมันออกและยื้องานระหว่างกลุ่มของโหนด? สำหรับ HDFS มันเป็นแบบ OCFS ยกเว้นมีหลายโหนด
Antoine Benkemoun

สนใจในสิ่งนี้เช่นกัน ฉันต้องการดูตัวอย่างคำศัพท์ที่เฉพาะเจาะจงมากกว่านี้
Karolis ต.

นั่นคือสิ่งที่ผมกำลังมองหายัง :-)
แอนทอน Benkemoun

10

Cloudera มีวิดีโอที่ยอดเยี่ยมที่อธิบายหลักการที่อยู่เบื้องหลังการย่อแผนที่และ Hadoop

http://www.cloudera.com/hadoop-training-basic

หนึ่งในแนวคิดหลักที่อยู่เบื้องหลัง MapReduce คือสำหรับชุดข้อมูลขนาดใหญ่คุณจะได้รับ io ที่ดิสก์ของคุณดังนั้นใน Hadoop HDFS ให้ความสามารถในการแยกสิ่งต่าง ๆ ระหว่างโหนดจำนวนมากที่เปิดใช้งานการประมวลผลแบบขนาน

การใช้งาน Hadoop ที่เป็นที่สนใจของผู้ดูแลระบบมักจะเกี่ยวกับการประมวลผลชุดไฟล์บันทึกขนาดใหญ่ - ฉันสามารถโพสต์ลิงก์เดียว แต่สิ่งเหล่านี้รวมถึง google ควรค้นหาสิ่งเหล่านี้:

  1. แบบสอบถามบันทึกเมล Rackspace
  2. การวิเคราะห์บันทึก Apache กับหมู - ดูบล็อก Cloudera
  3. Yahoo! ต่อสู้กับสแปม

หน้าตาดีผมจะมีรูปลักษณ์ :-)
แอนทอน Benkemoun

1

เริ่มแรกก็มีการพัฒนา hadoop สำหรับชุดข้อมูลจำนวนมากในสภาพแวดล้อม OLAP

ด้วยการแนะนำของ Hbase บน hadoop อ้อยสามารถนำมาใช้สำหรับการประมวลผล OLAP ด้วย Hadoop เป็นเฟรมเวิร์กที่มีส่วนประกอบย่อยทั้งหมดเช่นการลดแผนที่, hdfs, hbase, หมู

Ifound one บทความที่มีพื้นฐานของ hadoop ในWhy Hadoop ถูกนำมาใช้เป็นที่รู้จัก

ใน Hadoop พื้นที่เก็บข้อมูลในรูปแบบของไฟล์ไม่ใช่ในตารางคอลัมน์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.