Amazon RedShift แทนที่ Hadoop สำหรับข้อมูล ~ 1XTB หรือไม่


12

มี hype มากมายรอบ ๆ Hadoop และระบบนิเวศ อย่างไรก็ตามในทางปฏิบัติที่ชุดข้อมูลจำนวนมากอยู่ในช่วงเทราไบต์ไม่เหมาะสมที่จะใช้Amazon RedShiftสำหรับการสืบค้นชุดข้อมูลขนาดใหญ่แทนที่จะใช้เวลาและความพยายามในการสร้างคลัสเตอร์ Hadoop หรือไม่

นอกจากนี้ Amazon Redshift เปรียบเทียบกับ Hadoop อย่างไรเกี่ยวกับความซับซ้อนในการตั้งค่าต้นทุนและประสิทธิภาพ


คุณหมายถึง Hadoop หรือคุณหมายถึงคู่ที่เฉพาะเจาะจงกับ Redshift เช่น Impala?
Sean Owen

@ SeanOwen ในคำถามของฉันฉันหมายถึง Apache Hadoop แม้ว่ามันจะน่าสนใจที่จะทำการเปรียบเทียบ Impala เช่นกัน
Trienism

คำตอบ:


12

tl; dr:พวกเขามีความแตกต่างอย่างชัดเจนในหลาย ๆ ด้านและฉันไม่คิดว่า Redshift จะมาแทนที่ Hadoop

ฟังก์ชั่น
คุณไม่สามารถเรียกใช้สิ่งอื่นนอกเหนือจาก SQL ใน Redshift บางทีที่สำคัญที่สุดคือคุณไม่สามารถเรียกใช้ฟังก์ชั่นที่กำหนดเองใด ๆ บน Redshift ใน Hadoop คุณสามารถทำได้โดยใช้หลายภาษา (Java, Python, Ruby .. คุณตั้งชื่อมัน) ตัวอย่างเช่น NLP ใน Hadoop นั้นง่ายในขณะที่ Redshift ไม่มากก็น้อย คือมีหลายสิ่งที่คุณสามารถทำได้ใน Hadoop แต่ไม่ใช่ใน Redshift นี่อาจเป็นความแตกต่างที่สำคัญที่สุด

- ประสิทธิภาพการทำงานโปรไฟล์
แบบสอบถามใน Redshift เป็นกรณีส่วนใหญ่มีประสิทธิภาพมากขึ้นกว่าใน Hadoop อย่างไรก็ตามประสิทธิภาพนี้มาจากการทำดัชนีที่ทำเมื่อข้อมูลถูกโหลดลงใน Redshift (ฉันใช้คำindexingที่หลวมมากที่นี่) ดังนั้นจึงเป็นการดีถ้าคุณโหลดข้อมูลของคุณหนึ่งครั้งและดำเนินการหลายแบบสอบถาม แต่ถ้าคุณต้องการดำเนินการแบบสอบถามเดียวเท่านั้นคุณอาจสูญเสียประสิทธิภาพโดยรวม

-Cost Profile
ค่าใช้จ่ายโซลูชันใดที่ชนะในราคาขึ้นอยู่กับสถานการณ์ (เช่นประสิทธิภาพ) แต่คุณอาจต้องใช้แบบสอบถามจำนวนมากเพื่อที่จะทำให้ถูกกว่า Hadoop (โดยเฉพาะแผนที่ยืดหยุ่นของ Amazon ลดลง) ตัวอย่างเช่นถ้าคุณทำ OLAP เป็นไปได้มากที่ Redshift จะถูกกว่า หากคุณทำ ETL แบบรายวัน Hadoop มีแนวโน้มที่จะถูกกว่า

ต้องบอกว่าเราได้แทนที่ส่วนหนึ่งของ ETL ของเราที่ทำใน Hive เป็น Redshift และมันเป็นประสบการณ์ที่ยอดเยี่ยมมาก ส่วนใหญ่เพื่อความสะดวกในการพัฒนา Query Engine ของ Redshift นั้นใช้ PostgreSQL และมีความเป็นผู้ใหญ่มากเมื่อเทียบกับ Hive's คุณสมบัติของกรดทำให้ง่ายต่อการให้เหตุผลและเวลาตอบสนองที่รวดเร็วช่วยให้สามารถทำการทดสอบได้มากขึ้น มันเป็นเครื่องมือที่ยอดเยี่ยมที่มี แต่มันจะไม่แทนที่ Hadoop

แก้ไข : สำหรับความซับซ้อนในการตั้งค่าฉันจะบอกว่า Hadoop ง่ายขึ้นถ้าคุณใช้ EMR ของ AWS เครื่องมือของพวกเขาเป็นผู้ใหญ่มากจนเป็นเรื่องง่ายที่จะทำงาน Hadoop ของคุณให้ขัน เครื่องมือและกลไกการทำงานของ Redshift นั้นยังไม่เต็มที่ ตัวอย่างเช่น Redshift ไม่สามารถจัดการกับการโหลดแบบหยดดังนั้นคุณต้องหาสิ่งที่เปลี่ยนให้เป็นการโหลดแบบแบตช์ซึ่งสามารถเพิ่มความซับซ้อนบางอย่างให้กับ ETL ของคุณ


2
easier to develop because of Redshift's maturityขัดแย้งกับRedshift isn't that mature yetคำตัดสินของคุณคืออะไร?
M. Mimpen

@ M.Mimpen: แก้ไขคำตอบให้เจาะจงยิ่งขึ้น
Enno Shioji

5

ขีด จำกัด ขนาดปัจจุบันสำหรับ Amazon Redshift คือ 128 โหนดหรือ 2 PB ของข้อมูลที่บีบอัด อาจไม่ได้รับการบีบอัดประมาณ 6PB แม้ว่าระยะทางจะแตกต่างกันไปสำหรับการบีบอัด คุณสามารถแจ้งให้เราทราบหากคุณต้องการเพิ่มเติม anurag @ aws (ฉันเรียกใช้ Amazon Redshift และ Amazon EMR)


3

โดยส่วนตัวแล้วฉันไม่คิดว่ามันเป็นเรื่องยากที่จะตั้งค่ากลุ่ม HADoop แต่ฉันรู้ว่าบางครั้งมันก็เจ็บปวดเมื่อคุณเริ่มต้น

ข้อ จำกัด ขนาด HDFS นั้นเกิน TB (หรือคุณหมายถึง exabyte?) หากฉันไม่เข้าใจผิดมันจะปรับเป็น yottabytes หรือวัดอื่น ๆ ที่ฉันไม่รู้จักด้วยซ้ำ ไม่ว่ามันจะใหญ่ขนาดไหน

เครื่องมืออย่าง Redshift มีที่ของพวกเขา แต่ฉันกังวลเกี่ยวกับการแก้ปัญหาเฉพาะของผู้ขายเสมอ ข้อกังวลหลักของฉันคือ "ฉันจะทำอย่างไรเมื่อฉันไม่พอใจกับบริการของพวกเขา" - ฉันสามารถไปที่ google และเปลี่ยนงานการวิเคราะห์ของฉันเป็นกระบวนทัศน์ของพวกเขาหรือฉันสามารถไปที่ hadoop และเปลี่ยนงานเดียวกันนั้นเป็นระบบนั้น ไม่ว่าจะด้วยวิธีใดฉันจะต้องเรียนรู้สิ่งใหม่และทำงานแปลหลายอย่าง

ดังที่กล่าวมามันเป็นเรื่องดีที่สามารถอัปโหลดชุดข้อมูลและทำงานได้อย่างรวดเร็วโดยเฉพาะอย่างยิ่งถ้าสิ่งที่ฉันทำมีช่วงเวลาสั้น ๆ อเมซอนทำงานได้ดีในการตอบปัญหาความปลอดภัยของข้อมูล

หากคุณต้องการหลีกเลี่ยงการแฮพุดก็จะมีทางเลือกอื่นอยู่เสมอ แต่มันก็ไม่ใช่เรื่องยากที่จะทำงานด้วยเมื่อคุณไปกับมัน


3
ฉันถือว่าการอ้างอิงถึง TBs หมายถึง "สำหรับข้อมูลที่ส่วนเล็ก ๆ ของสิ่งที่คุณอาจใช้ Hadoop" หากคุณมีหลายเพตาไบต์หรือมากกว่า Redshift ไม่เหมาะ (ฉันเชื่อว่ามันถูก จำกัด ไว้ที่โหนร้อยหนึ่งร้อย TB)
ทิมกู๊ดแมน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.