ฐานข้อมูลความจุ 100 TeraBytes - ทรัพยากรและการคาดการณ์เวลา


10

ฉันกำลังทำงานกับการคำนวณ 'ด้านหลังของซองจดหมาย' สำหรับการตั้งค่าฐานข้อมูลการรายงาน 100TB ฉันกำลังค้นหาความคิดจากผู้เชี่ยวชาญที่นี่ สภาพแวดล้อมที่เสนอ:

  1. ความจุ: 100TB
  2. ตาราง ~ 200 ขนาดตั้งแต่ 1GB ถึง 5TB ขนาดเฉลี่ยอาจอยู่ระหว่าง 100GB-200GB
  3. ETL - งานอาจต้องเข้าร่วมระหว่างตารางที่มี 10 ล้านแถวโดยมีคีย์การเข้าร่วมตั้งแต่ 10 ถึง 500 ไบต์ การเข้าร่วมดังกล่าวควรเสร็จสิ้นภายใน 2-5 นาที
  4. Live Selects - เริ่มแรกสนใจเฉพาะความเร็วที่เลือก ควรรองรับ 500 เลือก / วินาที การอัปเดต / วินาทีจะมีจำนวนน้อยกว่ามากและสามารถเพิกเฉยต่อการฝึกหัดนี้ได้
  5. ต้องการความพร้อมในการ 24x7 2 เซิร์ฟเวอร์ฐานข้อมูลอิสระควรพร้อมให้บริการสำหรับการโทรที่เลือก (ด้วยการจำลองข้อมูล)

คำถาม:

  1. ในปัจจุบันฉันกำลังดู Oracle ประสบการณ์ของคุณเป็นอย่างไรกับการค้าขาย (หรือ) โซลูชัน opensource สำหรับฐานข้อมูลขนาดใหญ่
  2. ฮาร์ดแวร์แบบไหนที่คุณเห็นว่าทำงานได้ดีที่สุด? ฉันกำลังวางแผนสำหรับ Linux บน Dell
  3. ต้องเป็นที่จัดเก็บข้อมูลเครือข่ายเช่น NetApp หรือไม่ คุณคาดการณ์ปัญหาอะไรบ้างเกี่ยวกับการใช้ดิสก์เชิงพาณิชย์
  4. เมื่อฮาร์ดแวร์และระบบปฏิบัติการพร้อมแล้วคุณจะใช้เวลาเท่าไรในการเซ็ตอัพกำหนดค่า DB จัดเก็บข้อมูล ฯลฯ
  5. องค์ประกอบของทีมใดทำงานได้ดีที่สุดในสภาพแวดล้อมที่คุณสังเกตเห็น? ฉันหมายถึงผู้ดูแลระบบต่าง ๆ (ผู้ดูแลระบบ OS, ผู้ดูแลระบบ Oracle DB?) จำเป็นต้องจัดการและดำเนินการตั้งค่าดังกล่าว จำนวนของพวกเขาอาจจำเป็นต้องใช้เพื่อให้ได้เวลา 24x7
  6. การประมาณ / ช่วงใด ๆ เกี่ยวกับสิทธิ์ใช้งานฐานข้อมูลต้นทุนการจัดเก็บข้อมูลเครือข่าย

ฉันรู้ว่าฉันไม่มีรายละเอียดของสภาพแวดล้อมทั้งหมด ฉันไม่ได้กำลังมองหารายละเอียดที่แน่นอนการประมาณก็เพียงพอแล้ว แม้ว่าผู้จัดการบางคนอาจตอบคำถามได้ดีที่สุด แต่ฉันสนใจมุมมองของผู้ดูแลระบบ ฉันขอขอบคุณที่คุณป้อนข้อมูล


1
ฉันคิดว่าคำถามนี้กว้างเกินไปที่จะตอบ ฉันจะให้คนอื่นดูว่าพวกเขาเห็นด้วยหรือไม่ก่อนที่ฉันจะก้าวหน้า
Philᵀᴹ

1
@Phil ฉันเห็นด้วยฉันไม่แน่ใจว่าควรแยกคำถามนี้ออกเป็นหลายคำถามหรือไม่ แต่คำอธิบายสภาพแวดล้อมนั้นเหมือนกันสำหรับคำถามทั้งหมดดังนั้นจึงต้องทำคำถามเดียว ฉันคิดว่านี่อาจเป็นคำถามแรกของฉันเกี่ยวกับ SO (แม้ว่าจะเป็นผู้ใช้ทั่วไปของ SO) ดังนั้นให้พิจารณาว่าฉันเป็นมือใหม่และหากมีวิธีที่ดีกว่าในการวางคำถามนี้โปรดแนะนำ
Kash

10
ฟังดูเหมือนโครงการหลายล้านเหรียญ คุณจะยึดโครงการดังกล่าวตามคำแนะนำในฟอรัมหรือไม่
Remus Rusanu

1
@RemusRusanu นี่ไม่ใช่แหล่งข้อมูลเพียงอย่างเดียว เมื่อสิ่งนี้เข้าสู่ขั้นตอนการประเมินอย่างเป็นทางการจะมีกิจกรรมอื่นอีกมากมาย ฉันมีความเห็นสูงของคำแนะนำที่ผู้ใช้ให้ ในขณะที่เขียนคำถามฉันแน่ใจว่าฉันจะพบรายละเอียดที่มีประโยชน์มากซึ่งฉันไม่เคยคิดเลย
Kash

1
@RemusRusanu - มันคือ ราคาล่าสุดที่ฉันเห็นสำหรับ Netezza คือ $ 20k / TB สำหรับระบบ TwinFin ไม่แน่ใจว่ากล่อง Exadata ของความสามารถนั้นจะเป็นเช่นไร นอกจากนี้ SLA นั้นค่อนข้างก้าวร้าวและระบบดูเหมือนว่าจะมีฐานผู้ใช้ขนาดใหญ่ อาจต้องใช้เซิร์ฟเวอร์ data mart จำนวนมากเพื่อจัดการกับการโหลดเคียวรี
ความกังวลของพนักงาน TunbridgeWells

คำตอบ:


21

ความประทับใจครั้งแรก

  1. ประสิทธิภาพ 100TB ขึ้นอยู่กับความต้องการประสิทธิภาพของคุณ หากคุณต้องการ Oracle คุณควรตรวจสอบระบบ Exadata ของพวกเขา ลองดูข้อเสนอจาก Netezza หรือ Teradata ด้วยการเลือกปริมาณที่คุณอาจต้องการที่จะดูส่วนหน้าตาม OLAP หรืออย่างน้อยการใช้มุมมองที่เป็นรูปธรรมและการเขียนแบบสอบถาม คุณจะไม่ได้รับ 500 สแกนตาราง / วินาทีจากอะไร

    สำหรับสิ่งที่มีความต้องการเวลาแฝงที่เข้มงวดน้อยกว่าคุณอาจต้องพิจารณาข้อมูลจำนวนมากขึ้นเพื่อให้ความสามารถในการรายงานแก่ชุมชนผู้ใช้ของคุณ ในกรณีนี้ SQL Server และ SSAS อาจเป็นตัวเลือกสำหรับ data marts เนื่องจากการให้สิทธิ์ใช้งานเซิร์ฟเวอร์จำนวนมากจะถูกกว่าการพยายามทำแบบเดียวกันกับ Oracle

  2. ดู (1) ฮาร์ดแวร์ทั่วไปบนสถาปัตยกรรมดิสก์ที่ใช้ร่วมกันน่าจะช้าในชุดข้อมูลขนาดนี้

  3. NO! หากใครแนะนำ NFS ให้พวกเขาเตะอย่างดี เชื่อมต่อกับที่เก็บข้อมูลโดยตรงหรือตัวควบคุม SAN หลายตัวพร้อมตัวควบคุมระดับกลางจำนวนมาก คิดในแง่ของตัวควบคุมซีรีส์ MD3000 สักโหลหรือบางอย่างที่คล้ายกัน - ถ้าคุณไม่ไปเพื่อสร้างแพลตฟอร์ม 'ข้อมูลขนาดใหญ่'

  4. รับผู้เชี่ยวชาญด้านการจัดเก็บที่มีประสบการณ์ในแพลตฟอร์มคลังข้อมูลหลากหลาย PB คุณอาจพร้อมสำหรับงานพัฒนา ETL ที่สำคัญและงานทดสอบมากมายถ้าคุณต้องเจอ SLA ที่แข็งทื่อ

  5. 24x7 ในคลังข้อมูลมีความทะเยอทะยานในช่วงเวลาที่ดีที่สุด นี่เป็นแพลตฟอร์มการรายงานการดำเนินงานหรือไม่ บางทีคุณอาจต้องการรายละเอียดเพิ่มเติมเล็กน้อย

  6. กล้ามเนื้อหูรูดมีราคาแพงและขึ้นอยู่กับความต้องการด้านประสิทธิภาพของคุณ ล่าสุดที่ฉันเห็น (สองสามปีที่ผ่านมา) Netezza ใช้ราคา $ 20,000 / TB สำหรับระบบ TwinFin ทำให้แพลตฟอร์มของคุณ $ 2m สำหรับ 100TB บวกกับค่าใช้จ่ายของเซิร์ฟเวอร์สำรองและฮาร์ดแวร์สำรองของคุณ ฉันเชื่อว่า Exadata ราคาถูกกว่านี้เล็กน้อย แต่ฉันไม่มีการกำหนดราคาใด ๆ

    ดูที่ Netezza, Exadata และแพลตฟอร์ม Teradata สำหรับการเปรียบเทียบและการคิดต้นทุนสำหรับ Ab Initio เป็นเครื่องมือ ETL

นี่เป็นข้อกำหนดที่ค่อนข้างก้าวร้าว - 24x7 บนคลังข้อมูลไม่ได้ทำตามปกติและปริมาณข้อมูลมีขนาดใหญ่พอที่จะทำให้คุณอยู่ในขอบเขตของแพลตฟอร์ม 'ข้อมูลขนาดใหญ่' หากคุณมีข้อกำหนดการรายงานการปฏิบัติงานคุณควรพิจารณาอย่างรอบคอบว่ามันคืออะไร เก็บแยกจากการวิเคราะห์ของคุณเว้นแต่คุณจะมีเหตุผลเฉพาะ (เช่นฟีดข้อมูลตลาดที่มีความหน่วงต่ำ) ไม่ให้ทำเช่นนั้น การผสมข้อกำหนดด้านการปฏิบัติงานและการวิเคราะห์บนแพลตฟอร์มเดียวกันนั้นแย่มาก

ฉันคิดว่าคุณจำเป็นต้องมีผู้เชี่ยวชาญเพื่อประเมินความต้องการของคุณ หากไม่มีการตรวจสอบอย่างใกล้ชิดในสิ่งที่คุณพยายามทำให้สำเร็จทั้งหมดที่ฉันสามารถให้ได้ก็คือคำแนะนำเชิงประจักษ์เกี่ยวกับสิ่งที่ควรทำหรือไม่ทำ


8

ตัวเลือกอื่น ๆ ที่ควรพิจารณาเมื่อจัดการกับปริมาณข้อมูลขนาดใหญ่เช่นนี้รวมถึง:

  1. ทุกอย่างที่ @ConcernedOfTunbridgeWells โพสต์
  2. Greenplum จาก EMC
  3. คลังข้อมูลแบบขนานจาก Microsoft

อย่าวางแผนที่จะข้ามค่าใช้จ่ายฮาร์ดแวร์ทุกที่ ระบบที่มีรายละเอียดเหล่านี้จะทำให้คุณเสียเงินมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.