ต้องทำการสำรองข้อมูลบน Amazon S3 หรือไม่?


16

ฉันกำลังโฮสต์อิมเมจผลิตภัณฑ์ 200 GB ที่ S3 (นี่คือโฮสต์ไฟล์หลักของฉัน)

ฉันจำเป็นต้องสำรองข้อมูลนั้นไว้ที่อื่นหรือไม่ S3 ปลอดภัยเหมือนเดิมหรือไม่

ฉันกำลังทดลองติดตั้งที่ฝากข้อมูล S3 กับอินสแตนซ์ EC2 จากนั้นทำการสำรองข้อมูล rsync ทุกคืน ปัญหาคือไฟล์มีประมาณ 3 ล้านไฟล์ดังนั้นจึงใช้เวลาสักครู่ในการสร้างความต้องการ rsync ที่แตกต่างกัน การสำรองข้อมูลจริงใช้เวลาประมาณ 3 วันจึงจะเสร็จสมบูรณ์

ความคิดใดจะทำสิ่งนี้ได้ดีกว่ากัน? (ถ้าจำเป็นด้วยซ้ำ)

คำตอบ:


5

ฉันได้ทำการวิจัยเกี่ยวกับเรื่องนี้ตลกพอ

การสำรองข้อมูลของคุณไปยัง S3 อาจล้มเหลวขึ้นอยู่กับภูมิภาคของคุณเนื่องจากความสอดคล้องในที่สุด คำเตือนพื้นฐานคือถ้าคุณทำสิ่งนี้มากพอในบางจุดคุณจะมีข้อผิดพลาดในการเปิดหรือค้นหาไฟล์ในฐานะที่เป็นความมหัศจรรย์ของระบบไฟล์ในพื้นหลังของการซิงค์ Amazon ระหว่างเซิร์ฟเวอร์ดังนั้นการสำรองข้อมูลของคุณอาจไม่น่าเชื่อถือ

สำหรับว่าคุณต้องการบันทึกไว้ด้วยวิธีอื่นหรือไม่นั้นขึ้นอยู่กับการจัดการความเสี่ยงของคุณ คุณเชื่อใจอเมซอนให้เก็บข้อมูลของคุณหรือไม่?

เป็นไปได้ที่พวกเขาอาจสูญเสียบางสิ่งหรือมีความล้มเหลวของระบบจัดเก็บข้อมูลขนาดใหญ่ พวกเขามีข้อสงสัยในสัญญาระบุว่าหากพวกเขาสูญเสียข้อมูลของคุณนั่นคือปัญหาของคุณ ไม่ใช่พวกเขา เมื่อคุณเห็นว่าข้อมูลของคุณถูกเก็บไว้ที่อื่นคุณจะไม่รู้ว่าพวกเขาจะทำอะไรกับมัน การบังคับใช้กฎหมายต้องการข้อมูลของคุณ? คุณอาจไม่รู้ด้วยซ้ำว่ามีคนอื่นเข้าถึง

คุณเชื่อใจไหม? หากข้อมูลนั้นไม่ได้มีความสำคัญต่อธุรกิจของคุณและคุณยินดีที่จะยอมรับความเสี่ยงนี้คุณไม่จำเป็นต้องดาวน์โหลดข้อมูลนั้นไปยังที่เก็บข้อมูลภายนอก หากคุณไม่เต็มใจที่จะเสี่ยงว่าข้อมูลของคุณจะปลอดภัยในเซิร์ฟเวอร์เก็บข้อมูลของ Amazon คุณควรทำการตกลงที่จะถ่ายโอนข้อมูลไปยังที่เก็บข้อมูลของคุณเป็นระยะ

ในคำอื่น ๆ ฉันไม่คิดว่าจะมีคำตอบตรงนี้ขึ้นอยู่กับการยอมรับความเสี่ยงและความต้องการทางธุรกิจของคุณ หลายคนไม่ไว้วางใจรายได้ของพวกเขาเพียงอย่างเดียวในการจัดเก็บด้วยระบบคลาวด์โดยส่วนตัวฉันรู้สึกระแวดระวังเล็กน้อยที่ ...

เมื่อต้องการทำสิ่งนี้ให้ดีขึ้นในการอภิปรายและการวิจัยแนวทางอื่นในการพิจารณาคือการสร้างปริมาณ EBS ที่มีขนาดใหญ่พอที่จะเก็บข้อมูลแนบกับอินสแตนซ์ EC2 บันทึกข้อมูลของคุณที่นั่นจากนั้นคุณสามารถยกเลิกการต่อเชื่อมปริมาณ . ฉันกำลังค้นคว้าอยู่ไม่ว่าจะเป็นการบันทึกไฟล์เสียงลงใน S3 หรือเนื้อหา ... แต่จากนั้นคุณสามารถลบอินสแตนซ์ EBS เมื่อทำเพื่อประหยัดค่าใช้จ่ายในการจัดเก็บ

แก้ไขฉันเห็นในการอ่านอีกครั้งว่าคุณกำลังบันทึกจาก S3 ไปยังอินสแตนซ์ EC2 ไม่ใช่ในทางกลับกัน (แม้ว่าฉันไม่รู้ว่าปัญหาความสอดคล้องในที่สุดอาจทำให้เกิดปัญหาที่นั่น) คุณกำลังพยายามบันทึกข้อมูลไปยังอินสแตนซ์ EC2 เป็นการสำรองข้อมูลหรือไม่ ฉันคิดว่าคุ้มค่าที่ไม่ใช่ชั้นเชิงที่ดี อาจมีราคาถูกกว่าในการสำรองข้อมูลกลับไปยังไดรฟ์ในระบบเมื่อคุณคำนึงถึงการจัดเก็บข้อมูลระยะยาวเช่นเดียวกับเวลา VM ด้วยค่าใช้จ่ายของไดรฟ์คุณสามารถคัดลอกข้อมูลลงในดิสก์ภายในเครื่องเป็นข้อมูลสำรอง

ฉันยังคงเก็บคำเตือนเกี่ยวกับความไว้วางใจของ Amazon และที่เก็บข้อมูลของพวกเขา หากคุณต้องการเก็บทุกอย่างไว้ใน Amazon S3 แต่มีความซ้ำซ้อนมากขึ้นให้ทำซ้ำ S3 S3 ของคุณไปทั่วภูมิภาคและหากเกิดเหตุการณ์ไฟดับที่ส่งผลกระทบต่อภูมิภาคใดภูมิภาคหนึ่งคุณไม่ควรพลาด คุณหวังว่า สิ่งที่เป็นไปได้แม้ว่า

มันขึ้นอยู่กับว่าคุณให้ความสำคัญกับข้อมูลของคุณเท่าใดคุณยินดีที่จะจ่ายและความเสี่ยงที่คุณต้องการทน


ขอบคุณสำหรับคำตอบของคุณ แต่ฉันคิดว่าคุณเข้าใจผิด ฉันใช้ S3 เป็นที่เก็บข้อมูลหลักของฉัน (ฉันโฮสต์ไฟล์โดยตรงจากที่นั่นเป็น cdn) ดังนั้นคำถามของฉันคือถ้าไฟล์มีความปลอดภัยหรือถ้าฉันต้องการสำรองข้อมูลของพวกเขาที่อื่น (อาจจะเป็นอีก S3 bucker หรืออินสแตนซ์ EC2)?
Chrille

เพิ่มในการแก้ไข
Bart Silverstrim

อืมใช่แล้วการสำรองข้อมูลในเครื่องจะปลอดภัยกว่า คุณรู้หรือไม่ว่า S3 และ EC2 แชร์ฮาร์ดแวร์เดียวกัน - หากล้มเหลวการสำรองทั้ง S3 และ EC2 ของฉันจะหายไปหรือไม่ เหตุผลสองข้อในการสำรองข้อมูลไปยัง EC2 คือ: (1) ไม่มีค่าธรรมเนียมการโอนระหว่าง EC2 และ S3 จะมีค่าใช้จ่ายค่อนข้างมากในการคัดลอก 200 GB ภายในเครื่องทุกสัปดาห์หรือมากกว่านั้น (2) ในกรณีภัยพิบัติที่ S3 ฉันสามารถแปลงอินสแตนซ์ EC2 ของฉันได้อย่างรวดเร็วเพื่อแชร์ภาพจากข้อมูลสำรองแทน แต่ผมได้รับการสำรองข้อมูลในท้องถิ่นมีข้อได้เปรียบมากเกินไป ...
Chrille

ฉันไม่รู้จริงๆว่าฮาร์ดแวร์ของ Amazon ถูกติดตั้งในพื้นหลังอย่างไร แม้ว่าฉันจะรู้ว่าไม่มีการรับประกันว่าพวกเขาจะไม่เปลี่ยนแปลงในอนาคต
Bart Silverstrim

4

ฉันใช้s3cmd s3cmd syncเพื่อทำสิ่งนี้ มันค่อนข้างคล้าย rsync ในการดำเนินการและสามารถผลักและดึงไดเรกทอรีทั้งหมดระหว่าง S3 และระบบลินุกซ์อื่นที่คุณเลือก

ฉันไม่เห็นเหตุผลใด ๆ ที่คุณไม่s3cmd syncสามารถใช้งานอินสแตนซ์ EC2 ที่กำลังทำงานอยู่หรือแม้แต่เวิร์คสเตชั่นสำหรับนักพัฒนาของคุณเอง (หรือเซิร์ฟเวอร์จัดเก็บข้อมูล)

คุณอาจต้องการตั้งค่าอินสแตนซ์ VPC จากนั้นคุณสามารถกำหนดโหนดเล็ก ๆ ภายใน VPC ของคุณให้เป็นเซิร์ฟเวอร์สำรองข้อมูลและมอบทั้ง IP ภายในเครือข่ายของ Amazon และเครือข่ายย่อยในพื้นที่ของคุณ


ความกังวลของฉันซึ่งเขาต้องตัดสินใจกับการเงินของเขาเองคือค่าใช้จ่ายในการบำรุงรักษาอินสแตนซ์ EC2 และพื้นที่ EBS เพื่อจัดเก็บข้อมูลประเภทนั้นเมื่อเปรียบเทียบกับการบันทึกลงในฮาร์ดไดรฟ์ภายนอกภายในเครื่องสักสองร้อยดอลลาร์แทน หากเงินอนุญาตให้โอนเงินฉันจะดาวน์โหลดไปยังไดรฟ์ในเครื่องและทำการซิงค์เป็นระยะ (ซึ่งเป็นส่วนหนึ่งของโซลูชันของคุณ)
Bart Silverstrim

EC2 ของ Amazon นั้นไม่ถูกตามคำใด ๆ โดยเฉพาะอย่างยิ่งถ้าคุณต้องการทำระดับองค์กรหรือสิ่งอื่นที่ไม่ใช่เรื่องง่าย ถ้าคุณไม่ชอบมันก็อาจจะไม่ใช่สำหรับคุณ
Tom O'Connor

@BartSilverstrim: ไม่มีการโอนภายใน AWS หรือไม่ ถ้าเป็นเช่นนั้นฉันอาจจะถูกคัดลอกไปยัง EC2 มากกว่าในพื้นที่ ฉันมีอินสแตนซ์ EC2 ทำงาน 24/7 แล้วดังนั้นมันเป็นเพียงพื้นที่ EBS ที่จะมีค่าใช้จ่าย
Chrille

2

คำแนะนำของฉันคือข้อมูลของคุณเป็นความรับผิดชอบของคุณไม่ใช่ของ Amazon หากการสูญเสียข้อมูลไม่ใช่เรื่องใหญ่คุณควรสำรองข้อมูลด้วยตัวเอง หากเป็นเช่นนั้นให้นำข้อมูลสำรองของคุณไปที่ (อย่างน้อยที่สุด) JBOD ราคาถูก (และตรวจสอบเป็นประจำ) ตามที่ฉันทำ

คุณจะพบว่าความรับผิดชอบของ Amazon ที่รับผิดชอบต่อข้อมูลของคุณมากน้อยเพียงใด


0

หากคุณสามารถจ่ายได้ (อย่างที่ฉันทำ) จะมีข้อมูลทั้งหมดของฉันเก็บไว้ในเซิร์ฟเวอร์ของฉัน แต่ดึงมาจาก Amazon s3 ดังนั้นถ้า Amazon ล้มลงด้วยเหตุผลใดก็ตาม (touchwood) ฉันสามารถดึงข้อมูลทั้งหมดของฉันได้ทันทีจากเซิร์ฟเวอร์ของฉัน จากเซิร์ฟเวอร์ของฉันฉันทำการสำรองข้อมูลรายเดือนไปยังไดรฟ์ในเครื่องของฉัน เนื่องจากเว็บไซต์ของฉันมีขนาดเกิน 2TB ในเว็บไซต์


ฉันคิดว่ามันไม่ชัดเจนว่าคำแนะนำของคุณคืออะไร เซิร์ฟเวอร์ของคุณคืออะไรและตั้งอยู่ที่ไหน
kasperd

0

แม้ว่านี่จะเป็นเธรดเก่า แต่เป็นสิ่งแรกที่เกิดขึ้นเมื่อสำรองข้อมูล Googling S3 ดังนั้นฉันคิดว่าฉันจะเพิ่มมัน ...

ด้วยการทำวิจัยเกี่ยวกับตัวฉันเองฉันค้นพบ Rclone https://rclone.org/ - เป็นซอฟต์แวร์ rsync-ish ที่ออกแบบมาเพื่อคัดลอกระหว่างบริการจัดเก็บไฟล์บนคลาวด์และสนับสนุนพวกเขาส่วนใหญ่ ไม่มีการติดต่อและฉันยังไม่ได้ใช้ดังนั้นฉันจึงไม่สามารถบอกได้ว่ามันดีหรือไม่ดี แต่ฉันคิดว่ามันอาจช่วยใครซักคน

ดูเหมือนว่าฉันมีโอกาสสำหรับบริการโฮสต์ที่ทำการสำรองข้อมูล 'นอกสถานที่' ของไฟล์โฮสต์บนคลาวด์ (S3, Google Storage, Rackspace Cloud Files ฯลฯ ) ....

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.