วิธีเลือกบริการคลาวด์สำหรับการสำรองข้อมูล


12

ฉันกำลังคิดที่จะใช้บริการคลาวด์เพื่อสำรองข้อมูลหนึ่งในเว็บไซต์ของลูกค้าของฉัน

ข้อกังวลหลักของฉัน (ลูกค้า) คือ (เพื่อลดความสำคัญ)

  1. การป้องกัน IP (ความลับทางการค้ารหัสแหล่งที่มา) รายละเอียดบัญชีผู้ใช้อื่น ๆ
  2. การรับประกันความต่อเนื่องที่นำเสนอโดยผู้ให้บริการ (เพื่อลดเวลาเซิร์ฟเวอร์ลง)
  3. ราคา
  4. ความเร็วในการอัพโหลด / ดาวน์โหลด

เป็นการดีที่ฉันต้องการบริการที่ไม่มีการผูกกันมานาน (เช่นฉันต้องการบริการ "จ่ายตามการใช้งาน")

ฉันต้องการหลีกเลี่ยงผู้ขายล็อคอินซึ่งเป็นไปไม่ได้ที่จะย้ายไปใช้บริการอื่น

ฉันต้องการแนวทางทั่วไปบางประการเกี่ยวกับ:

  1. จะไปเกี่ยวกับการเลือกผู้ให้บริการ
  2. ใครคือผู้เล่นหลักในสนาม
  3. ข้อเสนอแนะของซอฟต์แวร์ที่จะใช้สำหรับ: สำรอง / กู้คืน / และอัปโหลด / ดาวน์โหลดไฟล์ที่บันทึก / กู้คืน

ซอฟต์แวร์เซิร์ฟเวอร์อาจเป็น Ubuntu หรือ Debian (ฉันอาจโพสต์คำถามว่าระบบปฏิบัติการใดที่จะใช้เป็นเซิร์ฟเวอร์ - ฉันคุ้นเคยกับ Ubuntu แล้ว)


เว็บไซต์มีขนาดใหญ่แค่ไหน มันรวมฐานข้อมูลขนาดใหญ่หรือไม่? ตัวเลขลูกชิ้นใด ๆ ที่ลูกค้ายินดีที่จะใช้จ่าย? ($ 100 / เดือน, $ 10,000 / เดือน?)
RJFalconer

3
ตราบใดที่มีความเกี่ยวข้องกับ "ความลับทางการค้าและซอร์สโค้ด" ข้อมูลที่สำคัญจึงไม่ได้อยู่ใน "คลาวด์" โดยไม่คำนึงถึงบริการที่น่าเชื่อถือ

คำตอบ:


4

โซลูชันใด ๆ ที่ไม่รวมการเข้ารหัสในฝั่งไคลเอ็นต์ด้วยกุญแจที่จัดขึ้นโดยเจ้าของจะไม่เป็นไปตามข้อกำหนดที่ระบุไว้ก่อน (การป้องกัน IP / ความปลอดภัย) - การแฮ็กของฝั่งเซิร์ฟเวอร์จะเปิดเผยข้อมูลที่ไม่ได้เข้ารหัส นี่จะเป็นการออกกฎการซิงค์ระบบคลาวด์เช่น Dropbox ที่เป็นเจ้าของคีย์

เพื่อหลีกเลี่ยงการโฮสต์คีย์การเข้ารหัสที่สำคัญทั้งหมดบนเซิร์ฟเวอร์ของเว็บไซต์ซึ่งอาจถูกแฮ็กในบางจุดต่อไปนี้เป็นสิ่งที่ฉันจะทำ:

  1. เซิร์ฟเวอร์สำรองภายในองค์กรบนไซต์ของลูกค้า - มีคีย์เข้ารหัสและคีย์ SSH สำหรับเซิร์ฟเวอร์อื่น
  2. เซิร์ฟเวอร์ที่โฮสต์เว็บไซต์ - อาจเป็นโฮสต์เว็บ
  3. เซิร์ฟเวอร์หรือบริการสำรองข้อมูลบนคลาวด์

ขั้นตอนที่ 1: เซิร์ฟเวอร์ (1) ดึงการสำรองข้อมูลจาก (2) ดังนั้นแฮ็คเว็บไซต์เซิร์ฟเวอร์ส่วนใหญ่จะไม่ทำการสำรองข้อมูล การเข้ารหัสเกิดขึ้น ณ จุดนี้

  • ฉันจะใช้rsnapshotบน SSH โดยใช้การเข้าสู่ระบบแบบใช้คีย์เนื่องจากมีข้อกำหนดขั้นต่ำในเว็บโฮสต์และเซิร์ฟเวอร์สำรองภายในองค์กร - เว้นแต่คุณจะมีฐานข้อมูลขนาดใหญ่เพื่อสำรองข้อมูลมันมีประสิทธิภาพมากในแบนด์วิดท์และจัดเก็บเว็บไซต์หลายเวอร์ชัน และยังจัดการการล้างข้อมูลสำรองเก่า
  • การเข้ารหัสสามารถทำได้โดยเครื่องมือไฟล์ไปยังไฟล์ใด ๆ เช่น GPG คัดลอกแผนผัง rsnapshot ไปยังต้นไม้อื่นหรือคุณสามารถใช้ความซ้ำซ้อนสำหรับขั้นตอนที่ 2 ประหยัดพื้นที่ดิสก์
  • "ดึง" จากเซิร์ฟเวอร์สำรองมีความสำคัญ - หากเซิร์ฟเวอร์หลัก (2) มีรหัสผ่าน / คีย์สำหรับเซิร์ฟเวอร์สำรองข้อมูลแฮกเกอร์สามารถและบางครั้งจะลบข้อมูลสำรองหลังจากแฮ็คเซิร์ฟเวอร์หลัก (ดูด้านล่าง) แฮ็กขั้นสูงจริงๆสามารถติดตั้งไบนารี SSH โทรจันซึ่งอาจทำให้เซิร์ฟเวอร์สำรองเสียหาย แต่นั่นก็มีโอกาสน้อยสำหรับ บริษัท ส่วนใหญ่

ขั้นตอนที่ 2: เซิร์ฟเวอร์ (1) พุชข้อมูลสำรองที่เข้ารหัสไปที่ (3) เพื่อให้มีข้อมูลสำรองนอกสถานที่ หากการสำรองข้อมูลถูกเข้ารหัสในขั้นตอนที่ 1 คุณสามารถใช้ rsync mirror ของแผนผัง rsnapshot ในระบบไปยังระบบระยะไกลได้

  • ความซ้ำซ้อนจะเป็นตัวเลือกที่ดีในการเข้ารหัสและสำรองข้อมูลแผนภูมิ rsnapshot ที่ไม่ได้เข้ารหัสโดยตรงไปยังเซิร์ฟเวอร์ระยะไกล คุณลักษณะของ Duplicity นั้นแตกต่างจาก rsnapshot เล็กน้อยโดยใช้คลังข้อมูล tar ที่เข้ารหัสด้วย GPG แต่ให้การเข้ารหัสสำรองในโฮสต์ระยะไกลและต้องการ SSH ในโฮสต์นั้นเท่านั้น (หรือสามารถใช้ Amazon S3) ความซ้ำซ้อนไม่สนับสนุนฮาร์ดลิงก์ดังนั้นหากจำเป็น (เช่นสำหรับการสำรองข้อมูลเซิร์ฟเวอร์แบบเต็ม) จะเป็นการดีที่สุดถ้าสคริปต์แปลงแผนผัง rsnapshot (ซึ่งรองรับฮาร์ดลิงก์) เป็นไฟล์ tar (อาจเป็นไฟล์ที่มี> 1 ฮาร์ดลิงก์ซึ่งจะมีขนาดค่อนข้างเล็ก) ดังนั้นความซ้ำซ้อนสามารถสำรองไฟล์ tar ได้
  • เนื่องจากเซิร์ฟเวอร์ระยะไกลเป็นเพียงโฮสต์ SSH อาจมี rsync จึงอาจเป็นโฮสต์เว็บ (แต่จากผู้ให้บริการโฮสต์อื่นและในส่วนอื่นของประเทศ) หรือบริการคลาวด์ที่ให้บริการ rsync และ / หรือ SSH - ดูคำตอบนี้ในการสำรองข้อมูล rsync ไปยัง cloudสำหรับคำแนะนำของ bqbackup และ rsync.net แต่ฉันไม่เห็นด้วยกับการตั้งค่าการสำรองข้อมูลที่กล่าวถึง
  • คุณสามารถใช้ Amazon S3 เป็นเซิร์ฟเวอร์ระยะไกลที่มีความซ้ำซ้อนซึ่งจะทำให้คุณมีความพร้อมใช้งานที่ดีจริง ๆ แต่อาจมีค่าใช้จ่ายเพิ่มเติมสำหรับการสำรองข้อมูลขนาดใหญ่
  • ตัวเลือกอื่น ๆ สำหรับการสำรองข้อมูลที่เข้ารหัสจากระยะไกลคือBoxbackup (ไม่ค่อยเป็นผู้ใหญ่คุณลักษณะบางอย่างที่ดี) และTarsnap (บริการคลาวด์เชิงพาณิชย์ที่ยึดตาม Amazon S3 พร้อมอินเตอร์เฟสบรรทัดคำสั่งที่เรียบง่ายการขจัดข้อมูลซ้ำซ้อนที่ดี

ความปลอดภัยของโฮสต์ต่าง ๆ ทั้งหมดเป็นสิ่งสำคัญดังนั้นจึงควรปรับเปลี่ยนให้สอดคล้องกับโปรไฟล์ความปลอดภัยของลูกค้าเช่นวิเคราะห์ภัยคุกคามความเสี่ยงเวกเตอร์โจมตี ฯลฯ Ubuntu Server ไม่ใช่จุดเริ่มต้นที่ไม่ดีเนื่องจากมีการปรับปรุงความปลอดภัยเป็นประจำสำหรับ 5 ปี แต่ต้องใส่ใจกับความปลอดภัยในเซิร์ฟเวอร์ทั้งหมด

การตั้งค่านี้มีการสำรองข้อมูลอิสระ 2 ชุดซึ่งหนึ่งในนั้นเป็นบริการจัดเก็บข้อมูลบนคลาวด์ที่มีความพร้อมใช้งานสูงทำงานในโหมดดึงเพื่อให้การโจมตีส่วนใหญ่บนเว็บไซต์ไม่สามารถทำลายการสำรองข้อมูลในเวลาเดียวกันและใช้เครื่องมือโอเพนซอร์สที่พิสูจน์แล้ว ต้องมีการบริหารมาก

  • การสำรองข้อมูลอิสระมีความสำคัญเนื่องจากแฮกเกอร์จะทำการลบข้อมูลสำรองทั้งหมดในเวลาเดียวกันกับการแฮ็คเว็บไซต์ในกรณีล่าสุดแฮกเกอร์ได้ทำลายเว็บไซต์ 4800 เว็บไซต์รวมถึงการสำรองข้อมูลโดยการแฮ็คสภาพแวดล้อมการโฮสต์เว็บมากกว่าเว็บไซต์ ดูเพิ่มเติมคำตอบนี้และหนึ่งในนี้
  • การกู้คืนนั้นง่ายมากด้วย rsnapshot - มีไฟล์หนึ่งไฟล์ในแต่ละสแน็ปช็อตสำหรับทุกไฟล์ที่สำรองดังนั้นเพียงค้นหาไฟล์ที่มีเครื่องมือ Linux และ rsync หรือ scp กลับไปที่เว็บไซต์ หากเซิร์ฟเวอร์สำรองในสถานที่ไม่พร้อมใช้งานด้วยเหตุผลบางอย่างเพียงใช้ความซ้ำซ้อนเพื่อเรียกคืนจากเซิร์ฟเวอร์สำรองข้อมูลบนคลาวด์หรือคุณสามารถใช้เครื่องมือมาตรฐานเช่น GPG, rdiff และ tar เพื่อกู้คืนข้อมูลสำรอง

เนื่องจากการตั้งค่านี้ใช้ SSH และ rsync มาตรฐานคุณควรเลือกผู้ให้บริการที่เหมาะสมด้วยการรับประกัน uptime ที่ถูกต้องความปลอดภัยสูง ฯลฯ คุณไม่ต้องล็อคสัญญาระยะยาวและหากบริการสำรองมีภัยพิบัติ คุณยังคงมีข้อมูลสำรองในตัวเครื่องและสามารถเปลี่ยนไปใช้บริการสำรองข้อมูลอื่นได้อย่างง่ายดาย


rsnapshot ไม่เพียง แต่สนับสนุน hardlinks มันใช้มันในการเป็นตัวแทนภายในของมัน ดังนั้นความซ้ำซ้อนจะไม่สำรองข้อมูลที่เก็บข้อมูล rsnapshot อย่างถูกต้องโดยไม่เปิดเผย
ptman

@ptman: นั่นเป็นความจริง - แต่ต้นไม้ rsnapshot ทั้งหมดไม่จำเป็นต้องถูกทำให้หมดไป ฉันจะใช้ความซ้ำซ้อนเพื่อสำรองข้อมูลไดเรกทอรี rsnapshot "daily.0" ในแผนภูมิ rsnapshot เท่านั้นซึ่งมีภาพรวมล่าสุดของต้นไม้ไดเรกทอรีที่ถูกสำรองข้อมูล ลิงก์ระหว่างสแน็ปช็อตของ Rsnapshot ระหว่าง Daily.0, Daily.1 และอื่น ๆ ไม่เกี่ยวข้องกับการสำรองข้อมูลซ้ำซ้อนซึ่งจะเห็นเฉพาะการเชื่อมโยงระหว่างสองไฟล์ภายในแผนผังสแน็ปช็อต Daily.0 ซึ่งสอดคล้องกับฮาร์ดลิงก์ในระบบที่กำลังสำรองข้อมูล กลาสีเรือสามารถจับลิงค์เหล่านั้นได้ตกลงและความซ้ำซ้อนสามารถสำรองข้อมูลเหล่านั้นผ่านไฟล์ tar
RichVel

2

ซอฟแวร์ที่ชาญฉลาดพิจารณาตีสองหน้าสำหรับการสำรองข้อมูลที่เพิ่มขึ้นด้วยการเข้ารหัส asymetric และรับใบ้ (ไม่ใช่เมฆHOWTO )


1

ฉันมักจะบอกลูกค้าของฉันเสมอว่าโซลูชันสำรองข้อมูลที่ดีที่สุดราคาถูกที่สุดและมีประสิทธิภาพมากที่สุดคือโซลูชันที่คุณสร้างขึ้นเองเพื่อวัตถุประสงค์ของคุณเอง

เมื่อฉันสร้างระบบสำหรับลูกค้าของฉันฉันใช้ rsync กับคีย์ SSH เพื่อจัดการการตรวจสอบความถูกต้องระหว่าง serverA และ serverB โดยที่ serverA มีข้อมูลที่จะสำรอง คำสั่งในการเก็บถาวรและ rsync ข้อมูลที่มีอยู่ในสคริปต์ทุบตีในไดเรกทอรีที่ไม่สามารถเข้าถึงเว็บที่เรียกโดย cron ทุกชั่วโมง H (24 สำหรับทุกวัน ฯลฯ ฯลฯ )

เซิร์ฟเวอร์สำรอง serverB จะต้องใช้ SOLELY สำหรับการสำรองข้อมูล ฉันมักจะแนะนำลูกค้าของฉันให้ใช้รหัสผ่านที่ยาวมากพร้อมการตรวจสอบความถูกต้องของคีย์ SSH เพื่ออนุญาตให้ดาวน์โหลดข้อมูลสำรองและสำรองข้อมูล บางครั้งลูกค้าของฉันต้องการสำรองข้อมูลที่จะบันทึกเป็นเวลา D วันดังนั้นฉันจึงเขียนสคริปต์บางอย่างเพื่อจัดการ (ใช้ข้อมูลจากไดเรกทอรีสำรองที่ใช้งานอยู่ใช้การประทับเวลาเพิ่มลงในที่เก็บถาวรในไดเรกทอรีอื่น)


0

สำหรับธุรกิจขนาดเล็ก / prosumer ผมอยากแนะนำให้บริการจัดเก็บข้อมูลของ Amazon

  • การควบคุมภูมิภาค (วัตถุ Ie ที่เก็บไว้ใน EU ไม่เคยออกจาก EU)
  • ความพร้อมในการทำงาน 99.9%สำหรับรอบการเรียกเก็บเงินที่กำหนด
  • $ 0.150 ต่อ GB เก็บไว้ต่อเดือน
  • ดาวน์โหลด $ 0.170 ต่อ GB
  • อัปโหลดฟรีจนถึงเดือนมิถุนายน 2010, $ 0.10 ต่อ GB หลังจากนั้น

และการรับประกันที่ค่อนข้างคลุมเครือว่า "กลไกการตรวจสอบความถูกต้องมีไว้เพื่อให้แน่ใจว่าข้อมูลได้รับการรักษาความปลอดภัยจากการเข้าถึงโดยไม่ได้รับอนุญาต"


0

ในขณะที่ bluenovember อยู่ในตำแหน่งที่ถูกต้องด้วย S3 ระบบของ Amazon ไม่ได้เป็นโซลูชันสำรองข้อมูลแบบหล่นใน แต่เป็นโซลูชั่นการจัดเก็บข้อมูลดิบที่ยังคงต้องการระบบ front end ที่จะใช้สำหรับการสำรองข้อมูลไม่ว่าจะเป็นการเรียก API หรือ ชุดการจัดการการสำรองข้อมูลเต็มรูปแบบ บางอย่างเช่นJungleDisk Server Editionซึ่งใช้ S3 ที่แบ็กเอนด์ แต่มีอินเทอร์เฟซที่ดีกว่าสำหรับใช้เป็นโซลูชันสำรองข้อมูลอาจจะดีกว่า

นอกจากนี้ JungleDisk จะให้การเข้ารหัสในตัวคุณสิ่งที่คุณต้องเพิ่มในไม่ว่าคุณวางแผนจะเชื่อมต่อกับ S3 / "คลาวด์" อย่างไร พวกเขามีซอฟแวร์ที่ดีสำหรับ Linux เช่นกัน


0

ฉันชอบเก็บข้อมูลสำรองของฉันไว้ใน Amazon AWS และฉันใช้เครื่องมือฟรีs3cmd ( http://s3tools.org/s3cmd )

มันสามารถติดตั้งได้ง่ายมาก (Debian: apt-get install s3cmd)

เพียงคุณมีบัญชี Amazon AWS เพื่อจัดเก็บไฟล์ของคุณใน S3 จากนั้นคำสั่งง่ายๆสามารถเรียกใช้การสำรองข้อมูลของคุณเพิ่มขึ้นหรือเป็นวิธีการซิงค์เช่น:

s3cmd sync /srv/backup  s3://your-bucket-name-at-amazon/

ตรวจสอบให้แน่ใจว่าคุณทำงาน

s3cms --configure 

ก่อนอื่นให้ป้อนข้อมูลรับรอง AWS ของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.