ประหยัดค่าใช้จ่ายเก็บถาวรของข้อมูลวิดีโอและรูปภาพในระยะยาวหรือไม่? ~ 50 TB


16

ห้องปฏิบัติการของฉันอยู่ในขั้นตอนการตั้งค่าเซิร์ฟเวอร์ขนาดเล็กที่เก็บข้อมูล (ส่วนใหญ่เป็นข้อมูลวิดีโอและภาพรวมถึงเอกสารบางส่วน) สำหรับโครงการที่กลุ่มของเรากำลังดำเนินการอยู่ในช่วงเวลาหนึ่ง ในอดีตหลังจากโครงการวิจัยสิ้นสุดลงข้อมูลที่จับต้องไม่ได้ถูกเก็บถาวรในฮาร์ดไดรฟ์เดียวหรือกองดีวีดีขนาดใหญ่ (หรือซีดีจำนวนมากในสมัยก่อน) และ / หรือวิดีโอบางส่วนจบลงใน Cassette ของ Sony DV หรือแม้แต่ เทป VHS (แล็บนี้มีการใช้งานมาตั้งแต่ต้นยุค 90) หรือส่วนผสมทั้งหมดข้างต้น ...

คำถาม: วิธีที่ดีที่สุดสำหรับ (1) รวมพวกเขาทั้งหมดไว้ในรูปแบบและสื่อจัดเก็บข้อมูลเดียวกันคืออะไรและ (2) สื่อที่ดีที่สุดสำหรับการเก็บถาวรข้อมูลระยะยาวสำหรับการเข้าถึงข้อมูลเป็นครั้งคราว (เช่น 30+ ปี) คืออะไร? น่าเสียดายที่เราไม่มีงบประมาณระดับองค์กร (เราเป็นเพียงห้องทดลองประมาณ 10 คน) ดังนั้นจึงไม่สามารถทำสิ่งที่มีค่าใช้จ่ายหลายแสนดอลลาร์

ขอบคุณ!

ป.ล. พิจารณาวิดีโอและรูปภาพเก่าของเรามีความละเอียดน้อยกว่า แต่เมื่อเร็ว ๆ นี้มีขนาดใหญ่มากฉันคิดว่าเรากำลังพูดถึง 30 ~ 40 TB สำหรับข้อมูลเก่าจริง ๆ อีก 10 ~ 20 TB สำหรับข้อมูลล่าสุดแล้วเพิ่มประมาณ 5 TB ต่อปี .

คำตอบ:


22

น่าเสียดายที่ไม่มีวิธีที่ดีที่สุดสำหรับคุณ การเก็บถาวรสื่อดิจิทัลเป็นเวลา 30 ปีเป็นปัญหาที่ยากมากและต้องลงทุนเป็นประจำ รูปแบบเฉพาะที่รับประกันว่าสามารถอ่านได้ใน 30 ปีคือ ASCII และ UTF8 ซึ่งไม่ใช่รูปแบบวิดีโอ รูปแบบการจัดเก็บเปลี่ยนไป 8 แทร็กแบบรีลต่อรีลที่เราใช้เมื่อ 30 ปีก่อนแทบจะเป็นไปไม่ได้เลยที่จะอ่านวันนี้แม้ว่าข้อมูลจะยังอยู่ในเทป (มีเรื่องราวที่น่าสนใจเกี่ยวกับ NASA เพื่อรับเทป Apollo ที่กู้คืน / ค้นพบใหม่) ทางออกที่ดีที่สุดของคุณคือมุ่งมั่นที่จะเป็นระยะฉันจะพูดทุก ๆ 5 ปีการประเมินสภาพแวดล้อมการเก็บถาวรของคุณด้วยงบประมาณเพียงพอที่จะนำรูปแบบเก่าในรูปแบบใหม่

คุณอาจรู้ดีกว่าฉัน แต่ภูมิวิดีโอเปลี่ยนแปลงอย่างรวดเร็ว ขณะนี้สามารถแก้ไขแบบเรียลไทม์ออนไลน์ได้ซึ่งสามารถทำได้บนชุดเครื่องมือที่ดีอย่างจริงจังแม้แต่เมื่อ 10 ปีที่แล้ว ใครจะรู้ว่าสิ่งต่าง ๆ จะดูอย่างไรเมื่อ 30 ปีที่แล้ว

  • ตั้งค่าหน้าต่างเก็บถาวรของคุณเป็นเวลา 5 ปี
    • ในระยะสั้นอาเรย์จัดเก็บข้อมูลขนาดใหญ่ควรพอเพียง (
      • ดิสก์ขนาดใหญ่และช้าขนาด 50TB สามารถมีราคาต่ำกว่า $ 70K อาจต่ำได้
      • เทปไดรฟ์ LTO5 และ 50 เทป (มากกว่า 50TB คุ้มค่า) สามารถมีน้อยกว่า $ 15K
  • รูปแบบใดที่คุณเก็บวิดีโอของคุณขึ้นอยู่กับคุณ
  • เริ่มค้นหาและแปลงสิ่งที่เก่ากว่าทั้งหมดของคุณเป็นที่เก็บข้อมูลใหม่นี้
  • ในตอนท้ายของ 5 ปีให้ทำการประเมินสภาพแวดล้อมเอกสารสำคัญของคุณอีกครั้ง
    • คุณใช้รูปแบบใด
    • รูปแบบที่ใหม่กว่าคืออะไร
    • ตัวแปลงสัญญาณใดที่ดูเหมือนว่าจะสิ้นสุดลงและสื่อใดที่คุณเข้ารหัสแบบนั้น?
    • ตัดสินใจว่าคุณจะโยกย้ายไปยังวิธีการจัดเก็บข้อมูลที่ใหม่กว่า (รูปแบบข้อมูลดิสก์ / เทป / อย่างอื่น) และใช้จ่ายอย่างเหมาะสม
  • ทำซ้ำ 6 ครั้ง

นั่นน่าจะเท่ากับ 30 ปี


+1, หากคุณกำลังพยายามที่จะถูกจริงๆคุณอาจหลีกเลี่ยงการทำเช่นนี้ทุก 10 ปี ATA-66 & 100 ไดรฟ์เป็น HD ของการตั้งค่าทศวรรษที่ผ่านมาและยังมีเทคโนโลยีรอบตัวเพื่อเชื่อมต่อกับเหล่านั้น แต่มีคอมพิวเตอร์รอบ ๆ แล้วที่ไม่มีส่วนหัว IDE เทคโนโลยีเก่าทศวรรษได้รับแน่นอน
Chris S

6
+1 สำหรับจุดที่ดีในการคัดลอก แต่ -1 สำหรับการยืนยันว่ารูปแบบจะไม่สามารถอ่านได้ เมื่อข้อมูลพร้อมใช้งานบนสื่อที่คัดลอกได้ไฟล์เหล่านั้นจะไม่สามารถเล่นได้นอกเสียจากว่าพวกเขาจะอยู่ในรูปแบบที่แปลกมาก การเก็บสิ่งที่สำคัญเช่น MPEG2 นั้นน่าจะเป็นรูปแบบที่คงทน การแปลงรหัสวิดีโอที่สูญเสียเป็นกระบวนการที่ทำให้เกิดการสูญเสีย มันไม่ควรทำ ไม่มีค่าใช้จ่ายเราอะไรมากเพื่อให้ตัวแปลงสัญญาณวิดีโอหลักรอบ ...
พอล McMillan

@ พอลขอบคุณสำหรับเคล็ดลับ ครั้งสุดท้ายที่ฉันแขวนวิดีโอผู้คนเป็นประจำเมื่อ 7 ปีที่แล้วดังนั้นฉันจึงเป็นสนิม
sysadmin1138

ขอบคุณมากสำหรับการประเมินอย่างละเอียดและเคล็ดลับ! เราจะพยายามอย่างดีที่สุดเท่าที่จะทำได้ด้วยงบประมาณด้านไอทีที่ จำกัด ดีใจมากที่คุณและ serverfault.com พร้อมช่วยเหลือคุณ
hpy

ใช่เรามีวิธีมาแล้ว ยังฉันไม่มีปัญหาในการเล่นไฟล์ AVI อายุ 17 ปีจาก windows 3.1 วัน เคล็ดลับอยู่ในการเลือกรูปแบบที่ใช้กันอย่างแพร่หลายแล้ว
Paul McMillan

11

ฉันเห็นด้วยกับการโพสต์ของ sysadmin1138 ในทุก ๆ ทางบาร์หนึ่งข้อแม้ - ฉันไม่คิดว่าคุณจะมีงบประมาณในการบรรลุสิ่งที่คุณต้องการจริงๆ

มี 5 ฟังก์ชั่นหลักที่คุณต้องสร้าง;

  • นโยบายเนื้อหาและแคตตาล็อกที่ได้มาตรฐาน - ฉันรู้ว่าคุณต้องการจัดเก็บทุกอย่างในรูปแบบเดียว แต่คุณควรพิจารณาสองรูปแบบ - PDF สำหรับรูปภาพและ H.264 สำหรับวิดีโอ - ทั้งคู่เป็นรูปแบบการสนับสนุนระยะยาวพร้อมรหัสหลายแพลตฟอร์มที่เกือบจะ แน่นอนได้รับการสนับสนุนจากฝ่ายหนึ่งฝ่ายใดหรืออีกฝ่ายหนึ่งเป็นเวลา 25-50 ปีในรูปแบบปัจจุบันของพวกเขาเนื่องจากการใช้งานที่มีอยู่ทั่วโลก
  • แคตตาล็อกหรือ CMS เพื่อจัดทำดัชนีและเผยแพร่เนื้อหา
  • ระบบ 'การนำเข้าเนื้อหา' - ซึ่งจะใช้สื่อบรรจุภัณฑ์การเข้ารหัสจัดเก็บและอัปเดตแคตตาล็อกสำหรับเนื้อหาใหม่แต่ละชิ้น คุณจะต้องมีการตรวจสอบคุณภาพด้วยตนเองหรือโดยอัตโนมัติ
  • ที่เก็บเนื้อหาหลัก - จะมีที่เก็บข้อมูลหลักสองช่วง หนึ่งเล็ก ๆ เพื่อเก็บเนื้อหาต้นฉบับในขณะที่มันถูกแปลง / ตรวจสอบและบล็อกขนาดใหญ่กว่าเพื่อเก็บเนื้อหา 'ใกล้' นี่เป็นหนึ่งในการใช้งานที่ถูกต้องเพียงอย่างเดียวสำหรับ RAID 6 ที่ฉันเจอ แต่ลองใช้ดิสก์คุณภาพระดับองค์กรที่มี 'รอบการทำงาน' 24 ชั่วโมงที่นี่
  • ระบบสำรองข้อมูลระยะยาว - นี่คือที่ที่จะใช้เงินจริงคุณจะต้องเลือกผู้จำหน่ายที่ให้บริการสำรองข้อมูลระยะยาวอย่างแท้จริง หากฉันทำสิ่งนี้ในตอนนี้ฉันยังคงใช้เทปบนดิสก์อย่างหมดจดเพื่อเหตุผลด้านอายุการใช้งานข้อมูลบางทีโดย IBM เนื่องจากพวกเขามีประสบการณ์มากมายในพื้นที่นี้ คุณต้องพิจารณาด้วยว่าคุณต้องทำการบูรณะเทปและตรวจสอบข้อมูลเป็นประจำเช่นกันซึ่งหมายความว่าคุณจะต้องมีที่เก็บข้อมูลที่สามอย่างน้อยใหญ่เท่ากับเทปที่ใหญ่ที่สุดที่คุณมี - และระบบการตรวจสอบแน่นอน นอกเหนือจากนั้นคุณจะต้องตรวจสอบให้แน่ใจว่าซอฟต์แวร์สำรองข้อมูลที่คุณใช้นั้นมีอยู่เป็นเวลานานเช่น TAR on * nix มีแนวโน้มที่จะอยู่ได้ระยะหนึ่ง แต่อาจไม่สามารถให้สิ่งที่คุณต้องการได้ ตรวจสอบให้แน่ใจว่าสิ่งนี้ไม่ถูกมองข้ามโดยผู้จำหน่ายเทปของคุณ

ดังนั้นสิ่งที่คุณต้องการจะทำได้ฉันได้ทำเองหลายครั้งในช่วงสองทศวรรษที่ผ่านมาหรืออย่างนั้น - แต่ไม่มีใครถูกฉันกลัว

โชคดี.


PDF สำหรับภาพดูเหมือนเป็นวิธีที่น่ากลัวมาก ใช่ PDF อย่างแน่นอนสำหรับเอกสาร แต่เก็บรูปภาพเป็น tiffs หรือ JPEGS ขึ้นอยู่กับรูปแบบผลลัพธ์ของคุณ ความสามารถในการอ่านสิ่งเหล่านี้ไม่น่าจะหายไป
Paul McMillan

ขอบคุณสำหรับเคล็ดลับ! หากฉันสามารถตั้งค่าสถานะคำตอบที่ยอมรับทั้งสองฉันจะทำเช่นนี้ :)
hpy

1
ไม่เป็นไรเพนหยวน 1138 และเป็นตา;)
Chopper3

2
ความจริงแล้วความยากลำบากของระบบ CMS ประเภทใดก็คือมันน่าจะเป็นส่วนแรกและล้าสมัยที่สุดของระบบ คุณน่าจะดีกว่าที่จะให้ทุกคนเขียนไฟล์ข้อความ ASCII พร้อมคำอธิบายพื้นฐานและเก็บไว้ในข้อมูลดิบของคุณ CMS หรือระบบอัตโนมัติใด ๆ ที่จะแก่ขึ้นในอีกไม่กี่ปี
Paul McMillan

3

คนอื่น ๆ ให้คำแนะนำที่ดีเกี่ยวกับวิธีสำรองสื่อของคุณ ฉันขอแนะนำให้คุณใช้เวลาอย่างมีคุณภาพในการดูห้องสมุดแนวทางการมีเพศสัมพันธ์:

http://www.digitalpreservation.gov/formats/index.shtml

คุณอาจลองสร้างอาร์เรย์ ZFS whitebox ราคาถูก คุณอาจจะทำบางสิ่งบางอย่างเพื่อให้เหมาะกับความต้องการของคุณภายใต้ $ 10k เมื่อไดรฟ์ตายให้เปลี่ยนเป็นไดรฟ์ที่ใหญ่กว่าและเพื่อให้พื้นที่จัดเก็บของคุณเติบโตขึ้นเมื่อคุณสร้างข้อมูล นั่นอาจจะทำให้คุณไปได้สักพักและคุณสามารถแทนที่มันด้วยอุปกรณ์ความจุที่สูงขึ้นเมื่อมันเก่า ข้อดีคือข้อมูลของคุณออนไลน์ (และสามารถเข้าถึงได้ตามความจำเป็น) และได้รับการปกป้องค่อนข้างดีจาก bitrot ซึ่งเป็นปัญหาร้ายแรงเมื่อคุณมีข้อมูลจำนวนมาก

ตัวเลือกบิลด์ที่เหมาะสมได้ถูกรวบรวมไว้ที่นี่:

http://www.zfsbuild.com/


2

เป็นเรื่องยากสำหรับนักเทคโนโลยีฉันขอแนะนำให้หยุดความคิดเกี่ยวกับดิสก์และเทคโนโลยีทันที แยกแยะปัญหาทางธุรกิจของคุณเป็นสิ่งที่คุณต้องตัดสินใจ

ตัวอย่าง:

  • คุณจะจัดการกับการแปลงรูปแบบเทปดิจิทัลแบบแอนะล็อก / เบ็ดเตล็ดเป็นสื่อดิจิทัลที่สามารถเก็บไว้ในที่จัดเก็บข้อมูลดิจิทัลบางประเภทได้อย่างไร
  • คุณจะจัดการเนื้อหาและข้อมูลเมตาที่เกี่ยวข้องอย่างไร การจัดเก็บเป็นเรื่องง่าย - คุณสามารถวางทุกอย่างไว้บนเทป LTO และเก็บไว้ในเหมืองเกลือเก่า แต่คุณจะไม่สามารถเข้าถึงข้อมูลได้
  • คุณประดิษฐ์ล้ออีกครั้งหรือไม่? หากคุณอยู่ในมหาวิทยาลัยมีวิธีแก้ปัญหาสำหรับการจัดการเนื้อหาที่มีอยู่ในส่วนกลางหรือไม่? หรือถ้าคุณต้องการซื้อ / สร้างการจัดการเนื้อหาของคุณเองมีโครงสร้างพื้นฐานแบบรวมศูนย์ที่คุณสามารถซื้อชิ้นส่วนได้หรือไม่? (เทป, ที่เก็บวัตถุ, SAN)
  • ข้อกำหนดทางธุรกิจที่แท้จริงคืออะไร? สิ่งที่คุณต้องการที่จะเก็บและทำไม? บ่อยครั้งที่เมื่อคุณเจาะเข้าไปในหัวใจของเรื่องข้อกำหนดการเก็บรักษาระยะยาวที่แท้จริงนั้นนำไปใช้กับข้อมูลเพียงส่วนย่อยเท่านั้น

1

โปรดทราบว่าหากคุณจัดเก็บข้อมูลในรูปแบบสูญเสียแล้วแปลงเป็นรูปแบบสูญเสียอีกรูปแบบคุณภาพวิดีโอของคุณจะลดลงในแต่ละช่วงการเปลี่ยนภาพ

ต่อไปนี้คือการพูดคุยเกี่ยวกับเสียง แต่โดยทั่วไปแล้วจะมีผลกับ:

คุณสามารถแปลงรูปแบบเสียงเป็น Ogg Vorbis อย่างไรก็ตามการแปลงจากรูปแบบสูญเสียหนึ่งรูปแบบเช่น MP3 ไปเป็นรูปแบบสูญเสียอื่นเช่น Vorbis นั้นเป็นแนวคิดที่ไม่ดี ตัวเข้ารหัส MP3 และ Vorbis มีอัตราส่วนการบีบอัดสูงโดยทิ้งส่วนของรูปคลื่นเสียงที่คุณอาจไม่ได้ยิน อย่างไรก็ตามตัวแปลงสัญญาณ MP3 และ Vorbis แตกต่างกันมากดังนั้นพวกเขาแต่ละคนจะทิ้งส่วนต่าง ๆ ของเสียงแม้ว่าจะมีบางอย่างทับซ้อนกัน การแปลง MP3 เป็น Vorbis เกี่ยวข้องกับการถอดรหัสไฟล์ MP3 กลับไปเป็นรูปแบบที่ไม่มีการบีบอัดเช่น WAV และทำการบีบอัดใหม่โดยใช้ Ogg Vorbis encoder ถอดรหัส MP3 จะหายไปส่วนของเสียงต้นฉบับที่เข้ารหัส MP3 เลือกที่จะทิ้ง ตัวเข้ารหัส Ogg Vorbis จะยกเลิกส่วนประกอบเสียงอื่น ๆ เมื่อมันบีบอัดข้อมูล ที่ดีที่สุด, ผลลัพธ์จะเป็นไฟล์ Ogg ที่ฟังดูเหมือนกับไฟล์ MP3 ดั้งเดิมของคุณ แต่เป็นไปได้มากว่าไฟล์ผลลัพธ์จะเลวร้ายยิ่งกว่า MP3 ดั้งเดิมของคุณ ไม่ว่าในกรณีใดคุณจะได้ไฟล์ที่เสียงดีกว่า MP3 ดั้งเดิม

เนื่องจากเครื่องเล่นเพลงจำนวนมากสามารถเล่นไฟล์ทั้ง MP3 และ Ogg ได้จึงไม่มีเหตุผลที่คุณควรเปลี่ยนไฟล์ทั้งหมดเป็นรูปแบบเดียวหรืออย่างอื่น หากคุณชอบ Ogg Vorbis เราขอแนะนำให้คุณใช้เมื่อคุณเข้ารหัสจากแหล่งเสียงต้นฉบับที่ไม่มีการสูญเสีย (เช่น CD) เมื่อทำการเข้ารหัสจากต้นฉบับคุณจะพบว่าคุณสามารถสร้างไฟล์ Ogg ที่มีขนาดเล็กลงหรือมีคุณภาพดีกว่า (หรือทั้งสองอย่าง) กว่า MP3 ของคุณ

(หากคุณต้องแปลงจาก MP3 เป็น Ogg อย่างสมบูรณ์มีสคริปต์การแปลงหลายรายการใน Freshmeat)

http://www.vorbis.com/faq/#transcode

ดังนั้นจึงควรเลือกรูปแบบที่ไม่มีการสูญเสียที่ดีที่สุดเพราะเมื่อคุณเลือกรูปแบบที่สูญเสียรูปแบบหนึ่งแล้วคุณก็ติดอยู่กับมัน


3
ขณะนี้วิดีโอ Lossless ไม่สามารถใช้จัดเก็บได้ มันแพงเกินไปที่จะเก็บกิ๊กต่อนาทีของวิดีโอ เลือกตัวแปลงสัญญาณที่เสียซึ่งคุณมีความสุขในตอนนี้ที่มีการใช้งานอย่างกว้างขวางและทิ้งสื่อไว้ในนั้น
Paul McMillan

ขอบคุณสำหรับจุดดีเกี่ยวกับ lossless-ness เราจะคิดอย่างหนักเกี่ยวกับเรื่องนี้
hpy

1

บางทีมีบางอย่างที่ฉันขาดหายไปคุณไม่สามารถเข้ารหัสทุกอย่างโดยใช้รูปแบบเปิดที่มีซอร์สโค้ดสำหรับตัวแปลงสัญญาณพร้อมใช้งานแล้วติดทั้งหมดใน Amazon S3 หรือไม่

ด้วยวิธีนี้อเมซอนต้องกังวลเกี่ยวกับการจัดเก็บข้อมูลที่แท้จริงและหากไม่มีคอมพิวเตอร์ที่สามารถรวบรวม C / C ++ ในเวลา 30 ปีคุณจะสามารถรับข้อมูลได้ ...

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.