กู้คืนเว็บไซต์ที่สูญหายโดยไม่มีข้อมูลสำรองหรือไม่


262

น่าเสียดายที่ผู้ให้บริการโฮสต์ของเราประสบปัญหาข้อมูลสูญหาย 100% ดังนั้นฉันจึงสูญเสียเนื้อหาทั้งหมดสำหรับเว็บไซต์บล็อกที่โฮสต์สองแห่ง:

(ใช่แล้วฉันควรทำข้อมูลสำรองนอกสถานที่อย่างสมบูรณ์น่าเสียดายที่ข้อมูลสำรองทั้งหมดของฉันอยู่ในเซิร์ฟเวอร์ดังนั้นบันทึกการบรรยายคุณถูก 100% จริง ๆ แต่นั่นไม่ได้ช่วยฉันได้ในตอนนี้ จดจ่อกับคำถามที่นี่!)

ฉันเริ่มกระบวนการที่ช้าและเจ็บปวดในการกู้คืนเว็บไซต์จากแคชของโปรแกรมรวบรวมข้อมูลเว็บ

มีเครื่องมืออัตโนมัติบางอย่างสำหรับการกู้คืนเว็บไซต์จาก web web spider (Yahoo, Bing, Google, ฯลฯ ) แคชเช่นWarrickแต่ฉันมีผลลัพธ์ที่ไม่ดีเมื่อใช้สิ่งนี้:

  • ที่อยู่ IP ของฉันถูกแบนจาก Google อย่างรวดเร็วเนื่องจากใช้งาน
  • ฉันได้รับข้อผิดพลาด 500 และ 503 มากมายและ "รอ 5 นาที ... "
  • ในที่สุดฉันสามารถกู้คืนเนื้อหาข้อความด้วยมือได้เร็วขึ้น

ฉันโชคดีขึ้นมากโดยใช้รายการโพสต์บล็อกทั้งหมดคลิกผ่านไปยังแคช Google และบันทึกไฟล์แต่ละไฟล์เป็น HTML ในขณะที่มีจำนวนมากของบล็อกโพสต์มีไม่ว่าจำนวนมากและฉันคิดว่าฉันสมควรได้รับบางตัวเองลงแส้ไม่ได้มีกลยุทธ์การสำรองข้อมูลที่ดีกว่า อย่างไรก็ตามสิ่งที่สำคัญคือฉันโชคดีที่ได้รับข้อความจากบล็อกด้วยวิธีนี้และฉันสามารถนำข้อความของเว็บเพจออกจากแคชอินเทอร์เน็ตได้อย่างแน่นอน ขึ้นอยู่กับสิ่งที่ฉันได้ทำเพื่อให้ห่างไกลผมมั่นใจผมสามารถกู้คืนทั้งหมดที่หายไปบล็อกโพสต์ข้อความและแสดงความคิดเห็น

อย่างไรก็ตามภาพที่ไปพร้อมกับการโพสต์บล็อกแต่ละครั้งนั้นพิสูจน์ได้ยากขึ้น

เคล็ดลับทั่วไปสำหรับการกู้คืนหน้าเว็บไซต์จากแคชอินเทอร์เน็ตและโดยเฉพาะอย่างยิ่งสถานที่กู้ภาพที่เก็บถาวรจากหน้าเว็บไซต์ ?

(และอีกครั้งโปรดไม่มีการสำรองข้อมูลคุณเต็มเปาครบถ้วนถูกต้องที่สุด! แต่ความถูกต้องไม่ได้แก้ปัญหาในทันทีของฉัน…เว้นแต่คุณจะมีเครื่องย้อนเวลา…)


96
เมื่อใครบางคนเช่น Jeff Atwood สามารถสูญเสียเว็บไซต์ทั้งสองได้ในคราวเดียว ฉันจะตรวจสอบขั้นตอนการสำรองข้อมูลของฉันเองหนึ่งรายการ: P

240
@Phoshi: Jeff มีบทความดีๆเกี่ยวกับ Coding Horror เกี่ยวกับการสำรองข้อมูล คุณควรอ่านให้เร็ว

34
joshhunt ชนะหนึ่ง (1) อินเทอร์เน็ต ข้อเสนอนี้อาจไม่รวมกับข้อเสนออื่น ๆ แลกเปลี่ยนหรือทดแทน ไม่มีเรนช์
Adam Davis

28
ความยาวบางคนจะไปที่จะได้รับตัวแทนใน SU ...

26
โปรดอย่าอ้างอิงถึงสิ่งที่คุณทำในฐานะ "สำเนาสำรอง" - หากไฟล์เหล่านั้นอยู่บนเซิร์ฟเวอร์เดียวกันไฟล์เหล่านั้นจะไม่ "สำรองข้อมูล"

คำตอบ:


220

นี่คือสัญลักษณ์แสดงอารมณ์ของฉันในที่มืด: กำหนดค่าเว็บเซิร์ฟเวอร์ของคุณให้คืนค่า 304 สำหรับทุกคำขอรูปภาพจากนั้นให้ผู้คนทำการกู้คืนโดยการโพสต์รายการ URL ที่ใดที่หนึ่งและถามพอดคาสต์สำหรับผู้อ่านทั้งหมดของคุณ โหลดจากแคชในเครื่อง (สามารถทำงานได้หลังจากที่คุณกู้คืนหน้า HTML ด้วยตัวเองพร้อมด้วย<img ...>แท็กซึ่งคำถามของคุณดูเหมือนจะบอกเป็นนัยว่าคุณจะสามารถทำได้)

นี่เป็นวิธีแฟนซีในการพูดว่า "เอามันมาจากแคชของเว็บเบราว์เซอร์ของผู้อ่าน" คุณมีผู้อ่านและผู้ฟังพอดแคสต์จำนวนมากดังนั้นคุณจึงสามารถระดมผู้คนจำนวนมากที่น่าจะเข้าชมเว็บไซต์ของคุณได้อย่างมีประสิทธิภาพ แต่การค้นหาและดึงภาพจากแคชของเว็บเบราว์เซอร์ด้วยตนเองเป็นเรื่องยากและวิธีการทั้งหมดนั้นทำงานได้ดีที่สุดถ้ามันง่ายพอที่คนจำนวนมากจะลองและประสบความสำเร็จ ดังนั้นวิธีการ 304 สิ่งที่ผู้อ่านต้องการคือการคลิกที่ลิงค์ต่างๆและลากภาพใด ๆ ที่โหลดในเว็บเบราว์เซอร์ (หรือคลิกขวาและบันทึกเป็น ฯลฯ ) จากนั้นส่งอีเมลให้คุณหรืออัปโหลดไปยัง ตำแหน่งกลางที่คุณตั้งค่าหรืออะไรก็ตาม ข้อเสียเปรียบหลักของวิธีนี้คือเว็บแคชของเบราว์เซอร์ไม่ย้อนเวลากลับไป แต่ใช้เวลาผู้อ่านเพียงคนเดียวที่เกิดขึ้นในการโหลดโพสต์จากปี 2006 ในช่วงไม่กี่วันที่ผ่านมาเพื่อช่วยเหลือแม้แต่ภาพที่เก่าแก่มาก ด้วยผู้ชมจำนวนมากพอจะมีสิ่งใดที่เป็นไปได้


52
+1 สำหรับวิธีการที่สร้างสรรค์ที่สุด สามารถใช้งานได้จริงเนื่องจาก CH มีผู้อ่านจำนวนมาก

16
ดำเนินการที่นี่หรือไม่ diovo.com/2009/12/…
Jeff Atwood

3
ฉันคิดว่าคุณสามารถรวบรวมข้อมูลไฟล์สแตติกของคุณสำหรับแท็กภาพและคัดลอกไฟล์เหล่านั้นลงในหน้ายักษ์ภาพหนึ่งแทนที่จะให้ทุกคนคลิกที่ลิงก์แต่ละอัน การใช้งาน diovo.com ดูน่าประทับใจมากหวังว่าจะเป็นประโยชน์กับคุณ

2
ว้าวนั่นเป็นพ่อมดแม่มดที่ชั่วร้ายฉัน <3
Ahmad Alfy

4
ในความเป็นจริงคุณควรสามารถดึงภาพโดยใช้canvasและส่งกลับบ้านโดย AJAX
Tomáš Zato

65

พวกเราบางคนติดตามคุณด้วยโปรแกรมอ่าน RSS และไม่ต้องล้างแคช ฉันมีโพสต์ในบล็อกที่ดูเหมือนว่าจะย้อนกลับไปในปี 2549 ไม่มีรูปภาพจากสิ่งที่ฉันเห็น แต่อาจดีกว่าที่คุณทำอยู่ตอนนี้


+1 แน่นอน Google Reader ไม่ได้ แต่ฉันพนันว่าจะใช้บนเดสก์ท็อป

2
คุณสามารถขอให้ผู้ใช้ตรวจสอบแคชของเบราว์เซอร์ ผู้ที่ดูสไตล์ย้อนยุคของ Coding Horror อาจมีบางส่วนของรูปภาพ

ฉันมีบล็อกโพสต์เมื่อปี 2005 ใน GReader แต่น่าเสียดายที่พวกเขาไม่มีภาพและพวกเขาจะไม่ปล่อยให้ฉันส่งออกเป็นชุดของหน้าเว็บ ... ฉันสามารถส่งอีเมลถึงคุณได้แม้ว่า Jeff ..
Glen Solsberry

ใช่มีการบอกเป็นนัยว่า "ฉันจะส่งสิ่งที่ฉันมีให้ถ้าคุณขอ" ในคำตอบของฉันเช่นกัน

3
มีผู้อ่าน RSS มากเกินไปสมมติว่ารูปภาพจะไม่มีวันตาย ฉันรู้ว่าเหมืองไม่ :(

62

(1) แยกรายชื่อไฟล์ของภาพที่หายไปทั้งหมดจากข้อมูลสำรอง HTML คุณจะเหลืออะไรเช่น:

  • พัก Puft-ขนมหวาน-man.jpg
  • อินเทอร์เน็ตคุณสมบัติ-dialog.png
  • yahoo-หน้าแรก-small.png
  • รหัสผ่านแสดง animated.gif
  • tivo2.jpg
  • michael-Abrash กราฟิกโปรแกรม

(2) ทำการค้นหารูปภาพของ Google สำหรับชื่อไฟล์เหล่านั้น ดูเหมือนว่าหลายของพวกเขาได้รับการหนอ "มิร์เรอร์" โดยบล็อกอื่น ๆ และจะสุกสำหรับการเพราะพวกเขามีชื่อไฟล์เดียวกัน

(3) คุณสามารถทำสิ่งนี้ได้โดยอัตโนมัติถ้ามันพิสูจน์ได้ว่าประสบความสำเร็จพูดมากกว่า 10 ภาพ


คงจะน่าขันถ้าเขาได้ภาพกลับมาเช่นนี้
Hashim

51

เมื่อไปที่การค้นหาด้วย Google Imageและพิมพ์site:codinghorror.comคุณจะสามารถค้นหารูปภาพขนาดย่อของรูปภาพทั้งหมดได้ ไม่ไม่จำเป็นต้องช่วย แต่ให้จุดเริ่มต้นสำหรับการดึงภาพหลายพันภาพ

ภาพการเข้ารหัส

ดูเหมือนว่า Google จะเก็บภาพขนาดย่อที่ใหญ่กว่าในบางกรณี:

Google กับ Bing

Google อยู่ทางซ้าย Bing อยู่ทางขวา


2
ใช่กรณีที่เลวร้ายที่สุดเราจะต้องขยายภาพขนาดย่อจาก Google ฉันได้ยิน Bing เก็บภาพขนาดย่อที่ใหญ่กว่าได้ไหม
Jeff Atwood

ฉันไม่รู้ ฉันไม่ใช่คนประเภท bing ฉันไม่รู้ด้วยซ้ำว่าพวกเขาทำการค้นหารูปภาพอย่างที่ Google ทำ ฉันจะหาและอัปเดตโพสต์ดังกล่าว
George Stocker

18
ฉันไม่รู้ว่านี่คือคุณหรือไม่ แต่ Imageshack ดูเหมือนจะมีภาพบล็อกของคุณมากมาย profile.imageshack.us/user/codinghorror
Nick Berardi

พวกเขาดูเหมือนจะมีสิ่งที่ดูเหมือนว่า 456 ภาพที่มีขนาดเต็ม นี่อาจเป็นทางออกที่ดีที่สุดสำหรับการกู้คืนทุกสิ่ง บางทีพวกเขายังสามารถให้คุณถ่ายโอนข้อมูล
Nick Berardi

28
ใช้ภาพขนาดย่อของ Google เป็นการเริ่มต้นจากนั้นใช้tineye.comเพื่อดูว่ามีใครเป็นโฮสต์สำเนาหรือไม่
sep332

40

ขออภัยที่ทราบเกี่ยวกับบล็อก ไม่ไปบรรยาย แต่ฉันไม่พบสิ่งที่ดูเหมือนจะเป็นภาพของคุณใน Imageshack พวกเขาเป็นของคุณจริง ๆ หรือมีคนเก็บสำเนาของพวกเขาไว้

http://profile.imageshack.us/user/codinghorror

พวกเขาดูเหมือนจะมีสิ่งที่ดูเหมือนว่า 456 ภาพที่มีขนาดเต็ม นี่อาจเป็นทางออกที่ดีที่สุดสำหรับการกู้คืนทุกสิ่ง บางทีพวกเขายังสามารถให้คุณถ่ายโอนข้อมูล


37

Jeff ฉันได้เขียนบางสิ่งสำหรับคุณที่นี่

ในระยะสั้นสิ่งที่ฉันเสนอให้คุณทำคือ:

  1. กำหนดค่าเว็บเซิร์ฟเวอร์เพื่อส่งคืน 304 สำหรับทุกคำขอรูปภาพ 304 หมายความว่าไฟล์จะไม่ถูกแก้ไขและนี่หมายความว่าเบราว์เซอร์จะดึงไฟล์จากแคชหากมีอยู่ (เครดิต: คำตอบ SuperUser นี้ )

  2. ในทุกหน้าของเว็บไซต์ให้เพิ่มสคริปต์ขนาดเล็กเพื่อจับข้อมูลภาพและส่งไปยังเซิร์ฟเวอร์

  3. บันทึกข้อมูลรูปภาพในเซิร์ฟเวอร์

  4. Voila!

คุณสามารถรับสคริปต์จากลิงค์ที่กำหนด


คำตอบของผู้ใช้ขั้นสูงไม่ได้เชื่อมโยงกัน
นาธาเนียล

@ นาธาเนียล: แก้ไขแล้ว
alexanderpas

28

ลองใช้แบบสอบถามนี้ในเครื่อง Wayback :

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

นี่จะทำให้คุณได้ภาพทั้งหมดจาก codinghorror.com ถูกเก็บถาวรโดย archive.org สิ่งนี้จะคืนค่ารูปภาพที่ 3878 ซึ่งบางภาพซ้ำกัน มันจะไม่เสร็จสมบูรณ์ แต่เป็นการเริ่มต้นที่ดีไม่มีน้อย

สำหรับภาพที่เหลือคุณสามารถใช้ภาพขนาดย่อจากแคชเครื่องมือค้นหาและจากนั้นทำมองขึ้นกลับใช้เหล่านี้ที่http://www.tineye.com/ คุณให้ภาพขนาดย่อแล้วมันจะให้ภาพตัวอย่างและตัวชี้ไปยังรูปภาพที่ใกล้เคียงที่สุดที่พบบนเว็บ


1
ส่งคืน 404 ตอนนี้หรือไม่
rogerdpack

ฉันได้สร้างเครื่องมือในการรับข้อมูลสำรองจากเครื่อง Wayback โดยอัตโนมัติ: github.com/hartator/wayback-machine-downloader
Hartator

26

+1 ตามddคำแนะนำหาก (1) ดิสก์ดิบมีอยู่ที่ใดที่หนึ่ง; และ (2) ภาพเป็นไฟล์ง่าย ๆ จากนั้นคุณสามารถใช้เครื่องมือ 'data-engraving' ทางนิติวิทยาศาสตร์เพื่อดึงตัวอย่างที่น่าเชื่อถือทั้งหมดออกซึ่งดูเหมือนจะเป็น JPG / PNGs / GIF ฉันกู้คืนรูปภาพ 95% + บน iPhone ที่ถูกลบด้วยวิธีนี้

เครื่องมือ 'โอเพ่นซอร์ส' ที่สำคัญที่สุดและตัวต่อ 'scalpel' สามารถใช้สำหรับสิ่งนี้:

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/


2
Photorec อาจถูกใช้งานเมื่อคุณได้รับภาพ dd

สำคัญที่สุดมีให้บริการผ่านทาง yum ใน Fedora

26

โชคดีที่คนในอนาคตจะโอเค

แม้จะมีหินก้อนใหญ่เพียงบางส่วนนี้นักวิทยาศาสตร์ / นักภาษาศาสตร์ก็สามารถค้นพบสิ่งต่างๆได้มากมาย

หินโรเซตต้า

หากรูปภาพหายไปให้ทิ้งไว้กับใครสักคนในอีกไม่กี่พันปี

หวังว่าคุณจะหัวเราะเล็กน้อย :)


5
ตกลงคุณได้ขำจากฉันอย่างน้อย ;-)

21

คุณสามารถลองเก็บถาวร.orgด้วยเช่นกัน ใช้เครื่อง wayback ฉันใช้สิ่งนี้เพื่อกู้ภาพจากเว็บไซต์ของฉัน


3
ดูเหมือนจะไม่มีแคชมากสำหรับ CodingHorror อย่างน้อย ฉันเห็นภาพสำหรับ blog.stackover flow แม้ว่า

ฉันสร้างเว็บไซต์โดยใช้เครื่อง Wayback อินเทอร์เน็ต แต่เมื่อฉันพยายามไม่กี่ครั้งตั้งแต่และจริงๆมันไม่เก็บเว็บไซต์จำนวนมาก ...
djangofan

ดูเหมือนว่าจะย้อนกลับไปถึงปี 2004 ที่นี่web.archive.org/web * / codinghorror.com

ขอบคุณพระเจ้าที่ไม่มีไฟล์ robots.txt ใช่มั้ย :)
Synetech

14

ดังนั้นกรณีที่เลวร้ายที่สุดแน่นอนคุณไม่สามารถกู้คืนได้ ประณาม.

ลองจับ google ที่ย่อเล็กสุดแล้ววางลงในTinEyeเครื่องมือค้นหาภาพย้อนกลับ หวังว่ามันควรจะได้รับสิ่งที่ซ้ำซ้อนหรือโฮสต์ที่ผู้คนสร้างขึ้นมา


14

มันเป็นช็อตยาว แต่คุณสามารถพิจารณา:

  • โพสต์รายการภาพที่แน่นอนที่คุณหายไป
  • ฝูงชนจัดหากระบวนการดึงข้อมูลผ่านแคชอินเทอร์เน็ตของผู้อ่านทั้งหมด

ตัวอย่างเช่นดูNirsoft Mozilla Cache Viewer :

ข้อความแสดงแทน
(ที่มา: nirsoft.net )

มันสามารถขุดรูปภาพ "blog.stackoverflow.com" ใด ๆ ที่อาจยังคงผ่านบรรทัดคำสั่งง่าย ๆ :

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

หมายเหตุ: พวกเขามีเหมือนกันสำรวจแคชสำหรับ Chrome

ข้อความแสดงแทน
(ที่มา: nirsoft.net )

(ฉันต้องมีรูปภาพของ blog.stackoverflow.com เป็นมูลค่า 15 วัน)

และInternet ExplorerหรือOpera


จากนั้นอัปเดตรายชื่อสาธารณะเพื่อสะท้อนถึงสิ่งที่ผู้อ่านรายงานการค้นพบในแคชของพวกเขา


12

ก่อนหน้านี้ฉันใช้http://www.archive.org/เพื่อดึงภาพที่เก็บไว้ มันเป็นประเภทที่ได้รับความนิยมหรือพลาด แต่มันได้ผลสำหรับฉัน
นอกจากนี้เมื่อพยายามกู้คืนภาพถ่ายสต็อกที่ฉันใช้ในเว็บไซต์เก่า www.tineye.com นั้นยอดเยี่ยมเมื่อฉันมีรูปขนาดย่อและฉันต้องการรูปขนาดเต็ม

ฉันหวังว่านี่จะช่วยคุณได้ โชคดี.


ฉันดูผ่าน archive.org เมื่อไม่กี่นาทีที่ผ่านมาเพื่อดูรูปภาพ codinghorror.com และโพสต์ที่ฉันคลิกไม่ได้แสดงอะไรเลย
George Stocker

Archive.org เผยแพร่ข้อมูลเดือนหลังจากจัดทำดัชนีครั้งแรก
Christian

10

นี่อาจไม่ใช่วิธีแก้ปัญหาที่ง่ายที่สุดหรือเต็มรูปแบบที่สุด แต่บริการเช่น Evernote มักจะบันทึกทั้งข้อความและรูปภาพเมื่อจัดเก็บไว้ในแอปพลิเคชัน - ผู้อ่านที่มีประโยชน์บางคนที่บันทึกบทความของคุณสามารถบันทึกภาพและส่งกลับมาหาคุณ ?


10

ผมเคยมีประสบการณ์ที่ดีกับarchive.org แม้ว่าคุณจะไม่สามารถแยกโพสต์บล็อกทั้งหมดของคุณออกจากไซต์พวกเขาเก็บสแน็ปช็อตเป็นระยะ:

ข้อความแสดงแทน

วิธีนี้คุณสามารถตรวจสอบแต่ละหน้าและดูโพสต์บล็อกที่คุณทำ ด้วยชื่อของโพสต์ทั้งหมดคุณสามารถค้นหาได้ง่ายในแคชของ Google ถ้า archive.org ไม่มีอยู่ ที่เก็บถาวรพยายามเก็บรูปภาพแคชของ Google จะมีภาพและฉันไม่ได้ล้างแคชเมื่อเร็ว ๆ นี้ดังนั้นฉันสามารถช่วยคุณในการโพสต์บล็อกล่าสุด :)


ฉันพยายามรับข้อมูลบางอย่างจากเว็บไซต์ของ บริษัท ที่ฉันเคยทำงานมาระยะหนึ่งแล้ว มันดีสำหรับข้อความน้อยกว่าสำหรับรูปภาพ แต่ YMMV
ChrisF

ฉันเชื่อว่าเว็บแคชของ Google ไม่ได้จัดเก็บภาพ
นาธาเนียล

8

คุณลองใช้แคชเบราว์เซอร์ในเครื่องแล้วหรือยัง? โอกาสดีที่ค่อนข้างสวยบางสิ่งที่ใหม่กว่าก็ยังอยู่ที่นั่น http://lifehacker.com/385883/resurrect-images-from-my-web-browser-cache

(หรือคุณสามารถรวบรวมรายชื่อของภาพที่หายไปทั้งหมดและทุกคนสามารถตรวจสอบแคชของพวกเขาเพื่อดูว่าเราสามารถเติมในช่องว่าง)


8

คำแนะนำสำหรับอนาคต: ฉันใช้Windows Live Writerสำหรับบล็อกและจะบันทึกสำเนาโพสต์ในเครื่องของฉันนอกเหนือจากการเผยแพร่ไปยังบล็อก


นอกจากนี้การใช้ Windows Live Writer เป็นเพียงสามัญสำนึกที่ดี

7

ประมาณห้าปีที่ผ่านมาการจุรูปต้นของฮาร์ดไดรฟ์ภายนอกซึ่งฉันเก็บรูปถ่ายดิจิทัลทั้งหมดของฉันล้มเหลวอย่างรุนแรง ฉันสร้างภาพของฮาร์ดไดรฟ์โดยใช้ddและเขียนเครื่องมือพื้นฐานเพื่อกู้คืนสิ่งที่ดูเหมือนภาพ JPEG เอารูปส่วนใหญ่ของฉันออกไป

ดังนั้นคำถามคือคุณจะได้รับสำเนาของดิสก์อิมเมจเครื่องเสมือนที่เก็บภาพหรือไม่



7

ฉันแนะนำการรวมกันของ archive.org และ anonymizer คำขอเช่น [Tor] [2] ฉันขอแนะนำให้ใช้ anonymizer เพราะวิธีนี้คำขอของคุณแต่ละคนจะมี IP และตำแหน่งแบบสุ่มและวิธีที่คุณสามารถหลีกเลี่ยงการถูกแบนโดย archive.org (เช่นเดียวกับ Google) สำหรับคำขอจำนวนมากผิดปกติ

โชคดีมีอัญมณีมากมายในบล็อกนั้น


เนื่องจาก Jeff ต้องการบริจาคให้กับ archive.org ดังนั้นการใช้ anonymizer ในทางที่ผิดอาจไม่เป็นที่ยอมรับอย่างแน่นอน แต่ฉันยังคงต้องการให้คุณเตะมัน : - |

6

เครื่อง wayback จะมีบางอย่าง แคชของ Google และแคชที่คล้ายกันจะมีอยู่บ้าง

หนึ่งในสิ่งที่มีประสิทธิภาพที่สุดที่คุณสามารถทำได้คือการส่งอีเมลโปสเตอร์ต้นฉบับเพื่อขอความช่วยเหลือ

ที่จริงฉันมีคำแนะนำโครงสร้างพื้นฐานบางอย่างเพราะหลังจากนี้หมดไปแล้ว ปัญหาพื้นฐานไม่ใช่การสำรองข้อมูลจริง ๆ แล้วมันไม่มีการจำลองแบบไซต์และขาดการตรวจสอบ หากคุณส่งอีเมลถึงฉันในเนื้อหาของฟิลด์อีเมลส่วนตัวหลังจากนั้นเมื่อคุณกลับมาคุยกับฉันฉันก็อยากจะคุยเรื่องนี้กับคุณ


6

หากรูปภาพของคุณถูกเก็บไว้ในบริการภายนอกเช่น Flickr หรือ CDN (ดังที่กล่าวไว้ในพอดคาสต์ของคุณ) คุณอาจยังมีทรัพยากรรูปภาพอยู่

พบภาพบางภาพที่ค้นหาบนGoogle รูปภาพและคลิกที่"ค้นหาภาพที่คล้ายกัน"อาจมีสำเนาอยู่ในเว็บไซต์อื่น ๆ


5

archive.org บางครั้งซ่อนรูปภาพ รับ URL แต่ละรายการด้วยตนเอง (หรือเขียนสคริปต์สั้น ๆ ) และค้นหาโดยทำดังนี้:

string.Format ("GET / * / {0}", nextUri)

แน่นอนว่าเป็นเรื่องที่ค่อนข้างเจ็บปวดในการค้นหา

ฉันอาจมีบางอย่างในแคชเบราว์เซอร์ของฉัน ถ้าฉันทำฉันจะโฮสต์พวกเขาที่ไหนสักแห่ง


4

หากคุณหวังว่าจะพยายามแคชแคชของผู้ใช้คุณอาจต้องการตั้งค่าเซิร์ฟเวอร์ให้ตอบสนองต่อ304 Not Modifiedคำขอ GET ('If-Modified-Since' หรือ 'If-None-Match') ที่มีเงื่อนไขทั้งหมด ตรวจสอบเนื้อหาแคชของพวกเขาอีกครั้ง

หากส่วนหัวแคชเริ่มต้นของคุณกับเนื้อหาแบบคงที่เช่นรูปภาพค่อนข้างเสรี - อนุญาตให้แคชเป็นเวลาหลายวันหรือหลายเดือน - คุณสามารถรับคำขอซ้ำอีกครั้ง ตั้งค่าคุกกี้ตามคำขอเหล่านั้นและดึงดูดผู้ใช้เหล่านั้นให้เรียกใช้สคริปต์เทียบกับแคชเพื่อแยกภาพที่ยังมีอยู่

อย่างไรก็ตามระวัง: เมื่อคุณเริ่มวางเนื้อหาต้นฉบับเดิมด้วยแหล่งข้อมูลแบบอินไลน์ที่ยังไม่ปรากฏคุณสามารถลบเวอร์ชันที่แคชไว้เหล่านั้นเมื่อผู้ตรวจสอบความถูกต้องเข้าสู่ยุค 404


4

คุณสามารถใช้TinEyeเพื่อหารายการที่ซ้ำกันของภาพของคุณโดยการค้นหาภาพขนาดเล็กด้วย Google แคช ซึ่งจะช่วยเฉพาะกับภาพที่คุณถ่ายจากไซต์อื่น ๆ เท่านั้น


1
ไม่มันจะช่วยด้วยภาพที่คนอื่นนำมาจาก CH
DisgruntledGoat

@DisgruntledGoat: ฉันไม่เคยคิดมาก่อนเลยว่า: D

4

เมื่อมีความเสี่ยงในการชี้ให้เห็นอย่างชัดเจนให้ลองทำการสำรองข้อมูลรูปภาพของคอมพิวเตอร์ของคุณเอง ฉันรู้ว่ากลยุทธ์การสำรองข้อมูลของฉันไม่ดีพอที่ฉันมีหลายสำเนาของไฟล์จำนวนมากที่แขวนอยู่รอบ ๆ บนไดรฟ์ภายนอกดิสก์ที่ถูกเบิร์นและไฟล์ zip / tar โชคดี!


4

ฉันจัดการเพื่อกู้คืนไฟล์เหล่านี้จากแคช Safari ของฉันบน Snow Leopard:

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

หากใครก็ตามที่อยากจะลองผมได้เขียนสคริปต์ Python เพื่อดึงพวกเขาไปยัง ~ / codinghorror / ชื่อไฟล์ซึ่งฉันได้ใส่ออนไลน์ได้ที่นี่

ฉันหวังว่านี่จะช่วยได้.


3

คุณได้รับโอกาสดูว่าผู้ให้บริการโฮสต์ของคุณมีการสำรองข้อมูลใด ๆ เลยหรือไม่ (บางเวอร์ชั่นที่เก่ากว่า)?


มันไม่ได้ดูดี .. โปรแกรมสำรองข้อมูลของพวกเขาไม่สามารถสำรองข้อมูลฮาร์ดไดรฟ์เครื่องเสมือนดังนั้นจึงไม่มีการสำรองข้อมูล
Jeff Atwood

2

ข้อมูลนี้มีค่ากับคุณมากแค่ไหน หากมูลค่ารวมเป็นจำนวนมาก (หลายพันดอลลาร์) ให้ลองสอบถามผู้ให้บริการโฮสต์ของคุณเกี่ยวกับฮาร์ดไดรฟ์ที่ใช้เพื่อจัดเก็บข้อมูลสำหรับเว็บไซต์ของคุณ (ในกรณีที่ข้อมูลสูญหายเนื่องจากความล้มเหลวของฮาร์ดแวร์) จากนั้นคุณสามารถนำไดรฟ์ไปที่ ontrack หรือบริการกู้ข้อมูลอื่น ๆ เพื่อดูว่าคุณสามารถนำไดรฟ์ออกได้ นี่อาจเป็นเรื่องยากที่จะเจรจาเนื่องจากความเป็นไปได้ของข้อมูลที่ไม่ได้รับการกู้คืนในไดรฟ์ของผู้อื่นเช่นกัน แต่ถ้าคุณสนใจจริงๆคุณสามารถทำได้


เซิร์ฟเวอร์เป็น VM เท่าที่ฉันรู้
splattne

1
@splattne ถึงอย่างนั้นก็มีโอกาสที่ไม่เป็นศูนย์ข้อมูลจำนวนมากสามารถกู้คืนได้

จะต้องเป็นบริการที่มีความเชี่ยวชาญสูง

2

เสียใจมากที่ได้ยินเรื่องนี้และฉันรำคาญใจคุณมากและเวลา - ฉันต้องการสำเนาออฟไลน์ของโพสต์บางส่วนของคุณและทำ HTTrack บนไซต์ทั้งหมดของคุณ แต่ต้องออกไปข้างนอก (นี่เป็นสองสามสัปดาห์ที่ผ่านมา) และ ฉันหยุดมัน

หากโฮสต์นั้นมีเชื้อสายครึ่งหนึ่งและโดยความจริงแล้วฉันคิดว่าคุณเป็นลูกค้าที่ดี ... ฉันจะขอให้พวกเขาส่งฮาร์ดไดรฟ์ให้คุณ (เพราะฉันเดาว่าพวกเขาควรจะใช้ RAID) หรือทำการกู้คืนเอง

ขณะนี้อาจไม่เป็นกระบวนการที่รวดเร็วฉันทำกับโฮสต์หนึ่งสำหรับลูกค้าและสามารถกู้คืนฐานข้อมูลทั้งหมดไม่บุบสลาย (... โดยทั่วไปโฮสต์พยายามอัพเกรดสำหรับแผงควบคุมที่พวกเขาใช้และ messed up .. แต่ไม่มีสิ่งใดถูกเขียนทับ)

ไม่ว่าจะเกิดอะไรขึ้น - ขอให้โชคดีจากแฟน ๆ ของคุณบนเว็บไซต์ SO!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.