รับรายการ URL จากไซต์ [ปิด]


100

ฉันกำลังปรับใช้ไซต์ทดแทนสำหรับไคลเอนต์ แต่พวกเขาไม่ต้องการให้เพจเก่าทั้งหมดของพวกเขาจบลงในยุค 404 การรักษาโครงสร้าง URL เดิมเป็นไปไม่ได้เพราะมันน่ากลัว

ดังนั้นฉันกำลังเขียนตัวจัดการ 404 ซึ่งควรมองหาเพจเก่าที่ถูกร้องขอและทำการเปลี่ยนเส้นทางไปยังเพจใหม่อย่างถาวร ปัญหาคือฉันต้องการรายการ URL ของหน้าเก่าทั้งหมด

ฉันสามารถทำได้ด้วยตนเอง แต่ฉันสนใจว่ามีแอพใดบ้างที่จะให้รายชื่อญาติ (เช่น: / page / path ไม่ใช่ http: /.../ page / path) URL ที่เพิ่งให้ที่บ้าน หน้า. เหมือนแมงมุม แต่เป็นคนที่ไม่สนใจเนื้อหานอกเหนือจากการค้นหาหน้าลึก


คำตอบ:


69

ฉันไม่ได้ตั้งใจจะตอบคำถามของตัวเอง แต่ฉันแค่คิดถึงการเรียกใช้ตัวสร้างแผนผังเว็บไซต์ สิ่งแรกที่ฉันพบhttp://www.xml-sitemaps.comมีเอาต์พุตข้อความที่ดี เหมาะสำหรับความต้องการของฉัน


แต่มีขีด จำกัด 5,000 ลิงค์! .. :( ฉันกำลังมองหาสคริปต์ตัวสร้างแผนผังเว็บไซต์ php ฟรี
Jenson M John

14
ขีด จำกัด ปัจจุบันคือ500 - เริ่มเล็กลง…
Oli Studholme

มันผิดพลาดสำหรับฉัน ::::::: เกิดข้อผิดพลาดเกิดข้อผิดพลาดขณะเข้าถึง URL ที่ระบุ: 159.121.ssssโปรดตรวจสอบให้แน่ใจว่าได้ระบุ URL ของเว็บไซต์ที่ถูกต้องและส่งคำขอของคุณอีกครั้ง
JustJohn

FYI: หากคุณใช้การกำหนดเส้นทางส่วนหน้าคุณจะไม่ได้รับเส้นทางเหล่านั้นจากวิธีนี้
jasonleonhard

FYI: หากเว็บไซต์ใช้การพิสูจน์ตัวตนและ / หรือการอนุญาตคุณจะไม่ได้รับเส้นทางทั้งหมดเช่นกัน
jasonleonhard

48

ทำ wget -r -l0 www.oldsite.com

จากนั้นก็find www.oldsite.comจะเปิดเผย URL ทั้งหมดฉันเชื่อ

หรือเพียงแค่แสดงหน้าที่ไม่พบที่กำหนดเองในทุก ๆ คำขอ 404! กล่าวคือหากมีคนใช้ลิงก์ผิดเขาจะได้รับหน้าที่แจ้งว่าไม่พบหน้านั้นและให้คำแนะนำเกี่ยวกับเนื้อหาของไซต์


16
โดยเฉพาะอย่างยิ่งเนื่องจากสิ่งนี้ส่งคืนรายการไฟล์ไม่ใช่ URL สิ่งนี้จะใช้ได้เฉพาะกับไซต์ที่เป็นคอลเลกชันของไฟล์ HTML แบบคงที่เท่านั้น หากไซต์มีพารามิเตอร์การสืบค้น URL URL ที่เขียนใหม่ทางฝั่งเซิร์ฟเวอร์หรือinclude/ require/ etc ชนิดใด ๆ การประกอบหน้าจะไม่ได้ผลจริงๆ
TJ Schuck

ฉันอาจจะเข้าใจผิด wget ฉันคิดว่า 'wget' ใช้สำหรับดาวน์โหลดเนื้อหาของไซต์?
Cosmic Hawk

@ Doomsy ใช่ แต่เมื่อคุณดาวน์โหลดเนื้อหาทั้งหมดแล้วคุณจะรู้ URL ทั้งหมดของเนื้อหานั้นอย่างแน่นอนและหากไม่ดาวน์โหลดก็จะไม่มีทางค้นหา URL ได้
alamar

1
พิจารณาความลึกเริ่มต้น gnu.org/software/wget/manual/html_node/…
PJ Brunet

1
@alamar ใช่มี "-r -l inf" สำหรับการเรียกซ้ำแบบไม่มีที่สิ้นสุด แต่ฉันขอแนะนำให้คนอื่นดูเอกสาร - ตัวเลือกที่ยอดเยี่ยมมากมาย! ตัวเลือก "-m" จะสะท้อนและฉันจะลอง "-R.jpg, .jpeg, .gif, .png" ซึ่งฉันคิดว่าข้ามรูปภาพ
PJ Brunet

24

นี่คือรายการตัวสร้างแผนผังเว็บไซต์ (ซึ่งคุณสามารถรับรายการ URL จากไซต์ได้อย่างชัดเจน): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Web Sitemap Generators

ต่อไปนี้เป็นลิงก์ไปยังเครื่องมือที่สร้างหรือดูแลไฟล์ในรูปแบบ XML Sitemaps ซึ่งเป็นมาตรฐานแบบเปิดที่กำหนดไว้ใน sitemaps.org และได้รับการสนับสนุนโดยเครื่องมือค้นหาเช่น Ask, Google, Microsoft Live Search และ Yahoo! โดยทั่วไปไฟล์แผนผังไซต์ประกอบด้วยชุดของ URL บนเว็บไซต์พร้อมกับข้อมูลเมตาบางส่วนสำหรับ URL เหล่านี้ โดยทั่วไปเครื่องมือต่อไปนี้จะสร้างแผนผังไซต์ XML และไฟล์รายการ URL "ประเภทเว็บ" (บางรายการอาจรองรับรูปแบบอื่นด้วย)

โปรดทราบ: Google ไม่ได้ทดสอบหรือตรวจสอบคุณสมบัติหรือความปลอดภัยของซอฟต์แวร์ของบุคคลที่สามที่ระบุไว้ในไซต์นี้ โปรดส่งคำถามเกี่ยวกับซอฟต์แวร์ไปยังผู้เขียนซอฟต์แวร์โดยตรง เราหวังว่าคุณจะสนุกกับเครื่องมือเหล่านี้!

โปรแกรมฝั่งเซิร์ฟเวอร์

  • Enarion phpSitemapsNG (PHP)
  • Google Sitemap Generator (Linux / Windows, 32 / 64bit, โอเพ่นซอร์ส)
  • Outil en PHP (ฝรั่งเศส, PHP)
  • เครื่องมือสร้างแผนที่เว็บไซต์ Perl (Perl)
  • Python Sitemap Generator (Python)
  • แผนผังไซต์อย่างง่าย (PHP)
  • SiteMap XML Dynamic Sitemap Generator (PHP) $
  • ตัวสร้างแผนผังเว็บไซต์สำหรับ OS / 2 (REXX-script)
  • XML Sitemap Generator (PHP) $

CMS และปลั๊กอินอื่น ๆ :

  • ASP.NET - แผนผังเว็บไซต์
  • DotClear (สเปน)
  • DotClear (2)
  • Drupal
  • เทมเพลตอีคอมเมิร์ซ (PHP) $
  • เทมเพลตอีคอมเมิร์ซ (PHP หรือ ASP) $
  • LifeType
  • ตัวสร้างแผนผังไซต์มีเดียวิกิ
  • mnoGoSearch
  • OS Commerce
  • phpWebSite
  • Plone
  • RapidWeaver
  • รูปแบบข้อความ
  • vBulletin
  • Wikka Wiki (PHP)
  • WordPress

เครื่องมือที่ดาวน์โหลดได้

  • GSiteCrawler (Windows)
  • GWebCrawler & ผู้สร้างแผนผังเว็บไซต์ (Windows)
  • G-Mapper (Windows)
  • Inspyder ผู้สร้างแผนผังเว็บไซต์ (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1 Sitemap Generator (Windows) $
  • Rage Google Sitemap Automator $ (OS-X)
  • Screaming Frog SEO Spider และโปรแกรมสร้างแผนผังเว็บไซต์ (Windows / Mac) $
  • แผนผังเว็บไซต์ Pro (Windows) $
  • ผู้เขียนแผนผังเว็บไซต์ (Windows) $
  • ตัวสร้างแผนผังเว็บไซต์โดย DevIntelligence (Windows)
  • เครื่องมือ Sorrowmans Sitemap (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • ตัวสร้างแผนผังเว็บไซต์ WebDesignPros (แอปพลิเคชัน Java Webstart)
  • Weblight (Windows / Mac) $
  • WonderWebWare ตัวสร้างแผนผังเว็บไซต์ (Windows)

เครื่องกำเนิดไฟฟ้า / บริการออนไลน์

  • AuditMyPc.com เครื่องมือสร้างแผนผังเว็บไซต์
  • AutoMapIt
  • แผนที่อัตโนมัติ $
  • Enarion phpSitemapsNG
  • เครื่องมือสร้างแผนผังเว็บไซต์ฟรี
  • Neuroticweb.com ตัวสร้างแผนผังเว็บไซต์
  • ROR ตัวสร้างแผนผังเว็บไซต์
  • ScriptSocket Sitemap Generator
  • SeoUtility Sitemap Generator (อิตาลี)
  • แผนผังเว็บไซต์
  • แผนผังเว็บไซต์
  • แผนผังเว็บไซต์
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • ตัวสร้างแผนผังไซต์ XML
  • XML-Sitemaps Generator

CMS พร้อมตัวสร้างแผนผังไซต์ในตัว

  • คอนกรีต 5

Google News Sitemap Generators ปลั๊กอินต่อไปนี้ช่วยให้ผู้เผยแพร่สามารถอัปเดตไฟล์ Google News Sitemap ซึ่งเป็นรูปแบบของโปรโตคอล sitemaps.org ที่เราอธิบายไว้ในศูนย์ช่วยเหลือของเรา นอกเหนือจากคุณสมบัติปกติของไฟล์แผนผังไซต์แล้ว Google News Sitemap ยังช่วยให้ผู้เผยแพร่สามารถอธิบายประเภทของเนื้อหาที่เผยแพร่พร้อมกับการระบุระดับการเข้าถึงสำหรับแต่ละบทความ ดูข้อมูลเพิ่มเติมเกี่ยวกับ Google News ได้ในศูนย์ช่วยเหลือและฟอรัมความช่วยเหลือ

  • ปลั๊กอิน WordPress Google News

ข้อมูลโค้ด / ไลบรารี

  • สคริปต์ ASP
  • สคริปต์ Emacs Lisp
  • ไลบรารี Java
  • สคริปต์ Perl
  • คลาส PHP
  • สคริปต์ตัวสร้าง PHP

หากคุณเชื่อว่าควรเพิ่มหรือลบเครื่องมือด้วยเหตุผลที่ถูกต้องโปรดแสดงความคิดเห็นในฟอรัมความช่วยเหลือสำหรับผู้ดูแลเว็บ


มีใครให้พิมพ์หน้าจอจาก url ทั้งหมดหรือไม่?
ValRob

6

สิ่งที่ดีที่สุดที่ฉันพบคือhttp://www.auditmypc.com/xml-sitemap.aspซึ่งใช้ Java และไม่มีขีด จำกัด บนเพจและยังให้คุณส่งออกผลลัพธ์เป็นรายการ URL ดิบ

นอกจากนี้ยังใช้เซสชันดังนั้นหากคุณใช้ CMS ตรวจสอบให้แน่ใจว่าคุณได้ออกจากระบบก่อนที่จะเรียกใช้การรวบรวมข้อมูล


3
ฟังดูดี แต่มันพัง
NoobishPro

2

ดังนั้นในโลกแห่งอุดมคติคุณจะมีข้อมูลจำเพาะสำหรับทุกหน้าในไซต์ของคุณ นอกจากนี้คุณยังมีโครงสร้างพื้นฐานการทดสอบที่สามารถเข้าถึงทุกหน้าเพื่อทดสอบ

คุณคงไม่ได้อยู่ในโลกแห่งอุดมคติ ทำไมไม่ทำ ... ?

  1. สร้างการแมประหว่าง URL เก่าที่รู้จักกันดีกับ URL ใหม่ เปลี่ยนเส้นทางเมื่อคุณเห็น URL เก่า ฉันอาจพิจารณานำเสนอ "หน้านี้ถูกย้ายแล้ว URL ใหม่คือ XXX คุณจะถูกเปลี่ยนเส้นทางในไม่ช้า"

  2. หากคุณไม่มีการแมปให้แสดงข้อความ "ขออภัย - เพจนี้ถูกย้ายไปแล้วนี่คือลิงก์ไปยังโฮมเพจ" และเปลี่ยนเส้นทางหากคุณต้องการ

  3. บันทึกการเปลี่ยนเส้นทางทั้งหมด - โดยเฉพาะอย่างยิ่งการเปลี่ยนเส้นทางที่ไม่มีการแมป เมื่อเวลาผ่านไปเพิ่มการแมปสำหรับเพจที่มีความสำคัญ



0

เขียนสไปเดอร์ซึ่งอ่านใน html ทุกรายการจากดิสก์และส่งออกทุกแอตทริบิวต์ "href" ขององค์ประกอบ "a" (สามารถทำได้โดยใช้ตัวแยกวิเคราะห์) โปรดทราบว่าลิงก์ใดเป็นของหน้าใดหน้าหนึ่ง (นี่เป็นงานทั่วไปสำหรับโครงสร้างข้อมูล MultiMap) หลังจากนี้คุณสามารถสร้างไฟล์การแมปซึ่งทำหน้าที่เป็นอินพุตสำหรับตัวจัดการ 404


0

ฉันจะดูเครื่องมือสร้างแผนผังเว็บไซต์ออนไลน์จำนวนเท่าใดก็ได้ โดยส่วนตัวแล้วฉันเคยใช้อันนี้ (ใช้ java) มาแล้ว แต่ถ้าคุณค้นหา "ตัวสร้างแผนผังไซต์" โดย Google ฉันแน่ใจว่าคุณจะพบตัวเลือกต่างๆมากมาย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.