คำถามติดแท็ก wget

GNU Wget เป็นแพคเกจซอฟต์แวร์ฟรีสำหรับดึงไฟล์โดยใช้ HTTP, HTTPS และ FTP ซึ่งเป็นโปรโตคอลอินเทอร์เน็ตที่ใช้กันอย่างแพร่หลาย มันเป็นเครื่องมือบรรทัดคำสั่งแบบไม่โต้ตอบดังนั้นจึงอาจถูกเรียกได้อย่างง่ายดายจากสคริปต์งาน Cron เทอร์มินัลโดยไม่รองรับ X Window System (X11) เป็นต้น

1
วิธีการดาวน์โหลดบางส่วนของไฟล์เดียวกันจากแหล่งต่าง ๆ ด้วย curl / wget
ฉันมีไฟล์ที่ค่อนข้างโฮสต์บนเซิร์ฟเวอร์ที่แตกต่างกันห้าแห่ง ฉันต้องการที่จะสามารถดาวน์โหลดส่วนต่าง ๆ ของไฟล์จากแต่ละเซิร์ฟเวอร์และต่อมาเชื่อมต่อชิ้นส่วนต่าง ๆ เพื่อสร้างไฟล์ต้นฉบับ มีวิธีใดบ้างในการทำเช่นนี้กับ curl / wget หรือเครื่องมือบรรทัดคำสั่ง OS X อื่น ๆ ?
12 macos  download  wget  curl 

6
ปัญหาในการใช้ wget หรือ httrack เพื่อสะท้อนเว็บไซต์ที่เก็บถาวร
ฉันพยายามใช้ wget เพื่อสร้างมิเรอร์ท้องถิ่นของเว็บไซต์ แต่ฉันพบว่าฉันไม่ได้รับหน้าเชื่อมโยงทั้งหมด นี่คือเว็บไซต์ http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/ ฉันไม่ต้องการหน้าเว็บทั้งหมดที่เริ่มต้นด้วยแต่ฉันต้องการให้หน้าทั้งหมดที่ขึ้นต้นด้วยweb.archive.orghttp://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/ เมื่อฉันใช้wget -rในโครงสร้างไฟล์ของฉันฉันพบ web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/index.html, แต่ฉันไม่มีไฟล์ทั้งหมดที่เป็นส่วนหนึ่งของฐานข้อมูลนี้เช่น web.archive.org/web/20110808041151/http://cst-www.nrl.navy.mil/lattice/struk/d0c.html. บางที httrack อาจจะทำได้ดีกว่า แต่ตอนนี้มันโลภมากเกินไป ดังนั้นวิธีที่เป็นไปได้ที่จะคว้าสำเนาของเว็บไซต์ที่เก็บถาวรจากInternet Way Way Machine Machine?

2
มันเป็นไปได้ที่จะทำ wget dry-run หรือไม่?
ฉันรู้ว่าคุณสามารถดาวน์โหลดหน้าเว็บซ้ำโดยใช้wgetแต่มันเป็นไปได้ที่จะทำแห้ง เพื่อให้คุณสามารถทำการทดสอบเพื่อดูว่าจะดาวน์โหลดมากแค่ไหนถ้าคุณทำจริง ๆ คิดถึงหน้าเว็บที่มีลิงค์ไปยังไฟล์มีเดียมากมายเช่นไฟล์รูปภาพไฟล์เสียงหรือภาพยนตร์
12 wget 

2
วิธี: ดาวน์โหลดหน้าจากเครื่อง Wayback ในช่วงเวลาที่กำหนด
สิ่งที่ฉันหมายถึงคือการดาวน์โหลดแต่ละหน้าพร้อมใช้งานจากเครื่อง Wayback ในช่วงเวลาและช่วงเวลาที่ระบุ ตัวอย่างเช่นฉันต้องการดาวน์โหลดแต่ละหน้าพร้อมใช้งานจากแต่ละวันจาก nature.com จากมกราคม 2012 ถึงธันวาคม 2012 (ไม่แม่นยำว่าฉันต้องการทำอะไร แต่ใกล้พอ - และเป็นตัวอย่างที่ดี) wget จะไม่ทำงานเนื่องจากลักษณะเฉพาะของวิธีการทำงานของเครื่อง Wayback โชคไม่ดี เครื่องมือเช่นเครื่องมือดาวน์โหลด Wayback Machine จะดาวน์โหลดเฉพาะเวอร์ชันล่าสุดของหน้าเว็บเท่านั้น การโต้ตอบกับ IA API ดูเหมือนว่าเป็นเส้นทางที่ทำงานได้ แต่ฉันไม่แน่ใจว่ามันจะทำงานอย่างไร ขอบคุณ!
11 download  wget  webpage 

3
วิธีการตั้งค่าที่อยู่ http proxy สำหรับ wget ภายใต้ windows?
หากทำงานโดยไม่มีพารามิเตอร์งานwgetพิมพ์ของฉัน: D:\>wget SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc syswgetrc = c:/progra~1/wget/etc/wgetrc D:\Apps\Util\wget: missing URL Usage: D:\Apps\Util\wget [OPTION]... [URL]... Try `D:\Apps\Util\wget --help' for more options. นี้น่าจะหมายถึงการที่เป็นลักษณะไฟล์ในwgetrc c:/progra~1/wget/etc/wgetrcน่าเสียดายที่ตำแหน่งนี้ใช้ไม่ได้กับโปรแกรมที่ไม่ใช่รูท ฉันคิดว่าฉันสามารถปรับเปลี่ยนSYSTEM_WGETRCหรือsyswgetrcตัวแปรสภาพแวดล้อมได้ แต่สิ่งนี้ดูไม่มีผล D:\>echo %SYSTEM_WGETRC% d:\apps\util\wgetrc D:\>echo %syswgetrc% D:\APPS\Util\wgetrc
11 proxy  wget 

3
ลองด้วย URL ที่มี #
ฉันกำลังพยายามดาวน์โหลดURLที่เป็นเช่นhttp://www.somesite.com/restaurants.html#photo=22x00085นั้น ฉันใส่ไว้ในเครื่องหมายอัญประกาศเดี่ยว แต่ดาวน์โหลดได้เฉพาะhttp://www.somesite.com/restaur.htmlซึ่งไม่ใช่หน้าที่ถูกต้อง มีวิธีแก้ไขไหม?
11 wget  url 

4
วิธีดาวน์โหลดด้วย wget โดยไม่ต้องติดตามลิงก์พร้อมพารามิเตอร์
ฉันพยายามดาวน์โหลดสองเว็บไซต์เพื่อรวมไว้ในซีดี: http://boinc.berkeley.edu/trac/wiki http://www.boinc-wiki.info ปัญหาที่ฉันมีอยู่ก็คือพวกมันเป็นวิกิ ดังนั้นเมื่อดาวน์โหลดด้วยเช่น: wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/ ฉันได้รับไฟล์จำนวนมากเพราะมันติดตามลิงค์เช่น ... ? action = edit ... ? action = diff & version = ... มีใครรู้วิธีที่จะหลีกเลี่ยงปัญหานี้หรือไม่? ฉันต้องการหน้าปัจจุบันโดยไม่มีภาพและไม่มีความต่างเป็นต้น PS: wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex สิ่งนี้ใช้ได้กับ berkeley แต่ boinc-wiki.info ยังคงทำให้ฉันมีปัญหา: / PPS: ฉันได้รับสิ่งที่ดูเหมือนจะเป็นหน้าที่เกี่ยวข้องมากที่สุดด้วย: wget …
11 linux  unix  wget 

3
วนรอบช่วงตัวเลขเพื่อดาวน์โหลดด้วย wget
ฉันจะเขียนสคริปต์ทุบตีที่จะทำสิ่งต่อไปนี้ได้อย่างไร: URL = "example.com/imageID=" while (1..100) wget URL + $i #it will wget example.com/imageID=1, then 2, then 3, etc done ดังนั้นฉันจึงมีจำนวนลูปที่ต้องดำเนินการ URL ที่ลงท้ายด้วยตัวเลขจากลูป ฉันต้องการwgetทั้งหมดเหล่านี้

4
Wget เงียบ แต่มันแสดงข้อความผิดพลาด
ฉันต้องการดาวน์โหลดไฟล์ด้วยWgetแต่ตามปรัชญา UNIX ปกติฉันไม่ต้องการให้แสดงผลใด ๆหากการดาวน์โหลดสำเร็จ อย่างไรก็ตามหากการดาวน์โหลดล้มเหลวฉันต้องการข้อความแสดงข้อผิดพลาด -qตัวเลือกยับยั้งการส่งออกทั้งหมดรวมทั้งข้อความผิดพลาด ถ้าฉันมี-nvตัวเลือกแทน Wget ยังคงพิมพ์ (บน stderr): 2012-05-03 16:17:05 URL:http://example.net/ [2966] -> "index.html" [1] ฉันจะลบแม้กระทั่งเอาต์พุตนั้น แต่ยังได้รับข้อความแสดงข้อผิดพลาดได้อย่างไร
11 wget 

5
วิธีการรวม wget และ grep
ฉันมี URL ของหน้า html และฉันต้องการ grep มัน ฉันจะทำโดยได้wget someArgs | grep keywordอย่างไร ความคิดแรกของฉันคือwget -q -O - url | grep keywordแต่เอาท์พุทของ wget ข้าม grep และเกิดขึ้นในอาคารในรูปแบบเดิม
11 grep  wget 

5
คุณจะใช้ WGET เพื่อทำมิเรอร์ไซต์ระดับ 1 ระดับลึกโดยกู้คืนทรัพยากร JS, CSS รวมถึงอิมเมจ CSS ได้อย่างไร
แกล้งฉันต้องการสำเนาหน้าง่าย ๆ ที่จะดาวน์โหลดไปยัง HD ของฉันสำหรับการรักษาอย่างถาวร ฉันไม่ได้มองหาการเรียกซ้ำแบบลึก ๆ เพียงหน้าเดียว แต่ยังรวมถึงแหล่งข้อมูลที่โหลดโดยหน้านั้นเพื่อดาวน์โหลดด้วย ตัวอย่าง: https://www.tumblr.com/ คาดหวัง: index.html โหลดภาพใด ๆ ไฟล์ JS ใด ๆ ที่โหลด โหลดไฟล์ CSS ใด ๆ ภาพใด ๆ ที่โหลดในไฟล์ CSS ลิงก์สำหรับทรัพยากรของหน้าเว็บที่มีการแปลเพื่อให้ทำงานกับสำเนาที่ดาวน์โหลดมา (ไม่มีการพึ่งพาเว็บ) ฉันสนใจที่จะทราบว่าคุณสามารถช่วยฉันหาไวยากรณ์ wget ที่ดีที่สุดหรือเครื่องมืออื่น ๆ ที่จะทำเช่นนี้ เครื่องมือที่ฉันพยายามมักจะล้มเหลวในการโหลดรูปภาพด้วย CSS ดังนั้นหน้าเว็บจะดูไม่ถูกต้องเมื่อโหลดในเครื่อง ขอบคุณ! โซลูชั่นแทนเจนต์ ฉันพบวิธีการใช้ FireFox การบันทึกเริ่มต้นจะใช้งานไม่ได้และมีส่วนเสริมที่เรียกว่า "บันทึกเสร็จสมบูรณ์" ซึ่งเห็นได้ชัดว่าสามารถทำงานได้ดีกับสิ่งนี้ อย่างไรก็ตามคุณไม่สามารถดาวน์โหลดได้เพราะมันบอกว่ามันไม่รองรับ FireFox เวอร์ชั่นปัจจุบัน เหตุผลก็คือมันถูกรีดลงในส่วนเสริมนี้: "Mozilla …
11 javascript  html  css  images  wget 


1
ฉันจะดาวน์โหลดทั้งโฟลเดอร์ด้วย aria2 ได้อย่างไร
Aria2เป็นการwgetแทนที่ที่ยอดเยี่ยมมีคุณสมบัติมากมายเช่นมัลติเธรดดาวน์โหลดแยกดาวน์โหลดประวัติการทำงาน ฯลฯ แต่การมีฟีเจอร์และตัวเลือกทั้งหมดนี้ทำให้ยากต่อการทำคำสั่งบางอย่าง ฉันต้องการดาวน์โหลดทั้งโฟลเดอร์XOWAจากที่นี่พร้อม 10 ดาวน์โหลดพร้อมกันและไฟล์แบ่งเป็น 4 ส่วนจากไดเรกทอรีนี้: https://archive.org/download/Xowa_enwiki_latest หากต้องการดาวน์โหลดไฟล์เดียวที่แบ่งเป็น 4 ส่วนฉันใช้: aria2c -s 4 -x 4 https://archive.org/download/Xowa_enwiki_latest/Xowa_enwikibooks_2015-04-07.7z แต่ฉันต้องการดาวน์โหลดไดเรกทอรีทั้งหมดเหมือนwget -rตัวเลือก แต่ด้วย 10 ไฟล์ดาวน์โหลดพร้อมกันและดาวน์โหลด 4 ส่วนต่อไฟล์แต่ละไฟล์ฉันจะใช้ Aria2 ได้อย่างไร
10 linux  wget  aria2 

3
จะดาวน์โหลดรายชื่อไฟล์จากไฟล์เซิร์ฟเวอร์ได้อย่างไร?
ฉันจะดาวน์โหลดรายการไฟล์จากเซิร์ฟเวอร์ไฟล์แบบนี้ได้อย่างไรhttp://www.apache.org/dist/httpd/binaries/ ฉันคิดว่าฉันสามารถใช้ wget ได้ แต่จากนั้นจะพยายามรับลิงก์ทั้งหมดและไฟล์ html ด้วย มีเครื่องมือที่ดีกว่านี้หรือไม่?

6
วิธีใช้ Wget กับ Tor Bundle ใน Linux
ฉันเป็นผู้ใช้ Linux Mint (Lisa) และผู้ใช้ Tor Bundle พยายามใช้ wget มากกว่า Tor หลังจากทำตามคำแนะนำที่ฉันพบที่นี่สิ่งที่ฉันได้รับเมื่อเรียกใช้ wget คือไฟล์เอาต์พุตที่บอกว่า "ต้องการการรับรองความถูกต้อง 514" นี่คือสิ่งที่ฉันทำ: ฉันดาวน์โหลด Tor Bundle เวอร์ชันล่าสุด (เวอร์ชัน 2.2.35-9) สำหรับ Linux แล้วแตกออกมา ฉันวิ่ง / เริ่มต้น - เบราว์เซอร์ จากนั้นในวิดาเลียฉันไปที่การตั้งค่า -> ขั้นสูงและยกเลิกการเลือก "กำหนดค่า ControlPort โดยอัตโนมัติ" (ต่อมาฉันได้ลองเปลี่ยน "รับรองความถูกต้อง" เป็น "ไม่มี" แต่ตอนนี้ยังใช้งานไม่ได้) ที่อยู่ IP ถูกตั้งค่าเป็น localhost และพอร์ตคือ 9051 จาก terminal …
10 linux  proxy  wget  linux-mint  tor 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.