คำถามติดแท็ก wget

GNU Wget เป็นแพคเกจซอฟต์แวร์ฟรีสำหรับดึงไฟล์โดยใช้ HTTP, HTTPS และ FTP ซึ่งเป็นโปรโตคอลอินเทอร์เน็ตที่ใช้กันอย่างแพร่หลาย มันเป็นเครื่องมือบรรทัดคำสั่งแบบไม่โต้ตอบดังนั้นจึงอาจถูกเรียกได้อย่างง่ายดายจากสคริปต์งาน Cron เทอร์มินัลโดยไม่รองรับ X Window System (X11) เป็นต้น

2
ฉันจะใช้เครื่องมือบรรทัดคำสั่งเช่น Wget เพื่อเข้าสู่เว็บไซต์ OpenID ได้อย่างไร
โดยเฉพาะฉันต้องการดาวน์โหลดบางหน้าจากโปรไฟล์ผู้ใช้ของฉันในเว็บไซต์ Stack Exchange ต่างๆ อย่างไรก็ตามฉันต้องการทำสิ่งนี้โดยอัตโนมัติ (ใช้cronงาน) จากบรรทัดคำสั่งและในรูปแบบแยกวิเคราะห์ ฉันชอบใช้ Linux มากสำหรับสิ่งนี้ แต่ฉันสามารถเข้าถึงเครื่อง Mac หรือ Windows ได้ถ้าจำเป็น โดยหลักการแล้วฉันต้องการใช้เครื่องมือเช่นWgetหรือcURLเพื่อดึงข้อมูลหน้าเว็บ ฉันไม่รู้ว่าจะผ่านการเข้าสู่ระบบได้อย่างไร ฉันเห็นคำแนะนำที่ระบุว่าคุณสามารถเข้าสู่ระบบผ่าน Firefox ส่งออกคุกกี้ที่เกี่ยวข้องและนำเข้าสู่ Wget ผ่าน--load-cookiesตัวเลือก ยกตัวอย่างเช่นที่นี่และที่นี่ ขณะนี้ใช้งานได้หากฉันเพิ่งเข้าสู่ระบบ แต่หลังจากนั้นไม่นาน ฉันเดาเพราะโทเค็น ID ต้องได้รับการรีเฟรช ดังนั้นหลังจากเข้าสู่ระบบ SU และส่งออกคุกกี้ของฉันฉันสามารถทำได้: wget --load-cookies cookies.txt \ https://superuser.com/users/151431/terdon?tab=responses หลังจากผ่านไปสองสามนาทีฉันได้รับข้อผิดพลาด 404: wget -O ~/stack/$(date +%s) --load-cookies ~/cookies.txt \ https://superuser.com/users/151431/terdon?tab=responses --2013-08-06 04:04:14-- https://superuser.com/users/151431/terdon?tab=responses Resolving …

2
ฉันจะใช้ wget เพื่อส่งข้อมูล POST ได้อย่างไร
ฉันต้องการที่จะทำตามคำขอ POST ไปยังเซิร์ฟเวอร์ของฉันโดยใช้ wget: email=abc@abc.com&file1=@FILE_HERE&file2=@FILE_HERE ในคำขอดังกล่าวข้างต้นมีสามพารามิเตอร์ POST เรียกว่าemail, file1และfile2ที่emailมีอีเมลของผู้ใช้และfile1, file2มีไฟล์ ฉันจะส่งมันโดยใช้wget? curlฉันไม่ต้องการที่จะใช้
10 linux  bash  http  wget 

1
ทำมิเรอร์บล็อกด้วย wget
ฉันพยายามที่จะสะท้อนบล็อกเช่นกับwww.example.comwget ฉันใช้ wget ด้วยตัวเลือกต่อไปนี้ (ตัวแปรเชลล์ถูกแทนที่อย่างถูกต้อง): wget -m -p -H -k -E -np \ -w 1 \ --random-wait \ --restrict-file-names=windows \ -P $folder \ -Q${quota}m \ -t 3 \ --referer=$url \ -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \ -e robots=off \ -D $domains -- $url บล็อกมีรูปภาพที่อยู่ในโดเมนอื่น แม้ว่าฉันจะระบุ-pตัวเลือก …
9 wget  mirroring 

2
ฉันจะดาวน์โหลดที่เก็บส่วนตัวจาก GitHub โดยไม่สามารถเข้าถึง 'git' บนเครื่องท้องถิ่นของฉันได้อย่างไร?
สิ่งที่ฉันต้องการจะทำคือการดาวน์โหลดที่เก็บข้อมูลส่วนตัวจาก GitHub แยกมันออกลบไฟล์เก็บถาวรและคัดลอกบางไดเรกทอรีที่อยู่ภายในโครงการที่ดาวน์โหลด ฉันพยายามใช้wgetแต่ฉันไม่สามารถอนุญาตตัวเองได้: wget --header='Authorization: token MY_TOKEN_CREATED_ON_GITHUB' https://github.com/MY_USER/MY_REPO/archive/master.tar.gz -O - | tar xz ฉันก็ลองด้วยcURL: curl -i -H 'Authorization: token MY_TOKEN_CREATED_ON_GITHUB' https://github.com/MY_USER/MY_REPO/archive/master.tar.gz > file.tar.gz | tar xz การอนุญาตผ่านที่นี่ แต่ฉันไม่สามารถแยกไฟล์ได้ ทำอย่างไร

1
จะดำเนินการกระบวนการ wget ต่อได้อย่างไร
ฉันเผลอปิดเครื่องในขณะที่ทำงาน wget กระบวนการดาวน์โหลดเว็บไซต์ เป็นเวลา 2 วันตั้งแต่ฉันเริ่มกระบวนการ wget ดังนั้นฉันจึงไม่ทราบสถานะของกระบวนการ เมื่อวานนี้ปริมาณการใช้ข้อมูลสูงและวันนี้ปริมาณการใช้ข้อมูลต่ำ ดูเหมือนว่ากระบวนการ wget จะเสร็จสิ้น แต่เปิด topมันยังแสดงให้เห็นว่า wget ยังทำงานอยู่ นี่คือความสับสน 19133 root 15 0 751m 746m 1416 S 1.0 37.0 48:18.77 wget ฉันจะดำเนินการกระบวนการ wget ต่อเพื่อดูสถานะได้อย่างไร
8 wget 

2
การใช้ wget เพื่อดาวน์โหลดไฟล์ PDF จากเว็บไซต์ที่ต้องตั้งค่าคุกกี้
ฉันต้องการเข้าถึงเว็บไซต์หนังสือพิมพ์แล้วดาวน์โหลดสำเนา ePaper ของพวกเขา (เป็น PDF) ไซต์ต้องการให้ฉันเข้าสู่ระบบโดยใช้ที่อยู่อีเมลและรหัสผ่านของฉันจากนั้นอนุญาตให้ฉันเข้าถึง URL ของ PDF ฉันมีปัญหาใน 'การตั้งค่าเซสชั่นของฉัน' ในWget เมื่อฉันเข้าสู่เว็บไซต์จากเบราว์เซอร์ของฉันมันจะตั้งค่าคุกกี้สองค่า: UserID=abc@gmail.com Password=12345 ฉันเหนื่อย: wget --post-data "UserID=abc@gmail.com&Password=12345" http://epaper.abc.com/login.aspx อย่างไรก็ตามนั่นเป็นเพียงการดาวน์โหลดหน้าเข้าสู่ระบบและบันทึกไว้ในเครื่อง FORM บนหน้าเข้าสู่ระบบมีสองช่อง: txtUserID txtPassword และ radiobuttons เช่นนี้ <input id="rbtnManchester" type="radio" checked="checked" name="txtpub" value="44"> ปุ่มอื่น: <input id="rbtnLondon" type="radio" name="txtpub" value="64"> หากฉันโพสต์สิ่งนี้ในหน้า login.aspx ฉันจะได้ผลลัพธ์เดียวกัน wget --post-data "txtUserID=abc@gmail.com&txtPassword=12345&txtpub=44" http://epaper.abc.com/login.aspx ถ้าฉันทำ: --save-cookies abc_cookies.txt …
8 pdf  wget 

3
ทำไมรูปภาพจากหน้า Tumblr บางหน้าถึงไม่โหลด แต่การใช้ wget กับพวกมันทำงานได้ดี?
ช่วยเพื่อนออกด้วยการเชื่อมต่ออินเทอร์เน็ตเพราะ“ บางหน้าไม่โหลด” ฉันสังเกตเห็นว่าปัญหาคือรูปภาพของโพสต์ภาพบางบล็อกไม่ได้โหลดบนเบราว์เซอร์ ฉันพบว่ามันแปลกเพราะเหตุผลดังต่อไปนี้: รูปภาพที่เป็นส่วนหนึ่งของโพสต์จะไม่โหลด อวตารของผู้ใช้แบนเนอร์ส่วนหัวชุดรูปแบบต่างๆและ / หรือรูปภาพที่เกี่ยวข้องกับหน้ายังคงปรากฏขึ้น เกิดขึ้นกับเบราว์เซอร์ใด ๆ บนคอมพิวเตอร์ (ทดสอบบน Firefox และ Chrome / ium ทั้งที่มีและไม่มีตัวบล็อกโฆษณา / สคริปต์) ใช้wgetงานลิงค์โดยตรงของภาพได้ สิ่งนี้ใช้ไม่ได้กับหน้า Tumblr ทั้งหมด โหลดอย่างถูกต้องที่สุด แต่เมื่อสร้างรายการหน้าเว็บที่มีโพสต์ที่ไม่โหลดรูปภาพแสดงว่าส่วนใหญ่มาจากกลุ่มผู้ใช้เดียวกัน ดูเหมือนว่าปัญหาจะมีเฉพาะบล็อกในแง่ที่ว่าหากโพสต์รูปภาพบางบล็อกไม่โหลดในเบราว์เซอร์บล็อกอื่น ๆ (ไม่ได้รับผลกระทบหรือไม่) ที่บล็อกใหม่โพสต์เดียวกันจะไม่โหลดภาพในเบราว์เซอร์เช่นกัน ในทางกลับกันหากบล็อกที่ได้รับผลกระทบถูกบล็อกซ้ำจากบล็อกที่ไม่ได้รับผลกระทบภาพจะโหลดได้ดี รูปภาพมาจากโพสต์ Tumblr ที่ผู้ใช้สร้างขึ้นซึ่งผู้ใช้อัปโหลดภาพไปยังโพสต์และโฮสต์โดย Tumblr ตัวอย่างเช่น (ตัวอย่างนี้ไม่ใช่หนึ่งในบล็อกที่ได้รับผลกระทบ) ในโพสต์ภาพ (เลือกแบบสุ่ม) นี่จะเป็นลิงก์โดยตรงไปยังรูปภาพในโพสต์ โพสต์รูปภาพทำให้รูปภาพเชื่อมโยงไปยังหน้าอื่นใน Tumblrโดยอัตโนมัติ (โดยปกติ) รูปภาพขนาดใหญ่ที่ใช้ในโพสต์ที่ใกล้เคียงกับขนาดของสิ่งที่ผู้ใช้อัปโหลดสำหรับโพสต์ อะไรคือสาเหตุของเหตุการณ์นี้ ส่วนที่ทำให้ฉันจริง ๆ คือความจริงที่ใช้wgetงานได้ดังนั้นฉันคิดว่าฉันสามารถสันนิษฐานได้ว่าไม่มีปัญหากับการเชื่อมต่อเครือข่าย ปรับปรุง: นี่คือตัวอย่างของโพสต์ที่ถูกบล็อกใหม่ซึ่งไม่สามารถโหลดบนเบราว์เซอร์ได้ …

2
Xargs และ Wget หยุดทำงานหลังจากผ่านไปหนึ่งชั่วโมง
ใช้งานสคริปต์กับ Cygwin บน Windows XP พร้อม Dual Core และ 4GB Ram cat url_list.txt | xargs -P50 wget -i ฉันพยายามที่จะลากผ่าน4GBของURL ที่ดาวน์โหลด (ประมาณ 43 ล้านบาท) ใช้งานได้ดีประมาณหนึ่งชั่วโมงจากนั้น Bash shell และการดาวน์โหลดจะหยุดลงแม้ว่าจะมีเพียง 2% ผ่านรายการ URL มีความคิดเห็นอะไรที่ผิดหรือเปล่า? วิธีที่ดีที่สุดในการแก้ปัญหาคือเหตุใดจึงหยุดหลังจากผ่านไปหนึ่งชั่วโมง
8 wget  url  xargs  cat 

2
เป็นไปได้ไหมที่จะตั้งเวลาให้แสดงเวลาการโอนในหน่วยมิลลิวินาที?
โดยทั่วไป wget จะแสดงเวลาการโอนในไม่กี่วินาที มีวิธีที่ฉันสามารถทำให้มันแสดงเวลาเป็นมิลลิวินาทีหรือไม่?
8 bash  shell  time  wget  transfer 

11
คอมพิวเตอร์ของฉันไปดาวน์โหลดภาพนี้จากที่ไหน
ฉันใช้ Windows XP ฉันเพิ่งดาวน์โหลด wget และใส่ลงในของฉัน C:\Windows โฟลเดอร์ จากนั้นฉันก็รันบรรทัดคำสั่งนี้ (พยายามดาวน์โหลดภาพจากเว็บไซต์): wget -r -A ".jpg,.gif,.png" http://somesite'sURL/lang2.JPG หน้าต่างดั่ง DOS สีดำปรากฏขึ้นสองสามวินาทีเพื่อแสดงให้ฉันเห็นว่ากระบวนการบางอย่างกำลังเกิดขึ้น ฉันคิดว่ามันเป็นกระบวนการของการดาวน์โหลด ฉันเห็นตัวเลขเปอร์เซ็นต์ที่เพิ่มขึ้นแสดงขึ้นมา เมื่อถึง 100% หน้าต่างสีดำจะหายไปและตอนนี้ฉันไม่สามารถหาภาพที่ดาวน์โหลดได้ ฉันมองไปทั่ว C:\Windows โฟลเดอร์ แต่ฉันไม่พบ lang2.JPG. มันควรจะอยู่ที่ไหน ฉันได้ค้นพบว่าโฟลเดอร์ คือ สร้างแล้วและไฟล์ คือ กำลังดาวน์โหลด แต่มันถูกลบ "เนื่องจากควรถูกปฏิเสธ" ทำไมมันถึงถูกปฏิเสธฉันไม่รู้ คุณคิดว่ามีวิธี "จับ" ไว้ในคอมพิวเตอร์ของฉันก่อนที่จะถูกปฏิเสธหรือไม่ และทำไมมันยังคงถูกดาวน์โหลดก่อนถ้ามันจะถูกปฏิเสธ? นี่คือเนื้อหาของหน้าต่างคำสั่ง: C:\Documents and Settings\Administrator> wget -r -A".jpg,.gif,.png" http://sitename.URL --2009-12-01 …

4
แสดงความคิดเห็นในรายการ wget?
ฉันต้องดาวน์โหลดประมาณ 100 แพ็คเกจดังนั้นฉันจึงใช้ wget-list เพื่อทำให้ง่ายขึ้น อย่างไรก็ตามคำถามของฉันคือเมื่อฉันทำรายการ (ฉันคิดว่ามันอยู่ในรูปแบบ. txt) มีวิธีที่ฉันสามารถแทรกความคิดเห็นลงในนั้นหรือไม่ wget จะไม่สนใจ? บางสิ่งเช่นนี้ #This is a comment http://someurl.com http://anotherurl.com
4 linux  wget 

3
วิธีการสำรองข้อมูลบล็อกทำงานบน posterous.com
ฉันต้องการสำรองเนื้อหาของบล็อกซึ่งขับเคลื่อนโดย posterous.com ฉันต้องการบันทึกข้อความและรูปภาพทั้งหมดลงในดิสก์ภายในเครื่อง ความสามารถในการเรียกดูแบบออฟไลน์นั้นเป็นข้อดี สิ่งที่ฉันได้ลองไปแล้ว: wget wget -mk http://myblogurl มันจะดาวน์โหลดหน้าแรกที่มีรายการโพสต์จากนั้นหยุดด้วย20 redirections exceededข้อความ "" WinHttpTrack มันดาวน์โหลดหน้าแรกด้วยการเปลี่ยนเส้นทางไปที่หน้าแรกwww.posterous.comแทนเนื้อหาของหน้าจริง แก้ไข: URL ของเว็บไซต์ที่ฉันพยายามสำรองคือblog.safabyte.net

1
ดาวน์โหลดไฟล์จาก Jenkins build ที่มีเสถียรภาพล่าสุด
การใช้แบตช์ไฟล์และ wget / curl ฉันจะดาวน์โหลด Multiverse-Core-.jar จากที่นี่ได้อย่างไร http://ci.onarandombox.com/job/Multiverse-Core/lastStableBuild/artifact/target/ ฉันต้องการใช้ตัวเลือกการประทับเวลาและลิงก์ "ไฟล์ทั้งหมดในไฟล์ซิป" ไม่ทำงานเนื่องจากไม่มีส่วนหัว "แก้ไขครั้งล่าสุด" หากฉันใช้http://ci.onarandombox.com/job/Multiverse-Core/lastStableBuild/artifact/target/Multiverse-Core-2.5.jarตัวเลือกการประทับเวลาก็ใช้งานได้ แต่ฉันต้องการใช้ลิงค์แรก และไม่ต้องเปลี่ยนทุกครั้งที่มีการเปลี่ยนแปลงหมายเลขเวอร์ชั่น ฉันได้ลองแล้ว wget -r -l 1 -nH -A jar -R *javadoc.jar,*sources.jar http://ci.onarandombox.com/job/Multiverse-Core/lastStableBuild/artifact/target/ แต่มันเพิ่งสร้าง "job \ Multiverse-Core \ lastStableBuild \ifact \ target" ในไดเรกทอรีปัจจุบันโดยไม่มีไฟล์ สคริปต์ของฉันมีบางอย่างผิดปกติหรือไม่?

1
เข้าสู่หน้าเว็บผ่านสคริปต์
ฉันพยายามทำการดึงข้อมูลจากเว็บไซต์ที่ต้องการให้ฉันเข้าสู่ระบบโดยอัตโนมัติฉันเคยทำสิ่งนี้มาแล้วในอดีต (เมื่อหลายปีก่อน) โดยใช้ wget แต่วิธีนั้นดูเหมือนจะไม่ทำงานอีกต่อไป รู้ว่าทำไม ฉันเคยทำแบบนี้: MY_USERNAME=username # needs to be urlencoded, this can be done at http://lajm.eu/emil/dump/stringfunctions.php. MY_PASSWORD=password # also has to be urlencoded LOGIN_DATA="action=login&login_nick=$MY_USERNAME&login_pwd=$MY_PASSWORD" wget --quiet --save-cookies cookiejar --keep-session-cookies --post-data $LOGIN_DATA --user-agent 'Firefox' -O um.htm http://ungdomar.se/index.php ตอนนี้เมื่อฉันพยายามเรียกใช้สิ่งนี้ฉันเพิ่งได้รับการส่งกลับไปที่หน้าหลัก (ดังนั้นฉันไม่เพียงป้อนรหัสผ่านผิดถ้าฉันทำเช่นนั้น ฉันได้ลองทำใน Python ด้วย เปลี่ยนไปใช้เครื่องจักร (นี้จะดีกว่า wget) แต่ฉันดูเหมือนจะได้รับผลลัพธ์เดียวกัน มันทำให้ฉันนึกไม่ออกว่าทำไมมันถึงไม่ทำงาน นี่เป็นส่วนหนึ่งของเว็บไซต์ที่เกี่ยวข้องกับแบบฟอร์ม …
3 bash  web  wget  script  webforms 

1
ดาวน์โหลดชุด URL จากบรรทัดคำสั่งแบบมัลติเธรด
ฉันมี 100,000 ไฟล์ URL ขนาดเล็กสำหรับดาวน์โหลด ต้องการใช้ 10 เธรดและต้องมีการวางท่อ ฉันเชื่อมผลลัพธ์เป็นไฟล์เดียว แนวทางปัจจุบันคือ: cat URLS | xargs -P5 -- curl >> OUTPUT มีตัวเลือกที่ดีกว่าที่จะแสดงความคืบหน้าของการดำเนินการทั้งหมดหรือไม่ จะต้องทำงานจากบรรทัดคำสั่ง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.