สำหรับกรณีที่เรียบง่ายของการดาวน์โหลดเนื้อหาของหน้าใช้ขดหรือwget ทั้งคู่เป็นเครื่องมือบรรทัดคำสั่งที่ออกแบบมาเพื่อดาวน์โหลดไฟล์ผ่าน HTTP และมีตัวเลือกมากมาย ในกรณีของคุณคุณอาจต้องทำให้เครื่องมือเหล่านี้ดูเหมือนเบราว์เซอร์ คำตอบของ lutzkyและpenguin359พูดถึงตัวเลือก curl และ wget ที่มีประโยชน์ในส่วนนั้น
บางครั้งเมื่อคุณต้องการเข้าสู่ระบบการเข้าสู่ระบบด้วยตนเองครั้งแรกในเว็บเบราว์เซอร์จะทำได้ง่ายขึ้นจากนั้นส่งออกคุกกี้ของเว็บเบราว์เซอร์ (ส่วนขยายเช่นคุกกี้ทั้งหมดหรือส่งออกคุกกี้สำหรับ Firefox สามารถช่วยได้)
หากคุณต้องการวิเคราะห์เนื้อหาของบางหน้าหรือโพสต์แบบฟอร์มคุณอาจต้องใช้เครื่องมือที่นักเล่นชื่นชอบมากกว่าที่จะขดและ wget เครื่องมือที่ดีบางอย่างที่มี Perl ด้วยLWP
(libwww)และHTML::TreeBuilder
(HTML-Tree)หรือ Python กับไลบรารี่มาตรฐาน (โดยเฉพาะhttplib
และhtmllib
)
สำหรับข้อมูลเพิ่มเติมปฏิสัมพันธ์ที่ซับซ้อนกับเว็บไซต์อ้างอิงเป็น Perl ของWWW :: ใช้เครื่องจักร ห้องสมุด Perl นี้กำหนดฟังก์ชั่นระดับสูงเพื่อโต้ตอบกับเว็บไซต์เช่นเว็บเบราว์เซอร์รวมถึง POSTing, รูปแบบ, คุกกี้ แต่ไม่ใช่จาวาสคริปต์ หาก Perl ไม่ถ้วยชาของห้องสมุดนี้มีการลอกเลียนแบบที่มีความสามารถคล้ายกันในภาษาอื่น ๆ เช่นงูหลามใช้เครื่องจักรและทับทิมใช้เครื่องจักร
ในที่สุดเมื่อคุณต้องการJavascriptแนวทางปกติคือการใช้เว็บเบราว์เซอร์ซึ่งขับเคลื่อนโดยเฟรมเวิร์กการทำงานอัตโนมัติของเบราว์เซอร์ ซีลีเนียมและWatirเป็นตัวเลือกยอดนิยม เห็นด้วยมีเครื่องมือที่ดีนอกเหนือจาก SeleniumRC ที่สามารถดึงหน้าเว็บรวมถึงเนื้อหาที่โพสต์โดย JavaScript หรือไม่?