ผู้ใช้คอมพิวเตอร์ web-crawler

5

ฉันต้องการดาวน์โหลดHTML (ตัวอย่าง: http://www.brpreiss.com/books/opus6/ ) และเข้าร่วมกับ HTML หนึ่งรูปแบบหรือรูปแบบอื่น ๆ ที่ฉันสามารถใช้กับเครื่องอ่าน ebook ไซต์ที่มีหนังสือฟรีไม่มีเพจจิ้งมาตรฐานพวกเขาไม่ใช่บล็อกหรือฟอรัมดังนั้นคุณจึงไม่รู้วิธีการรวบรวมและผสานอัตโนมัติ

23 ebook web-crawler

2

ทำไมบางครั้ง @ ในที่อยู่อีเมลถูกเขียนเป็น [at] บนหน้าเว็บ

ทำไม @ บางครั้งในหน้าเว็บที่เขียนเป็น [at] มันมีเหตุผลที่เฉพาะเจาะจงหรือไม่?

15 email html web spam-prevention web-crawler

2

วิธีการรวบรวมข้อมูลโดยใช้ wget เพื่อดาวน์โหลดไฟล์ HTML เท่านั้น (ไม่ใช้รูปภาพ, css, js)

โดยพื้นฐานแล้วฉันต้องการรวบรวมข้อมูลทั้งไซต์ด้วย Wget แต่ฉันไม่ต้องการดาวน์โหลดเนื้อหาอื่น ๆ (เช่นภาพ, CSS, JS และอื่น ๆ ) ฉันต้องการไฟล์ HTML เท่านั้น การค้นหาของ Googleนั้นไร้ประโยชน์อย่างสมบูรณ์ นี่คือคำสั่งที่ฉันได้ลอง: wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com เว็บไซต์ของเราคือไฮบริดแบน PHP และ CMS ดังนั้น HTML "ไฟล์" อาจจะ/path/to/page, /path/to/page/, หรือ/path/to/page.php/path/to/page.html …

14 wget web-crawler

4

การใช้ Wget เพื่อทำการตระเวนไซต์ซ้ำและดาวน์โหลดภาพซ้ำ

คุณจะแนะนำให้คุณทำการตระเวนเว็บไซต์ซ้ำ ๆ และดาวน์โหลดเฉพาะภาพบางประเภทได้อย่างไร ฉันพยายามใช้สิ่งนี้เพื่อตระเวนเว็บไซต์และดาวน์โหลดเฉพาะภาพ Jpeg: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html อย่างไรก็ตามถึงแม้ว่า page1.html จะมีลิงค์ไปยังหน้าย่อยหลายร้อยหน้าซึ่งตัวมันเองมีลิงค์โดยตรงไปยังรูปภาพ แต่ wget รายงานสิ่งต่าง ๆ เช่น "การลบ subpage13.html เนื่องจากมันควรถูกปฏิเสธ" และไม่ดาวน์โหลดภาพใด ๆ เนื่องจากไม่มีการเชื่อมโยงโดยตรงกับ จากหน้าเริ่มต้น ฉันสมมติว่านี่เป็นเพราะ - ยอมรับฉันกำลังใช้ทั้งโดยตรงในการรวบรวมข้อมูลและกรองเนื้อหาที่จะดาวน์โหลดในขณะที่ฉันต้องการให้มันใช้เพื่อควบคุมการดาวน์โหลดเนื้อหาเท่านั้น ฉันจะรวบรวมข้อมูลลิงก์ทั้งหมดได้อย่างไร แต่ดาวน์โหลดเฉพาะไฟล์ที่มีนามสกุลเช่น * .jpeg เท่านั้น แก้ไข: นอกจากนี้บางหน้าเป็นแบบไดนามิกและสร้างขึ้นผ่านสคริปต์ CGI (เช่น img.cgi? fo9s0f989wefw90e) แม้ว่าฉันจะเพิ่ม cgi ลงในรายการที่ฉันยอมรับ (เช่น --accept = jpg, jpeg, …

13 linux bash script web-crawler wget

4

“ ถูกกฎหมาย” มีการขูดไซต์โดยใช้ cURL อย่างไร [ปิด]

ตามที่เป็นอยู่ในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบคำถาม & คำตอบของเรา เราคาดหวังคำตอบที่จะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้มีแนวโน้มที่จะเรียกร้องให้มีการอภิปรายโต้แย้งโต้แย้งหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงและเปิดใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อขอคำแนะนำ ปิดให้บริการใน9 ปีที่ผ่านมา เมื่อเร็ว ๆ นี้ฉันกำลังทดลองกับ cURL และฉันพบว่าล็อตนั้นเป็นไปได้ ฉันสร้างสคริปต์ขนาดเล็กที่รวบรวมข้อมูลเว็บไซต์ดนตรีซึ่งเล่นเพลงออนไลน์ ระหว่างการทดลองของฉันฉันพบว่าเป็นไปได้ที่จะรวบรวมข้อมูลแหล่งที่มาของเพลงด้วย .. (เว็บไซต์นั้นไม่มีการดาวน์โหลด) ฉันแค่รู้ว่า .. เป็นไปตามกฎหมายอย่างเต็มที่ที่จะรวบรวมข้อมูลเว็บไซต์หรือไม่ ผมหมายถึงการใช้http and port '80', มีผู้จัดการการดาวน์โหลดที่หายไปในตลาดพวกเขาสามารถดาวน์โหลดได้จากเกือบทุกไซต์ .. ล้วนแล้วแต่ถูกต้องตามกฎหมาย

12 php curl screen-scraping web-crawler

1

วิธีรวบรวมข้อมูลรายการ URL จำนวนมาก [ปิด]

ฉันมี URL จำนวนมาก ดูเหมือนว่า: www.example.com/api/users/1.json www.example.com/api/users/2.json www.example.com/api/users/3.json และดำเนินต่อไปประมาณ 400,000 ครั้ง จุดประสงค์คือการค้นหาสตริงข้อความที่เฉพาะเจาะจงในทุกหน้า ไม่มีใครรู้ว่าฉันจะทำอย่างไรกับเรื่องนี้?

1 web-crawler

1

ซอฟต์แวร์รวบรวมข้อมูลบรรทัดคำสั่ง HTTP สำหรับ Windows? [ซ้ำ]

ซ้ำเป็นไปได้: ฉันจะดาวน์โหลดทั้งเว็บไซต์ได้อย่างไร มีใครบ้างที่มีคำแนะนำสำหรับซอฟต์แวร์รวบรวมข้อมูลเว็บไซต์ที่สามารถเรียกใช้และติดตั้งจากบรรทัดคำสั่งได้หรือไม่ สิ่งนี้จะต้องทำงานในสภาพแวดล้อม Windows การบันทึกข้อมูลการเชื่อมโยงสไตล์ชีทเป็นต้นไม่เป็นปัญหา ฉันเพียงต้องการให้โปรแกรมรวบรวมข้อมูลเริ่มต้นด้วยหน้าแยกวิเคราะห์และติดตามลิงก์ทั้งหมดในโดเมนเดียวกันดังนั้นในที่สุดทุกหน้าในเว็บไซต์ได้รับการร้องขอเพียงครั้งเดียว ความเป็นมา: ฉันตั้งค่าเว็บไซต์ที่อัพโหลดบ่อยจากที่ตั้งสำนักงาน การรวมข้อมูลจากแหล่งต่าง ๆ มันมีหลายระดับของการแคช ฉันไม่ต้องการให้ผู้ใช้รายแรกเข้าเยี่ยมชมเว็บไซต์หลังจากอัปโหลดใหม่ต้องรอจนกว่าจะมีการสร้างและบันทึกเพจในแคช

1 windows command-line website web-crawler

0

การขูดเว็บนำเข้าสู่เว็บไซต์ท้องถิ่น

ฉันกำลังมองหาวิธีในการค้นหาผลิตภัณฑ์เฉพาะบนเว็บไซต์และดึงข้อมูลจากมัน แต่ไม่ต้องไปที่เว็บไซต์นี้โดยตรงเช่นจากเว็บไซต์ท้องถิ่นที่ค้นหาข้อมูลและดาวน์โหลดพวกเขา ฉันคิดว่า "การขูดเว็บ" เป็นสิ่งที่ฉันกำลังมองหา แต่ฉันต้องการถามว่าคุณรู้วิธีการรับข้อมูลของฉันแบบเรียลไทม์หรือไม่ ทางออกที่ดีที่สุดของฉันคือการมีหน้าเดียวที่มีกรณีการค้นหาและดึงข้อมูลจากเว็บไซต์และแสดงผล ใครบ้าง?: D ขอบคุณ

search web web-crawler

2

ฉันจะขูดเฉพาะข้อมูลคำจากเว็บไซต์ได้อย่างไร [ซ้ำ]

คำถามนี้มีคำตอบอยู่ที่นี่แล้ว: ฉันจะขูดข้อมูลเฉพาะจากเว็บไซต์ 2 คำตอบได้อย่างไร ฉันต้องการดาวน์โหลดเนื้อหาคำทั้งหมดจากเว็บไซต์เฉพาะ บันทึกผลลัพธ์ใน MS Word, Excel หรือ Notepad และตรวจสอบว่าคำใดทำซ้ำบ่อยที่สุดและกี่ครั้ง

-2 microsoft-excel microsoft-word web-crawler data-mining

คำถามติดแท็ก web-crawler