คำถามติดแท็ก web-crawler

โปรแกรมรวบรวมข้อมูลเว็บ (หรือเรียกอีกอย่างว่าเว็บสไปเดอร์) คือโปรแกรมคอมพิวเตอร์ที่เรียกดูเวิลด์ไวด์เว็บในลักษณะที่เป็นระบบอัตโนมัติหรือเป็นระเบียบ คำศัพท์อื่น ๆ สำหรับโปรแกรมรวบรวมข้อมูลเว็บ ได้แก่ มดตัวทำดัชนีอัตโนมัติบอทเว็บสไปเดอร์หุ่นยนต์เว็บหรือ - โดยเฉพาะในชุมชน FOAF - Web scutters

5
จะขอให้ Google รวบรวมข้อมูลเว็บไซต์ของฉันอีกครั้งได้อย่างไร [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน5 ปีที่ผ่านมา ปรับปรุงคำถามนี้ มีใครรู้วิธีขอให้ Google รวบรวมข้อมูลเว็บไซต์อีกครั้งหรือไม่ ถ้าเป็นไปได้นี่จะไม่เป็นเดือนสุดท้าย เว็บไซต์ของฉันแสดงชื่อเก่าในผลการค้นหาของ Google ฉันจะแสดงชื่อและคำอธิบายที่ถูกต้องได้อย่างไร
227 seo  web-crawler 

2
การส่ง“ User-agent” โดยใช้ไลบรารีคำขอใน Python
ฉันต้องการส่งค่า"User-agent"ในขณะที่ร้องขอหน้าเว็บโดยใช้คำขอ Python ฉันไม่แน่ใจว่าเป็นเรื่องที่ดีหรือไม่หากส่งสิ่งนี้เป็นส่วนหนึ่งของส่วนหัวตามรหัสด้านล่าง: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) ข้อมูลการดีบักไม่แสดงส่วนหัวที่ถูกส่งระหว่างการร้องขอ เป็นที่ยอมรับหรือไม่ที่จะส่งข้อมูลนี้ในส่วนหัว? ถ้าไม่ฉันจะส่งมันได้อย่างไร

4
ป้องกัน rsync จากการลบไฟล์ต้นฉบับที่ยังไม่เสร็จ
ฉันมีสองเครื่องความเร็วและมวล ความเร็วมีการเชื่อมต่ออินเทอร์เน็ตที่รวดเร็วและกำลังเรียกใช้โปรแกรมรวบรวมข้อมูลซึ่งดาวน์โหลดไฟล์จำนวนมากลงในดิสก์ มวลมีพื้นที่ดิสก์จำนวนมาก ฉันต้องการย้ายไฟล์จากความเร็วเป็นจำนวนมากหลังจากดาวน์โหลดเสร็จแล้ว เป็นการดีที่ฉันเพิ่งจะเรียกใช้: $ rsync --remove-source-files speed:/var/crawldir . แต่ฉันกังวลว่า rsync จะยกเลิกการลิงก์ไฟล์ต้นฉบับที่ยังดาวน์โหลดไม่เสร็จ (ฉันดูซอร์สโค้ดและฉันไม่เห็นสิ่งใดที่จะป้องกันสิ่งนี้) ข้อเสนอแนะใด ๆ

8
ความแตกต่างระหว่าง BeautifulSoup และ Scrapy Crawler
ฉันต้องการสร้างเว็บไซต์ที่แสดงการเปรียบเทียบระหว่างราคาสินค้าของ amazon กับ e-bay ข้อใดจะทำงานได้ดีกว่าและเพราะเหตุใด ผมค่อนข้างคุ้นเคยกับBeautifulSoupแต่ไม่มากกับScrapy ตีนตะขาบ

11
การค้นหาเลเยอร์และขนาดเลเยอร์สำหรับอิมเมจ Docker แต่ละภาพ
เพื่อจุดประสงค์ในการวิจัยฉันพยายามรวบรวมข้อมูลรีจิสทรีของ Docker สาธารณะ ( https://registry.hub.docker.com/ ) และค้นหา 1) จำนวนภาพเฉลี่ยมีกี่ชั้นและ 2) ขนาดของเลเยอร์เหล่านี้เพื่อให้ได้ ความคิดของการกระจาย อย่างไรก็ตามฉันได้ศึกษา API และไลบรารีสาธารณะรวมถึงรายละเอียดเกี่ยวกับ github แต่ฉันไม่พบวิธีใดในการ ดึงข้อมูลที่เก็บ / รูปภาพสาธารณะทั้งหมด (แม้ว่าจะมีจำนวนหลายพันฉันก็ยังต้องการรายการเริ่มต้นเพื่อทำซ้ำ) ค้นหาเลเยอร์ทั้งหมดของรูปภาพ ค้นหาขนาดของเลเยอร์ (ไม่ใช่รูปภาพ แต่สำหรับแต่ละเลเยอร์) ใครสามารถช่วยฉันหาวิธีดึงข้อมูลนี้ ขอบคุณ! แก้ไข: ทุกคนสามารถตรวจสอบได้หรือไม่ว่าการค้นหา '*' ใน Docker Registry กำลังส่งคืนที่เก็บทั้งหมดไม่ใช่แค่สิ่งที่กล่าวถึง '*' ที่ใดก็ได้? https://registry.hub.docker.com/search?q=*


2
TypeError: ไม่สามารถใช้รูปแบบสตริงบนวัตถุคล้ายไบต์ใน re.findall ()
ฉันกำลังพยายามเรียนรู้วิธีดึง URL จากเพจโดยอัตโนมัติ ในรหัสต่อไปนี้ฉันกำลังพยายามหาชื่อของหน้าเว็บ: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) และฉันได้รับข้อผิดพลาดที่ไม่คาดคิดนี้: Traceback (most recent call last): File "path\to\file\Crawler.py", line 11, in <module> title = re.findall(pattern, html) File "C:\Python33\lib\re.py", line 201, in …

11
การตรวจจับโปรแกรมรวบรวมข้อมูลเว็บ "ลักลอบ"
มีตัวเลือกใดบ้างในการตรวจหาโปรแกรมรวบรวมข้อมูลเว็บที่ไม่ต้องการให้ตรวจพบ (ฉันรู้ว่าเทคนิคการตรวจจับรายชื่อจะช่วยให้โปรแกรมเมอร์โปรแกรมรวบรวมข้อมูลลักลอบที่ชาญฉลาดสามารถสร้างสไปเดอร์ได้ดีขึ้น แต่ฉันไม่คิดว่าเราจะสามารถบล็อกโปรแกรมรวบรวมข้อมูลการลักลอบอัจฉริยะได้อีกต่อไปมีเพียงคนที่ทำผิดพลาดเท่านั้น) ฉันไม่ได้พูดถึงโปรแกรมรวบรวมข้อมูลที่ดีเช่น googlebot และ Yahoo! Slurp. ฉันคิดว่าบอทดีถ้ามัน: ระบุตัวเองว่าเป็นบอทในสตริงตัวแทนผู้ใช้ อ่าน robots.txt (และปฏิบัติตาม) ฉันกำลังพูดถึงโปรแกรมรวบรวมข้อมูลที่ไม่ดีซึ่งซ่อนตัวอยู่หลังตัวแทนผู้ใช้ทั่วไปโดยใช้แบนด์วิดท์ของฉันและไม่เคยให้อะไรตอบแทนฉันเลย มีช่องดักบางส่วนที่สามารถสร้างรายการปรับปรุงได้ (ขอบคุณ Chris, gs) : การเพิ่มไดเรกทอรีที่แสดงรายการเท่านั้น (ทำเครื่องหมายว่าไม่อนุญาต) ใน robots.txt การเพิ่มลิงก์ที่มองไม่เห็น (อาจทำเครื่องหมายว่า rel = "nofollow"?) style = "display: none;" บนลิงค์หรือคอนเทนเนอร์หลัก วางไว้ใต้องค์ประกอบอื่นที่มีดัชนี z สูงกว่า ตรวจสอบว่าใครไม่เข้าใจการใช้อักษรตัวพิมพ์ใหญ่ ตรวจสอบว่าใครพยายามโพสต์คำตอบ แต่แคปต์ชาล้มเหลวเสมอ ตรวจจับคำขอ GET ไปยังรีซอร์ส POST เท่านั้น ตรวจจับช่วงเวลาระหว่างคำขอ ตรวจหาลำดับของหน้าที่ร้องขอ ตรวจสอบว่าใคร (อย่างสม่ำเสมอ) ร้องขอทรัพยากร https …
107 web-crawler 

5
วิธีการส่งผ่านอาร์กิวเมนต์ที่ผู้ใช้กำหนดในแมงมุม scrapy
ฉันกำลังพยายามส่งต่ออาร์กิวเมนต์ที่ผู้ใช้กำหนดให้กับแมงมุมของ scrapy ใครสามารถแนะนำวิธีการทำ? ฉันอ่านเกี่ยวกับพารามิเตอร์-aที่ไหนสักแห่ง แต่ไม่รู้ว่าจะใช้อย่างไร

5
วิธีค้นหาลิงค์ / เพจทั้งหมดบนเว็บไซต์
เป็นไปได้ไหมที่จะค้นหาหน้าและลิงค์ทั้งหมดในเว็บไซต์ใด ๆ ฉันต้องการป้อน URL และสร้างแผนผังไดเรกทอรีของลิงก์ทั้งหมดจากไซต์นั้นหรือไม่ ฉันดู HTTrack แล้ว แต่มันดาวน์โหลดทั้งไซต์และฉันแค่ต้องการแผนผังไดเรกทอรี

8
รับรายการ URL จากไซต์ [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน5 ปีที่ผ่านมา ปรับปรุงคำถามนี้ ฉันกำลังปรับใช้ไซต์ทดแทนสำหรับไคลเอนต์ แต่พวกเขาไม่ต้องการให้เพจเก่าทั้งหมดของพวกเขาจบลงในยุค 404 การรักษาโครงสร้าง URL เดิมเป็นไปไม่ได้เพราะมันน่ากลัว ดังนั้นฉันกำลังเขียนตัวจัดการ 404 ซึ่งควรมองหาเพจเก่าที่ถูกร้องขอและทำการเปลี่ยนเส้นทางไปยังเพจใหม่อย่างถาวร ปัญหาคือฉันต้องการรายการ URL ของหน้าเก่าทั้งหมด ฉันสามารถทำได้ด้วยตนเอง แต่ฉันสนใจว่ามีแอพใดบ้างที่จะให้รายชื่อญาติ (เช่น: / page / path ไม่ใช่ http: /.../ page / path) URL ที่เพิ่งให้ที่บ้าน หน้า. เหมือนแมงมุม แต่เป็นคนที่ไม่สนใจเนื้อหานอกเหนือจากการค้นหาหน้าลึก
100 web-crawler 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.