วิธีรวบรวมข้อมูลรายการ URL จำนวนมาก [ปิด]


1

ฉันมี URL จำนวนมาก ดูเหมือนว่า:

www.example.com/api/users/1.json
www.example.com/api/users/2.json
www.example.com/api/users/3.json

และดำเนินต่อไปประมาณ 400,000 ครั้ง จุดประสงค์คือการค้นหาสตริงข้อความที่เฉพาะเจาะจงในทุกหน้า ไม่มีใครรู้ว่าฉันจะทำอย่างไรกับเรื่องนี้?


1
ระบบปฏิบัติการอะไร สิ่งนี้สามารถทำได้ด้วยสคริปต์ที่ใช้งานง่ายใน Linux โดยใช้ลูปเพื่ออ่าน fe จากนั้นไปที่ wget หรือขดเพื่อดาวน์โหลดเนื้อหาและ grep
davidgo

ฉันสามารถใช้งาน Linux บน VM ได้
DangerBob Gaming

คำตอบ:


0

ฉันไม่มีประสบการณ์กับโครงการนี้ แต่ googling ฉันพบชื่อหนึ่ง Scrapy . มันเขียนใน Python และมีการกล่าวถึงในหลาย ๆ ที่เช่น:

ลิงค์ที่ 2 ด้านบนแสดงตัวอย่างนี้ด้วย:

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class ElectronicsSpider(CrawlSpider):
    name = "electronics"
    allowed_domains = ["www.olx.com.pk"]
    start_urls = [
        'https://www.olx.com.pk/computers-accessories/',
        'https://www.olx.com.pk/tv-video-audio/',
        'https://www.olx.com.pk/games-entertainment/'
    ]

    rules = (
        Rule(LinkExtractor(allow=(), restrict_css=('.pageNextPrev',)),
             callback="parse_item",
             follow=True),)

    def parse_item(self, response):
        print('Processing..' + response.url)

คุณสามารถแก้ไขข้างต้นเพื่อรวม URL ทั้งหมดของคุณหรือใส่ไว้ในไฟล์แยกต่างหากและอ่านไฟล์นั้นผ่าน Python

ถ้าฉันเป็นคุณฉันจะเริ่มต้นด้วยลิงค์ที่ 3 อัญประกาศเนื่องจากโครงการนี้ฟังดูคล้ายกับสิ่งที่คุณพยายามทำให้สำเร็จ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.