การเขียนโปรแกรม screen-scraping

26

ฉันจะป้องกันการขูดเว็บไซต์ได้อย่างไร [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน4 ปีที่แล้ว ปรับปรุงคำถามนี้ ฉันมีเว็บไซต์เพลงขนาดใหญ่พอสมควรพร้อมฐานข้อมูลศิลปินขนาดใหญ่ ฉันสังเกตเห็นเว็บไซต์เพลงอื่น ๆ คัดลอกข้อมูลเว็บไซต์ของเรา (ฉันป้อนชื่อศิลปินที่นี่และจากนั้น Google ทำการค้นหาพวกเขา) ฉันจะป้องกันการขูดหน้าจอได้อย่างไร เป็นไปได้ไหม

301 html architecture screen-scraping piracy-prevention

10

การขูดเว็บด้วย Python [ปิด]

ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน10 เดือนที่ผ่านมา ปรับปรุงคำถามนี้ ฉันต้องการคว้าเวลาพระอาทิตย์ขึ้น / ตกทุกวันจากเว็บไซต์ จะสามารถขูดเนื้อหาเว็บด้วย Python ได้หรือไม่ โมดูลที่ใช้มีอะไรบ้าง? มีบทช่วยสอนหรือไม่

183 python screen-scraping

8

สามารถใช้ scrapy เพื่อขูดเนื้อหาแบบไดนามิกจากเว็บไซต์ที่ใช้ AJAX ได้หรือไม่

เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ Python และฉันกำลังจุ่มมือลงในการสร้าง web-scraper มันไม่มีอะไรแฟนซีเลย วัตถุประสงค์เพียงอย่างเดียวคือการลบข้อมูลออกจากเว็บไซต์การเดิมพันและนำข้อมูลนี้ไปไว้ใน Excel ปัญหาส่วนใหญ่แก้ไขได้และฉันมีความยุ่งเหยิงเล็กน้อย อย่างไรก็ตามฉันกำลังกระโดดข้ามสิ่งกีดขวางขนาดใหญ่ไปหนึ่งประเด็น หากเว็บไซต์โหลดตารางม้าและแสดงรายการราคาการเดิมพันปัจจุบันข้อมูลนี้ไม่ได้อยู่ในไฟล์ต้นฉบับ เบาะแสคือว่าข้อมูลนี้มีการถ่ายทอดสดในบางครั้งโดยมีการอัปเดตตัวเลขจากเซิร์ฟเวอร์ระยะไกลบางแห่งอย่างชัดเจน HTML บนพีซีของฉันมีช่องโหว่ที่เซิร์ฟเวอร์ของพวกเขากำลังผลักดันข้อมูลที่น่าสนใจทั้งหมดที่ฉันต้องการ ตอนนี้ประสบการณ์ของฉันกับเนื้อหาเว็บแบบไดนามิกอยู่ในระดับต่ำดังนั้นสิ่งนี้เป็นสิ่งที่ฉันมีปัญหาในการหัวของฉัน ฉันคิดว่า Java หรือ Javascript เป็นกุญแจสำคัญซึ่งจะปรากฏขึ้นบ่อยครั้ง มีดโกนเป็นเพียงเครื่องมือเปรียบเทียบราคา บางเว็บไซต์มี API แต่ฉันต้องการสิ่งนี้สำหรับเว็บไซต์ที่ไม่มี ฉันใช้ไลบรารี่กับ Python 2.7 ฉันขอโทษถ้าคำถามนี้เปิดกว้างเกินไป ในระยะสั้นคำถามของฉันคือ: จะใช้ scrapy อย่างไรในการขูดข้อมูลไดนามิกนี้เพื่อให้สามารถใช้งานได้? เพื่อที่ฉันสามารถขูดข้อมูลการเดิมพันนี้ในเวลาจริง

145 javascript python ajax screen-scraping scrapy

2

วิธีใดดีที่สุดในการดึงข้อมูลจากเว็บไซต์ [ปิด]

ปิด . คำถามนี้เป็นคำถามความคิดเห็นตาม ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบได้ด้วยข้อเท็จจริงและการอ้างอิงโดยแก้ไขโพสต์นี้ ปิดให้บริการใน6 ปีที่ผ่านมา ปรับปรุงคำถามนี้ ฉันต้องการแยกเนื้อหาจากเว็บไซต์ แต่แอปพลิเคชันไม่มีอินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชันหรือกลไกอื่นในการเข้าถึงข้อมูลนั้นโดยใช้โปรแกรม ฉันพบเครื่องมือของบุคคลที่สามที่มีประโยชน์ที่เรียกว่าImport.ioซึ่งมีฟังก์ชันคลิกแล้วไปสำหรับการขูดหน้าเว็บและสร้างชุดข้อมูลสิ่งเดียวคือฉันต้องการเก็บข้อมูลไว้ในเครื่องและฉันไม่ต้องการสมัครแผนการสมัครสมาชิกใด ๆ . บริษัท นี้ใช้เทคนิคอะไรในการคัดลอกหน้าเว็บและสร้างชุดข้อมูล ฉันพบกรอบการขูดเว็บpjscrape & Scrapyพวกเขาสามารถให้คุณสมบัติดังกล่าวได้

107 api web-scraping screen-scraping

12

PhantomJS ไม่สามารถเปิดไซต์ HTTPS ได้

ฉันใช้รหัสต่อไปนี้ตามตัวอย่าง loadpeed.js เพื่อเปิดไซต์ https: // ซึ่งต้องมีการตรวจสอบสิทธิ์เซิร์ฟเวอร์ http ด้วย var page = require('webpage').create(), system = require('system'), t, address; page.settings.userName = 'myusername'; page.settings.password = 'mypassword'; if (system.args.length === 1) { console.log('Usage: scrape.js <some URL>'); phantom.exit(); } else { t = Date.now(); address = system.args[1]; page.open(address, function (status) { if (status !== 'success') …

104 https screen-scraping phantomjs

คำถามติดแท็ก screen-scraping