เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ Python และฉันกำลังจุ่มมือลงในการสร้าง web-scraper มันไม่มีอะไรแฟนซีเลย วัตถุประสงค์เพียงอย่างเดียวคือการลบข้อมูลออกจากเว็บไซต์การเดิมพันและนำข้อมูลนี้ไปไว้ใน Excel
ปัญหาส่วนใหญ่แก้ไขได้และฉันมีความยุ่งเหยิงเล็กน้อย อย่างไรก็ตามฉันกำลังกระโดดข้ามสิ่งกีดขวางขนาดใหญ่ไปหนึ่งประเด็น หากเว็บไซต์โหลดตารางม้าและแสดงรายการราคาการเดิมพันปัจจุบันข้อมูลนี้ไม่ได้อยู่ในไฟล์ต้นฉบับ เบาะแสคือว่าข้อมูลนี้มีการถ่ายทอดสดในบางครั้งโดยมีการอัปเดตตัวเลขจากเซิร์ฟเวอร์ระยะไกลบางแห่งอย่างชัดเจน HTML บนพีซีของฉันมีช่องโหว่ที่เซิร์ฟเวอร์ของพวกเขากำลังผลักดันข้อมูลที่น่าสนใจทั้งหมดที่ฉันต้องการ
ตอนนี้ประสบการณ์ของฉันกับเนื้อหาเว็บแบบไดนามิกอยู่ในระดับต่ำดังนั้นสิ่งนี้เป็นสิ่งที่ฉันมีปัญหาในการหัวของฉัน
ฉันคิดว่า Java หรือ Javascript เป็นกุญแจสำคัญซึ่งจะปรากฏขึ้นบ่อยครั้ง
มีดโกนเป็นเพียงเครื่องมือเปรียบเทียบราคา บางเว็บไซต์มี API แต่ฉันต้องการสิ่งนี้สำหรับเว็บไซต์ที่ไม่มี ฉันใช้ไลบรารี่กับ Python 2.7
ฉันขอโทษถ้าคำถามนี้เปิดกว้างเกินไป ในระยะสั้นคำถามของฉันคือ: จะใช้ scrapy อย่างไรในการขูดข้อมูลไดนามิกนี้เพื่อให้สามารถใช้งานได้? เพื่อที่ฉันสามารถขูดข้อมูลการเดิมพันนี้ในเวลาจริง
Firefox
ขยายบางอย่างเช่นhttpFox
หรือliveHttpHeaders
โหลดหน้าเว็บที่ใช้คำขอ ajax Scrapy ไม่ได้ระบุคำขอ ajax โดยอัตโนมัติคุณต้องค้นหา URL ajax ที่เหมาะสมด้วยตนเองแล้วทำการร้องขอด้วย