การเขียนโปรแกรม scrapy

3

เบราว์เซอร์ที่ไม่มีหัวและการขูด - โซลูชัน [ปิด]

ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน5 ปีที่ผ่านมา ฉันกำลังพยายามใส่รายการโซลูชันที่เป็นไปได้สำหรับชุดการทดสอบอัตโนมัติของเบราว์เซอร์และแพลตฟอร์มเบราว์เซอร์ที่ไม่มีหัวที่สามารถคัดลอกได้ การทดสอบ / การเรียกดูเบราว์เซอร์: Selenium - ธงหลายภาษาในการทำงานอัตโนมัติของเบราว์เซอร์การเชื่อมโยงสำหรับ Python, Ruby, JavaScript, C #, Haskell และอื่น ๆ , IDE สำหรับ Firefox (เป็นส่วนเสริม) สำหรับการทดสอบที่รวดเร็วขึ้น สามารถทำหน้าที่เป็นเซิร์ฟเวอร์และมีคุณสมบัติมากมาย JAVASCRIPT PhantomJS - JavaScriptทดสอบหัวขาดกับการจับภาพหน้าจอและระบบอัตโนมัติที่ใช้Webkit เป็นเวอร์ชั่น 1.8 ของ WebDriver API ของ Selenium ถูกนำมาใช้ดังนั้นคุณสามารถใช้การผูก WebDriver ใด ๆ และการทดสอบจะเข้ากันได้กับ Selenium SlimerJS - …

368 selenium web-scraping scrapy phantomjs casperjs

23

ไม่สามารถติดตั้ง Lxml บน Mac os x 10.9

ฉันต้องการติดตั้ง Lxml ดังนั้นฉันจึงสามารถติดตั้ง Scrapy ได้ เมื่อฉันอัปเดต Mac ของฉันวันนี้จะไม่ให้ฉันติดตั้ง lxml อีกครั้งฉันจะได้รับข้อผิดพลาดต่อไปนี้: In file included from src/lxml/lxml.etree.c:314: /private/tmp/pip_build_root/lxml/src/lxml/includes/etree_defs.h:9:10: fatal error: 'libxml/xmlversion.h' file not found #include "libxml/xmlversion.h" ^ 1 error generated. error: command 'cc' failed with exit status 1 ฉันได้ลองใช้ brew เพื่อติดตั้ง libxml2 และ libxslt ทั้งคู่ติดตั้งได้ดี แต่ฉันยังไม่สามารถติดตั้ง lxml ได้ ครั้งล่าสุดที่ฉันติดตั้งฉันต้องเปิดใช้งานเครื่องมือสำหรับนักพัฒนาซอฟต์แวร์บน Xcode แต่เนื่องจากได้รับการอัปเดตเป็น Xcode …

234 python xcode macos scrapy lxml

18

“ OSError: [Errno 1] ไม่อนุญาตให้ใช้งาน” เมื่อติดตั้ง Scrapy ใน OSX 10.11 (El Capitan) (การป้องกันความสมบูรณ์ของระบบ)

ฉันพยายามติดตั้ง Scrapy Python framework ใน OSX 10.11 (El Capitan) ผ่านทาง pip สคริปต์การติดตั้งจะดาวน์โหลดโมดูลที่จำเป็นและในบางจุดจะส่งคืนข้อผิดพลาดต่อไปนี้: OSError: [Errno 1] Operation not permitted: '/tmp/pip-nIfswi-uninstall/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/six-1.4.1-py2.7.egg-info' ฉันพยายามปิดใช้งานคุณสมบัติรูตใน OSX 10.11 ด้วยคำสั่ง: sudo nvram boot-args="rootless=0";sudo reboot แต่ฉันยังคงได้รับข้อผิดพลาดเดียวกันเมื่อรีบูตเครื่อง เบาะแสหรือแนวคิดใด ๆ จาก StackExchangers เพื่อนของฉัน หากช่วยได้เอาต์พุตสคริปต์แบบเต็มจะเป็นดังต่อไปนี้: sudo -s pip install scrapy Collecting scrapy Downloading Scrapy-1.0.2-py2-none-any.whl (290kB) 100% |████████████████████████████████| 290kB 345kB/s Requirement already …

206 python macos python-2.7 scrapy

8

สามารถใช้ scrapy เพื่อขูดเนื้อหาแบบไดนามิกจากเว็บไซต์ที่ใช้ AJAX ได้หรือไม่

เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ Python และฉันกำลังจุ่มมือลงในการสร้าง web-scraper มันไม่มีอะไรแฟนซีเลย วัตถุประสงค์เพียงอย่างเดียวคือการลบข้อมูลออกจากเว็บไซต์การเดิมพันและนำข้อมูลนี้ไปไว้ใน Excel ปัญหาส่วนใหญ่แก้ไขได้และฉันมีความยุ่งเหยิงเล็กน้อย อย่างไรก็ตามฉันกำลังกระโดดข้ามสิ่งกีดขวางขนาดใหญ่ไปหนึ่งประเด็น หากเว็บไซต์โหลดตารางม้าและแสดงรายการราคาการเดิมพันปัจจุบันข้อมูลนี้ไม่ได้อยู่ในไฟล์ต้นฉบับ เบาะแสคือว่าข้อมูลนี้มีการถ่ายทอดสดในบางครั้งโดยมีการอัปเดตตัวเลขจากเซิร์ฟเวอร์ระยะไกลบางแห่งอย่างชัดเจน HTML บนพีซีของฉันมีช่องโหว่ที่เซิร์ฟเวอร์ของพวกเขากำลังผลักดันข้อมูลที่น่าสนใจทั้งหมดที่ฉันต้องการ ตอนนี้ประสบการณ์ของฉันกับเนื้อหาเว็บแบบไดนามิกอยู่ในระดับต่ำดังนั้นสิ่งนี้เป็นสิ่งที่ฉันมีปัญหาในการหัวของฉัน ฉันคิดว่า Java หรือ Javascript เป็นกุญแจสำคัญซึ่งจะปรากฏขึ้นบ่อยครั้ง มีดโกนเป็นเพียงเครื่องมือเปรียบเทียบราคา บางเว็บไซต์มี API แต่ฉันต้องการสิ่งนี้สำหรับเว็บไซต์ที่ไม่มี ฉันใช้ไลบรารี่กับ Python 2.7 ฉันขอโทษถ้าคำถามนี้เปิดกว้างเกินไป ในระยะสั้นคำถามของฉันคือ: จะใช้ scrapy อย่างไรในการขูดข้อมูลไดนามิกนี้เพื่อให้สามารถใช้งานได้? เพื่อที่ฉันสามารถขูดข้อมูลการเดิมพันนี้ในเวลาจริง

145 javascript python ajax screen-scraping scrapy

8

ความแตกต่างระหว่าง BeautifulSoup และ Scrapy Crawler

ฉันต้องการสร้างเว็บไซต์ที่แสดงการเปรียบเทียบระหว่างราคาสินค้าของ amazon กับ e-bay ข้อใดจะทำงานได้ดีกว่าและเพราะเหตุใด ผมค่อนข้างคุ้นเคยกับBeautifulSoupแต่ไม่มากกับScrapy ตีนตะขาบ

139 python beautifulsoup scrapy web-crawler

17

การขูด: SSL: CERTIFICATE_VERIFY_FAILED ข้อผิดพลาดสำหรับ http://en.wikipedia.org

ฉันกำลังฝึกโค้ดจาก 'Web Scraping with Python' และมีปัญหาใบรับรองนี้อยู่เรื่อย ๆ : from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in pages: #We have encountered a new …

123 python web-scraping beautifulsoup scrapy ssl-certificate

5

วิธีการส่งผ่านอาร์กิวเมนต์ที่ผู้ใช้กำหนดในแมงมุม scrapy

ฉันกำลังพยายามส่งต่ออาร์กิวเมนต์ที่ผู้ใช้กำหนดให้กับแมงมุมของ scrapy ใครสามารถแนะนำวิธีการทำ? ฉันอ่านเกี่ยวกับพารามิเตอร์-aที่ไหนสักแห่ง แต่ไม่รู้ว่าจะใช้อย่างไร

102 python scrapy web-crawler

10

วิธีใช้ PyCharm เพื่อดีบักโครงการ Scrapy

ฉันกำลังทำงานกับ Scrapy 0.20 ด้วย Python 2.7 ฉันพบว่า PyCharm มีดีบักเกอร์ Python ที่ดี ฉันต้องการทดสอบแมงมุม Scrapy โดยใช้มัน ใครรู้วิธีทำกรุณา? สิ่งที่ฉันได้ลอง อันที่จริงฉันพยายามเรียกใช้สไปเดอร์ตามสคริปต์ ด้วยเหตุนี้ฉันจึงสร้างสคริปต์นั้นขึ้นมา จากนั้นฉันพยายามเพิ่มโครงการ Scrapy ของฉันไปยัง PyCharm เป็นโมเดลดังนี้: File->Setting->Project structure->Add content root. แต่ฉันไม่รู้ว่าฉันต้องทำอะไรอีก

100 python debugging python-2.7 scrapy pycharm

คำถามติดแท็ก scrapy