คำถามติดแท็ก scrapy

3
เบราว์เซอร์ที่ไม่มีหัวและการขูด - โซลูชัน [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน5 ปีที่ผ่านมา ฉันกำลังพยายามใส่รายการโซลูชันที่เป็นไปได้สำหรับชุดการทดสอบอัตโนมัติของเบราว์เซอร์และแพลตฟอร์มเบราว์เซอร์ที่ไม่มีหัวที่สามารถคัดลอกได้ การทดสอบ / การเรียกดูเบราว์เซอร์: Selenium - ธงหลายภาษาในการทำงานอัตโนมัติของเบราว์เซอร์การเชื่อมโยงสำหรับ Python, Ruby, JavaScript, C #, Haskell และอื่น ๆ , IDE สำหรับ Firefox (เป็นส่วนเสริม) สำหรับการทดสอบที่รวดเร็วขึ้น สามารถทำหน้าที่เป็นเซิร์ฟเวอร์และมีคุณสมบัติมากมาย JAVASCRIPT PhantomJS - JavaScriptทดสอบหัวขาดกับการจับภาพหน้าจอและระบบอัตโนมัติที่ใช้Webkit เป็นเวอร์ชั่น 1.8 ของ WebDriver API ของ Selenium ถูกนำมาใช้ดังนั้นคุณสามารถใช้การผูก WebDriver ใด ๆ และการทดสอบจะเข้ากันได้กับ Selenium SlimerJS - …

23
ไม่สามารถติดตั้ง Lxml บน Mac os x 10.9
ฉันต้องการติดตั้ง Lxml ดังนั้นฉันจึงสามารถติดตั้ง Scrapy ได้ เมื่อฉันอัปเดต Mac ของฉันวันนี้จะไม่ให้ฉันติดตั้ง lxml อีกครั้งฉันจะได้รับข้อผิดพลาดต่อไปนี้: In file included from src/lxml/lxml.etree.c:314: /private/tmp/pip_build_root/lxml/src/lxml/includes/etree_defs.h:9:10: fatal error: 'libxml/xmlversion.h' file not found #include "libxml/xmlversion.h" ^ 1 error generated. error: command 'cc' failed with exit status 1 ฉันได้ลองใช้ brew เพื่อติดตั้ง libxml2 และ libxslt ทั้งคู่ติดตั้งได้ดี แต่ฉันยังไม่สามารถติดตั้ง lxml ได้ ครั้งล่าสุดที่ฉันติดตั้งฉันต้องเปิดใช้งานเครื่องมือสำหรับนักพัฒนาซอฟต์แวร์บน Xcode แต่เนื่องจากได้รับการอัปเดตเป็น Xcode …
234 python  xcode  macos  scrapy  lxml 

18
“ OSError: [Errno 1] ไม่อนุญาตให้ใช้งาน” เมื่อติดตั้ง Scrapy ใน OSX 10.11 (El Capitan) (การป้องกันความสมบูรณ์ของระบบ)
ฉันพยายามติดตั้ง Scrapy Python framework ใน OSX 10.11 (El Capitan) ผ่านทาง pip สคริปต์การติดตั้งจะดาวน์โหลดโมดูลที่จำเป็นและในบางจุดจะส่งคืนข้อผิดพลาดต่อไปนี้: OSError: [Errno 1] Operation not permitted: '/tmp/pip-nIfswi-uninstall/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/six-1.4.1-py2.7.egg-info' ฉันพยายามปิดใช้งานคุณสมบัติรูตใน OSX 10.11 ด้วยคำสั่ง: sudo nvram boot-args="rootless=0";sudo reboot แต่ฉันยังคงได้รับข้อผิดพลาดเดียวกันเมื่อรีบูตเครื่อง เบาะแสหรือแนวคิดใด ๆ จาก StackExchangers เพื่อนของฉัน หากช่วยได้เอาต์พุตสคริปต์แบบเต็มจะเป็นดังต่อไปนี้: sudo -s pip install scrapy Collecting scrapy Downloading Scrapy-1.0.2-py2-none-any.whl (290kB) 100% |████████████████████████████████| 290kB 345kB/s Requirement already …

8
สามารถใช้ scrapy เพื่อขูดเนื้อหาแบบไดนามิกจากเว็บไซต์ที่ใช้ AJAX ได้หรือไม่
เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ Python และฉันกำลังจุ่มมือลงในการสร้าง web-scraper มันไม่มีอะไรแฟนซีเลย วัตถุประสงค์เพียงอย่างเดียวคือการลบข้อมูลออกจากเว็บไซต์การเดิมพันและนำข้อมูลนี้ไปไว้ใน Excel ปัญหาส่วนใหญ่แก้ไขได้และฉันมีความยุ่งเหยิงเล็กน้อย อย่างไรก็ตามฉันกำลังกระโดดข้ามสิ่งกีดขวางขนาดใหญ่ไปหนึ่งประเด็น หากเว็บไซต์โหลดตารางม้าและแสดงรายการราคาการเดิมพันปัจจุบันข้อมูลนี้ไม่ได้อยู่ในไฟล์ต้นฉบับ เบาะแสคือว่าข้อมูลนี้มีการถ่ายทอดสดในบางครั้งโดยมีการอัปเดตตัวเลขจากเซิร์ฟเวอร์ระยะไกลบางแห่งอย่างชัดเจน HTML บนพีซีของฉันมีช่องโหว่ที่เซิร์ฟเวอร์ของพวกเขากำลังผลักดันข้อมูลที่น่าสนใจทั้งหมดที่ฉันต้องการ ตอนนี้ประสบการณ์ของฉันกับเนื้อหาเว็บแบบไดนามิกอยู่ในระดับต่ำดังนั้นสิ่งนี้เป็นสิ่งที่ฉันมีปัญหาในการหัวของฉัน ฉันคิดว่า Java หรือ Javascript เป็นกุญแจสำคัญซึ่งจะปรากฏขึ้นบ่อยครั้ง มีดโกนเป็นเพียงเครื่องมือเปรียบเทียบราคา บางเว็บไซต์มี API แต่ฉันต้องการสิ่งนี้สำหรับเว็บไซต์ที่ไม่มี ฉันใช้ไลบรารี่กับ Python 2.7 ฉันขอโทษถ้าคำถามนี้เปิดกว้างเกินไป ในระยะสั้นคำถามของฉันคือ: จะใช้ scrapy อย่างไรในการขูดข้อมูลไดนามิกนี้เพื่อให้สามารถใช้งานได้? เพื่อที่ฉันสามารถขูดข้อมูลการเดิมพันนี้ในเวลาจริง

8
ความแตกต่างระหว่าง BeautifulSoup และ Scrapy Crawler
ฉันต้องการสร้างเว็บไซต์ที่แสดงการเปรียบเทียบระหว่างราคาสินค้าของ amazon กับ e-bay ข้อใดจะทำงานได้ดีกว่าและเพราะเหตุใด ผมค่อนข้างคุ้นเคยกับBeautifulSoupแต่ไม่มากกับScrapy ตีนตะขาบ

17
การขูด: SSL: CERTIFICATE_VERIFY_FAILED ข้อผิดพลาดสำหรับ http://en.wikipedia.org
ฉันกำลังฝึกโค้ดจาก 'Web Scraping with Python' และมีปัญหาใบรับรองนี้อยู่เรื่อย ๆ : from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in pages: #We have encountered a new …

5
วิธีการส่งผ่านอาร์กิวเมนต์ที่ผู้ใช้กำหนดในแมงมุม scrapy
ฉันกำลังพยายามส่งต่ออาร์กิวเมนต์ที่ผู้ใช้กำหนดให้กับแมงมุมของ scrapy ใครสามารถแนะนำวิธีการทำ? ฉันอ่านเกี่ยวกับพารามิเตอร์-aที่ไหนสักแห่ง แต่ไม่รู้ว่าจะใช้อย่างไร

10
วิธีใช้ PyCharm เพื่อดีบักโครงการ Scrapy
ฉันกำลังทำงานกับ Scrapy 0.20 ด้วย Python 2.7 ฉันพบว่า PyCharm มีดีบักเกอร์ Python ที่ดี ฉันต้องการทดสอบแมงมุม Scrapy โดยใช้มัน ใครรู้วิธีทำกรุณา? สิ่งที่ฉันได้ลอง อันที่จริงฉันพยายามเรียกใช้สไปเดอร์ตามสคริปต์ ด้วยเหตุนี้ฉันจึงสร้างสคริปต์นั้นขึ้นมา จากนั้นฉันพยายามเพิ่มโครงการ Scrapy ของฉันไปยัง PyCharm เป็นโมเดลดังนี้: File->Setting->Project structure->Add content root. แต่ฉันไม่รู้ว่าฉันต้องทำอะไรอีก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.