การขูดเว็บ LinkedIn


11

ฉันเพิ่งค้นพบแพ็คเกจ R ใหม่สำหรับเชื่อมต่อกับ LinkedIn API น่าเสียดายที่ LinkedIn API นั้นค่อนข้าง จำกัด ในการเริ่มต้น ตัวอย่างเช่นคุณสามารถรับข้อมูลพื้นฐานเกี่ยวกับ บริษัท เท่านั้นและข้อมูลนี้แยกออกจากข้อมูลของแต่ละบุคคล ฉันต้องการรับข้อมูลเกี่ยวกับพนักงานทุกคนของ บริษัท ที่กำหนดซึ่งคุณสามารถทำได้ด้วยตนเองบนเว็บไซต์แต่ไม่สามารถทำได้ผ่าน API

import.ioจะสมบูรณ์แบบหากรู้จักการแบ่งหน้า LinkedIn (ดูที่ส่วนท้ายของหน้า)

ไม่มีใครรู้ว่าเครื่องมือขูดเว็บหรือเทคนิคใด ๆ ที่ใช้กับรูปแบบปัจจุบันของเว็บไซต์ LinkedIn หรือวิธีการดัด API เพื่อทำการวิเคราะห์ที่ยืดหยุ่นมากขึ้น? โดยเฉพาะอย่างยิ่งใน R หรือบนเว็บ แต่แน่นอนเปิดให้แนวทางอื่น ๆ


2
การคัดลอกเว็บ LinkedIn ขัดต่อข้อกำหนดในการให้บริการ ดูLinkedIn“ DOs” และ“ ไม่ได้” - ไม่: "ใช้ซอฟต์แวร์อัตโนมัติหรือด้วยตนเองอุปกรณ์หุ่นยนต์สคริปต์วิธีการหรือกระบวนการอื่น ๆ ในการเข้าถึง" ขูด "" รวบรวมข้อมูล "หรือ" แมงมุม "บริการหรือ ข้อมูลหรือข้อมูลที่เกี่ยวข้อง "
Brian Spiering

คำตอบ:


10

Beautiful Soup ได้รับการออกแบบมาโดยเฉพาะสำหรับการรวบรวมข้อมูลและการขูดเว็บ แต่เขียนสำหรับ python ไม่ใช่ R:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/


2
ฉันไม่คิดว่าซุปที่สวยงามได้รับอนุญาตให้คุณย้ำกว่าหน้าจะเปิดออกที่คุณสามารถ ขอบคุณ
christopherlovell

3

Scrapyเป็นห้องสมุด Python ที่ยอดเยี่ยมซึ่งสามารถช่วยให้คุณทำการขูดเว็บไซต์ต่าง ๆ ได้เร็วขึ้นและทำให้โครงสร้างโค้ดของคุณดีขึ้น ไม่สามารถแยกวิเคราะห์ไซต์ทั้งหมดด้วยเครื่องมือแบบคลาสสิกเนื่องจากสามารถใช้การสร้างเนื้อหา JS แบบไดนามิก สำหรับงานนี้จะดีกว่าถ้าใช้ซีลีเนียม (นี่คือกรอบการทดสอบสำหรับเว็บไซต์ แต่มันก็เป็นเครื่องมือขูดเว็บที่ยอดเยี่ยม) นอกจากนี้ยังมีwrapper Pythonสำหรับห้องสมุดนี้ ใน Google คุณสามารถค้นหาเทคนิคเล็กน้อยที่สามารถช่วยคุณใช้ซีลีเนียมในScrapyและทำให้รหัสของคุณชัดเจนจัดระเบียบและคุณสามารถใช้เครื่องมือที่ยอดเยี่ยมสำหรับห้องสมุดScrapy

ฉันคิดว่าซีลีเนียมจะเป็นมีดโกนที่ดีกว่าสำหรับ Linkedin มากกว่าเครื่องมือแบบดั้งเดิม มีจาวาสคริปต์และเนื้อหาแบบไดนามิกจำนวนมาก นอกจากนี้ถ้าคุณต้องการที่จะทำให้การตรวจสอบในบัญชีของคุณและขูดเนื้อหาทั้งหมดที่คุณจะได้รับจำนวนมากของปัญหาที่เกิดขึ้นกับการตรวจสอบคลาสสิกโดยใช้ห้องสมุดง่ายๆเช่นการร้องขอหรือurllib


1

ฉันชอบrvestร่วมกับปลั๊กอิน Chrome SelectorGadget สำหรับการเลือกส่วนที่เกี่ยวข้อง

ฉันใช้ rvest และสร้างสคริปต์ขนาดเล็กเพื่อให้เลขหน้าผ่านฟอรัมโดย:

  1. มองหาวัตถุ "Page n Of m"
  2. แยก m
  3. ขึ้นอยู่กับโครงสร้างหน้าสร้างรายการลิงก์จาก 1 ถึง m (เช่น www.sample.com/page1)
  4. วนซ้ำมีดโกนผ่านรายการลิงก์ทั้งหมด

0

ฉันจะไปกับ beautifulsoup ด้วยถ้าคุณรู้จัก python ในกรณีที่คุณใช้โค้ด javascript / JQuery (และคุณคุ้นเคยกับ node.js) คุณอาจต้องการเช็คเอาต์CoffeeScript (ลองดูบทแนะนำ ) ฉันใช้มันเรียบร้อยแล้วหลายครั้งในการคัดลอกหน้าเว็บ


0

lxmlเป็นไลบรารี่เว็บที่ดีใน Python Beautiful Soup เป็นเสื้อคลุมทับ lxml ดังนั้น lxml จึงเร็วกว่าซุปที่คัดออกมาและสวยงามและมีช่วงการเรียนรู้ที่ง่ายกว่ามาก

นี่คือตัวอย่างของมีดโกนที่ฉันสร้างขึ้นสำหรับโครงการส่วนบุคคลซึ่งสามารถทำซ้ำผ่านหน้าเว็บ


0

BeautifulSoup ไม่ทำงานบน LinkedIn คนกระท่อนกระแท่นละเมิดนโยบาย Octoparse สำหรับ Windows เท่านั้น มีวิธีอื่นอีกไหม? ฉันต้องการที่จะดึงข้อมูลคนที่คล้ายกันสำหรับบัญชีของบุคคล กรุณาช่วย!


1
กรุณาโพสต์สิ่งนี้เป็นความคิดเห็นหรือถามคำถามใหม่
christopherlovell

นี่เป็นข้อมูลที่สำคัญ แต่โปรดลบคำถามออกหากนี่น่าจะเป็นคำตอบ
Pithikos

0

ที่นี่ฉันแบ่งปันประสบการณ์ที่ประสบความสำเร็จของฉัน

Octoparse เป็นใหญ่เครื่องมือขูดเว็บฟรี ฉันใช้มันขูดข้อมูล Linkedin ประสบความสำเร็จและที่นี่เป็นวิดีโอกวดวิชารายละเอียดเพื่อดึงข้อมูลจาก Linkedin

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.