ฉันจะขูดเฉพาะข้อมูลคำจากเว็บไซต์ได้อย่างไร [ซ้ำ]


-2

คำถามนี้มีคำตอบอยู่ที่นี่แล้ว:

ฉันต้องการดาวน์โหลดเนื้อหาคำทั้งหมดจากเว็บไซต์เฉพาะ บันทึกผลลัพธ์ใน MS Word, Excel หรือ Notepad และตรวจสอบว่าคำใดทำซ้ำบ่อยที่สุดและกี่ครั้ง


สิ่งที่คุณทำสำเร็จจนถึงขณะนี้?
Karan

คำตอบ:


0

สิ่งนี้อาจเป็นเรื่องยุ่งยากเนื่องจากคุณต้องดาวน์โหลด HTML เพื่อไปยังส่วนที่เหลือ โชคดีที่ปัญหาได้รับการแก้ไขแล้ว ใช้ Wget ดาวน์โหลด (รวมถึงไบนารีของ Windows) ที่นี่ และคู่มือที่นี่

ฉันให้ตัวยึดสมอสำหรับตัวเลือก "- ยอมรับ" ซึ่ง จำกัด ประเภทของไฟล์ที่บันทึกไว้ คุณจะต้องมิกซ์มันด้วย - มิร์เรอร์และอาจเป็นตัวเลือกความลึกสูงสุด ระวัง "span hosts" ถ้าคุณได้รับข้อมูลน้อยกว่าที่คุณต้องการ

ฉันคิดว่าคำตอบนั้นเป็นคำถาม - ถ้าคุณต้องการความช่วยเหลือในการนับคำ (หรือแปลงคำ / excel เป็นข้อความโดยทางโปรแกรม) นั่นอาจเป็นคำถามใหม่


ฉันคิดว่าคุณไม่มีจุดประสงค์ของคำถาม OP: วิธีรับเฉพาะคำเท่านั้นไม่ใช่แท็ก HTML และเช่นนั้นจากซอร์สโค้ด
Zero3

อาจจะใช่การกล่าวถึงคำว่าอาจเป็นปลาเฮอริ่งแดง!
Tom Newton

0

คุณสามารถใช้ powershell เพื่อดาวน์โหลดไฟล์จากนั้นใช้ตัวแยกวิเคราะห์ HTML เพื่อแยกข้อความ คำสั่ง powershell เพื่อดาวน์โหลดเว็บเพจคือ:

Invoke-WebRequest https://google.com -OutFile C:/Users/JohnDoe/Desktop/google.html

นั่นจะบันทึกไฟล์ html ชื่อ "google.html" บนเดสก์ท็อปของคุณ (ถ้าคุณเปลี่ยน JohnDoe เป็น windows ID ของคุณ) จากนั้นคุณสามารถใช้โปรแกรมแยกวิเคราะห์ html ได้ นี่คือลิงค์ไปสู่การเปรียบเทียบ wikipedia ของตัวแยกวิเคราะห์ html: http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.