วิธีรับแหล่งหน้าของหน้าผลการค้นหา google ที่เฉพาะเจาะจงได้อย่างไร


0

ฉันต้องการเขียนโค้ดเพื่อให้ชื่อตัวละครในละครโทรทัศน์หรือภาพยนตร์โดยใช้เชลล์สคริปต์ ... ฉันวางแผนที่จะทำอย่างนั้นโดย extarcting แหล่งที่มาของหน้าผลการค้นหาของ google ที่ฉันต้องการหน้านี้ แหล่งที่มาของลิงก์ ... สำหรับเช่นนี้ ลิงค์ ฉันลองใช้ wget โดยตรง แต่ให้รหัสข้อผิดพลาด 8 และยังงอ -L ฟีดแหล่งที่มาของหน้า "ผิด"


คุณแน่ใจหรือว่าเป็นแหล่งที่มาของหน้า "ผิด" Google มีแนวโน้มที่จะใช้รหัสฝั่งไคลเอ็นต์ (JavaScript) เพื่อเติมข้อมูลอักขระเมื่อโหลดหน้าเว็บเช่นแหล่งที่มาของหน้าเว็บที่คุณได้รับจะไม่ดูเหมือนแหล่งที่มาของเบราว์เซอร์เนื่องจากแหล่งที่แสดงในเบราว์เซอร์ถูกเปลี่ยนโดย JavaScript หลังจากโหลดหน้าเว็บ . wget และ curl ห้ามทำการประมวลผลใด ๆ
varlogtim

คำตอบ:


0

หากคุณดูข้อความบันทึกของ wget คุณจะเห็นว่าในที่สุดคุณจะได้รับ "403 ต้องห้าม" จาก Google

ดังนั้นรู้สึกเชิญให้ดู คำตอบ Stackoverflow นี้ . Google ไม่ต้องการให้หน้าผลการค้นหาใช้วิธีอัตโนมัติและฉันคิดว่าพวกเขามีเหตุผลที่ดี

หากคุณต้องการทำเช่นนี้คุณสามารถตั้งค่าสตริงตัวแทนผู้ใช้อื่นด้วย wget --user-agent=Chrome -O results.html 'https://www.google.com/search?hl=en&q=iron%20man%20character%20names'

อย่างไรก็ตามคำตอบที่คุณได้รับจาก Google นั้นไม่ใช่เรื่องง่ายที่จะแยกวิเคราะห์ - บางทีคุณสามารถใช้ฐานข้อมูลภาพยนตร์สำหรับงานนี้ได้?


ที่ใช้งานได้จริง ๆ แล้วผลลัพธ์ไม่ใช่เรื่องง่ายที่จะถูกแยกวิเคราะห์ .. และเกี่ยวกับการใช้ภาพยนตร์ DB จริง ๆ แล้วสิ่งที่ฉันต้องการจะทำคือทั่วไปมากขึ้นและชิ้นส่วนของมัสยิดที่มีปัญหา (ซึ่งคุณแก้ไข) ฉัน ...
juggernauthk108
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.