วิธีการค้นหา ลิงค์ PDF บนหน้าเว็บที่กำหนด?


0

ฉันมีเพจ RSS นี้ซึ่งมีลิงก์จำนวนมากไปยังไฟล์. pdf

สิ่งคือการค้นหาสตริงบางอย่างภายในนั้น ไฟล์ pdf โดยไม่จำเป็นต้องเปิดดูทีละไฟล์และทำการค้นหาแต่ละไฟล์เพราะมันมีจำนวนมาก!

ไม่มีใครรู้วิธีที่เราอาจต้องค้นหาในไฟล์ PDF เหล่านั้น?

ความคิดใด ๆ ส่วนขยายเบราว์เซอร์ใด ๆ ฟีด RSS ใดที่อนุญาตให้ใช้

คำตอบ:


1

คุณสามารถใช้ Google ได้ตลอดเวลา

filetype:pdf site:http://xyz.com/abc <your keyword(s) here>จะทำงานให้คุณ คุณเพียงแค่ต้องค้นหาโดเมนทั่วไปในไฟล์ PDF โดยที่ฉันหมายความว่าถ้ามีสองไฟล์ PDF บนหน้าเว็บที่ตั้งอยู่ที่http://xyz.com/abc/1.pdfและhttp://xyz.com/abc/2.pdfsite:http://xyz.com/abcแล้วคุณสามารถใช้ เพียง แต่site:http://xyz.comจะทำงานมากเกินไป แต่จะนำคุณไฟล์ PDF ทั้งหมดที่พบบนเว็บไซต์

ดังนั้นคุณต้องการที่จะเฉพาะเจาะจง


ซึ่งแน่นอนว่าจะใช้งานได้ต่อเมื่อเครื่องมือค้นหาได้รับอนุญาตให้จัดทำดัชนีไฟล์เหล่านั้น
Karan

@ Karan ฉันค่อนข้างแน่ใจว่าเป็นกรณีที่นี่
Parth Kohli

อาจเป็นกรณีที่นี่อาจ (ฉันไม่ได้รำคาญที่จะตรวจสอบ) แต่ความคิดเห็นของฉันแน่นอนภาคผนวกของคำตอบของคุณเนื่องจากคนอื่น ๆ นอกเหนือจาก OP จะอ่านในภายหลังและในกรณีของพวกเขาอาจจะแตกต่างกันและเพื่อให้พวกเขาสามารถ 'T เสมอใช้ Google
Karan

ไม่ส่งคืนผลลัพธ์ใด ๆ นี่คือไซต์ที่เป็นปัญหาโดยใช้คำสั่งที่แน่นอน: filetype:pdf site:http://dre.pt/sug/notificacoes/rss.asp?id=212 Guarda BragaGuarda และ Braga เป็นคำหลัก
MEM

ตกลงจากนั้นไม่อนุญาตให้สร้างดัชนีไฟล์เหล่านั้นหรือคำหลักเหล่านี้ไม่ได้อยู่ในไฟล์ ลองfiletype:pdf site:http://dre.pt Guarda Braga
Parth Kohli

0

ดาวน์โหลดไฟล์ก่อนจากนั้นค้นหา

find /path -name '*.pdf' -ls -exec pdftotext {} - \; | grep "your query"


ขอบคุณ ฉันไม่ได้ตั้งใจจะดาวน์โหลดมันทุกครั้งที่ฉันค้นหา แต่คำสั่งนั้นดีจริงๆ :)
MEM
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.