ฉันจะรับจำนวนคำของไฟล์ PDF ได้อย่างไร ฉันคิดว่าไฟล์ pdf ส่วนใหญ่ที่ฉันต้องการนับจำนวนคำทั้งหมดมีเลเยอร์ข้อความฝังอยู่ดังนั้นฉันจึงไม่จำเป็นต้องใช้ OCR
ภารกิจเกิดขึ้นจากการค้นหาเอกสารทางวิทยาศาสตร์ที่มีขนาดเท่าที่ทราบเช่น 15000 คำ เอกสาร moders ส่วนใหญ่ได้รับการเผยแพร่ในรูปแบบ pdf
pdftotext
: อย่าลืม epdftotext myfile.pdf - | wc -w
และคุณสามารถใช้คำสั่งเดียว: