ฉันจะรับจำนวนคำของไฟล์ PDF ได้อย่างไร ฉันคิดว่าไฟล์ pdf ส่วนใหญ่ที่ฉันต้องการนับจำนวนคำทั้งหมดมีเลเยอร์ข้อความฝังอยู่ดังนั้นฉันจึงไม่จำเป็นต้องใช้ OCR
ภารกิจเกิดขึ้นจากการค้นหาเอกสารทางวิทยาศาสตร์ที่มีขนาดเท่าที่ทราบเช่น 15000 คำ เอกสาร moders ส่วนใหญ่ได้รับการเผยแพร่ในรูปแบบ pdf


pdftotext: อย่าลืม epdftotext myfile.pdf - | wc -wและคุณสามารถใช้คำสั่งเดียว: