ฉันกำลังมองหาวิธี "หนึ่งคลิก" ในการรับ PDF ใด ๆ และแปลงเป็นข้อความธรรมดา นึกคิดบน OSX หรือ Linux
เป็นการดีที่โซลูชันจะมีฟังก์ชั่น OCR แต่ไม่จำเป็นต้องเป็นสิ่งจำเป็น
ลำดับความสำคัญสูงสุดคือมีบางสิ่งที่สามารถใช้ไฟล์ใดก็ได้โดยไม่ต้องกำหนดค่า
ฉันกำลังมองหาวิธี "หนึ่งคลิก" ในการรับ PDF ใด ๆ และแปลงเป็นข้อความธรรมดา นึกคิดบน OSX หรือ Linux
เป็นการดีที่โซลูชันจะมีฟังก์ชั่น OCR แต่ไม่จำเป็นต้องเป็นสิ่งจำเป็น
ลำดับความสำคัญสูงสุดคือมีบางสิ่งที่สามารถใช้ไฟล์ใดก็ได้โดยไม่ต้องกำหนดค่า
คำตอบ:
มีxpdfซึ่งรวมถึงpdftotext
ไบนารี
Pdftotext แปลงไฟล์ Portable Document Format (PDF) เป็นข้อความธรรมดา
บน Linux มีโปรแกรมติดตั้งให้ใช้งาน ดูเหมือนว่ามันจะมาในpoppler-utils
แพ็คเกจด้วย บน OS X คุณสามารถติดตั้งได้โดยใช้Homebrew (ติดตั้งก่อน) จากนั้นใช้
brew install homebrew/x11/xpdf
ซึ่งจะดาวน์โหลดไฟล์ต้นฉบับและรวบรวมสำหรับ OS X หลังจากนั้นให้ใช้ดังนี้
pdftotext your_pdf_file.pdf
ซึ่งจะสร้างไฟล์ข้อความธรรมดา มีสองตัวเลือกเช่นกันตรวจสอบman pdftotext
รายละเอียดเพิ่มเติม
อีกทางเลือกหนึ่งคือpopplerใน OSX:
brew install poppler
ใน Debian และผองเพื่อน
apt-get install poppler-utils
brew install Caskroom/cask/pdftotext
เครื่องมือที่ดีสำหรับ Windows คือA-PDF Text Extractor
brew install homebrew/x11/xpdf