คำถามติดแท็ก ghostscript

8
ฉันจะแยกแบบอักษรที่ฝังจาก PDF เป็นไฟล์แบบอักษรที่ถูกต้องได้อย่างไร
ฉันตระหนักถึงpdftk.exeยูทิลิตี้ที่สามารถระบุแบบอักษรที่ใช้โดย PDF และพวกเขาจะฝังหรือไม่ ขณะนี้ปัญหา: เนื่องจากฉันมีไฟล์ PDF ที่มีแบบอักษรฝังตัว - ฉันจะแยกแบบอักษรเหล่านั้นในลักษณะที่พวกเขาสามารถใช้งานได้เป็นไฟล์แบบอักษรปกติได้อย่างไร มีเครื่องมือ (ฟรีหรือไม่) ที่สามารถทำเช่นนั้นได้? นอกจากนี้: สามารถทำได้ด้วยการเขียนโปรแกรมพูด iText?

15
วิธีการแยกข้อความจาก PDF? [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน5 ปีที่ผ่านมา ปรับปรุงคำถามนี้ ใครสามารถแนะนำไลบรารี่ / API สำหรับการแยกข้อความและรูปภาพจาก PDF? เราจำเป็นต้องสามารถรับข้อความที่อยู่ในพื้นที่ที่รู้จักกันดีของเอกสารดังนั้น API จะต้องให้ข้อมูลตำแหน่งของแต่ละองค์ประกอบบนหน้าเรา เราต้องการให้ข้อมูลนั้นส่งออกในรูปแบบxmlหรือ jsonขณะนี้เรากำลังดูPdfTextStreamซึ่งดูค่อนข้างดี แต่อยากได้ยินประสบการณ์และคำแนะนำจากคนอื่น ๆ มีทางเลือก (รายการเชิงพาณิชย์หรือฟรี) สำหรับการแยกข้อความจาก pdf โดยทางโปรแกรมหรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.