Python การสกัดข้อมูลจาก PDF ที่เข้ารหัส
ฉันเพิ่งสำเร็จการศึกษาด้านคณิตศาสตร์บริสุทธิ์ซึ่งมีหลักสูตรการเขียนโปรแกรมขั้นพื้นฐานเพียงไม่กี่หลักสูตรเท่านั้น ฉันกำลังฝึกงานและฉันมีโครงการวิเคราะห์ข้อมูลภายใน ฉันต้องวิเคราะห์ PDF ภายในของปีที่ผ่านมา PDF นั้น "ปลอดภัย" กล่าวอีกนัยหนึ่งมันถูกเข้ารหัส เราไม่มีรหัสผ่าน PDF ยิ่งกว่านั้นเราไม่แน่ใจว่ามีรหัสผ่านหรือไม่ แต่เรามีเอกสารเหล่านี้ทั้งหมดและเราสามารถอ่านได้ด้วยตนเอง เราสามารถพิมพ์ได้เช่นกัน เป้าหมายคือการอ่านด้วย Python เพราะเป็นภาษาที่เรามีความคิด ก่อนอื่นฉันพยายามอ่าน PDF ด้วยห้องสมุด Python อย่างไรก็ตามไลบรารี Python ที่ฉันพบไม่อ่าน PDF ที่เข้ารหัส ในเวลานั้นฉันไม่สามารถส่งออกข้อมูลโดยใช้ Adobe Reader ได้เช่นกัน ประการที่สองฉันตัดสินใจถอดรหัส PDF ฉันประสบความสำเร็จในการใช้ Python library pykepdf Pykepdfทำงานได้ดีมาก! อย่างไรก็ตามไฟล์ PDF ที่ถอดรหัสแล้วนั้นไม่สามารถอ่านได้เช่นกันกับห้องสมุด Python ของจุดก่อนหน้า ( PyPDF2และTabula ) ในเวลานี้เราได้ทำการปรับปรุงบางอย่างเพราะการใช้ Adobe Reader ฉันสามารถส่งออกข้อมูลจากไฟล์ PDF …