คำถามติดแท็ก extraction


15
วิธีการแยกข้อความจาก PDF? [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน5 ปีที่ผ่านมา ปรับปรุงคำถามนี้ ใครสามารถแนะนำไลบรารี่ / API สำหรับการแยกข้อความและรูปภาพจาก PDF? เราจำเป็นต้องสามารถรับข้อความที่อยู่ในพื้นที่ที่รู้จักกันดีของเอกสารดังนั้น API จะต้องให้ข้อมูลตำแหน่งของแต่ละองค์ประกอบบนหน้าเรา เราต้องการให้ข้อมูลนั้นส่งออกในรูปแบบxmlหรือ jsonขณะนี้เรากำลังดูPdfTextStreamซึ่งดูค่อนข้างดี แต่อยากได้ยินประสบการณ์และคำแนะนำจากคนอื่น ๆ มีทางเลือก (รายการเชิงพาณิชย์หรือฟรี) สำหรับการแยกข้อความจาก pdf โดยทางโปรแกรมหรือไม่

4
Readability ใช้อัลกอริทึมใดในการแยกข้อความจาก URL
มาระยะหนึ่งแล้วฉันพยายามหาวิธีแยกข้อความที่ "เกี่ยวข้อง" ออกจาก URL อย่างชาญฉลาดโดยการกำจัดข้อความที่เกี่ยวข้องกับโฆษณาและความยุ่งเหยิงอื่น ๆ ทั้งหมดหลังจากค้นคว้ามาหลายเดือนฉันก็ล้มเลิกมันเป็นปัญหา ที่ไม่สามารถระบุได้อย่างแม่นยำ (ฉันลองหลายวิธีแล้วแต่ไม่มีใครเชื่อถือได้) สัปดาห์ก่อนฉันสะดุดกับReadabilityซึ่งเป็นปลั๊กอินที่แปลง URL เป็นข้อความที่อ่านได้ มันดูถูกต้องสำหรับฉัน ฉันเดาว่าพวกเขามีอัลกอริทึมที่ฉลาดพอที่จะดึงข้อความที่เกี่ยวข้องออกมา ไม่มีใครรู้ว่าพวกเขาทำได้อย่างไร? หรือฉันจะทำได้อย่างน่าเชื่อถือ?

3
Python การสกัดข้อมูลจาก PDF ที่เข้ารหัส
ฉันเพิ่งสำเร็จการศึกษาด้านคณิตศาสตร์บริสุทธิ์ซึ่งมีหลักสูตรการเขียนโปรแกรมขั้นพื้นฐานเพียงไม่กี่หลักสูตรเท่านั้น ฉันกำลังฝึกงานและฉันมีโครงการวิเคราะห์ข้อมูลภายใน ฉันต้องวิเคราะห์ PDF ภายในของปีที่ผ่านมา PDF นั้น "ปลอดภัย" กล่าวอีกนัยหนึ่งมันถูกเข้ารหัส เราไม่มีรหัสผ่าน PDF ยิ่งกว่านั้นเราไม่แน่ใจว่ามีรหัสผ่านหรือไม่ แต่เรามีเอกสารเหล่านี้ทั้งหมดและเราสามารถอ่านได้ด้วยตนเอง เราสามารถพิมพ์ได้เช่นกัน เป้าหมายคือการอ่านด้วย Python เพราะเป็นภาษาที่เรามีความคิด ก่อนอื่นฉันพยายามอ่าน PDF ด้วยห้องสมุด Python อย่างไรก็ตามไลบรารี Python ที่ฉันพบไม่อ่าน PDF ที่เข้ารหัส ในเวลานั้นฉันไม่สามารถส่งออกข้อมูลโดยใช้ Adobe Reader ได้เช่นกัน ประการที่สองฉันตัดสินใจถอดรหัส PDF ฉันประสบความสำเร็จในการใช้ Python library pykepdf Pykepdfทำงานได้ดีมาก! อย่างไรก็ตามไฟล์ PDF ที่ถอดรหัสแล้วนั้นไม่สามารถอ่านได้เช่นกันกับห้องสมุด Python ของจุดก่อนหน้า ( PyPDF2และTabula ) ในเวลานี้เราได้ทำการปรับปรุงบางอย่างเพราะการใช้ Adobe Reader ฉันสามารถส่งออกข้อมูลจากไฟล์ PDF …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.