คำถามติดแท็ก text-extraction

13
โมดูล Python สำหรับแปลง PDF เป็นข้อความ [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน5 ปีที่ผ่านมา มีโมดูลหลามแปลงไฟล์ PDF เป็นข้อความหรือไม่? ฉันลองใช้รหัสหนึ่งชิ้นที่พบใน Activestate ซึ่งใช้ pypdf แต่ข้อความที่สร้างขึ้นไม่มีช่องว่างระหว่างและไม่มีประโยชน์

13
วิธีการแยกซับสตริงโดยใช้ regex
ฉันมีสตริงที่มีสองคำพูดเดียวในนั้น'ตัวละคร ในระหว่างเครื่องหมายคำพูดเดี่ยวคือข้อมูลที่ฉันต้องการ ฉันจะเขียน regex เพื่อแยก "ข้อมูลที่ฉันต้องการ" จากข้อความต่อไปนี้ได้อย่างไร mydata = "some string with 'the data i want' inside";

15
วิธีการแยกข้อความจาก PDF? [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน5 ปีที่ผ่านมา ปรับปรุงคำถามนี้ ใครสามารถแนะนำไลบรารี่ / API สำหรับการแยกข้อความและรูปภาพจาก PDF? เราจำเป็นต้องสามารถรับข้อความที่อยู่ในพื้นที่ที่รู้จักกันดีของเอกสารดังนั้น API จะต้องให้ข้อมูลตำแหน่งของแต่ละองค์ประกอบบนหน้าเรา เราต้องการให้ข้อมูลนั้นส่งออกในรูปแบบxmlหรือ jsonขณะนี้เรากำลังดูPdfTextStreamซึ่งดูค่อนข้างดี แต่อยากได้ยินประสบการณ์และคำแนะนำจากคนอื่น ๆ มีทางเลือก (รายการเชิงพาณิชย์หรือฟรี) สำหรับการแยกข้อความจาก pdf โดยทางโปรแกรมหรือไม่

8
วิธีการแยกสตริงตามรูปแบบด้วย grep, regex หรือ perl
ฉันมีไฟล์ที่มีลักษณะดังนี้: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> ฉันต้องการที่จะดึงอะไรที่อยู่ในคำพูดที่ว่าต่อไปนี้name=คือcontent_analyzer, และcontent_analyzer2content_analyzer_items ฉันกำลังทำสิ่งนี้บนกล่อง Linux ดังนั้นวิธีแก้ปัญหาโดยใช้ sed, perl, grep หรือ bash ก็ใช้ได้

5
การแยกข้อความจากไฟล์ PDF โดยใช้ PDFMiner ใน python?
ฉันกำลังมองหาเอกสารหรือตัวอย่างเกี่ยวกับการแยกข้อความจากไฟล์ PDF โดยใช้ PDFMiner กับ Python ดูเหมือนว่า PDFMiner จะอัปเดต API และตัวอย่างที่เกี่ยวข้องทั้งหมดที่ฉันพบมีโค้ดที่ล้าสมัย (คลาสและวิธีการมีการเปลี่ยนแปลง) ไลบรารีที่ฉันพบว่าทำให้การแยกข้อความจากไฟล์ PDF ง่ายขึ้นคือการใช้ไวยากรณ์ PDFMiner แบบเก่าดังนั้นฉันไม่แน่ใจว่าจะทำอย่างไร ตามที่เป็นอยู่ฉันแค่ดูซอร์สโค้ดเพื่อดูว่าฉันสามารถหาได้หรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.