จะยกเลิกการแยกรูปแบบ PDF เป็นข้อความหรือสเปรดชีตที่ใช้งานได้อย่างไร


2

เมื่อขอข้อมูลการขายรายวัน / รายชั่วโมงจากผู้ร่วมงานที่รับผิดชอบคำขอดังกล่าวฉันได้รับไฟล์ PDF หลายชุด จุดขายโปรแกรมที่ใช้ด้วยเหตุผลบางอย่างตอบคำขอสำหรับข้อมูลประเภทนี้ในรูปแบบของไฟล์ PDF

ปัญหา:

ไฟล์ PDF ดูเหมือนจะอยู่ในรูปแบบที่ควรคัดลอกและวางลงในสเปรดชีตได้อย่างง่ายดาย มีสามคอลัมน์ที่มีการจัดระเบียบอย่างเป็นระเบียบทั่วทั้งสองหน้า เมื่อคัดลอก / วางหน้าแรกทั้งสามคอลัมน์จากหน้าแรกของ PDF จะถูกเทลงในคอลัมน์เดียวซึ่งประกอบด้วยวันที่ตามด้วยชั่วโมงสำหรับธุรกรรมในวันนั้น การสิ้นสุดของข้อมูลวันที่ / เวลานี้ตามด้วยค่ายอดขายทั้งหมดที่ควรแนบวันที่และเวลาของการทำธุรกรรม (หมายเหตุ: ไม่มีวันที่ซ้ำกันในคอลัมน์วันที่คือธุรกรรมหลายรายการในหนึ่งวันมีรายการ yyyy / mm / dd เพียงรายการเดียวสำหรับแถวแรก แต่ไม่ใช่แถวต่อไปนี้)

ในขณะที่มันเจ็บปวดมากมันเป็นไปได้ที่ประมาณสี่หรือห้าขั้นตอนจะได้รับข้อมูลคอลัมน์เดียวแยกออกเป็นสามคอลัมน์ที่ตรงกับ PDF

หน้าสองของไฟล์ PDF เมื่อพยายามคัดลอก / วางลงในสเปรดชีตสร้างคอลัมน์เดียวโดยที่หนึ่งในสามของเซลล์เป็นวันที่จาก PDF ซึ่งเป็นวินาทีที่สามของเซลล์เป็นชั่วโมงของการทำธุรกรรมและ เซลล์สุดท้ายที่สามถูกเติมด้วยยอดขายรวม

หลังจากการคัดลอก / วางไม่มีวิธีที่จะคิดได้ว่าชั่วโมงใดเป็นของวันที่หรือยอดขายเนื่องจากไม่มีวันที่ซ้ำกันในคอลัมน์วันที่ดังกล่าวข้างต้น

PDF-fu ของฉันอยู่ถัดจากที่ไม่มีอยู่จริง ตอนนี้ฉันเพิ่งเริ่มทำงานร่วมกับโปรแกรมแก้ไข PDF และเว็บไซต์ www.convertmyPDFforfree.com บางแห่งจนถึงขณะนี้โดยที่ไม่มีอะไรจากระยะไกลมาใกล้กับเอาต์พุตที่ใช้งานได้ (ทั้งสองวิธีไม่ได้ทำอะไรเลยนอกจากเอกสารเปล่าของผลิตภัณฑ์)

ก่อนที่ฉันจะกลับไปและสร้างความรำคาญให้เพื่อนร่วมงานของฉันหาวิธีสร้างรายงานในรูปแบบอื่นที่ไม่ใช่ PDF มีวิธีใดบ้างที่จะนำข้อมูลที่มีรูปแบบที่ถูกต้องไปใช้ในรูปแบบ PDF และคัดลอก / วาง เป็นสเปรดชีตที่จะมีหน้าตาเหมือนกันหรือไม่

ฉันขอขอบคุณความช่วยเหลือใด ๆ ที่สามารถให้บริการได้ ข้อมูลการขายไม่อ่อนไหวมากจนฉันไม่สามารถแยกจากกันเพื่อให้ใครบางคนเห็นว่ามันคืออะไรที่ต้องได้รับการจัดการเพียงแค่แจ้งให้เราทราบ ไฟล์ PDF มีขนาดน้อยกว่า 100kb ต่อการส่งดังนั้นไม่ควรเป็นภาระให้กับผู้ที่สนใจ


1
มันเป็นปัญหาที่เกิดขึ้นในรูปแบบ PDF ที่สูญเสียโครงสร้างเอกสารและยากที่จะเปลี่ยนกลับเป็นบางสิ่งบางอย่างด้วยคำสั่งทางตรรกะดั้งเดิม (หรือสมเหตุสมผล) มีโปรไฟล์ชื่อว่า "Tagged PDF" ซึ่งเก็บข้อมูลเกี่ยวกับโครงสร้างแบบลอจิคัล นอกจากนี้ยังพบในไฟล์ PDF / A (ยกเว้น PDF / A-1b ซึ่งเป็น minimalist) คุณอาจตรวจสอบว่าคนที่สร้าง PDF นั้นมีตัวเลือกให้บันทึกเป็นแท็ก PDF หรือ PDF / A นั่นน่าจะเป็นการแปลงด้วยวิธีที่เหมาะสมกว่า
gmcgath

โอเคดังนั้นฉันไม่ได้ลองหาว่ามีตัวเลือกใดบ้างสำหรับอูบุนตูเกี่ยวกับซอฟต์แวร์ Optical Character Recognition (OCR) และฉันจะต้องตรวจสอบกับจ๊อกกี้คีย์บอร์ดคนอื่น ๆ เกี่ยวกับการสร้างรายงานเป็น "Tagged PDF" แต่ฉันสะดุด pdftotext อย่างน้อยที่สุดก็สามารถสร้างเอกสารข้อความในรูปแบบเดียวกัน การนำเอกสารข้อความไปยังสเปรดชีตยังคงส่งผลให้เกิดความไม่พอใจ แต่อย่างน้อยความสมบูรณ์ของแถวของข้อมูลยังคงอยู่ ขอบคุณทุกๆคน!
Chuck

คำตอบ:


3

วิธีการแก้ปัญหาปัจจุบันของฉันในการแก้ไขปัญหาของตัวเองคือการใช้pdftotext

ฉันใช้เทอร์มินัลของ Ubuntu เพื่อนำทางไปยังโฟลเดอร์ด้วยไฟล์ PDF ไวยากรณ์คือ:

pdftotext fullnameofpdffiletoconverttotext.pdf nameofcreatedtextfile -layout

การไม่มีเลย์เอาต์เพิ่มเอาท์พุทข้อความก็ไม่ต่างจากความพยายามของฉันในการคัดลอกและวางโดยตรงจาก PDF (ซึ่งเป็นระเบียบที่ใช้ไม่ได้อย่างสมบูรณ์) การเพิ่มอาร์กิวเมนต์ -layout ที่บรรทัดคำสั่งทำให้ฉันมีไฟล์ข้อความที่ทำมิเรอร์ PDF

คัดลอก / วางจากไฟล์ข้อความที่สร้างขึ้นใหม่ลงในสเปรดชีตและตรวจสอบให้แน่ใจว่าได้ทำเครื่องหมายที่ช่อง "Space" ในเมนู "นำเข้าข้อความ" หรือ "วางแบบพิเศษ" เพื่อรักษาความสมบูรณ์ของแถว แต่เพิ่มคอลัมน์จำนวนมากและบางรายการ ช่วงเวลาชดเชยคอลัมน์ในแถวโดยหนึ่งหรือสองคอลัมน์พิเศษ สิ่งนี้ถูกลบทิ้งโดยการลบคอลัมน์ว่างพิเศษ

ในการตรวจสอบเพิ่มเติมพบว่าอาร์กิวเมนต์ -raw ที่ท้ายบรรทัดคำสั่งแทน -layout นั้นทำงานได้ดีกว่ามาก ไวยากรณ์ขณะอยู่ในไฟล์ PDF ที่มีโฟลเดอร์:

pdftotext fullnameofpdffiletoconverttotext.pdf nameofcreatedtextfile -raw

การวางจากไฟล์ข้อความใหม่ลงในสเปรดชีตโดยเลือกช่องทำเครื่องหมาย "ช่องว่าง" ใน "ตัวเลือกตัวคั่น" ส่งผลให้มีคอลัมน์สี่คอลัมน์ที่เรียบร้อยซึ่งปัญหาเดียวเกิดจากข้อมูลต้นฉบับของฉันไม่ซ้ำกันทุกวันที่มีธุรกรรมเกิดขึ้น ในวันเดียวกัน

ยอดเยี่ยม!

หมายเหตุ: มีข้อความใน PDF ต้นฉบับของฉันเท่านั้น ไม่มีกราฟิก


1

ฉันมี acrobat pro แต่ถ้าคุณมี X หรือ XI สิ่งนี้ก็ใช้ได้เช่นกันไม่แน่ใจเกี่ยวกับ Reader เลือกข้อมูลที่อยู่ในรูปแบบคอลัมน์ที่คุณต้องการบันทึก คลิกขวาและเลือก "คัดลอกเป็นตาราง" คุณสามารถวางเป็นตารางใน Word หรือใน Excel


1

ฉันจะใช้ซอฟต์แวร์ OCR เพื่อประมวลผลไฟล์ PDF และดึงข้อมูลทั้งหมด Abby Fine Reader สามารถอ่านและประมวลผลไฟล์ pdf โดยตรง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.