ไฟล์. pdf มีพฤติกรรมการทำเครื่องหมายที่ผิดปกติ


2

อย่างที่คุณเห็นในภาพด้านล่างฉันมี ไฟล์. pdf มันทำงานแปลก ๆ เมื่อฉันพยายามทำเครื่องหมายและอ้างอิงข้อความบางส่วนของมัน ฉันนำเข้ามาใน Citavi 5 พยายามพิมพ์ไฟล์ด้วย doPDF 8, Microsoft Print เป็น PDF และ OpenText PDF converter พฤติกรรมยังคงเหมือนเดิม ฉันลองใช้แหล่งข้อมูลอื่นด้วย แต่ดูเหมือนว่าพวกเขาทั้งหมดใช้ไฟล์เดียวกัน

Example

เมื่อคัดลอกโดยตรงจากไฟล์. pdf ผลลัพธ์จะเป็นดังนี้:

เหนือกว่าก๊อกน้ำ“ สัมผัสได้เพราะเรารับรู้ได้ถึงความสามารถมากกว่าที่เคยเป็น   ab ในขณะที่คนอื่นมองว่าไม่เป็นทางการ T อัตราวาเดอ

เมื่อฉันใช้ Microsoft XPS Document Writer ผลลัพธ์ที่ได้จะเป็นดังนี้ ดูเหมือนว่าจะถูกแปลงเป็น. txt

XPS file

เมื่อคัดลอกจากไฟล์ที่แปลงเป็น. txt หรือ. xps จะมีลักษณะดังนี้:

ผล

โดยรวมแล้วผู้เข้าร่วมพบว่าการใช้งานอุปกรณ์ง่ายต่อการใช้งาน ทุกคนชอบ   ปุ่มเซ็นเซอร์แทป (“ ใช้งานง่าย”) และปุ่ม ("หาง่าย", "แฮบติค"   ข้อเสนอแนะ”) แต่ไม่มีใครตอบเซ็นเซอร์ความดัน สำหรับ ouutput   componeents ลำดับขั้นต่ำที่สุดสำหรับ LED ทั้งหมด

ดังนั้นการแปลงเป็น. txt จึงเป็นวิธีที่ดีที่สุด แต่ฉันก็ยังต้องดูใบเสนอราคาทั้งหมดเพื่อลบอักขระสองตัว

มีใครรู้บ้างเกี่ยวกับพฤติกรรมเช่นนี้และฉันจะทำอย่างไรเพื่อให้มีไฟล์ที่ฉันสามารถพูดได้อย่างง่ายดาย


เมื่อคุณเลือก + คัดลอกพื้นที่ของข้อความสิ่งที่จะได้รับการคัดลอกจริง ๆ แล้วถ้าคุณวางลงในตัวแก้ไขข้อความเช่น Notepad
MrWhite

@MrWhite ส่วนที่ไฮไลต์ที่แน่นอนซึ่งหมายถึงเรื่องไร้สาระ
Lehue

1
แปลง PDF เป็นข้อความธรรมดาหรือรูปแบบ Word และคัดลอกจากที่นั่น? มันจะทำงานเพื่อจุดประสงค์ในการอ้างอิง?
Edi

@Edi ทำงานได้ดีกว่าการคัดลอก. pdf แต่ไม่ดี (ดูการแก้ไข)
Lehue

(0) ผู้ใช้ขั้นสูง น่าจะดีที่สุด กองแลกเปลี่ยน ไซต์สำหรับคำถามเช่นนี้ หรืออย่างน้อยก็เป็นที่ยอมรับได้ (1) นี่อาจเป็นเรื่องของความชอบส่วนบุคคล แต่ฉันพบว่าเนื้อหาอ่านง่ายกว่าถ้ามันบอกฉันว่ามันจะแสดงอะไรก่อนที่มันจะแสดงให้ฉันเห็น เช่นไม่เริ่มต้นด้วยภาพ แล้ว เริ่มพูดถึงมัน (คนอื่นอาจคิดว่าวิธีที่คุณจัดคำถามของคุณนั้นใช้ได้) (2) ฉันไม่ชัดเจน 100% ว่าภาพที่สองคืออะไร; พิจารณาคำอธิบายที่ชัดเจน (3) คำถามจะอ่านง่ายขึ้นถ้าคุณทำให้ภาพทั้งสองใกล้เคียงกับขนาดเท่ากัน ... (ต่อ)
Scott

คำตอบ:


1

หากคุณมีสิทธิ์เข้าถึงซอฟต์แวร์ Adobe จะสามารถทำได้ในระดับหนึ่ง ฉันเปิด PDF ของคุณใน Photoshop เพื่อแสดงผลเป็นรูปภาพเท่านั้น (การสแกนเอกสารจะทำในสิ่งเดียวกัน) และใช้ OCR ของ Acrobat Pro (เครื่องมือ & gt; จดจำข้อความ) เพื่อค้นหาองค์ประกอบที่เป็นข้อความในเอกสาร จากนั้นคุณสามารถไฮไลต์และคัดลอก / วางตามปกติ

ผลลัพธ์เช่น คัดลอกวาง ผู้เข้าร่วมกรอกแบบสอบถามหลังจาก ศึกษาแบ่งปันความประทับใจเมื่อใช้อุปกรณ์ใน สภาพแวดล้อมสาธารณะและปฏิกิริยาที่พวกเขาได้รับ

สำหรับสาเหตุที่เกิดขึ้นฉันไม่สามารถช่วยคุณได้การตรวจสอบองค์ประกอบข้อความใน PDF ต้นฉบับของคุณจะแสดงหน้าที่มีปัญหาเนื่องจากมีการแยกฟิลด์ข้อความแทนที่จะเป็นฟิลด์ต่อเนื่องตามที่คุณคาดหวังหน้าอื่น ๆ ที่เน้นตามปกติ ไม่มีปัญหานี้

ฉันไม่คุ้นเคยกับซอฟต์แวร์ที่คุณพูดถึง แต่ในกรณีที่พวกเขามีฟังก์ชั่นที่คล้ายกันเช่นการจดจำข้อความฉันคิดว่ามันจะทำงานเหมือนเดิม หวังว่านี่จะช่วยได้!


ฉันคิดเกี่ยวกับวิธีการนี้และแม้ว่ามันจะใช้ได้กับฉันมันก็รู้สึกเหมือน "ยอมแพ้" ถ้าคุณรู้ว่าฉันหมายถึงอะไร การสร้างรูปภาพและอาศัยอัลกอริทึมในการแปลกลับเป็นข้อความอย่างถูกต้องอาจมีความเสี่ยงในกรณีที่ตัวเลขมีความสำคัญเนื่องจากบางครั้งอัลกอริทึมเหล่านี้จะเปลี่ยนตัวเลขเนื่องจากการจับคู่รูปแบบหรือวิธีการที่คล้ายกัน แน่นอนในกรณีของฉันคำตอบของคุณอย่างสมบูรณ์แก้ปัญหา quoting แต่เนื่องจากสิ่งที่ฉันอธิบายข้างต้นฉันจะยังไม่ยอมรับ
Lehue
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.