ฉันกำลังส่งออกเนื้อหาMS Wordเป็นข้อความธรรมดาเพื่อใช้กับโปรแกรมอรรถประโยชน์ข้อความและไฟล์ ฉันมีข้อ จำกัด ที่คุณสมบัติการกำหนดหมายเลขบรรทัดถูกเปิดใช้งานในซอฟต์แวร์ MS และการอ้างอิงใด ๆ กับหมายเลขบรรทัดในผลลัพธ์สุดท้ายจะต้องตรงกับการกำหนดหมายเลขนั้น ดังนั้นป้อน "หมายเลขบรรทัด":
( Poe, EA )
เห็นได้ชัดว่าสำหรับWord การเรียงลำดับหมายเลขนั้นไม่ทำให้บรรทัดใหม่ขึ้นบรรทัดใหม่แต่จะแบ่ง "บรรทัด" หลังจากระยะห่างที่ถูกต้อง (หรือบางอย่าง) สคริปต์เช่นdocx2txt
นี้ไม่ได้พิจารณาถึงสิ่งนี้ตามค่าเริ่มต้นแล้วจะมีการขึ้นบรรทัดใหม่ที่บรรทัดใหม่ ดังนั้นหากฉันใช้grep -n
กับการกำหนดหมายเลขบรรทัดจะไม่ตรงกับคุณลักษณะหมายเลขบรรทัดซอร์สดังที่แสดงด้านบน ยังไม่ชัดเจนจากเอกสารว่าฉันจะต้องแก้ไขสคริปต์ Perl เพื่อแปลงไฟล์แบบที่ฉันต้องการในกรณีนี้:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
ฉันพยายามทำหน้าที่แทน\n
สำหรับ\r\n
แต่ที่ดูเหมือนจะไม่ทำงานสำหรับฉัน ดังนั้นฉันจึงหันไปใช้การส่งออกเอกสารโดยตรงจากWordด้วยการตั้งค่าต่อไปนี้ (บันทึกเป็นข้อความธรรมดาบน v.2013,64 ชิ้น):
- Unicode (UTF-8)
- แทรกตัวแบ่งบรรทัด + เส้นท้ายด้วย (CR / LF)
- อนุญาตการเปลี่ยนตัวอักขระ
และตอนนี้แน่นอนเมื่อฉันใช้.txt
ไฟล์มีการจับคู่ที่สมบูรณ์แบบระหว่างหมายเลขบรรทัดในคุณลักษณะแหล่งหมายเลขและgrep -n
เอาท์พุท
- มีการกำหนดค่า / กระบวนการเฉพาะที่ฉันควรรู้เกี่ยวกับ
docx2txt
หรือยูทิลิตี้บรรทัดคำสั่งที่คล้ายกันซึ่งจะทำให้ฉันสามารถแปลงไฟล์. docxเป็นข้อความธรรมดาในขณะที่รักษาตัวแบ่งบรรทัดโดยไม่ต้องหันไปใช้Wordอย่างที่เคยทำ - อะไรคือแนวทางปฏิบัติที่ดีที่สุดสำหรับการส่งออกเอกสารMS Word (ซึ่งอาจมีอักขระที่เน้นเสียง) เป็นข้อความธรรมดาสำหรับใช้กับยูทิลิตี้ไฟล์ / ข้อความที่เกี่ยวข้องกับตัวแบ่งบรรทัดและการจัดรูปแบบ และมีความหมายเชิงลบใด ๆ กับการตั้งค่าที่ฉันเลือกสำหรับการส่งออกเช่นการใส่ CR / LF?
ตัวอย่าง
ตามที่แนะนำฉันให้ตัวอย่าง ในไฟล์เก็บถาวร rar นี้ฉันรวมไฟล์. docx ที่มีย่อหน้าง่าย ๆ และไฟล์. txt ที่ส่งออกโดยใช้ Word พร้อมตัวเลือกข้างต้น สามารถเปรียบเทียบหลังกับการรันเริ่มต้นของdocx2txt
บนไฟล์ต้นฉบับ