เมื่อใดก็ตามที่ฉันคัดลอกข้อความที่จัดรูปแบบจากไฟล์ PDF ซึ่งจัดรูปแบบเพื่อให้มีการขึ้นบรรทัดใหม่ (หรือการขึ้นบรรทัดใหม่) ฉันต้องหาวิธีที่จะลบการขึ้นบรรทัดใหม่โดยไม่ลบรูปแบบย่อหน้า
ในการทำเช่นนี้ฉันต้องใช้ RegEx (นิพจน์ปกติ) เพื่อลบตัวแบ่งบรรทัดที่ไม่ได้นำหน้าด้วยจุด
ตัวอย่างเช่นหากสตริงของข้อความมีการแบ่งบรรทัดหลังจากช่วงเวลานั่นคือการแบ่งบรรทัดที่ถูกต้องตามกฎหมายซึ่งจะเริ่มย่อหน้าใหม่เสมอ หากสตริงข้อความมีเส้นแบ่งกลางคำหรือหลังคำที่ไม่มีระยะเวลามันเป็นเพียงส่วนหนึ่งของการจัดรูปแบบที่ไม่ดีที่ฉันต้องกำจัด
ปัญหาของฉันคือฉันไม่ทราบวิธีการใช้ RegEx เพื่อให้ลบเฉพาะแท็ก ^ p ใน word หรือ CRLF หรือการขึ้นบรรทัดใหม่ในรูปแบบใด ๆ ภายใต้เงื่อนไขที่เว้นไว้หลังช่วงเวลา
?
หรือ !
? หรือ .)
, ?)
, หรือ !)
?