คำถามติดแท็ก character-properties

11
JavaScript + Unicode regexes
ฉันจะใช้นิพจน์ปกติที่รับรู้ Unicode ใน JavaScript ได้อย่างไร ตัวอย่างเช่นควรมีบางสิ่งที่คล้ายกับ\wที่สามารถจับคู่จุดรหัสใด ๆ ในหมวดหมู่จดหมายหรือเครื่องหมาย (ไม่ใช่แค่ ASCII) และหวังว่าจะมีตัวกรองเช่น [[P *]] สำหรับเครื่องหมายวรรคตอน ฯลฯ

3
เทียบเท่า Unicode สำหรับ \ w และ \ b ​​ในนิพจน์ทั่วไปของ Java?
การใช้ regex สมัยใหม่จำนวนมากตีความการ\wชวเลขคลาสอักขระเป็น "ตัวอักษรตัวเลขหรือเครื่องหมายวรรคตอนเชื่อมต่อ" (โดยปกติ: ขีดล่าง) วิธีการที่เป็นเช่น regex \w+ตรงกับคำที่ชอบhello, élève, หรือGOÄ_432gefräßig น่าเสียดายที่ Java ไม่มี ใน Java \wจำกัด ไว้ที่[A-Za-z0-9_]. ทำให้การจับคู่คำเหมือนที่กล่าวมาข้างต้นเป็นเรื่องยากท่ามกลางปัญหาอื่น ๆ นอกจากนี้ยังปรากฏว่า\bตัวคั่นคำตรงกับที่ที่ไม่ควร อะไรคือสิ่งที่ถูกต้องเทียบเท่ากับ. NET-like, Unicode-Aware \wหรือ\bใน Java ทางลัดอื่นใดที่ต้อง "เขียนใหม่" เพื่อให้ Unicode-ตระหนัก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.