คำถามติดแท็ก surrogate-pairs

7
“ คู่ตัวแทน” ใน Java คืออะไร?
ผมอ่านเอกสารประกอบการStringBufferโดยเฉพาะอย่างยิ่งย้อนกลับ ()วิธีการ เอกสารที่กล่าวถึงสิ่งที่เกี่ยวกับคู่ตัวแทน คู่ตัวแทนในบริบทนี้คืออะไร? และตัวแทนสำรองต่ำและสูงคืออะไร?

3
อักขระ Unicode ที่ไม่ใช่ BMP ที่พบบ่อยที่สุดในการใช้งานจริงคืออะไร? [ปิด]
ปิด . คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เน้นไปที่ปัญหาเดียวโดยแก้ไขโพสต์นี้เท่านั้น ปิดให้บริการใน6 ปีที่ผ่านมา ปรับปรุงคำถามนี้ จากประสบการณ์ของคุณว่าอักขระ Unicode จุดรหัสช่วงใดที่อยู่นอก BMP (Basic Multilingual Plane) นั้นพบได้บ่อยที่สุด? นี่คือสิ่งที่ต้องใช้ 4 ไบต์ใน UTF-8 หรือตัวแทนใน UTF-16 ฉันคาดว่าคำตอบจะเป็นตัวอักษรจีนและญี่ปุ่นที่ใช้ในชื่อ แต่ไม่รวมอยู่ในชุดอักขระหลายไบต์ CJK ที่แพร่หลายที่สุด แต่ในโครงการที่ฉันทำงานส่วนใหญ่คือวิกิพจนานุกรมภาษาอังกฤษเราพบว่าตัวอักษรโกธิคคือ พบมากขึ้นจนถึงปัจจุบัน อัปเดต ฉันได้เขียนเครื่องมือซอฟต์แวร์สองสามตัวเพื่อสแกนวิกิพีเดียทั้งหมดเพื่อหาอักขระที่ไม่ใช่ BMP และพบว่าฉันประหลาดใจที่แม้แต่ในอักษรกอธิคของวิกิพีเดียภาษาญี่ปุ่นก็เป็นเรื่องธรรมดาที่สุด นี่เป็นความจริงเช่นกันในวิกิพีเดียภาษาจีน แต่ก็มีการใช้ตัวอักษรจีนมากถึง 50 หรือ 70 ครั้งรวมถึง "𨭎" "𠬠" และ "𩷶"
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.