อักขระ Unicode ที่ไม่ใช่ BMP ที่พบบ่อยที่สุดในการใช้งานจริงคืออะไร? [ปิด]


108

จากประสบการณ์ของคุณว่าอักขระ Unicode จุดรหัสช่วงใดที่อยู่นอก BMP (Basic Multilingual Plane) นั้นพบได้บ่อยที่สุด? นี่คือสิ่งที่ต้องใช้ 4 ไบต์ใน UTF-8 หรือตัวแทนใน UTF-16

ฉันคาดว่าคำตอบจะเป็นตัวอักษรจีนและญี่ปุ่นที่ใช้ในชื่อ แต่ไม่รวมอยู่ในชุดอักขระหลายไบต์ CJK ที่แพร่หลายที่สุด แต่ในโครงการที่ฉันทำงานส่วนใหญ่คือวิกิพจนานุกรมภาษาอังกฤษเราพบว่าตัวอักษรโกธิคคือ พบมากขึ้นจนถึงปัจจุบัน

อัปเดต

ฉันได้เขียนเครื่องมือซอฟต์แวร์สองสามตัวเพื่อสแกนวิกิพีเดียทั้งหมดเพื่อหาอักขระที่ไม่ใช่ BMP และพบว่าฉันประหลาดใจที่แม้แต่ในอักษรกอธิคของวิกิพีเดียภาษาญี่ปุ่นก็เป็นเรื่องธรรมดาที่สุด นี่เป็นความจริงเช่นกันในวิกิพีเดียภาษาจีน แต่ก็มีการใช้ตัวอักษรจีนมากถึง 50 หรือ 70 ครั้งรวมถึง "𨭎" "𠬠" และ "𩷶"


1
@hippietrail: ปัญหาหลักคือคำตอบจะขึ้นอยู่กับประเภทของข้อความที่คุณทำงานด้วย หากคุณทำงานในโครงการโบราณคดีจัดทำแคตตาล็อกข้อความในLinear Bคุณจะเห็นอักขระที่ไม่ใช่ BMP ที่แตกต่างไปจากที่กล่าวคือทำงานกับพจนานุกรมภาษาญี่ปุ่นสมัยใหม่ ดังนั้นหากไม่ จำกัด ประเภทของข้อความให้แคบลงอย่างน้อยก็เป็นการกว้างเกินไป
sleske

คำตอบ:


95

ตอนนี้อีโมจิเป็นอักขระที่ไม่ใช่ BMP ที่พบบ่อยที่สุด 😂หรือที่เรียกว่า U + 1F602 FACE WITH TEARS OF JOY เป็นสิ่งที่พบบ่อยที่สุดในสตรีมสาธารณะของ Twitter มันเกิดขึ้นบ่อยกว่าตัวหนอน!


5
มันเป็นอีโมจิที่ไม่ใช่ BMP ที่ใช้กันมากที่สุดใน Twitter ตามemojitracker.com
Frédéric Grosshans

1
ฉันได้ดูสถิติการใช้ข้อความบนเว็บจาก Common Crawl แล้วและพบว่าอีโมจิเป็นอักขระที่ไม่ใช่ BMP ที่พบบ่อยที่สุดบนเว็บในขณะนี้ พวกเขาไม่ธรรมดาเหมือนใน Twitter แน่นอน 😂ยังคงเป็นเรื่องธรรมดาที่สุด
rspeer

1
@Quuxplusone ที่มา: emojistats.org
niutech

62

คำถามยอดเยี่ยม!

คำตอบคือตัวอักษรทางคณิตศาสตร์ เมื่อเดือนธันวาคมที่ผ่านมาฉันได้ทำการสแกนคลังข้อมูล PubMed Open Access ทั้งหมดและหาตัวเลขเหล่านี้สำหรับตัวอักษรแอสทรัลในนั้น

ตัวเลขแรกในรูปด้านล่างคือจำนวนสำเนาของจุดรหัสแต่ละจุดที่ฉันพบในคลังข้อมูลทั้งหมด ก่อนอื่นเพื่อให้คุณเข้าใจเกี่ยวกับความถี่สัมพัทธ์ต่อไปนี้เป็นจุดรหัสทรานส์ ASCII สิบอันดับแรกในคลังข้อมูลนั้น:

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹−›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹ ›  GC=Zs    EM SPACE
  528576 U+0003BC ‹μ›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹β›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹α›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹ ›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

และตอนนี้คือจุดรหัสทรานส์ BMP ตามลำดับความถี่ในการหลอกลวง:

     544 U+01D49E ‹𝒞›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹𝒯›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹𝒮›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹𝒟›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹𝒳›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹𝒩›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹𝒫›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹𝒢›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹𝒜›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹𝔼›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹𝒪›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹𝒥›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹𝒦›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹𝒱›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹𝒲›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹𝒴›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹𝒵›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹𝒰›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹𝒬›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹𝕊›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹𝔹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹𝖧›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹𝔗›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹𝓃›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹𝔵›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹𝒿›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹𝕀›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹𝑥›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹𝓎›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹𝔸›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹𝓂›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹𝕍›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹𝒶›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹𝒾›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹𝓌›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹𝔖›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹𝒾›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹𝓌›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹𝔖›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹𝓏›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹𝔻›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹𝕋›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹𝒻›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹𝓊›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹𝔇›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹𝕂›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹𝕆›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹𝒽›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹𝓅›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹𝔅›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹𝔎›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹𝕁›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹𝕃›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹􀀂›  GC=Co    <private use character>
       1 U+01D4B8 ‹𝒸›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹𝓁›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹𝔽›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹𝔾›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹𝕌›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹𝚤›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹𝟙›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

ฉันจริงๆหวังว่าฉันรู้ว่าสิ่งที่พวกเขากำลังใช้ U + 100002 จะทำอย่างไร :(

หากเหล่านี้จะไม่แสดงในเบราว์เซอร์ของคุณคุณควรติดตั้งแบบอักษร Symbola จอร์จ Douros ของ นอกจากนี้ยังมีจุดรหัส Unicode 6.0.0 ที่สนุกสนานอยู่ในนั้นด้วย


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.