ตัวอักษรจีนใน Unicode มีอะไรบ้าง?


97

U + 4E00..U + 9FFF เป็นส่วนหนึ่งของชุดสมบูรณ์ แต่ไม่ใช่ทั้งหมด


3
ฉันจะเชื่อมโยงบทความวิกิพีเดียที่นี่เนื่องจากช่วงบล็อกจะอัปเดตเป็นครั้งคราวดังนั้นจึงเป็นการดีกว่าที่จะเชื่อมโยงสิ่งที่เปลี่ยนแปลงแบบไดนามิก ratger tgan ให้คำตอบคงที่ ... th.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

คำตอบ:


105

คุณอาจพบรายการทั้งหมดผ่านคำถามที่พบบ่อยเกี่ยวกับCJK Unicode (ซึ่งรวมถึงอักขระ "จีนญี่ปุ่นและเกาหลี")

เอกสาร " East Asian Script " กล่าวถึง:

บล็อกที่มีอุดมการณ์ของฮั่น

อักขระเชิงอุดมคติของฮั่นพบได้ในห้าบล็อกหลักของ Unicode Standard ดังแสดงในตารางที่ 12-2

ตารางที่ 12-2. บล็อกที่มีอุดมการณ์ของฮั่น

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

หมายเหตุ: ช่วงบล็อกสามารถพัฒนาในช่วงเวลา: ล่าสุดอยู่ในCJK Unified Ideographs

ดู Wikipedia ด้วย:


คุณอาจต้องการรวม U + AC00 - U + D7AF (พยางค์ฮันกึล)
Flimm

12
@Flimm: ฮันกึลไม่ได้เป็นส่วนหนึ่งของมาตรฐานจีน ฮันกึลเป็นคนเกาหลี ภาษาเกาหลีไม่ใช้อังจา ( "สคริปต์ภาษาจีน") แต่แทบจะไม่และสำหรับสิ่งดั้งเดิมบางคน (เช่นชื่อสุดท้ายอนุเสาวรีย์, สถานที่ ... ) ซึ่งไม่สามารถคัดลอกในอังกูล OP ถามเกี่ยวกับภาษาจีนโดยเฉพาะดังนั้นจึงไม่จำเป็นต้องให้ Responder รวม Hangul :-)
omninonsense

1
ดูเหมือนว่ารายการจะไม่ครอบคลุมเครื่องหมายวรรคตอน ("。")
MichałWoliński


ฉันได้เรียนรู้ว่า CJK Unified Ideographs Extension A มีค่าตั้งแต่ 3400 ถึง 4dbf แทนที่จะเป็น 3400 ถึง 4dff
Lerner Zhang

48

ปัจจุบัน Unicode มีอักขระ 74605 CJK ตัวอักษร CJK ไม่เพียง แต่มีตัวละครที่ใช้โดยจีน แต่ยังคันจิของญี่ปุ่น, เกาหลีฮันจาและเวียดนามชู Nom อักขระ CJK บางตัวไม่ใช่อักษรจีน

1) 20,941 ตัวละครจากCJK Unified Ideographs บล็อก

รหัสชี้ U + 4E00 ถึง U + 9FCC

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) 6582 ตัวละครจากCJKUI ต่อบล็อก

รหัสชี้U + 3400 U Unicode 3.0 (1999)

3) 42,711 ตัวละครจากบล็อก CJKUI Ext B

รหัสชี้ U + 20000 ถึง U + 2A6D6 Unicode 3.1 (2001).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) 4149 ตัวละครจากบล็อก CJKUI Ext C

รหัสชี้U + 2A700 เพื่อ U Unicode 5.2 (2009).

4) 222 ตัวอักษรจากCJKUI Ext D บล็อก

รหัสชี้U + 2B740 เพื่อ U Unicode 6.0 (2010)

5) บล็อก CJKUI Ext E

เร็ว ๆ นี้

หากสิ่งที่กล่าวมาข้างต้นยังไม่เพียงพอสำหรับสปาเก็ตตี้ลองดูปัญหาที่ทราบ ขอให้สนุก =)


1
สวัสดีคุณช่วยยกตัวอย่างแนวคิด CJK (โดยเฉพาะจากเครื่องบินพื้นฐาน) ที่ไม่ใช่ตัวอักษรจีน ฉันคิดว่าอักขระจากภาษาอื่น ๆ (ญี่ปุ่นเกาหลี) ซึ่งไม่ใช่อักษรจีนก็ปรากฏในบล็อกอื่น (เช่นบล็อกฮันกึลจาโมในกรณีของภาษาเกาหลี) ...
อดัมเบอร์ลีย์

ลองดู "Gukja", "Kokuji" และ "ChữNôm" U + 4E44 乄เป็นอักขระ CJK ภาษาญี่ปุ่นเท่านั้น
Ṃųỻịgǻňạcểơửṩ

21

ช่วงที่แน่นอนสำหรับตัวอักษรจีน (ยกเว้นส่วนขยาย) [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]เป็น

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement เป็นบล็อก Unicode ที่มีทางเลือกอื่นซึ่งมักเป็นตำแหน่งรูปแบบของอนุมูลคังซี พวกเขาใช้ส่วนหัวในดัชนีพจนานุกรมและคอลเลกชันแนวคิด CJK อื่น ๆ ที่จัดเรียงโดยจังหวะที่รุนแรง

  1. [\u3190-\u319f]

Kanbun เป็นบล็อก Unicode ที่มีอักขระคำอธิบายประกอบที่ใช้ในสำเนาข้อความภาษาจีนคลาสสิกของญี่ปุ่นเพื่อระบุลำดับการอ่าน

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A เป็นบล็อก Unicode ที่มีอุดมคติของชาวฮั่นที่หายาก

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs เป็นบล็อก Unicode ที่มีรูปแบบ CJK ที่ใช้กันทั่วไปในภาษาจีนและญี่ปุ่นสมัยใหม่

  1. [\uF900-\uFAAD]

CJK Compatibility Ideographs เป็นบล็อก Unicode ที่สร้างขึ้นเพื่อให้มีอักขระ Han ที่เข้ารหัสในหลายตำแหน่งในการเข้ารหัสอักขระอื่น ๆ ที่กำหนดไว้นอกเหนือจากการกำหนด CJK Unified Ideographs เพื่อรักษาความเข้ากันได้แบบไปกลับระหว่าง Unicode และการเข้ารหัสเหล่านั้น

สำหรับรายละเอียดโปรดดูที่นี่และส่วนขยายมีอยู่ในคำตอบอื่น ๆ


ใครที่โหวตให้คำตอบนี้ช่วยบอกเหตุผลหน่อย
Lerner Zhang

2
ฉันไม่ได้ลงคะแนน แต่ส่วนขยาย B, C, D และ E ล่ะ
Suragch

@Suragch ส่วนขยายเหล่านี้ได้รับการระบุไว้อย่างถูกต้องในคำตอบอื่น ๆ ดังนั้นฉันจึงไม่จำเป็นต้องเขียนซ้ำ ฉันแยกช่วงระหว่างช่วงอย่างชัดเจนเท่านั้น
Lerner Zhang

1. ช่วงของ CJK Radicals Supplement คือ 2E80—2EFF 2. Kangxi Radicals ไม่ใช่ตัวอักษรจีนเป็นส่วนประกอบกราฟิกของอักขระภาษาจีนซึ่งใช้เป็นพิเศษในการแสดงอนุมูล, .eg ⼻ (U + 2F3B) และ彳 (U + 5F73 ), ⻜ (U + 2EDC) และ飞 (U + 98DE) 3. ถ้าคุณคิดว่า Kanbun เป็นตัวอักษรจีนทำไมไม่ใช้ CJK Compatibility ทำไมไม่แนบจดหมาย CJK และเดือน?
Voyager

@rambler ขอบคุณสำหรับคำแนะนำของคุณ ฉันคิดว่าเมื่อเราประมวลผลอักขระ Chinses เราควรพิจารณา Kangxi Radicals และ Kanbun รูปแบบความเข้ากันได้ของ CJK นั้นดี แต่ตัวอักษร CJK ที่แนบมาและเดือนนั้นหายากเกินไปและฉันไม่คิดว่าเราควรพิจารณามัน
Lerner Zhang

10

Unicode เวอร์ชัน 11.0.0

ใน Unicode สคริปต์ภาษาจีนญี่ปุ่นและเกาหลี (CJK) ใช้พื้นหลังทั่วไปซึ่งเรียกรวมกันว่าอักขระ CJK

ช่วงเหล่านี้มักมีจุดรหัสที่ไม่ได้กำหนดหรือสงวนไว้ (เช่นU + 2E9A , U + 2EF4 - 2EFF)

อักษรจีน

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • ในCJK Unified Ideographsบล็อกฉันสังเกตเห็นว่าคำตอบจำนวนมากใช้ 9FCC ขอบเขตบน แต่ U + 9FCD (鿍) เป็นอักขระภาษาจีน และอักขระทั้งหมดในบล็อกนี้เป็นอักษรจีน (ใช้ในภาษาญี่ปุ่นหรือภาษาเกาหลีเป็นต้น)
  • ตัวอักษรส่วนใหญ่ใน CJK Unified Ideograohs Ext (ยกเว้น Ext F มีเพียง 17% ใน Ext F เท่านั้นที่เป็นอักษรจีน) เป็นตัวอักษรจีนแบบดั้งเดิมซึ่งแทบไม่ได้ใช้ในประเทศจีน
  • 〇เป็นรูปแบบตัวอักษรจีนของศูนย์และยังคงใช้อยู่ในปัจจุบัน

ดังนั้นช่วงคือ

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

อักขระ CJK แต่ไม่เคยใช้ในภาษาจีน

พวกเขาเป็นฮันสามัญที่ใช้เพื่อความเข้ากันได้เท่านั้น

แทบจะเป็นไปไม่ได้เลยที่จะเห็นสิ่งเหล่านี้ปรากฏในหนังสือบทความงานเขียนของจีน

อักขระทั้งหมดที่นี่มีอักขระจีนที่เหมือนกัน เช่น金 (U + F90A) และ金 (U + 91D1) จะเหมือนกันใน Glyph

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

สัญลักษณ์ที่เกี่ยวข้องกับCJK

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • บางบล็อกเช่นHangul Compatibility Jamoถูกละทิ้งเนื่องจากไม่มีความเกี่ยวข้องกับภาษาจีน
  • Kangxi Radicalsไม่ใช่ตัวอักษรจีนเป็นองค์ประกอบกราฟิกของอักขระภาษาจีนซึ่งใช้เป็นพิเศษในการแสดงรากศัพท์, .eg ⼻ (U + 2F3B) และ彳 (U + 5F73), ⻜ (U + 2EDC) และ飞 (U + 98DE)

เครื่องหมายวรรคตอนทั่วไปอื่น ๆ ปรากฏเป็นภาษาจีน

นี่เป็นช่วงกว้างบางวรรคตอนอาจไม่เคยใช้บางวรรคเช่น……”“ใช้มากในภาษาจีน

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

นอกจากนี้ยังมีสัญลักษณ์ที่เกี่ยวข้องกับภาษาจีนมากมายเช่นYijing Hexagram SymbolsหรือKanbunแต่มันก็ไม่ตรงประเด็นอยู่ดี ฉันเขียนอักขระที่ไม่ใช่ภาษาจีนใน CJK เพื่อให้อธิบายได้ดีขึ้นว่าอักษรจีนคืออะไร และช่วงข้างต้นครอบคลุมตัวอักษรเกือบทั้งหมดแล้วในการเขียนภาษาจีนยกเว้นคณิตศาสตร์และสัญกรณ์พิเศษอื่น ๆ

เสริม

สัญลักษณ์ CJK และเครื่องหมายวรรคตอน

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

แบบฟอร์ม Halfwidth และ Fullwidth

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

อ้างถึง

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (ในภาษาจีนสังเกตแถบด้านขวา)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (สังเกตตารางด้านล่าง)
  3. http://www.unicode.org

2

บล็อกรหัส Unicode ที่คำตอบอื่น ๆ ให้นั้นครอบคลุมอักขระ Unicode ภาษาจีนเกือบทั้งหมด แต่ลองดูบล็อกโค้ดอื่น ๆ เหล่านี้ด้วย

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

ดูการอภิปรายฟูลเลอร์ของฉันที่นี่ และไซต์นี้สะดวกสำหรับการเรียกดู Unicode


1

สรุปดูเหมือนว่าพวกเขาเหล่านี้:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.