U + 4E00..U + 9FFF เป็นส่วนหนึ่งของชุดสมบูรณ์ แต่ไม่ใช่ทั้งหมด
U + 4E00..U + 9FFF เป็นส่วนหนึ่งของชุดสมบูรณ์ แต่ไม่ใช่ทั้งหมด
คำตอบ:
คุณอาจพบรายการทั้งหมดผ่านคำถามที่พบบ่อยเกี่ยวกับCJK Unicode (ซึ่งรวมถึงอักขระ "จีนญี่ปุ่นและเกาหลี")
เอกสาร " East Asian Script " กล่าวถึง:
บล็อกที่มีอุดมการณ์ของฮั่น
อักขระเชิงอุดมคติของฮั่นพบได้ในห้าบล็อกหลักของ Unicode Standard ดังแสดงในตารางที่ 12-2
ตารางที่ 12-2. บล็อกที่มีอุดมการณ์ของฮั่น
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
หมายเหตุ: ช่วงบล็อกสามารถพัฒนาในช่วงเวลา: ล่าสุดอยู่ในCJK Unified Ideographs
ดู Wikipedia ด้วย:
ปัจจุบัน Unicode มีอักขระ 74605 CJK ตัวอักษร CJK ไม่เพียง แต่มีตัวละครที่ใช้โดยจีน แต่ยังคันจิของญี่ปุ่น, เกาหลีฮันจาและเวียดนามชู Nom อักขระ CJK บางตัวไม่ใช่อักษรจีน
รหัสชี้ U + 4E00 ถึง U + 9FCC
รหัสชี้U + 3400 U Unicode 3.0 (1999)
รหัสชี้ U + 20000 ถึง U + 2A6D6 Unicode 3.1 (2001).
รหัสชี้U + 2A700 เพื่อ U Unicode 5.2 (2009).
รหัสชี้U + 2B740 เพื่อ U Unicode 6.0 (2010)
หากสิ่งที่กล่าวมาข้างต้นยังไม่เพียงพอสำหรับสปาเก็ตตี้ลองดูปัญหาที่ทราบ ขอให้สนุก =)
ช่วงที่แน่นอนสำหรับตัวอักษรจีน (ยกเว้นส่วนขยาย) [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
เป็น
CJK Radicals Supplement เป็นบล็อก Unicode ที่มีทางเลือกอื่นซึ่งมักเป็นตำแหน่งรูปแบบของอนุมูลคังซี พวกเขาใช้ส่วนหัวในดัชนีพจนานุกรมและคอลเลกชันแนวคิด CJK อื่น ๆ ที่จัดเรียงโดยจังหวะที่รุนแรง
Kanbun เป็นบล็อก Unicode ที่มีอักขระคำอธิบายประกอบที่ใช้ในสำเนาข้อความภาษาจีนคลาสสิกของญี่ปุ่นเพื่อระบุลำดับการอ่าน
CJK Unified Ideographs Extension-A เป็นบล็อก Unicode ที่มีอุดมคติของชาวฮั่นที่หายาก
CJK Unified Ideographs เป็นบล็อก Unicode ที่มีรูปแบบ CJK ที่ใช้กันทั่วไปในภาษาจีนและญี่ปุ่นสมัยใหม่
CJK Compatibility Ideographs เป็นบล็อก Unicode ที่สร้างขึ้นเพื่อให้มีอักขระ Han ที่เข้ารหัสในหลายตำแหน่งในการเข้ารหัสอักขระอื่น ๆ ที่กำหนดไว้นอกเหนือจากการกำหนด CJK Unified Ideographs เพื่อรักษาความเข้ากันได้แบบไปกลับระหว่าง Unicode และการเข้ารหัสเหล่านั้น
สำหรับรายละเอียดโปรดดูที่นี่และส่วนขยายมีอยู่ในคำตอบอื่น ๆ
Unicode เวอร์ชัน 11.0.0
ใน Unicode สคริปต์ภาษาจีนญี่ปุ่นและเกาหลี (CJK) ใช้พื้นหลังทั่วไปซึ่งเรียกรวมกันว่าอักขระ CJK
ช่วงเหล่านี้มักมีจุดรหัสที่ไม่ได้กำหนดหรือสงวนไว้ (เช่นU + 2E9A , U + 2EF4 - 2EFF)
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
ดังนั้นช่วงคือ
[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]
พวกเขาเป็นฮันสามัญที่ใช้เพื่อความเข้ากันได้เท่านั้น
แทบจะเป็นไปไม่ได้เลยที่จะเห็นสิ่งเหล่านี้ปรากฏในหนังสือบทความงานเขียนของจีน
อักขระทั้งหมดที่นี่มีอักขระจีนที่เหมือนกัน เช่น金 (U + F90A) และ金 (U + 91D1) จะเหมือนกันใน Glyph
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
นี่เป็นช่วงกว้างบางวรรคตอนอาจไม่เคยใช้บางวรรคเช่น……”“
ใช้มากในภาษาจีน
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
นอกจากนี้ยังมีสัญลักษณ์ที่เกี่ยวข้องกับภาษาจีนมากมายเช่นYijing Hexagram SymbolsหรือKanbunแต่มันก็ไม่ตรงประเด็นอยู่ดี ฉันเขียนอักขระที่ไม่ใช่ภาษาจีนใน CJK เพื่อให้อธิบายได้ดีขึ้นว่าอักษรจีนคืออะไร และช่วงข้างต้นครอบคลุมตัวอักษรเกือบทั้งหมดแล้วในการเขียนภาษาจีนยกเว้นคณิตศาสตร์และสัญกรณ์พิเศษอื่น ๆ
สัญลักษณ์ CJK และเครื่องหมายวรรคตอน
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
แบบฟอร์ม Halfwidth และ Fullwidth
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
บล็อกรหัส Unicode ที่คำตอบอื่น ๆ ให้นั้นครอบคลุมอักขระ Unicode ภาษาจีนเกือบทั้งหมด แต่ลองดูบล็อกโค้ดอื่น ๆ เหล่านี้ด้วย
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
ดูการอภิปรายฟูลเลอร์ของฉันที่นี่ และไซต์นี้สะดวกสำหรับการเรียกดู Unicode
สรุปดูเหมือนว่าพวกเขาเหล่านี้:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]