ความแตกต่างระหว่างตัวละคร, จุดโค้ด, glyph และกราฟคืออะไร?


147

การพยายามทำความเข้าใจรายละเอียดปลีกย่อยของ Unicode ที่ทันสมัยทำให้ฉันปวดหัว โดยเฉพาะอย่างยิ่งความแตกต่างระหว่างจุดรหัสอักขระร่ายมนตร์และกราฟิค - แนวคิดซึ่งในกรณีที่ง่ายที่สุดเมื่อจัดการกับข้อความภาษาอังกฤษโดยใช้อักขระ ASCII ทั้งหมดมีความสัมพันธ์แบบหนึ่งต่อหนึ่งซึ่งกันและกันทำให้ฉันเดือดร้อน

เมื่อเห็นว่าคำศัพท์เหล่านี้ถูกนำไปใช้ในเอกสารอย่าง Matthias Bynens ' JavaScript มีปัญหา unicodeหรือ Wikipedia เกี่ยวกับการรวมกันของ Hanฉันได้รวบรวมว่าแนวคิดเหล่านี้ไม่เหมือนกันและเป็นอันตรายที่จะทำให้พวกเขาสับสน แต่ฉัน ดิ้นรนที่จะเข้าใจสิ่งที่แต่ละระยะหมายถึง

Unicode Consortium มีคำศัพท์เพื่ออธิบายสิ่งนี้ แต่มันเต็มไปด้วย "คำจำกัดความ" ดังนี้:

ตัวละครที่เป็นนามธรรม หน่วยของข้อมูลที่ใช้สำหรับองค์กรการควบคุมหรือการแสดงข้อมูลที่เป็นข้อความ ...

...

ตัวละคร ... (2) คำพ้องสำหรับอักขระนามธรรม (3) หน่วยพื้นฐานของการเข้ารหัสสำหรับการเข้ารหัสอักขระ Unicode ...

...

สัญลักษณ์ (1) รูปแบบนามธรรมที่แสดงภาพสัญลักษณ์หนึ่งภาพขึ้นไป (2) คำพ้องสำหรับรูปภาพสัญลักษณ์ ในการแสดงข้อมูลอักขระ Unicode อาจมีหนึ่งหรือมากกว่าหนึ่งสัญลักษณ์อาจถูกเลือกเพื่อแสดงอักขระเฉพาะ

...

อักษร (1) หน่วยการเขียนที่โดดเด่นที่สุดในบริบทของระบบการเขียนเฉพาะ ...

คำจำกัดความเหล่านี้ส่วนใหญ่มีคุณภาพของการทำให้เกิดเสียงทางวิชาการและเป็นทางการ แต่ขาดคุณภาพของความหมายอะไรหรืออื่น ๆ เลื่อนการแก้ไขปัญหาของคำนิยามไปยังรายการคำศัพท์หรือส่วนอื่นของมาตรฐาน

ดังนั้นฉันจึงค้นหาภูมิปัญญาที่ลึกลับของผู้ที่เรียนรู้มากกว่าฉันแต่ละแนวคิดเหล่านี้แตกต่างจากกันอย่างไรและในสถานการณ์ใดพวกเขาจะไม่มีความสัมพันธ์แบบหนึ่งต่อหนึ่งกับแต่ละคน?


มีระบบการเขียนที่แตกต่างกันมากสำหรับภาษาที่แตกต่างกัน ดังนั้นจึงมีมุมมองที่แตกต่างกันเกี่ยวกับปัญหาการเขียนและยังมีประวัติอันยาวนานเบื้องหลัง IMHO มันมีประโยชน์ที่จะเก็บที่ในใจเพราะ Unicode พยายามที่จะปกทุกอย่าง (ตัวละครที่เหมือนกันหรือแตกต่างกันหรือไม่คันจิอนุมูลอิสระ? อังกูล? นักออกเสียงกำกับ? อิโมจิสีผิว?))
Pablo H

คำตอบ:


226
  • ตัวละครเป็นคำที่มากไปกว่าที่จะหมายถึงหลายสิ่งหลายอย่าง

  • จุดรหัสเป็นหน่วยอะตอมของข้อมูล Textคือลำดับของจุดโค้ด จุดโค้ดแต่ละจุดเป็นตัวเลขที่ให้ความหมายโดยมาตรฐาน Unicode

  • รหัสหน่วยเป็นหน่วยของการจัดเก็บข้อมูลของการเป็นส่วนหนึ่งของจุดรหัสเข้ารหัส ใน UTF-8 หมายถึง 8-bits ใน UTF-16 นี่หมายถึง 16-bits หน่วยรหัสเดียวอาจแสดงถึงจุดรหัสเต็มหรือส่วนหนึ่งของจุดรหัส ตัวอย่างเช่น snowman glyph ( ) เป็นจุดรหัสเดียว แต่มี 3 หน่วยรหัส UTF-8 และ 1 รหัสหน่วย UTF-16

  • อักษรเป็นลำดับหนึ่งหรือมากกว่าจุดรหัสที่ปรากฏเป็นหนึ่งหน่วยกราฟิกที่ผู้อ่านรับรู้เป็นองค์ประกอบหนึ่งของระบบการเขียนที่ ตัวอย่างเช่นทั้งสองaและäเป็น graphemes แต่อาจประกอบด้วยจุดรหัสหลายจุด (เช่นäอาจเป็นจุดรหัสสองจุดจุดหนึ่งสำหรับอักขระฐานaตามด้วยอีกจุดหนึ่งสำหรับ diaresis แต่ยังมีทางเลือกมรดกจุดรหัสเดี่ยวที่เป็นตัวแทนของกราฟ ) จุดรหัสบางจุดไม่ได้เป็นส่วนหนึ่งของกราฟใด ๆ (เช่นการไม่เข้าร่วมศูนย์ความกว้างหรือการแทนที่ทิศทาง)

  • แกะสลักเป็นภาพที่มักจะเก็บไว้ในตัวอักษร (ซึ่งเป็นคอลเลกชันของร่ายมนตร์) ใช้แทนอักษรหรือบางส่วน ฟอนต์อาจเขียนร่ายมนตร์หลายอันในการเป็นตัวแทนเพียงครั้งเดียวตัวอย่างเช่นหากด้านบนäเป็นจุดรหัสเดียวฟอนต์อาจเลือกที่จะทำให้มันเป็นสองร่ายมนตร์ที่ซ้อนทับกันเชิงพื้นที่ สำหรับ OTF ตาราง GSUB และ GPOS ของฟอนต์จะมีข้อมูลการแทนที่และการวางตำแหน่งเพื่อใช้งาน ฟอนต์อาจมีร่ายมนตร์สำรองหลายแบบสำหรับกราฟเดียวกันเช่นกัน


4
ฉันเพิ่งส่งการแก้ไขที่จัดเรียงลำดับของจุดรหัสและรหัสหน่วยอีกครั้ง ฉันเห็นด้วยกับคุณว่าหน่วยรหัสควรมาที่สอง สำหรับการเป็น "นอกสถานที่" ฉันสงสัยว่าคุณเห็นคำตอบนี้ว่าเป็นการให้บริการที่แตกต่างจากที่ฉันทำ ฉันคิดว่ามีคุณค่าอย่างยิ่งที่จะมีคำศัพท์ทั้ง 5 ข้อนี้ในที่เดียว สิ่งสุดท้ายที่ฉันต้องการคือ google สำหรับ "อะไรคือความแตกต่างระหว่าง glyph, grapheme, code unit และ code point และต้องได้รับคำตอบในสองที่ในการอภิปรายจำนวนมากเงื่อนไขเหล่านี้ถูกใช้ในการสนทนา ฉันเห็นการสนทนากับหน่วยอื่น ๆ 4 หน่วย แต่ไม่ใช่หน่วยรหัส
Micah Zoltu

1
ตัวอย่างเช่น '\ uD83D \ uDC0A' (ซึ่งแสดงอีโมจิจระเข้) อะไรคือจุดรหัส, กราฟ, ฯลฯ ? โดยเฉพาะอย่างยิ่งวิธีการไม่ได้เกี่ยวข้องกับ.length, .codePointAt(0), .codePointAt(1), .charCodeAt(0)และ.charCodeAt(1)ผล?
qbolec

3
@ qbolec: นั่นคือหน่วยรหัส UTF-16 สองหน่วยที่แสดงจุดรหัสเดียว (U + 1F40A) และเนื่องจากเป็นอีโมจิมันอาจเป็นกราฟเดี่ยวของตัวเอง
Kerrek SB

2
@ TomPažourek: ในการกำหนดค่าแบบบัญญัติให้เป็นแบบแยกย่อยมันจะแสดงด้วย codepoints สองตัว ( aบวก "การรวมเครื่องหมายการออกเสียง"); ในการกำหนดให้เป็นแบบบัญญัติมันจะแสดงด้วย codepoint เดียว ( äจากช่วงเก่าของ Latin-1 แบบเก่า) การกำหนดให้เป็นเอกยูนิโค้ดเป็นเรื่องที่คุณต้องการตรวจสอบว่าคุณสนใจสิ่งนี้หรือไม่ ในโลกที่ว่างเปล่าจะมีเพียงฐานและการรวมตัวอักษรและไม่มีคอมโพสิตที่สร้างไว้ล่วงหน้า
Kerrek SB

1
@Kaushik: ฉันไม่แน่ใจว่าคุณหมายถึงอะไร: หน่วยรหัสเป็นหน่วยเก็บข้อมูลใช่ แต่จุดรหัสโดยทั่วไปต้องมีหน่วยรหัสหลายหน่วยสำหรับการจัดเก็บ (ยกเว้นใน UTF-32)
Kerrek SB

1

นอกมาตรฐาน Unicode ตัวละครที่เป็นหน่วยของแต่ละข้อความประกอบด้วยหนึ่งหรือมากกว่าอักษร สิ่งที่มาตรฐาน Unicode กำหนดเป็น "ตัวอักษร" คือการผสมผสานระหว่างกราฟิกและตัวอักษร Unicode จัดเตรียมกฎสำหรับการตีความ juxtaposed graphemes เป็นอักขระแต่ละตัว

Unicode จุดรหัสเป็นหมายเลขที่ไม่ซ้ำกันได้รับมอบหมายให้แต่ละอักขระ Unicode (ซึ่งเป็นทั้งตัวอักษรหรือตัวอักษรก)

น่าเสียดายที่กฎ Unicode อนุญาตให้ตีความ juxtaposed บางรูปแบบเป็นรูปแบบอื่น ๆ ที่มีรหัสคะแนนของตัวเองอยู่แล้ว ( แบบฟอร์ม precomposed ) ซึ่งหมายความว่ามี Unicode มากกว่าหนึ่งวิธีในการแสดงอักขระ การปรับสภาพ Unicodeแก้ปัญหานี้

สัญลักษณ์คือการแสดงภาพของตัวละคร ฟอนต์จัดเตรียมชุดของ glyphs สำหรับชุดอักขระบางตัว (ไม่ใช่อักขระ Unicode) สำหรับตัวละครทุกตัวมีร่ายมนตร์ที่เป็นไปได้ไม่ จำกัด จำนวน

คำตอบของ Mark Amery

ครั้งแรกที่ฉันกล่าวว่ามีจำนวนที่เป็นไปได้ของร่ายมนตร์ที่เป็นไปได้สำหรับตัวละครแต่ละตัวดังนั้นไม่ตัวละครไม่ได้เป็น "มักจะแสดงด้วยสัญลักษณ์เดียว" Unicode ไม่ได้เกี่ยวข้องกับร่ายมนตร์มากนักและสิ่งที่มันกำหนดไว้ในแผนภูมิรหัสของมันนั้นไม่ใช่ร่ายมนตร์อย่างแน่นอน ปัญหาคือพวกมันไม่ใช่ตัวละครทุกตัว แล้วพวกมันคืออะไร

เอนทิตีที่มากกว่ากราฟิกหรือตัวละครคืออะไร? สิ่งใดที่เรียกองค์ประกอบกราฟิกเหล่านั้นในข้อความที่ไม่ใช่ตัวอักษรหรือเครื่องหมายวรรคตอน หนึ่งคำที่ผุดขึ้นมาในใจอย่างรวดเร็วคือ "แกรม" มันเป็นคำที่คิดในใจว่า "หน่วยกราฟิกในข้อความ" ผมจะนำเสนอคำนิยามนี้: อักษรเป็นองค์ประกอบที่แตกต่างกันมีขนาดเล็กที่สุดในข้อความที่เขียน

ใคร ๆ ก็สามารถไปทางอื่นและบอกว่าภาพเขียนประกอบไปด้วยตัวอักษร แต่แล้วพวกเขาก็จะถูกเรียกว่า "ภาพวาดจีน" และบิตและชิ้นส่วนเหล่านั้นภาพเขียนอักษรจีนที่ประกอบด้วยจะต้องเรียกว่า "ตัวอักษร" แทน อย่างไรก็ตามนั่นคือทั้งหมดที่ย้อนหลัง Graphemes เป็นบิตและชิ้นส่วนที่แตกต่างกันเล็กน้อย ตัวละครมีการพัฒนามากขึ้น วลี "glyphs เป็น composable" จะมีการระบุไว้ที่ดีขึ้นในบริบทของ Unicode ว่า "อักขระเป็น composable"

Unicode กำหนดอักขระ แต่ยังกำหนดกราฟที่จะประกอบกับกราฟิกหรืออักขระอื่น สิ่งประหลาดที่คุณแต่งขึ้นเป็นตัวอย่างที่ดีของเรื่องนี้ หากพวกเขาจับบางทีพวกเขาจะได้รับคะแนนรหัสของตัวเองในรุ่นที่ใหม่กว่าของ Unicode;)

มีองค์ประกอบแบบเรียกซ้ำทั้งหมดนี้ ในระดับที่สูงขึ้นกลายเป็นตัวอักษรกลายเป็นรูปแบบของกราฟ แต่เป็นรูปแบบของกราฟลงมา

ตอบกลับ TS

บทที่ 1ของสถานะมาตรฐาน: "การเข้ารหัสอักขระ Unicode จะปฏิบัติต่อตัวอักษรตัวอักษรตัวละครในอุดมคติและสัญลักษณ์อย่างเท่าเทียมกันซึ่งหมายความว่าพวกเขาสามารถนำมาใช้ในการผสมและสิ่งอำนวยความสะดวกที่เท่าเทียมกัน" เมื่อพิจารณาจากแถลงการณ์นี้เราควรเตรียมพร้อมสำหรับการทำข้อตกลงในมาตรฐาน บางครั้งคำศัพท์ที่เหมาะสมจะชัดเจนในการหวนกลับเป็นมาตรฐานการพัฒนา

มันมักจะเกิดขึ้นในคำจำกัดความที่เป็นทางการของภาษาที่มีการกำหนดสองสิ่งพื้นฐานในแง่ของกันและกัน ตัวอย่างเช่นใน XMLองค์ประกอบจะถูกกำหนดเป็นแท็กเริ่มต้นอาจตามด้วยเนื้อหาตามด้วยแท็กสิ้นสุด เนื้อหาถูกกำหนดให้เป็นองค์ประกอบข้อมูลตัวละครหรือสิ่งอื่น ๆ ที่เป็นไปได้ รูปแบบของคำจำกัดความการอ้างอิงตนเองยังมีความหมายในมาตรฐาน Unicode:

Grapheme เป็นจุดโค้ดหรือตัวอักษร

อักขระประกอบด้วยลำดับกราฟิกหนึ่งชุดขึ้นไป

เมื่อเผชิญหน้ากับคำจำกัดความทั้งสองนี้เป็นครั้งแรกผู้อ่านอาจคัดค้านคำจำกัดความแรกโดยอ้างว่าจุดรหัสเป็นตัวอักษร แต่นั่นไม่จริงเสมอไป ลำดับของสองจุดรหัสบางครั้ง encodes จุดเดียวภายใต้รหัส การฟื้นฟูและที่จุดรหัสเข้ารหัสแสดงให้เห็นถึงตัวละครดังแสดงใน รูปที่ 2.7 ลำดับของจุดโค้ดที่เข้ารหัสจุดโค้ดอื่น ๆ นี่เป็นเรื่องยุ่งยากเล็กน้อยและเรายังไม่ถึงเลเยอร์ที่ซึ่งการเข้ารหัสอักขระเช่นUTF-8ถูกใช้เพื่อเข้ารหัสจุดรหัสเป็นลำดับไบต์

ในบริบทบางอย่างเช่นบทความทางวิชาการเกี่ยวกับการ กำกับเสียงและแต่ละส่วนของตัวละครอาจปรากฏในข้อความด้วยตัวเอง ในบริบทนั้นส่วนอักขระส่วนบุคคลอาจถูกพิจารณาว่าเป็นตัวละครดังนั้นจึงเหมาะสมที่มาตรฐาน Unicode ยังคงมีความยืดหยุ่นเช่นกัน

ดังที่มาร์คเอเวอรี่ชี้ให้เห็นว่าตัวละครสามารถประกอบขึ้นเป็นสิ่งที่ซับซ้อนกว่า นั่นคือตัวละครแต่ละตัวสามารถทำหน้าที่เป็นกราฟถ้าต้องการ ผลลัพธ์สุดท้ายของการเรียบเรียงทั้งหมดเป็นสิ่งที่ "ผู้ใช้คิดว่าเป็นตัวละคร" ดูเหมือนจะไม่มีการต่อต้านจริงใด ๆ ทั้งในมาตรฐานหรือในการสนทนานี้กับความคิดที่ว่าในระดับสูงสุดมีสิ่งเหล่านี้ในข้อความที่ผู้ใช้คิดว่าเป็นอักขระแต่ละตัว เพื่อหลีกเลี่ยงการใช้คำมากเกินไปเราสามารถใช้ "grapheme" ในทุกกรณีที่เราต้องการอ้างถึงชิ้นส่วนที่ใช้ในการเขียนอักขระ

ในบางครั้งมาตรฐาน Unicode อยู่ทั่วทุกแห่งพร้อมกับคำศัพท์ ตัวอย่างเช่นบทที่ 3 กำหนด UTF-8 เป็น "รูปแบบการเข้ารหัส" ในขณะที่คำศัพท์กำหนด "รูปแบบการเข้ารหัส" เป็นอย่างอื่นและ UTF-8 เป็น "รูปแบบการเข้ารหัสตัวอักษร" อีกตัวอย่างหนึ่งคือ "Grapheme_Base" และ "Grapheme_Extend" ซึ่งได้รับการยอมรับว่าเป็นข้อผิดพลาด แต่ยังคงมีอยู่เพราะการล้างพวกเขาเป็นงานเล็กน้อย ยังคงมีงานที่ต้องทำเพื่อกระชับคำศัพท์ที่ใช้โดยมาตรฐาน

ข้อเสนอสำหรับการเพิ่มขึ้นของการรวมตัวอักษรช่างไม้ได้มันผิดเมื่อมันระบุว่า "Graphemes เป็นลำดับหนึ่งหรือตัวอักษรที่เข้ารหัสอื่น ๆ ที่ตรงกับสิ่งที่ผู้ใช้คิดว่าเป็นตัวละคร." คุณควรอ่านแทน "ลำดับของกราฟิคหนึ่งหรือมากกว่านั้นประกอบไปด้วยสิ่งที่ผู้ใช้คิดว่าเป็นอักขระ" จากนั้นก็สามารถใช้คำว่า "ลำดับแกรม" อย่างชัดเจนจากคำว่า "ลำดับอักขระ" เงื่อนไขทั้งสองมีประโยชน์ "ลำดับกราฟ" หมายถึงกระบวนการสร้างตัวละครจากชิ้นเล็ก ๆ อย่างประณีต "ลำดับอักขระ" หมายถึงสิ่งที่เราทุกคนมักจะไม่เหมาะสมเพื่อหมายถึง: "ลำดับของสิ่งที่ผู้ใช้คิดว่าเป็นอักขระ"

บางครั้งผู้เขียนโปรแกรมต้องการทำงานในระดับของ grapheme sequences ดังนั้นกลไกในการตรวจสอบและจัดการกับลำดับเหล่านั้นควรมีอยู่ แต่โดยทั่วไปเมื่อประมวลผลข้อความมันก็เพียงพอที่จะทำงานกับ "ลำดับอักขระ" (สิ่งที่ผู้ใช้คิด เป็นตัวอักษร) และให้ระบบจัดการรายละเอียดระดับล่าง

ในทุกกรณีที่กล่าวถึงในบทสนทนานี้การใช้ "grapheme" เพื่ออ้างถึงส่วนประกอบที่แยกไม่ได้และ "character" เพื่ออ้างถึงเอนทิตีที่สงบ การใช้งานนี้ยังสะท้อนความหมายที่ยาวนานขึ้นของคำศัพท์ทั้งสอง


-1 อย่างระมัดระวัง ฉันคิดว่ามันผิด คุณบอกเป็นนัยว่าตัวละครสามารถประกอบด้วยกราฟหลายตัว แต่มักจะแสดงด้วยสัญลักษณ์เดี่ยว ฉันคิดว่าจริง ๆ แล้วมันเป็นวิธีอื่น หน้าเช่นen.wikipedia.org/wiki/N-diaeresisแนะนำว่าการรวมกันของตัวอักษรที่มีเครื่องหมายกำกับเสียง (อย่างน้อยหนึ่งที่เปลี่ยนความหมายของมัน) ในรูปแบบของกราฟใหม่ที่แตกต่างกันและการออกเสียงที่ไม่ได้เป็นกราฟิกของตัวเอง ในขณะเดียวกันร่ายมนตร์นั้นสามารถจัดเรียงได้อย่างชัดเจน ͈̘̻̗̝i̙̳̩̯̮̥ͅn̪̭̹̝c̪̣̗̞̜e̥̖̮̫̣̯ͅ ̯ͅI̪͉̜̼̼̣̟̣ ̰̟̥̞̹c͈͔͇̼a̙̹̼̦̲̞n̙̺̳̟ͅ ̤̗d̘̭̙̪̦o̬̲̜̺ ̲̬̝t̺̖̗̩̱h̟̟̱i̹s̹̱.̯̖̝̯̟̜̥
Mark Amery

ฉันขอบคุณคำตอบที่ฉันเพิ่งเห็น อย่างไรก็ตามฉันยังคงคิดว่าคำจำกัดความของชุดรูปแบบของคุณนั้นไม่ถูกต้องหรืออย่างน้อยก็ขัดแย้งกับวิธีที่Unicodeกำหนดคำนั้น คุณละทิ้งความคิดของกราฟที่ประกอบด้วยอักขระว่าเป็น "ย้อนหลังทั้งหมด" แต่ฉันขุดเล็กน้อยและพบunicode.org/L2/L2000/00274-N2236-g2222-grapheme-joiner.htmซึ่งเริ่มต้นด้วยคำพูด" อักษรเป็นลำดับหนึ่งหรือตัวอักษรที่เข้ารหัสมากขึ้น"
Mark Amery

และคำสั่งนั้นยังดำเนินต่อไป"... ที่สอดคล้องกับสิ่งที่ผู้ใช้คิดว่าเป็นตัวละคร" แม้แต่คำว่า " grapheme-joiner " รวมถึงกลไกที่อยู่เบื้องหลังคำนั้นก็เป็นตัวอย่างของสิ่งที่ฉันได้กล่าวไว้ในตอนต้นของคำตอบ: สิ่งที่มาตรฐาน Unicode กำหนดเป็น "ตัวอักษร" นั้นก็คือการผสมผสานระหว่างตัวอักษรและตัวอักษร เป็นการดีกว่าที่จะเรียกใช้ "graphemes" และตัวละคร "ตัวอักษร" แทนการประดิษฐ์สิ่งที่มีอยู่เช่น " precomposed อักขระ " และ " grapheme clusters "
แย่ Yorick

@PoorYorick คุณอ้างว่า "... ตัวละครเป็นหน่วยของแต่ละข้อความที่ประกอบด้วยหนึ่งหรือมากกว่าหนึ่งรูปแบบของกราฟ" และ "รูปแบบของกราฟเป็นบิตและส่วนที่แตกต่างกันเล็กน้อย คุณมีข้อมูลอ้างอิงที่สนับสนุนการอ้างสิทธิ์เหล่านี้หรือไม่? เพราะฉันสงสัยว่ากลุ่มยูนิโค้ดจงใจตัดสินใจกำหนดชื่อของพวกเขาอย่างใด "คว่ำ"
TS

@PoorYorick ฉันเข้าใจประเด็นของคุณก่อนที่คุณจะเพิ่มคำอธิบายเพิ่มเติมนั่นไม่ใช่เหตุผลที่ฉันถาม ฉันแค่ขออ้างอิง (พจนานุกรมศัพท์บทความทางวิทยาศาสตร์มาตรฐานทางเทคนิค ... ) เพราะฉันไม่รู้จักเอกสารใด ๆ ที่ใช้ grapheme ในแบบที่คุณตีความ (สองสามผลลัพธ์แรกของ Google สำหรับ grapheme ไม่ได้ใช้คำนี้ในแบบของคุณ) คุณเพิ่ม blockquote "A grapheme เป็นจุดโค้ดหรือตัวอักษร [... ]" - แต่มันมาจากไหน? ในตอนท้ายคุณพูดว่า "ความหมายที่ยาวนานขึ้นของคำศัพท์ทั้งสอง" - หากจัดตั้งขึ้นแล้วเชื่อมโยงไปยังบางสิ่งนั่นคือการใช้คำนี้ด้วยวิธีการ
TS
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.