ข้อกำหนดขั้นต่ำสุดและขั้นต่ำสำหรับการบรรจุชุดอักขระ SE Asian สำหรับโครงการระบบฝังตัวคืออะไร


14

ฉันทำงานให้กับ บริษัท ที่เริ่มรวมระบบคอมพิวเตอร์ฝังตัวเข้ากับผลิตภัณฑ์ของเราที่เราผลิต เรามีผลิตภัณฑ์ที่หลากหลายและกระจายอยู่ทั่วโลก นอกจากนี้เราได้ออกแบบบอร์ดรวมสองสามตัวที่สามารถให้บริการได้หลายวัตถุประสงค์ขึ้นอยู่กับเฟิร์มแวร์ที่ได้รับการกระพริบไปยังระบบ วิธีนี้เราไม่ต้องออกแบบฮาร์ดแวร์คอมพิวเตอร์สำหรับผลิตภัณฑ์ต่าง ๆ ของเรา - สิ่งที่เราต้องทำคือเขียนเลเยอร์เฟิร์มแวร์อีกครั้งเพื่อตอบสนองความต้องการของผลิตภัณฑ์เฉพาะ

เนื่องจากข้อ จำกัด ของฮาร์ดแวร์เหล่านี้การเปลี่ยนฮาร์ดแวร์ของเราทำให้การมีเพศสัมพันธ์ แต่การเขียนซอฟต์แวร์ใหม่นั้นง่ายกว่ามาก

หนึ่งในผลิตภัณฑ์ของเรามีข้อกำหนดใหม่ที่เราไม่เคยใช้มาก่อนซึ่งเป็นความต้องการของข้อความที่ผู้ใช้ป้อน

ขณะนี้เราสามารถจัดเก็บข้อความสากลในแหล่งข้อมูลและมีเพียงตัวอักษรที่จำเป็นเท่านั้นที่ถูกรวบรวมเป็นภาพบิตแมป ซึ่งหมายความว่าเราสามารถจัดเก็บภาษาที่มีอุดมการณ์สูงเช่นข้อความภาษาจีนและญี่ปุ่นในพื้นที่ที่น้อยที่สุดเพราะเราใช้ชุดภาษาทั้งหมดเพียงเล็กน้อยเท่านั้น

เนื่องจากผลิตภัณฑ์ใหม่นี้ต้องการให้ผู้ใช้ป้อนข้อความเราจึงต้องใช้ชุดอักขระที่ครอบคลุม ในฐานะนักพัฒนาพีซีฉันคุ้นเคยกับ ASCII, Unicode, UTF-8 และอื่น ๆ อย่างไรก็ตามการใช้ชุดอักขระเต็มรูปแบบของภาษาเหล่านี้ไม่สามารถทำได้เพราะเรามี FRAM จำนวน จำกัด บนกระดาน เพื่อจัดเก็บข้อมูลตัวอักษร

ผู้บริหารของฉันหวังว่าจะมีชุดอักขระน้อยที่สุดที่สามารถใช้สำหรับภาษาที่มีอุดมการณ์สูง ฉันเชื่อว่ามีสัทอักษรสำหรับภาษาญี่ปุ่น (ฮิรางานะ) มีตัวอักษรสัทอักษรที่คล้ายคลึงกันสำหรับภาษาจีนเกาหลีเวียดนามและอื่น ๆ เช่นกันและถ้าเป็นเช่นนั้นผู้พูดภาษาเหล่านี้สามารถสื่อสารกับชุดอักขระที่แคบได้หรือไม่ ฉันค่อนข้างมั่นใจว่าคำตอบสำหรับคำถามนั้นคือ "ไม่แน่นอน" แต่เป็นคำถามที่น่าถาม

ฝ่ายบริหารได้กำหนดข้อกำหนด "อ่อน" ที่เราสามารถมีชุดอักขระที่ จำกัด เพียงประมาณ 8,000 ตัวครอบคลุมภาษาที่สำคัญทั้งหมดในการใช้งานทั่วไป หากสิ่งนี้เป็นไปไม่ได้เราต้องหาวิธีการทางเลือกบางรูปแบบเพื่อตอบสนองความต้องการของเราโดยใช้ทรัพยากรฮาร์ดแวร์ที่มีอยู่อย่าง จำกัด ของเรา

ฉันแน่ใจว่าปัญหานี้จะต้องได้รับการแก้ไขก่อน ใครบ้างมีประสบการณ์ทำงานภายใต้ข้อ จำกัด ดังกล่าวในขณะที่ต้องการระบบการเข้ารหัสแบบอักษรและอักขระที่กว้างขวาง ถ้าเป็นเช่นนั้นคุณสามารถนำเสนอนักเก็ตแห่งปัญญาได้อย่างไร?


ทั้งเกาหลีและญี่ปุ่นไม่ได้เป็นส่วนหนึ่งของเอเชียตะวันออกเฉียงใต้ พวกมันเป็นของ E Asia แน่นอนถ้าคุณหมายถึง S, SE และ E Asia โปรดเขียนด้วย
lalala

คำตอบ:


25

นี่เป็นคำถามที่ยอดเยี่ยม

เพื่อจัดการคำตอบของคุณทีละภาษา

เวียตนาม

ชาวเวียดนามไม่ได้ใช้ตัวอักษรในเชิงอุดมคติอีกต่อไป แต่ชุดภาษาละตินของมันค่อนข้างกว้าง: ดูตัวอย่างเพื่อดูว่ามีการใช้เครื่องหมายกำกับจำนวนเท่าใด:

TiệngViệt, hay Việtngữ, à ng n nủệệệệệệệệệệệệệệườệườệinhệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệ..................................................... .ệệ.......... .ệệệệệệệệệệệệệệệệệệệệ: การจัดการธุรกิจ lâylàtiếngmẹđẻcủakhoảng 85% dâncưViệt Nam, cớngvớigần ba triệunườệườệệệệỹỹỹỹỹỹỹỹỹỹỹỹỹ 85 85 85 85 85 85 85 85 85 85 85 ệệệệệệệệệệnệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệệจากทุกอย่างมีคุณภาพ

เหตุผลก็คือว่าทุกชื่อเวียตนามมีหนึ่งในหกเสียงที่มีผลกระทบต่อการออกเสียงนอกเหนือจากการมีสัญลักษณ์พยัญชนะที่ไม่ได้มาตรฐานหนึ่งและสระที่ไม่ได้มาตรฐานหก

Unicode ประกอบด้วยเครื่องหมายโทนเสียงเหนือสระ ถ้าคุณมีความสามารถในการร่ายมนตร์เขียนคุณจะต้องการเพียง13 ร่ายมนตร์พิเศษสำหรับเวียดนาม แต่ถ้าไม่คุณจะต้องเสริม 1 พยัญชนะสระ + 12 * 6 เสียง + 6 สระใหม่ไม่มีเสียงสูงต่ำ = 79 ร่ายมนตร์พิเศษใน downcase และ ตัวพิมพ์ใหญ่

เกาหลี

เกาหลีเป็นข่าวร้าย ภาษาเกาหลีเขียนแม้ว่าตัวอักษรชื่ออังกูลซึ่งในขณะที่ในทางเทคนิคเป็นตัวอักษรเพียง 68 ตัวอักษร (เรียกว่าจาโม) แต่จริง ๆ แล้วเขียนด้วยตัวอักษรขนาดพยางค์ที่สร้างขึ้นจากจาโม

ตัวอย่างลักษณะของข้อความภาษาเกาหลี:

43 또는조선글은한국어 46 로서로서, 1443 14 조선제대 46 하여 46 46 46 46 46 46 46 46 46 46 46 46 46 46 46 46 46 46 46 46 46 46 하여 46 46 하여하여 46 46 46 1894 년에이르러한글인이이 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 이름을사용하였다

Unicode มีอักขระบล็อกที่เสร็จสมบูรณ์แล้ว 11,172 ตัว แต่ถ้าคุณยินดีที่จะเขียนรหัสตรรกะเพื่อเขียน“ บล็อก” ตัวสุดท้ายคุณสามารถบันทึกชุดอักขระได้อย่างมาก

โดยทั่วไปพยางค์ทั้งหมดสามารถแบ่งออกเป็นสองประเภท - พยัญชนะ + สระและพยัญชนะ + สระ + สุดท้ายที่สุดท้ายสามารถเป็นเสียงสระพยัญชนะหรือคอมโพสิต CV CV ถูกสร้างด้วย C ทางซ้ายและ V ทางขวา ตัวอักษร CVF ประกอบด้วยตัวบล็อก CV ที่ด้านบน (จากซ้ายไปขวา) และสุดท้ายที่ด้านล่าง

ดังนั้นโดยทั่วไปคุณต้อง:

  • 19 ตัวย่อในสองรูปแบบ
  • 21 medials ในสองรูปแบบ
  • 28 รอบชิงชนะเลิศ

รวมเป็น108 สัญลักษณ์ (ฉันไม่แน่ใจอย่างแน่นอนว่าไม่มี“ หนังสติ๊ก” ในภาษาเกาหลีดังนั้นบางครั้งบล็อกที่สร้างขึ้นจะดูแตกต่างจากการรวมส่วนประกอบ แต่นั่นคือสิ่งที่ดีที่สุดที่เราจะได้รับในตอนนี้)

ญี่ปุ่น

ในขณะที่คุณสังเกตเห็นอย่างถูกต้องญี่ปุ่นมีตัวอักษรสัทอักษร - แต่ที่จริงแล้วไม่ใช่แค่หนึ่ง แต่สอง! ฮิระงะนะและคาตาคานะเป็นพยางค์ซึ่งมี 48 พยางค์เดียวกัน แต่ใช้ในบริบทที่แตกต่างกัน (คาตาคานะใช้สำหรับคำต่างประเทศฮิรางานะใช้สำหรับไวยากรณ์)

น่าเศร้า (สำหรับจุดประสงค์ของเรา) ญี่ปุ่นแทบจะเป็นไปไม่ได้เลยที่จะเขียนโดยใช้ตัวอักษรสองตัวนี้เท่านั้น - ตัวอักษรจีนหรือคันจิตามที่พวกเขารู้จักในบริบทนี้มีความสำคัญต่อข้อความภาษาญี่ปุ่นใด ๆ

ตัวอย่างการเขียนแบบมีข้อผูกมัด:

仮名 (かな) とは, 漢字をもとにして日本で作られた文字のこと. 現在一般には平仮名と片仮名のことを指す. 表音文字の一種であり, 基本的に 1 字が 1 音節をあらわす音節文字に分類される. 漢字に対して和字 (わじ) とも言う. ただし和字は和製漢字を意味する事もある

นอกจากตัวอักษรคันจิคุณจะต้องใช้ร่ายมนตร์ 103 ร่ายมนตร์เพื่อทำแผนที่ตัวอักษรการออกเสียงสองตัว + ตัวอักษรคันจิทั่วไป 7 ตัวที่ไม่มีในภาษาจีน

เครื่องหมายวรรคตอน CKJ

ไม่ใช่ผู้เชี่ยวชาญในเรื่องนี้ แต่ทั้งจีนและญี่ปุ่นใช้เครื่องหมายวรรคตอนแบบเอเชียคลาสสิก Unicode มี64 สัญลักษณ์ที่ใช้เพื่อเครื่องหมายวรรคตอนและสัญลักษณ์ CJK

ชาวจีน

ดังนั้นเราจึงเหลือตัวอักษร 7631 ตัวใน "งบประมาณ" ของเรา มันจะเพียงพอที่จะครอบคลุมตัวอักษรจีนหรือไม่

漢字為上古時代的華夏族人所發明創製並作改進, 目前确切歷史可追溯至約公元前 1300 年商朝的甲骨文, 籀文, 金文. 再到秦朝的小篆, 發展至漢朝隸變,至唐代楷化為今日所用的手寫字體標準 -. 正楷汉字是迄今为止连续使用时间最长的主要文字, 也是上古时期各大文字体系中唯一传承至今的文字, 期間東亞諸國都有一定程度地自行創製漢字

ด้วยตัวละครที่มีอยู่มากกว่า 100,000 ตัวเป็นไปไม่ได้ที่จะครอบคลุมชุดตัวอักษรจีนอย่างเต็มที่ มีการกล่าวถึงอักขระ 2,000-3,000 ตัวสำหรับความรู้ทั่วไป (HSK, การทดสอบ TOEFL เหมือนภาษาจีนกลาง) ต้องการความรู้ 2800 ตัวอักษรสำหรับระดับสูงสุด, HSK Advanced), 4000-5000 ตัวอักษรเพียงพอสำหรับบุคคลที่มีการศึกษา

โปรดทราบว่ามีตัวย่อและตัวละครแบบดั้งเดิม (เดิมใช้ใน PRC, หลัง - ในไต้หวัน) ซึ่งแตกต่างกันไปสำหรับตัวละครจำนวนมากเหลือ 7600 สัญลักษณ์ที่เหลือฉันจะบอกว่าจะเพียงพอที่จะครอบคลุมกรณีการใช้งานส่วนใหญ่สำหรับ ตัวละครทั้งสอง

อย่าลังเลที่จะถามว่าคุณมีคำถามใด ๆ !


5
ว้าว. นั่นอาจเป็นคำตอบที่ดีที่สุดที่ฉันเคยได้รับสำหรับคำถามใด ๆ ที่ฉันโพสต์ไว้บน SO ฉันแก้ไขคำถามนี้ก่อนหน้านี้วันนี้เพราะเหลือค้าง ความต้องการของเราเปลี่ยนไปเล็กน้อย แต่ฉันก็รู้ว่าลักษณะของผลิตภัณฑ์ของเราและฉันคาดว่าสิ่งนี้เป็นสิ่งจำเป็นในอนาคตในเวลาที่ไม่รู้จัก คุณได้รับ +1 และตอบคะแนน ฉันหวังว่าฉันจะให้คะแนนมากกว่านี้เช่นกัน ขอบคุณ 1,000,000!
RLH

ไม่ชอบคนไทยหรอ
lalala
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.