คำถามติดแท็ก unicode

Unicode มีวัตถุประสงค์เพื่อเป็นชุดอักขระสากลสำหรับอธิบายอักขระทั้งหมดที่จำเป็นสำหรับข้อความที่เป็นลายลักษณ์อักษรที่รวมระบบการเขียนสัญลักษณ์ทางเทคนิคและเครื่องหมายวรรคตอนทั้งหมด

8
จุดประสงค์ของการเพิ่มตัวระบุ Unicode สนับสนุนการใช้ภาษาต่าง ๆ คืออะไร
ฉันเองพบว่ารหัสการอ่านที่เต็มไปด้วยตัวระบุ Unicode ทำให้เกิดความสับสน ในความคิดของฉันมันยังป้องกันไม่ให้รหัสถูกดูแลรักษาได้ง่าย ไม่ต้องพูดถึงความพยายามทั้งหมดที่จำเป็นสำหรับผู้แต่งนักแปลหลายคนที่จะใช้การสนับสนุนดังกล่าว ฉันยังสังเกตเห็นการขาด (หรือการมีอยู่) ของตัวระบุ Unicode อย่างต่อเนื่องสนับสนุนในรายการของ (dis) ข้อดีของการใช้งานภาษาต่าง ๆ (เช่นที่มันสำคัญจริงๆ) ฉันไม่เข้าใจ: ทำไมถึงสนใจมาก?
14 unicode 

2
การใช้ Trie ที่มีประสิทธิภาพสำหรับสตริง Unicode
ฉันกำลังมองหาการใช้งาน String Trie ที่มีประสิทธิภาพ ส่วนใหญ่ฉันพบรหัสเช่นนี้: การใช้งานอ้างอิงใน Java (ต่อวิกิพีเดีย) ฉันไม่ชอบการใช้งานเหล่านี้ด้วยเหตุผลสองประการ: รองรับอักขระได้เพียง 256 ตัวเท่านั้น ฉันต้องครอบคลุมสิ่งต่าง ๆ เช่นไซริลลิก พวกเขาไม่มีประสิทธิภาพหน่วยความจำอย่างมาก แต่ละโหนดมีอาร์เรย์ของการอ้างอิง 256 รายการซึ่งเป็น 4096 ไบต์บนเครื่อง 64 บิตใน Java แต่ละโหนดเหล่านี้สามารถมีโหนดย่อยได้มากถึง 256 โหนดโดยมี 4096 ไบต์สำหรับการอ้างอิงแต่ละโหนด Trie แบบเต็มสำหรับสตริงอักขระ ASCII 2 ทุกตัวจะต้องมีขนาดเกิน 1MB สามสายอักขระ? 256MB สำหรับอาร์เรย์ในโหนดเท่านั้น และอื่น ๆ แน่นอนว่าฉันไม่ได้ตั้งใจที่จะมีสายอักขระทั้งหมด 16 ล้านสายใน Trie ของฉันดังนั้นพื้นที่ว่างจำนวนมากจึงสูญเปล่า อาร์เรย์เหล่านี้ส่วนใหญ่เป็นเพียงการอ้างอิงที่เป็นโมฆะเนื่องจากความจุของพวกมันมีจำนวนเกินกว่าจำนวนคีย์ที่แทรก และถ้าฉันเพิ่มยูนิโค้ด, อาร์เรย์จะมีขนาดใหญ่ขึ้น (ถ่านมีค่า 64k …
12 unicode  trie 

5
ทำไม“ charset” ถึงมีความหมายว่า“ การเข้ารหัส” ในการใช้งานทั่วไป?
สิ่งที่ทำให้ฉันสับสนมานานคือซอฟต์แวร์จำนวนมากใช้คำว่า "charset" และ "encoding" เป็นคำพ้องความหมาย เมื่อผู้คนอ้างถึงยูนิโค้ด "เข้ารหัส" พวกเขามักจะหมายถึงชุดกฎสำหรับการแสดงอักขระยูนิโค้ดเป็นลำดับของไบต์ - เช่น ASCII หรือ UTF-8 ดูเหมือนว่าสมเหตุสมผลและเป็นธรรมชาติ แนวคิดคือคุณกำลัง "เข้ารหัส" อักขระเหล่านั้นเป็นไบต์โดยใช้ ruleset ที่ระบุ เนื่องจากบางครั้ง rulesets เหล่านั้นให้ความสามารถในการ "เข้ารหัส" เซ็ตย่อยบางส่วนของอักขระยูนิโค้ดทั้งหมดคุณอาจจินตนาการว่า "charset" - ย่อมาจาก 'set of characters' - จะหมายถึงชุดของอักขระ Unicode - โดยไม่คำนึงถึงวิธีการ อักขระเหล่านั้นถูกเข้ารหัส การเข้ารหัสจึงหมายถึงชุดอักขระ (การเข้ารหัสเช่น ASCII ซึ่งมีกฎสำหรับการเข้ารหัสอักขระ 128 ตัวเท่านั้นจะเชื่อมโยงกับชุดอักขระของอักขระ 128 ตัว) แต่ชุดอักขระไม่จำเป็นต้องมีการเข้ารหัส (เช่น UTF-8, UTF -16 และ …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.