คำถามติดแท็ก unicode

Unicode เป็นมาตรฐานสำหรับการเข้ารหัสการแสดงและการจัดการข้อความด้วยความตั้งใจที่จะสนับสนุนอักขระทั้งหมดที่จำเป็นสำหรับข้อความที่เขียนซึ่งประกอบด้วยระบบการเขียนทั้งหมดสัญลักษณ์ทางเทคนิคและเครื่องหมายวรรคตอน

5
ดีจริงข้อมูลการทดสอบ UTF-8 ไม่ดี [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน3 ปีที่ผ่านมา ปรับปรุงคำถามนี้ ดังนั้นเราจึงมีเอกสารโกง XSSเพื่อทดสอบการกรอง XSS ของเรา - แต่นอกเหนือจากหน้าตัวอย่างที่ไม่เป็นอันตรายฉันไม่พบข้อมูลการทดสอบที่ชั่วร้ายหรือผิดรูปแบบเพื่อให้แน่ใจว่ารหัส UTF-8 ของฉันสามารถจัดการข้อมูลที่ผิดพลาดได้ จะหาข้อมูลดีๆมาทดสอบได้ที่ไหน หรือลำดับตัวอักษรที่ยุ่งยากคืออะไร?
89 unicode  utf-8 

8
ฉันจะแทนที่อักขระ Unicode ที่ไม่สามารถพิมพ์ได้ใน Java ได้อย่างไร
สิ่งต่อไปนี้จะแทนที่อักขระควบคุม ASCII (ชวเลขสำหรับ[\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); ต่อไปนี้จะแทนที่อักขระที่ไม่สามารถพิมพ์ได้ของ ASCII ทั้งหมด (ชวเลขสำหรับ[\p{Graph}\x20]) รวมถึงอักขระที่เน้นเสียง: my_string.replaceAll("[^\\p{Print}]", "?"); อย่างไรก็ตามไม่สามารถใช้ได้กับสตริง Unicode ใครมีวิธีที่ดีในการลบอักขระที่ไม่สามารถพิมพ์ได้จากสตริง Unicode?
89 java  string  unicode 

12
ลบเครื่องหมายกำกับเสียง (ńǹňñṅņṇṋṉ̈ɲƞᶇɳȵ) จากตัวอักษร Unicode
ฉันกำลังมองหาที่อัลกอริทึมที่สามารถ map ระหว่างตัวอักษรกำกับ ( ตัวหนอน , หมวก , ลูกศร , เครื่องหมาย , รอน ) และ "ง่าย" ของพวกเขาตัวอักษร ตัวอย่างเช่น: ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> a ä --> a ấ --> a ṏ --> o ฯลฯ ฉันต้องการทำสิ่งนี้ใน Java …

13
<0xEF, 0xBB, 0xBF> อักขระที่แสดงในไฟล์ จะลบออกได้อย่างไร?
ฉันกำลังบีบอัดไฟล์ JavaScript และคอมเพรสเซอร์บ่นว่าไฟล์ของฉันมีอักขระอยู่ในนั้น ฉันจะค้นหาอักขระเหล่านี้และลบออกได้อย่างไร
87 file  unicode  utf-8  utf 

2
"ผิด" อะไรกับ C ++ wchar_t และ wstrings มีทางเลือกใดบ้างสำหรับอักขระแบบกว้าง
ฉันเคยเห็นผู้คนจำนวนมากในชุมชน C ++ (โดยเฉพาะ ## c ++ บน freenode) ไม่พอใจการใช้wstringsและwchar_tและการใช้งานของพวกเขาใน windows api อะไรคือสิ่งที่ "ผิด" กันแน่wchar_tและwstringและถ้าฉันต้องการสนับสนุนความเป็นสากลจะมีทางเลือกอื่นใดบ้างสำหรับอักขระแบบกว้าง

12
TCHAR ยังคงมีความเกี่ยวข้องอยู่หรือไม่?
ฉันเพิ่งเริ่มเขียนโปรแกรม Windows และหลังจากอ่านหนังสือ Petzold ฉันสงสัยว่า: ยังคงเป็นแนวทางปฏิบัติที่ดีในการใช้TCHARtype และ_T()function เพื่อประกาศสตริงหรือว่าฉันควรใช้wchar_tand L""strings ในโค้ดใหม่หรือไม่ ฉันจะกำหนดเป้าหมายเฉพาะ Windows 2000 ขึ้นไปและรหัสของฉันจะเป็นi18nตั้งแต่เริ่มต้น
87 c++  c  windows  unicode  wchar-t 

6
การใช้ 'use utf8;' ให้ฉัน 'ตัวอักษรกว้างในการพิมพ์'
หากฉันเรียกใช้โปรแกรม Perl ต่อไปนี้: perl -e 'use utf8; print "鸡\n";' ฉันได้รับคำเตือนนี้: Wide character in print at -e line 1. ถ้าฉันเรียกใช้โปรแกรม Perl นี้: perl -e 'print "鸡\n";' ฉันไม่ได้รับคำเตือน ฉันคิดว่าuse utf8จำเป็นต้องใช้อักขระ UTF-8 ในสคริปต์ Perl เหตุใดจึงไม่ได้ผลและฉันจะแก้ไขได้อย่างไร ฉันใช้ Perl 5.16.2 ฉันมีปัญหาเดียวกันหากสิ่งนี้อยู่ในไฟล์แทนที่จะเป็นซับในบรรทัดคำสั่ง
86 perl  unicode  utf-8 

2
Regex: InCombiningDiacriticalMarks คืออะไร?
รหัสต่อไปนี้เป็นที่รู้จักกันดีในการแปลงอักขระเน้นเสียงเป็นข้อความธรรมดา: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); ฉันแทนที่วิธี "ทำด้วยมือ" ด้วยวิธีนี้ แต่ฉันต้องเข้าใจส่วน "regex" ของการแทนที่ทั้งหมด 1) "InCombiningDiacriticalMarks" คืออะไร? 2) เอกสารอยู่ที่ไหน? (และคนอื่น ๆ ?) ขอบคุณ.
86 java  regex  unicode 

1
WebClientDownloadString ส่งผลให้อักขระที่ยุ่งเหยิงเนื่องจากปัญหาการเข้ารหัส แต่เบราว์เซอร์ไม่เป็นไร
รหัสต่อไปนี้: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&amp;start=0&amp;max_results=20")); ส่งผลให้ตัวแปรtextมีสตริงเหนือสิ่งอื่นใด "$ κ $ -Minkowski สเปซฟิลด์สเกลาร์และปัญหาความไม่แปรเปลี่ยนของลอเรนซ์" อย่างไรก็ตามเมื่อฉันไปที่ URL นั้นใน Firefox ฉันจะได้รับ $ κ $ -Minkowski สเปซฟิลด์สเกลาร์และปัญหาความไม่แปรเปลี่ยนของลอเรนซ์ ซึ่งถูกต้องจริง ฉันยังพยายาม var data = (new WebClient()).DownloadData("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&amp;start=0&amp;max_results=20"); var text = System.Text.UTF8Encoding.Default.GetString(data); แต่สิ่งนี้ทำให้เกิดปัญหาเดียวกัน ฉันไม่แน่ใจว่าความผิดอยู่ที่นี่ ฟีดโกหกเกี่ยวกับการเข้ารหัส UTF8 หรือไม่และเบราว์เซอร์ฉลาดพอที่จะคิดออก แต่ไม่WebClient? ฟีดมีการเข้ารหัส UTF8 อย่างถูกต้อง แต่WebClientล้มเหลวด้วยวิธีอื่นหรือไม่ ฉันจะทำอย่างไรเพื่อลดปัญหานี้

3
ฐานข้อมูล“ ASCII ที่ดีที่สุดสำหรับ Unicode” ของ Python อยู่ที่ไหน [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Stack Overflow ปิดทำการเมื่อเดือนที่แล้ว ปรับปรุงคำถามนี้ ฉันมีข้อความบางส่วนที่ใช้เครื่องหมายวรรคตอน Unicode เช่นเครื่องหมายอัญประกาศคู่ด้านซ้ายเครื่องหมายอัญประกาศเดี่ยวด้านขวาสำหรับเครื่องหมายวรรคตอนเป็นต้นและฉันต้องการมันใน ASCII Python มีฐานข้อมูลของอักขระเหล่านี้ที่มีการแทนที่ ASCII หรือไม่ดังนั้นฉันจึงทำได้ดีกว่าการเปลี่ยนทั้งหมดเป็น "?" เหรอ?
86 python  unicode  ascii 

1
การเข้ารหัส Unicode สำหรับตัวอักษรสตริงใน C ++ 11
จากคำถามที่เกี่ยวข้องฉันต้องการถามเกี่ยวกับอักขระใหม่และประเภทลิเทอรัลสตริงใน C ++ 11 ดูเหมือนว่าตอนนี้เรามีอักขระสี่ประเภทและตัวอักษรสตริงห้าประเภท ประเภทอักขระ: char a = '\x30'; // character, no semantics wchar_t b = L'\xFFEF'; // wide character, no semantics char16_t c = u'\u00F6'; // 16-bit, assumed UTF16? char32_t d = U'\U0010FFFF'; // 32-bit, assumed UCS-4 และตัวอักษรสตริง: char A[] = "Hello\x0A"; // byte string, "narrow encoding" wchar_t …

5
ครบชุดเครื่องหมายวรรคตอนสำหรับ Python (ไม่ใช่แค่ ASCII)
มีรายชื่อหรือห้องสมุดที่มีเครื่องหมายวรรคตอนทั้งหมดที่เราอาจพบเจอหรือไม่? ปกติฉันจะใช้string.punctuationแต่เครื่องหมายวรรคตอนบางตัวไม่รวมอยู่ในตัวอย่าง: &gt;&gt;&gt; "'" in string.punctuation True &gt;&gt;&gt; "’" in string.punctuation False
40 python  string  unicode 

2
มีวิธีการตรวจสอบว่าสตริงใน JS เป็นอีโมจิเดียวหรือไม่?
คำถามนั้นง่าย: ฉันมีสตริงstrฉันจะตรวจสอบว่าstrเป็นอีโมจิเดียวและไม่มีอะไรอื่นได้อย่างไร นอกจากนี้ฉันไม่ต้องการใช้ห้องสมุดอื่น Match "🍎", "⛹🏿‍♂️", "3️⃣"แต่ไม่"🍓a", "𝕒","🍌🍀" ฉันมีปัญหาในการหาวิธีแก้ไข แต่นี่คือบางสิ่งที่ฉันได้ลองไปแล้ว: พยายามแก้ปัญหา 1 - เล่นความยาวและ...ผู้ปฏิบัติงาน ฉันได้เรียนรู้ว่า emojis ครอบครองมากกว่าหนึ่งไบต์บางคนถึง 4 ไบต์หรือมากกว่านั้น ... และเราสามารถวัดได้ผ่านlengthคุณสมบัติของสตริง: console.log("🍎".length); // 2 console.log("🛡️".length); // 3 console.log("⛹🏿‍♂️".length); // 6 จากนั้นฉันก็พบว่า...ผู้ประกอบการคำนึงถึงเรื่องนี้และแยกอิโมจิในอาเรย์อย่างถูกต้องจากนั้นฉันสามารถดูlengthคุณสมบัติของอาเรย์ที่เกิดขึ้นและตรวจพบว่าพวกมันแตกต่างกันหรือไม่ str = "⛹🏿‍♂️"; if (str.length !== [...str].length) { // is emoji? } else { // is not emoji } …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.