คำถามติดแท็ก unicode

Unicode เป็นมาตรฐานสำหรับการเข้ารหัสการแสดงและการจัดการข้อความด้วยความตั้งใจที่จะสนับสนุนอักขระทั้งหมดที่จำเป็นสำหรับข้อความที่เขียนซึ่งประกอบด้วยระบบการเขียนทั้งหมดสัญลักษณ์ทางเทคนิคและเครื่องหมายวรรคตอน

17
วิธีที่ดีที่สุดในการแปลงไฟล์ข้อความระหว่างชุดตัวละคร?
เครื่องมือหรือวิธีที่เร็วที่สุดและง่ายที่สุดในการแปลงไฟล์ข้อความระหว่างชุดอักขระคืออะไร โดยเฉพาะฉันต้องแปลงจาก UTF-8 เป็น ISO-8859-15 และในทางกลับกัน ทุกอย่างเป็นไปได้: หนึ่งใน liners ในภาษาสคริปต์ที่คุณชื่นชอบ, เครื่องมือบรรทัดคำสั่งหรือยูทิลิตี้อื่น ๆ สำหรับ OS, เว็บไซต์, ฯลฯ ทางออกที่ดีที่สุด: บน Linux / UNIX / OS X / cygwin: Gnu iconvแนะนำโดยTroels อาร์วินดีที่สุดคือใช้เป็นตัวกรอง ดูเหมือนว่าจะมีอยู่ทั่วไป ตัวอย่าง: $ iconv -f UTF-8 -t ISO-8859-15 in.txt > out.txt ในฐานะที่เป็นแหลมออกโดยเบนมีการแปลงออนไลน์โดยใช้ iconv Gnu Recode ( คู่มือ ) แนะนำโดยCheekysoftจะแปลงหนึ่งหรือหลายไฟล์ในสถานที่ ตัวอย่าง: $ …

8
วิธีที่ดีที่สุดในการลบเครื่องหมายเน้นเสียงในสตริง Python unicode คืออะไร
ฉันมีสตริง Unicode ใน Python และฉันต้องการที่จะลบสำเนียงทั้งหมด (กำกับออกเสียง) ฉันพบบนเว็บเป็นวิธีที่ยอดเยี่ยมในการทำเช่นนี้ใน Java: แปลงสตริง Unicode เป็นรูปแบบปกติที่มีความยาว (โดยมีอักขระแยกต่างหากสำหรับตัวอักษรและกำกับเสียง) ลบอักขระทั้งหมดที่มีชนิด Unicode เป็น "diacritic" ฉันจำเป็นต้องติดตั้งไลบรารี่เช่น pyICU หรือเป็นไปได้หรือไม่กับไลบรารี่มาตรฐานของไพ ธ อน และไพ ธ อน 3 เป็นอย่างไร? หมายเหตุสำคัญ: ฉันต้องการหลีกเลี่ยงรหัสที่มีการแมปที่ชัดเจนจากอักขระที่เน้นเสียงไปยังคู่ที่ไม่ได้เน้นเสียง



12
UTF-8, UTF-16 และ UTF-32
ความแตกต่างระหว่าง UTF-8, UTF-16 และ UTF-32 คืออะไร ฉันเข้าใจว่าพวกเขาจะเก็บ Unicode ทั้งหมดและแต่ละตัวใช้จำนวนไบต์ที่แตกต่างกันเพื่อแสดงอักขระ มีข้อได้เปรียบในการเลือกอย่างใดอย่างหนึ่งหรือไม่?
487 unicode  utf-8  utf-16  utf  utf-32 

12
การบันทึกข้อความ utf-8 ใน json.dumps เป็น UTF8 ไม่ใช่เป็น \ u escape sequence
รหัสตัวอย่าง: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" ปัญหา: มันไม่ใช่มนุษย์ที่อ่านได้ ผู้ใช้ (สมาร์ท) ของฉันต้องการยืนยันหรือแก้ไขไฟล์ข้อความด้วยการทิ้ง JSON (และฉันไม่ต้องการใช้ XML) มีวิธีการทำให้เป็นอันดับวัตถุในสตริง UTF-8 JSON (แทน \uXXXX)?
474 python  json  unicode  utf-8  escaping 

30
วิธีที่ดีที่สุดในการย้อนกลับสตริง
ฉันแค่ต้องเขียนฟังก์ชั่นกลับสตริงใน C # 2.0 (เช่น LINQ ไม่พร้อมใช้งาน) และมากับสิ่งนี้: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return reverse; } โดยส่วนตัวฉันไม่ได้คลั่งไคล้ฟังก์ชั่นและเชื่อว่ามีวิธีที่ดีกว่าในการทำมัน มีอะไรบ้าง

18
UnicodeDecodeError เมื่ออ่านไฟล์ CSV ใน Pandas ด้วย Python
ฉันใช้งานโปรแกรมที่กำลังประมวลผลไฟล์ที่คล้ายกัน 30,000 ไฟล์ จำนวนสุ่มจะหยุดและสร้างข้อผิดพลาดนี้ ... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, in read ret = self._engine.read(nrows) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 1028, in read data = self._reader.read(nrows) …


9
Unicode, UTF-8, UTF-16 คืออะไร
พื้นฐานของ Unicode คืออะไรและทำไมต้องใช้ UTF-8 หรือ UTF-16 ฉันได้ค้นคว้าสิ่งนี้บน Google และค้นหาที่นี่เช่นกัน แต่มันก็ไม่ชัดเจนสำหรับฉัน ใน VSS เมื่อทำการเปรียบเทียบไฟล์บางครั้งมีข้อความแจ้งว่าไฟล์ทั้งสองมีความแตกต่างของ UTF ทำไมถึงเป็นเช่นนี้? โปรดอธิบายด้วยคำศัพท์ง่ายๆ

5
ทำไม 2+ 40 เท่ากับ 42
ฉันรู้สึกงุนงงเมื่อเพื่อนร่วมงานแสดงบรรทัด JavaScript นี้ให้ฉัน 42 alert(2+ 40); เรียกใช้ข้อมูลโค้ดซ่อนผลลัพธ์ขยายตัวอย่างข้อมูล มันกลับกลายเป็นว่าสิ่งที่ดูเหมือนเครื่องหมายลบจริงๆแล้วคืออักขระ Unicode แบบอาร์เคนที่มีความหมายต่างกันอย่างชัดเจน นี่ทำให้ฉันสงสัยว่าทำไมตัวละครตัวนั้นถึงไม่สร้างข้อผิดพลาดทางไวยากรณ์เมื่อมีการวิเคราะห์คำ ฉันก็อยากจะรู้ว่ามีตัวละครมากขึ้นเช่นนี้หรือไม่

11
ฉันจะ grep สำหรับอักขระที่ไม่ใช่ ASCII ทั้งหมดได้อย่างไร
ฉันมีไฟล์ XML ที่มีขนาดใหญ่มากและฉันพยายามค้นหาบรรทัดที่มีอักขระที่ไม่ใช่ ASCII ฉันได้ลองทำสิ่งต่อไปนี้แล้ว: grep -e "[\x{00FF}-\x{FFFF}]" file.xml แต่สิ่งนี้จะคืนค่าทุกบรรทัดในไฟล์โดยไม่คำนึงว่าบรรทัดนั้นมีอักขระในช่วงที่ระบุหรือไม่ ฉันมีไวยากรณ์ผิดหรือฉันทำอย่างอื่นผิดปกติหรือไม่? ฉันยังลอง: egrep "[\x{00FF}-\x{FFFF}]" file.xml (ด้วยเครื่องหมายคำพูดเดี่ยวและคู่ล้อมรอบรูปแบบ)
359 regex  unix  unicode  grep 


6
วิธีค้นหาความยาวของสตริงใน R
วิธีค้นหาความยาวของสตริง (จำนวนอักขระในสตริง) โดยไม่แยกใน R? ฉันรู้วิธีค้นหาความยาวของรายการ แต่ไม่ใช่ของสตริง แล้วสตริง Unicode ล่ะ? ฉันจะค้นหาความยาว (เป็นไบต์) และจำนวนอักขระ (อักษรรูน, สัญลักษณ์) ในสตริง Unicode ได้อย่างไร คำถามที่เกี่ยวข้อง: วิธีค้นหาจำนวนอักขระ "ของจริง" ในสตริง Unicode ใน R

14
Unicode (UTF-8) การอ่านและการเขียนไฟล์ใน Python
ฉันมีอาการสมองล้มเหลวในการทำความเข้าใจการอ่านและการเขียนข้อความไปยังไฟล์ (Python 2.4) # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ("u'Capit \ xe1n '", "' Capit \ xc3 \ xa1n '") print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capit\xc3\xa1n\n' ดังนั้นฉันพิมพ์Capit\xc3\xa1nลงในโปรแกรมแก้ไขรายการโปรดของฉันในไฟล์ f2 แล้ว: >>> open('f1').read() 'Capit\xc3\xa1n\n' >>> open('f2').read() 'Capit\\xc3\\xa1n\n' …
329 python  unicode  utf-8  io 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.