การเขียนโปรแกรม unicode

17

วิธีที่ดีที่สุดในการแปลงไฟล์ข้อความระหว่างชุดตัวละคร?

เครื่องมือหรือวิธีที่เร็วที่สุดและง่ายที่สุดในการแปลงไฟล์ข้อความระหว่างชุดอักขระคืออะไร โดยเฉพาะฉันต้องแปลงจาก UTF-8 เป็น ISO-8859-15 และในทางกลับกัน ทุกอย่างเป็นไปได้: หนึ่งใน liners ในภาษาสคริปต์ที่คุณชื่นชอบ, เครื่องมือบรรทัดคำสั่งหรือยูทิลิตี้อื่น ๆ สำหรับ OS, เว็บไซต์, ฯลฯ ทางออกที่ดีที่สุด: บน Linux / UNIX / OS X / cygwin: Gnu iconvแนะนำโดยTroels อาร์วินดีที่สุดคือใช้เป็นตัวกรอง ดูเหมือนว่าจะมีอยู่ทั่วไป ตัวอย่าง: $ iconv -f UTF-8 -t ISO-8859-15 in.txt > out.txt ในฐานะที่เป็นแหลมออกโดยเบนมีการแปลงออนไลน์โดยใช้ iconv Gnu Recode ( คู่มือ ) แนะนำโดยCheekysoftจะแปลงหนึ่งหรือหลายไฟล์ในสถานที่ ตัวอย่าง: $ …

526 text unicode utf-8 character-set

8

วิธีที่ดีที่สุดในการลบเครื่องหมายเน้นเสียงในสตริง Python unicode คืออะไร

ฉันมีสตริง Unicode ใน Python และฉันต้องการที่จะลบสำเนียงทั้งหมด (กำกับออกเสียง) ฉันพบบนเว็บเป็นวิธีที่ยอดเยี่ยมในการทำเช่นนี้ใน Java: แปลงสตริง Unicode เป็นรูปแบบปกติที่มีความยาว (โดยมีอักขระแยกต่างหากสำหรับตัวอักษรและกำกับเสียง) ลบอักขระทั้งหมดที่มีชนิด Unicode เป็น "diacritic" ฉันจำเป็นต้องติดตั้งไลบรารี่เช่น pyICU หรือเป็นไปได้หรือไม่กับไลบรารี่มาตรฐานของไพ ธ อน และไพ ธ อน 3 เป็นอย่างไร? หมายเหตุสำคัญ: ฉันต้องการหลีกเลี่ยงรหัสที่มีการแมปที่ชัดเจนจากอักขระที่เน้นเสียงไปยังคู่ที่ไม่ได้เน้นเสียง

507 python python-3.x unicode python-2.x diacritics

9

แปลงสตริง Unicode เป็นสตริงใน Python (ที่มีสัญลักษณ์พิเศษ)

คุณจะแปลงสตริง Unicode (ที่มีอักขระพิเศษเช่น£ $, ฯลฯ ) เป็นสตริง Python ได้อย่างไร

504 python string unicode type-conversion

15

ความแตกต่างระหว่าง UTF-8 และ Unicode คืออะไร

ผมเคยได้ยินขัดแย้งความคิดเห็นจากคน - ตามที่วิกิพีเดีย UTF-8หน้า พวกมันเหมือนกันใช่มั้ย บางคนสามารถอธิบายได้หรือไม่

503 unicode encoding utf-8 character-encoding terminology

12

UTF-8, UTF-16 และ UTF-32

ความแตกต่างระหว่าง UTF-8, UTF-16 และ UTF-32 คืออะไร ฉันเข้าใจว่าพวกเขาจะเก็บ Unicode ทั้งหมดและแต่ละตัวใช้จำนวนไบต์ที่แตกต่างกันเพื่อแสดงอักขระ มีข้อได้เปรียบในการเลือกอย่างใดอย่างหนึ่งหรือไม่?

487 unicode utf-8 utf-16 utf utf-32

12

การบันทึกข้อความ utf-8 ใน json.dumps เป็น UTF8 ไม่ใช่เป็น \ u escape sequence

รหัสตัวอย่าง: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" ปัญหา: มันไม่ใช่มนุษย์ที่อ่านได้ ผู้ใช้ (สมาร์ท) ของฉันต้องการยืนยันหรือแก้ไขไฟล์ข้อความด้วยการทิ้ง JSON (และฉันไม่ต้องการใช้ XML) มีวิธีการทำให้เป็นอันดับวัตถุในสตริง UTF-8 JSON (แทน \uXXXX)?

474 python json unicode utf-8 escaping

30

วิธีที่ดีที่สุดในการย้อนกลับสตริง

ฉันแค่ต้องเขียนฟังก์ชั่นกลับสตริงใน C # 2.0 (เช่น LINQ ไม่พร้อมใช้งาน) และมากับสิ่งนี้: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return reverse; } โดยส่วนตัวฉันไม่ได้คลั่งไคล้ฟังก์ชั่นและเชื่อว่ามีวิธีที่ดีกว่าในการทำมัน มีอะไรบ้าง

440 c# .net performance algorithm unicode

18

UnicodeDecodeError เมื่ออ่านไฟล์ CSV ใน Pandas ด้วย Python

ฉันใช้งานโปรแกรมที่กำลังประมวลผลไฟล์ที่คล้ายกัน 30,000 ไฟล์ จำนวนสุ่มจะหยุดและสร้างข้อผิดพลาดนี้ ... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, in read ret = self._engine.read(nrows) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 1028, in read data = self._reader.read(nrows) …

411 python pandas csv dataframe unicode

9

ASCII และ Unicode ต่างกันอย่างไร

Unicode และ ASCII ต่างกันอย่างไร? ASCII มีอักขระทั้งหมด 128 ตัว (256 ในชุดเพิ่มเติม) มีข้อกำหนดขนาดสำหรับอักขระ Unicode หรือไม่

407 unicode ascii

9

Unicode, UTF-8, UTF-16 คืออะไร

พื้นฐานของ Unicode คืออะไรและทำไมต้องใช้ UTF-8 หรือ UTF-16 ฉันได้ค้นคว้าสิ่งนี้บน Google และค้นหาที่นี่เช่นกัน แต่มันก็ไม่ชัดเจนสำหรับฉัน ใน VSS เมื่อทำการเปรียบเทียบไฟล์บางครั้งมีข้อความแจ้งว่าไฟล์ทั้งสองมีความแตกต่างของ UTF ทำไมถึงเป็นเช่นนี้? โปรดอธิบายด้วยคำศัพท์ง่ายๆ

395 unicode encoding utf-8 utf-16

5

ทำไม 2+ 40 เท่ากับ 42

ฉันรู้สึกงุนงงเมื่อเพื่อนร่วมงานแสดงบรรทัด JavaScript นี้ให้ฉัน 42 alert(2+ 40); เรียกใช้ข้อมูลโค้ดซ่อนผลลัพธ์ขยายตัวอย่างข้อมูล มันกลับกลายเป็นว่าสิ่งที่ดูเหมือนเครื่องหมายลบจริงๆแล้วคืออักขระ Unicode แบบอาร์เคนที่มีความหมายต่างกันอย่างชัดเจน นี่ทำให้ฉันสงสัยว่าทำไมตัวละครตัวนั้นถึงไม่สร้างข้อผิดพลาดทางไวยากรณ์เมื่อมีการวิเคราะห์คำ ฉันก็อยากจะรู้ว่ามีตัวละครมากขึ้นเช่นนี้หรือไม่

360 javascript unicode

11

ฉันจะ grep สำหรับอักขระที่ไม่ใช่ ASCII ทั้งหมดได้อย่างไร

ฉันมีไฟล์ XML ที่มีขนาดใหญ่มากและฉันพยายามค้นหาบรรทัดที่มีอักขระที่ไม่ใช่ ASCII ฉันได้ลองทำสิ่งต่อไปนี้แล้ว: grep -e "[\x{00FF}-\x{FFFF}]" file.xml แต่สิ่งนี้จะคืนค่าทุกบรรทัดในไฟล์โดยไม่คำนึงว่าบรรทัดนั้นมีอักขระในช่วงที่ระบุหรือไม่ ฉันมีไวยากรณ์ผิดหรือฉันทำอย่างอื่นผิดปกติหรือไม่? ฉันยังลอง: egrep "[\x{00FF}-\x{FFFF}]" file.xml (ด้วยเครื่องหมายคำพูดเดี่ยวและคู่ล้อมรอบรูปแบบ)

359 regex unix unicode grep

2

ความแตกต่างของ Unicode, UTF, ASCII, ANSI

ความแตกต่างระหว่างคืออะไรUnicode, UTF8, UTF7, UTF16, UTF32, ASCIIและANSIการเข้ารหัส? สิ่งเหล่านี้มีประโยชน์สำหรับโปรแกรมเมอร์อย่างไร?

352 unicode character-encoding ascii ansi utf

6

วิธีค้นหาความยาวของสตริงใน R

วิธีค้นหาความยาวของสตริง (จำนวนอักขระในสตริง) โดยไม่แยกใน R? ฉันรู้วิธีค้นหาความยาวของรายการ แต่ไม่ใช่ของสตริง แล้วสตริง Unicode ล่ะ? ฉันจะค้นหาความยาว (เป็นไบต์) และจำนวนอักขระ (อักษรรูน, สัญลักษณ์) ในสตริง Unicode ได้อย่างไร คำถามที่เกี่ยวข้อง: วิธีค้นหาจำนวนอักขระ "ของจริง" ในสตริง Unicode ใน R

348 r string unicode string-length

14

Unicode (UTF-8) การอ่านและการเขียนไฟล์ใน Python

ฉันมีอาการสมองล้มเหลวในการทำความเข้าใจการอ่านและการเขียนข้อความไปยังไฟล์ (Python 2.4) # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ("u'Capit \ xe1n '", "' Capit \ xc3 \ xa1n '") print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capit\xc3\xa1n\n' ดังนั้นฉันพิมพ์Capit\xc3\xa1nลงในโปรแกรมแก้ไขรายการโปรดของฉันในไฟล์ f2 แล้ว: >>> open('f1').read() 'Capit\xc3\xa1n\n' >>> open('f2').read() 'Capit\\xc3\\xa1n\n' …

329 python unicode utf-8 io

คำถามติดแท็ก unicode