การเขียนโปรแกรม utf-8

8

ลำดับไบต์ทำเครื่องหมายการอ่านไฟล์ใน Java

ฉันพยายามอ่านไฟล์ CSV โดยใช้ Java ไฟล์บางไฟล์อาจมีเครื่องหมายลำดับไบต์ในตอนต้น แต่ไม่ใช่ทั้งหมด เมื่อมีอยู่คำสั่งไบต์จะถูกอ่านพร้อมกับส่วนที่เหลือของบรรทัดแรกจึงทำให้เกิดปัญหากับการเปรียบเทียบสตริง มีวิธีง่ายๆในการข้ามเครื่องหมายลำดับไบต์เมื่อมีอยู่หรือไม่? ขอบคุณ!

107 java utf-8 byte-order-mark

5

วิธีที่เหมาะสมในการเข้ารหัส URL ของอักขระ Unicode คืออะไร?

ฉันรู้จักโครงการ% uxxxx ที่ไม่ได้มาตรฐาน แต่ดูเหมือนจะไม่ใช่ทางเลือกที่ชาญฉลาดเนื่องจากโครงการนี้ถูกปฏิเสธโดย W3C ตัวอย่างที่น่าสนใจ: ตัวละครหัวใจ หากฉันพิมพ์สิ่งนี้ลงในเบราว์เซอร์ของฉัน: http://www.google.com/search?q=♥ จากนั้นคัดลอกและวางฉันเห็น URL นี้ http://www.google.com/search?q=%E2%99%A5 ซึ่งทำให้ดูเหมือนว่า Firefox (หรือ Safari) กำลังทำสิ่งนี้ urllib.quote_plus(x.encode("latin-1")) '%E2%99%A5' ซึ่งสมเหตุสมผลยกเว้นสิ่งที่ไม่สามารถเข้ารหัสเป็นภาษาลาติน -1 ได้เช่นอักขระจุดสามจุด … ถ้าฉันพิมพ์ URL http://www.google.com/search?q=… ลงในเบราว์เซอร์ของฉันจากนั้นคัดลอกและวางฉันจะได้รับ http://www.google.com/search?q=%E2%80%A6 กลับ. ซึ่งน่าจะเป็นผลจากการทำ urllib.quote_plus(x.encode("utf-8")) ซึ่งสมเหตุสมผลเนื่องจาก…ไม่สามารถเข้ารหัสด้วย Latin-1 แต่มันก็ไม่ชัดเจนสำหรับฉันว่าเบราว์เซอร์รู้ได้อย่างไรว่าจะถอดรหัสด้วย UTF-8 หรือ Latin-1 เนื่องจากสิ่งนี้ดูเหมือนจะคลุมเครือ: In [67]: u"…".encode('utf-8').decode('latin-1') Out[67]: u'\xc3\xa2\xc2\x80\xc2\xa6' ใช้งานได้ดังนั้นฉันไม่รู้ว่าเบราว์เซอร์คิดอย่างไรว่าจะถอดรหัสด้วย UTF-8 หรือ Latin-1 อะไรคือสิ่งที่ถูกต้องในการทำกับตัวละครพิเศษที่ฉันต้องจัดการ?

107 unicode utf-8 character-encoding urlencode web-standards

10

UnicodeDecodeError: ตัวแปลงสัญญาณ 'ascii' ไม่สามารถถอดรหัสไบต์ 0xd1 ในตำแหน่งที่ 2: ลำดับไม่อยู่ในช่วง (128)

ฉันกำลังพยายามทำงานกับชุดข้อมูลขนาดใหญ่ที่มีอักขระที่ไม่เป็นมาตรฐานอยู่ในนั้น ฉันจำเป็นต้องใช้ Unicode ตามข้อกำหนดของงาน แต่ฉันรู้สึกงุนงง (และค่อนข้างจะทำผิดทั้งหมด) ฉันเปิด CSV โดยใช้: 15 ncesReader = csv.reader(open('geocoded_output.csv', 'rb'), delimiter='\t', quotechar='"') จากนั้นฉันพยายามเข้ารหัสด้วย: name=school_name.encode('utf-8'), street=row[9].encode('utf-8'), city=row[10].encode('utf-8'), state=row[11].encode('utf-8'), zip5=row[12], zip4=row[13],county=row[25].encode('utf-8'), lat=row[22], lng=row[23]) ฉันกำลังเข้ารหัสทุกอย่างยกเว้น lat และ lng เพราะต้องส่งไปยัง API เมื่อฉันรันโปรแกรมเพื่อแยกวิเคราะห์ชุดข้อมูลเป็นสิ่งที่ฉันสามารถใช้ได้ฉันจะได้รับ Traceback ดังต่อไปนี้ Traceback (most recent call last): File "push_into_db.py", line 80, in <module> main() File "push_into_db.py", line 74, …

107 python django utf-8

16

UnicodeDecodeError: ตัวแปลงสัญญาณ 'ascii' ไม่สามารถถอดรหัสไบต์ 0xef ในตำแหน่ง 1

ฉันมีปัญหาเล็กน้อยในการพยายามเข้ารหัสสตริงเป็น UTF-8 ฉันได้ลองทำสิ่งต่างๆมากมายรวมถึงการใช้string.encode('utf-8')และunicode(string)แต่ฉันได้รับข้อผิดพลาด: UnicodeDecodeError: ตัวแปลงสัญญาณ 'ascii' ไม่สามารถถอดรหัสไบต์ 0xef ในตำแหน่ง 1: ลำดับไม่อยู่ในช่วง (128) นี่คือสตริงของฉัน: (｡･ω･｡)ﾉ ฉันไม่เห็นว่ามีอะไรผิดพลาดมีความคิดอย่างไร แก้ไข: ปัญหาคือการพิมพ์สตริงเนื่องจากแสดงไม่ถูกต้อง นอกจากนี้ข้อผิดพลาดนี้เมื่อฉันพยายามแปลง: Python 2.7.1+ (r271:86832, Apr 11 2011, 18:13:53) [GCC 4.5.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> s = '(\xef\xbd\xa1\xef\xbd\xa5\xcf\x89\xef\xbd\xa5\xef\xbd\xa1)\xef\xbe\x89' >>> s1 = s.decode('utf-8') >>> print s1 Traceback …

106 python unicode utf-8

9

การใช้ atob ของ Javascript เพื่อถอดรหัส base64 ไม่ได้ถอดรหัสสตริง utf-8 อย่างถูกต้อง

ฉันใช้window.atob()ฟังก์ชันJavascript เพื่อถอดรหัสสตริงที่เข้ารหัส base64 (โดยเฉพาะเนื้อหาที่เข้ารหัส base64 จาก GitHub API) ปัญหาคือฉันได้รับอักขระที่เข้ารหัส ASCII กลับมา (เช่นâ¢แทนที่จะเป็น™) ฉันจะจัดการกับสตรีมที่เข้ารหัส base64 ขาเข้าอย่างเหมาะสมเพื่อให้ถอดรหัสเป็น utf-8 ได้อย่างไร

106 javascript encoding utf-8

4

จะใช้สัญลักษณ์กรีกใน ggplot2 ได้อย่างไร?

หมวดหมู่ของฉันต้องตั้งชื่อด้วยตัวอักษรกรีก ฉันใช้ggplot2งานอยู่และใช้งานได้ดีกับข้อมูล น่าเสียดายที่ฉันไม่สามารถหาวิธีใส่สัญลักษณ์กรีกเหล่านั้นบนแกน x ได้ (ที่เครื่องหมายถูก) และทำให้มันปรากฏในคำอธิบายแผนภูมิ มีวิธีใดบ้างที่จะทำได้? อัปเดต: ฉันได้ดูลิงก์แล้วอย่างไรก็ตามไม่มีวิธีการที่ดีที่อธิบายถึงการบรรลุสิ่งที่ฉันต้องการ

105 r graphics unicode utf-8 ggplot2

10

UTF-8 สามารถเข้ารหัสอักขระได้กี่ตัว?

ถ้า UTF-8 เป็น 8 บิตไม่ได้หมายความว่าจะมีอักขระที่แตกต่างกันได้สูงสุด 256 ตัวหรือไม่? จุดรหัส 128 รายการแรกเหมือนกับใน ASCII แต่มันบอกว่า UTF-8 สามารถรองรับได้ถึงล้านตัวอักษร? วิธีนี้ทำงานอย่างไร?

105 utf-8 character-encoding ascii

8

C # แปลงสตริงจาก UTF-8 เป็น ISO-8859-1 (Latin1) H

ฉันได้เข้าสู่หัวข้อนี้และได้ดูทุกคำตอบแล้ว แต่ก็ยังไม่เข้าใจ โดยทั่วไปฉันต้องแปลงสตริง UTF-8 เป็น ISO-8859-1 และทำโดยใช้รหัสต่อไปนี้: Encoding iso = Encoding.GetEncoding("ISO-8859-1"); Encoding utf8 = Encoding.UTF8; string msg = iso.GetString(utf8.GetBytes(Message)); สตริงต้นทางของฉันคือ Message = "ÄäÖöÕõÜü" แต่น่าเสียดายที่สตริงผลลัพธ์ของฉันกลายเป็น msg = "Ã?Ã¤Ã?Ã¶Ã?ÃµÃ?Ã¼ ฉันทำอะไรผิดที่นี่?

104 c# .net encoding utf-8 iso-8859-1

14

วิธีทำให้ MySQL จัดการ UTF-8 อย่างถูกต้อง

หนึ่งในคำตอบสำหรับคำถามที่ฉันถามเมื่อวานนี้แนะนำว่าฉันควรตรวจสอบให้แน่ใจว่าฐานข้อมูลของฉันสามารถรองรับอักขระ UTF-8 ได้อย่างถูกต้อง ฉันจะทำสิ่งนี้กับ MySQL ได้อย่างไร

102 mysql utf-8

7

วิธีการถอดรหัสลำดับการหลีกเลี่ยง Unicode เช่น“ \ u00ed” เป็นอักขระที่เข้ารหัส UTF-8 ที่เหมาะสม

มีฟังก์ชันใน PHP ที่สามารถถอดรหัสลำดับการหลีกเลี่ยง Unicode เช่น "\u00ed " ถึง " í" และเหตุการณ์อื่น ๆ ที่คล้ายกันทั้งหมดได้หรือไม่ ฉันพบคำถามที่คล้ายกันที่นี่แต่ดูเหมือนจะไม่ได้ผล

100 php unicode utf-8 escaping decoding

6

การใช้ StringWriter สำหรับ XML Serialization

ฉันกำลังค้นหาวิธีง่ายๆในการทำให้เป็นอนุกรมวัตถุ (ใน C # 3) ฉัน googled ตัวอย่างบางส่วนและคิดสิ่งต่างๆเช่น: MemoryStream memoryStream = new MemoryStream ( ); XmlSerializer xs = new XmlSerializer ( typeof ( MyObject) ); XmlTextWriter xmlTextWriter = new XmlTextWriter ( memoryStream, Encoding.UTF8 ); xs.Serialize ( xmlTextWriter, myObject); string result = Encoding.UTF8.GetString(memoryStream .ToArray()); หลังจากอ่านคำถามนี้ฉันถามตัวเองทำไมไม่ใช้ StringWriter? ดูเหมือนง่ายกว่ามาก XmlSerializer ser = new …

99 c# sql-server xml utf-8 xml-serialization

5

ตัวอย่างสตริง utf8 ไม่ถูกต้อง?

ฉันกำลังทดสอบว่าโค้ดบางส่วนจัดการกับข้อมูลที่ไม่ดีอย่างไรและฉันต้องการไบต์สองสามชุดที่ไม่ถูกต้อง UTF-8 คุณสามารถโพสต์คำอธิบายว่าทำไมพวกเขาถึงไม่ดี / ที่คุณได้รับ?

99 unit-testing utf-8

3

กำลังอ่าน InputStream เป็น UTF-8

ฉันพยายามอ่านจากtext/plainไฟล์ทางอินเทอร์เน็ตทีละบรรทัด รหัสที่ฉันมีตอนนี้คือ: URL url = new URL("http://kuehldesign.net/test.txt"); BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream())); LinkedList<String> lines = new LinkedList(); String readLine; while ((readLine = in.readLine()) != null) { lines.add(readLine); } for (String line : lines) { out.println("> " + line); } ไฟล์test.txtมี¡Hélló!ซึ่งฉันใช้เพื่อทดสอบการเข้ารหัส เมื่อผมตรวจสอบOutputStream( out) > ¬°H√©ll√≥!ผมเห็นว่ามันเป็น ฉันไม่เชื่อว่านี่เป็นปัญหาOutputStreamเนื่องจากฉันสามารถทำได้out.println("é");โดยไม่มีปัญหา มีแนวคิดในการอ่านแบบInputStreamUTF-8 หรือไม่? ขอบคุณ!

97 java utf-8 inputstream

9

การอ่านไฟล์ UTF8 CSV ด้วย Python

ฉันกำลังพยายามอ่านไฟล์ CSV ที่มีอักขระเน้นเสียงด้วย Python (เฉพาะอักษรฝรั่งเศสและ / หรือสเปน) จากเอกสาร Python 2.5 สำหรับ csvreader ( http://docs.python.org/library/csv.html ) ฉันคิดรหัสต่อไปนี้เพื่ออ่านไฟล์ CSV เนื่องจาก csvreader รองรับเฉพาะ ASCII def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs): # csv.py doesn't do Unicode; encode temporarily as UTF-8: csv_reader = csv.reader(utf_8_encoder(unicode_csv_data), dialect=dialect, **kwargs) for row in csv_reader: # decode UTF-8 back to Unicode, cell …

94 python utf-8 csv character-encoding

11

วิธีที่สวยงามในการค้นหาไฟล์ UTF-8 ด้วย BOM?

สำหรับวัตถุประสงค์ในการดีบักฉันจำเป็นต้องค้นหาไดเร็กทอรีซ้ำสำหรับไฟล์ทั้งหมดที่ขึ้นต้นด้วยเครื่องหมายคำสั่งไบต์ UTF-8 (BOM) โซลูชันปัจจุบันของฉันคือเชลล์สคริปต์แบบธรรมดา: find -type f | while read file do if [ "`head -c 3 -- "$file"`" == $'\xef\xbb\xbf' ] then echo "found BOM in: $file" fi done หรือหากคุณต้องการหนึ่งบรรทัดสั้น ๆ ที่อ่านไม่ได้: find -type f|while read file;do [ "`head -c3 -- "$file"`" == $'\xef\xbb\xbf' ] && echo "found BOM …

94 php utf-8 shell text-editor

คำถามติดแท็ก utf-8