คำถามติดแท็ก utf-8

UTF-8 เป็นการเข้ารหัสอักขระที่อธิบายจุดโค้ด Unicode แต่ละจุดโดยใช้ลำดับไบต์หนึ่งถึงสี่ไบต์ มันเข้ากันได้ย้อนหลังกับ ASCII ในขณะที่ยังรองรับการแสดงจุดรหัส Unicode ทั้งหมด

11
เข้ารหัสสตริงเป็น UTF-8
ฉันมีสตริงที่มีอักขระ "ñ" และฉันมีปัญหากับมัน ฉันต้องเข้ารหัสสตริงนี้เป็นการเข้ารหัสแบบ UTF-8 ฉันลองด้วยวิธีนี้ แต่ไม่ได้ผล: byte ptext[] = myString.getBytes(); String value = new String(ptext, "UTF-8"); ฉันจะเข้ารหัสสตริงนั้นเป็น utf-8 ได้อย่างไร
190 java  utf-8 

9
จะเขียนไฟล์ UTF-8 ด้วย Java ได้อย่างไร
ฉันมีรหัสปัจจุบันและปัญหาคือการสร้างไฟล์เพจรหัสของ 1252 ฉันต้องการบังคับให้สร้างไฟล์ UTF-8 ทุกคนสามารถช่วยฉันด้วยรหัสนี้ตามที่ฉันบอกว่ามันใช้งานได้ในขณะนี้ ... แต่ฉันต้องบังคับให้ประหยัดกับ utf .. ฉันจะส่งพารามิเตอร์หรืออะไรบางอย่าง ??? นี่คือสิ่งที่ฉันมีความช่วยเหลือใด ๆ ชื่นชมจริงๆ var out = new java.io.FileWriter( new java.io.File( path )), text = new java.lang.String( src || "" ); out.write( text, 0, text.length() ); out.flush(); out.close();
180 java  file-io  utf-8 

11
แปลง Unicode เป็น ASCII โดยไม่มีข้อผิดพลาดใน Python
รหัสของฉันเพิ่ง scrapes หน้าเว็บแล้วแปลงเป็น Unicode html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) แต่ฉันได้รับUnicodeDecodeError: Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", line 55, in get html.encode("utf8","ignore") UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128) ฉันคิดว่านั่นหมายความว่า HTML มีความพยายามที่ผิดพลาดเกิดขึ้นที่ Unicode บางแห่ง ฉันสามารถทิ้งรหัสไบต์ใดก็ตามที่ทำให้เกิดปัญหาแทนที่จะได้รับข้อผิดพลาดได้หรือไม่

15
ฉันจะกำหนดการเข้ารหัสไฟล์ใน OS X ได้อย่างไร
ฉันกำลังพยายามป้อนอักขระ UTF-8 บางตัวลงในไฟล์ LaTeX ในTextMate (ซึ่งระบุว่าการเข้ารหัสเริ่มต้นคือ UTF-8) แต่ดูเหมือนว่า LaTeX จะไม่เข้าใจพวกเขา การวิ่งcat my_file.texแสดงตัวละครอย่างถูกต้องในเทอร์มินัล การวิ่งls -alแสดงบางสิ่งที่ฉันไม่เคยเห็นมาก่อน: รายการ "@" โดย: -rw-r--r--@ 1 me users 2021 Feb 11 18:05 my_file.tex (และใช่ฉันใช้\usepackage[utf8]{inputenc}ใน LaTeX) ฉันได้พบiconvแล้ว แต่ดูเหมือนจะไม่สามารถบอกได้ว่าการเข้ารหัสคืออะไร - มันจะแปลงเมื่อฉันคิดออกเท่านั้น
170 macos  encoding  latex  utf-8 


14
ข้อผิดพลาด UnicodeDecodeError: ตัวแปลงสัญญาณ 'utf-8' ไม่สามารถถอดรหัสไบต์ 0xff ในตำแหน่ง 0: ไบต์เริ่มต้นที่ไม่ถูกต้อง
https://github.com/affinelayer/pix2pix-tensorflow/tree/master/tools เกิดข้อผิดพลาดเมื่อรวบรวม "process.py" ในเว็บไซต์ด้านบน python tools/process.py --input_dir data -- operation resize --outp ut_dir data2/resize data/0.jpg -> data2/resize/0.png Traceback (การโทรล่าสุดครั้งล่าสุด): File "tools/process.py", line 235, in <module> main() File "tools/process.py", line 167, in main src = load(src_path) File "tools/process.py", line 113, in load contents = open(path).read() File"/home/user/anaconda3/envs/tensorflow_2/lib/python3.5/codecs.py", line 321, in decode (result, …
163 python  python-3.x  utf-8 


9
ข้อผิดพลาด“ ค่าสตริงไม่ถูกต้อง” MySQL เมื่อบันทึกสตริงยูนิโค้ดใน Django
ฉันได้รับข้อความแสดงข้อผิดพลาดแปลก ๆ เมื่อพยายามบันทึก first_name, last_name ไปยังโมเดล auth_user ของ Django ตัวอย่างที่ล้มเหลว user = User.object.create_user(username, email, password) user.first_name = u'Rytis' user.last_name = u'Slatkevičius' user.save() >>> Incorrect string value: '\xC4\x8Dius' for column 'last_name' at row 104 user.first_name = u'Валерий' user.last_name = u'Богданов' user.save() >>> Incorrect string value: '\xD0\x92\xD0\xB0\xD0\xBB...' for column 'first_name' at row …
158 python  mysql  django  unicode  utf-8 

6
u '\ ufeff' ในสตริง Python
ฉันได้รับข้อผิดพลาดกับลายดังต่อไปนี้: UnicodeEncodeError: 'ascii' codec can't encode character u'\ufeff' in position 155: ordinal not in range(128) ไม่แน่ใจว่าu'\ufeff'เป็นอะไรมันจะปรากฏขึ้นเมื่อฉันขูดเว็บ ฉันจะแก้ไขสถานการณ์ได้อย่างไร .replace()วิธีสตริงไม่ได้ทำงานกับมัน
153 python  unicode  utf-8 

5
ใน OS X Lion LANG ไม่ได้ตั้งค่าเป็น UTF-8 จะแก้ไขได้อย่างไร
ฉันพยายามตั้งค่า postgress ใน OS X Lion และพบว่าการตั้งค่า LOCALE ไม่ถูกต้อง นี่คือสิ่งที่ตั้งไว้: LANG= LC_COLLATE="C" LC_CTYPE="C" LC_MESSAGES="C" LC_MONETARY="C" LC_NUMERIC="C" LC_TIME="C" LC_ALL= ฉันคาดหวังบางอย่างกับ UTF-8 นี่คือการติดตั้ง OS X Lion แบบคลีนด้วยภาษาสเปน ฉันไม่ย้ายอะไรเลย ฉันไม่ทราบวิธีการตั้งค่าเป็น UTF-8 ในการตั้งค่าเทอร์มินัลให้ตรวจสอบ UTF-8 และตั้ง LOCALE เป็นเปิดแม้ว่าจะไม่ได้ผลก็ตาม

11
PHP: แปลงสตริงเป็น UTF-8 โดยไม่ทราบว่าชุดอักขระดั้งเดิมหรืออย่างน้อยลอง
ฉันมีแอปพลิเคชันที่จัดการกับลูกค้าจากทั่วทุกมุมโลกและโดยปกติฉันต้องการให้ทุกอย่างเข้าสู่ฐานข้อมูลของฉันเป็นแบบเข้ารหัส UTF-8 ปัญหาหลักสำหรับฉันคือฉันไม่รู้ว่าการเข้ารหัสแหล่งที่มาของสตริงใดจะเป็น - อาจมาจากกล่องข้อความ (การใช้<form accept-charset="utf-8">จะมีประโยชน์ก็ต่อเมื่อผู้ใช้ส่งฟอร์มจริง) หรืออาจเป็น จากไฟล์ข้อความที่อัปโหลดดังนั้นฉันจึงไม่สามารถควบคุมอินพุตได้ สิ่งที่ฉันต้องการคือฟังก์ชั่นหรือคลาสที่ทำให้แน่ใจว่าสิ่งต่าง ๆ ที่จะเข้าสู่ฐานข้อมูลของฉันคือเท่าที่เป็นไปได้เข้ารหัส UTF-8 ฉันได้ลองแล้วiconv(mb_detect_encoding($text), "UTF-8", $text); แต่มีปัญหา (ถ้าอินพุตคือ 'fiancée' จะส่งคืน 'fianc') ฉันได้ลองทำหลายสิ่งหลายอย่าง = / สำหรับการอัปโหลดไฟล์ฉันชอบที่จะขอให้ผู้ใช้ระบุการเข้ารหัสที่พวกเขาใช้และแสดงตัวอย่างของสิ่งที่เอาท์พุตจะเป็นอย่างไร แต่มันก็ไม่ได้ช่วยแฮกเกอร์ที่น่ารังเกียจ ง่ายขึ้นเล็กน้อย) ฉันได้อ่านคำถาม SO อื่น ๆ ในหัวข้อ แต่ดูเหมือนว่าทุกคนมีความแตกต่างเล็กน้อยเช่น "ฉันต้องแยกวิเคราะห์ RSS ฟีด" หรือ "ฉันขูดข้อมูลจากเว็บไซต์" (หรือแน่นอน "คุณไม่สามารถ") แต่ต้องมีบางสิ่งที่อย่างน้อยก็ต้องลองดี!

6
ฉันจะแปลงสตริงเป็น UTF-8 ใน C # ได้อย่างไร
ฉันมีสตริงที่ฉันได้รับจากแอพของบุคคลที่สามและฉันต้องการแสดงอย่างถูกต้องในภาษาใด ๆ โดยใช้ C # บน Windows Surface ของฉัน เนื่องจากการเข้ารหัสที่ไม่ถูกต้องส่วนหนึ่งของสตริงของฉันมีลักษณะเช่นนี้ในภาษาสเปน: Acción ในขณะที่ควรมีลักษณะเช่นนี้: Acción ตามคำตอบของคำถามนี้: จะรู้ได้อย่างไรว่าการเข้ารหัสสตริงใน C #การเข้ารหัสที่ฉันได้รับควรมาที่ UTF-8 แล้ว แต่มันถูกอ่านใน Encoding.Default (อาจเป็น ANSI) ฉันกำลังพยายามแปลงสตริงนี้เป็น UTF-8 จริง แต่ปัญหาอย่างหนึ่งคือฉันเห็นเฉพาะเซ็ตย่อยของคลาสการเข้ารหัส (คุณสมบัติ UTF8 และ Unicode เท่านั้น) อาจเป็นเพราะฉัน จำกัด Windows window API เท่านั้น ฉันลองใช้ตัวอย่างบางส่วนที่ฉันพบบนอินเทอร์เน็ต แต่ก็ไม่มีสิ่งใดที่พิสูจน์แล้วว่าประสบความสำเร็จสำหรับภาษาตะวันออก (เช่นภาษาเกาหลี) ตัวอย่างหนึ่งมีดังนี้: var utf8 = Encoding.UTF8; byte[] utfBytes = utf8.GetBytes(myString); …

22
ฉันจะลบจากจุดเริ่มต้นของไฟล์ได้อย่างไร
ฉันมีไฟล์ CSS ที่ดูดีเมื่อฉันเปิดมันโดยใช้geditแต่เมื่อมันถูกอ่านโดย PHP (เพื่อรวมไฟล์ CSS ทั้งหมดไว้ในไฟล์เดียว) CSS นี้มีตัวอักษรต่อไปนี้ที่เสริมไว้:  PHP ลบช่องว่างทั้งหมดดังนั้นการสุ่มที่อยู่ตรงกลางของโค้ดทำให้เกิดความวุ่นวายขึ้น ดังที่ฉันได้กล่าวไปแล้วฉันไม่สามารถเห็นตัวละครเหล่านี้ได้เมื่อฉันเปิดไฟล์ด้วย gedit ดังนั้นฉันจึงไม่สามารถลบออกได้อย่างง่ายดาย ฉันพบปัญหาและเห็นได้ชัดว่ามีสิ่งผิดปกติเกิดขึ้นกับการเข้ารหัสไฟล์ซึ่งทำให้รู้สึกว่าฉันเปลี่ยนไฟล์ไปยังเซิร์ฟเวอร์ Linux / Windows ที่แตกต่างกันผ่านทาง ftp และrsyncพร้อมโปรแกรมแก้ไขข้อความ ฉันไม่รู้เกี่ยวกับการเข้ารหัสอักขระมากนักดังนั้นความช่วยเหลือจะได้รับการชื่นชม หากช่วยได้ไฟล์จะถูกบันทึกในรูปแบบ UTF-8 และ gedit จะไม่ให้ฉันบันทึกในรูปแบบ ISO-8859-15 (เอกสารมีอักขระอย่างน้อยหนึ่งตัวที่ไม่สามารถเข้ารหัสโดยใช้การเข้ารหัสอักขระที่ระบุ) ฉันพยายามบันทึกด้วยปลาย Windows และ Linux แต่ก็ไม่ได้ช่วยอะไร

11
เปลี่ยนการเข้ารหัสเริ่มต้นของ Python หรือไม่
ฉันมีปัญหา "ไม่สามารถเข้ารหัส" และ "ถอดรหัสไม่ได้" กับPythonเมื่อฉันเรียกใช้แอปพลิเคชันของฉันจากคอนโซล แต่ในEclipse PyDev IDE การเข้ารหัสอักขระเริ่มต้นถูกตั้งค่าเป็นUTF-8และฉันไม่เป็นไร ฉันค้นหารอบ ๆ เพื่อตั้งค่าการเข้ารหัสเริ่มต้นและผู้คนบอกว่า Python ลบsys.setdefaultencodingฟังก์ชันเมื่อเริ่มต้นและเราไม่สามารถใช้งานได้ ดังนั้นทางออกที่ดีที่สุดสำหรับมันคืออะไร?

5
ความแตกต่างระหว่าง UTF-8 และ UTF-16 หรือไม่
ความแตกต่างระหว่าง UTF-8 และ UTF-16 หรือไม่ ทำไมเราต้องการสิ่งเหล่านี้ MessageDigest md = MessageDigest.getInstance("SHA-256"); String text = "This is some text"; md.update(text.getBytes("UTF-8")); // Change this to "UTF-16" if needed byte[] digest = md.digest();
137 java  unicode  utf-8  utf-16  utf 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.