คำถามติดแท็ก utf-8

UTF-8 เป็นการเข้ารหัสอักขระที่อธิบายจุดโค้ด Unicode แต่ละจุดโดยใช้ลำดับไบต์หนึ่งถึงสี่ไบต์ มันเข้ากันได้ย้อนหลังกับ ASCII ในขณะที่ยังรองรับการแสดงจุดรหัส Unicode ทั้งหมด

14
Unicode (UTF-8) การอ่านและการเขียนไฟล์ใน Python
ฉันมีอาการสมองล้มเหลวในการทำความเข้าใจการอ่านและการเขียนข้อความไปยังไฟล์ (Python 2.4) # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ("u'Capit \ xe1n '", "' Capit \ xc3 \ xa1n '") print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capit\xc3\xa1n\n' ดังนั้นฉันพิมพ์Capit\xc3\xa1nลงในโปรแกรมแก้ไขรายการโปรดของฉันในไฟล์ f2 แล้ว: >>> open('f1').read() 'Capit\xc3\xa1n\n' >>> open('f2').read() 'Capit\\xc3\\xa1n\n' …
329 python  unicode  utf-8  io 

24
ตรวจจับการเข้ารหัสและทำให้ทุกอย่างเป็น UTF-8
ฉันอ่านข้อความจำนวนมากจากฟีด RSS ต่างๆและแทรกลงในฐานข้อมูลของฉัน แน่นอนว่ามีการเข้ารหัสอักขระหลายตัวที่ใช้ในฟีดเช่น UTF-8 และ ISO 8859-1 น่าเสียดายที่บางครั้งมีปัญหากับการเข้ารหัสของข้อความ ตัวอย่าง: "ß" ใน "Fußball" ควรมีลักษณะเช่นนี้ในฐานข้อมูลของฉัน: "Ÿ" หากเป็น "Ÿ" แสดงว่าถูกต้อง บางครั้ง "ß" ใน "Fußball" มีลักษณะเช่นนี้ในฐานข้อมูลของฉัน: "ß" แน่นอนว่ามันถูกแสดงอย่างผิด ๆ ในกรณีอื่น ๆ "ß" จะถูกบันทึกเป็น "ß" - ดังนั้นโดยไม่มีการเปลี่ยนแปลงใด ๆ จากนั้นมันก็จะแสดงผิด ฉันจะทำอย่างไรเพื่อหลีกเลี่ยงกรณีที่ 2 และ 3 ฉันจะทำให้ทุกอย่างเข้ารหัสเหมือนกันโดยเฉพาะอย่างยิ่ง UTF-8 ได้อย่างไร ฉันต้องใช้utf8_encode()เมื่อใดฉันจะต้องใช้เมื่อใดutf8_decode()(ชัดเจนว่าผลกระทบคืออะไร แต่เมื่อใดฉันต้องใช้ฟังก์ชั่น?) และเมื่อใดที่ฉันต้องใช้อะไรกับอินพุต? ฉันจะทำให้การเข้ารหัสทุกอย่างเหมือนกันได้อย่างไร บางทีด้วยฟังก์ชั่นmb_detect_encoding()? ฉันสามารถเขียนฟังก์ชันสำหรับสิ่งนี้ได้หรือไม่? ดังนั้นปัญหาของฉันคือ: ฉันจะค้นหาการเข้ารหัสข้อความที่ใช้ได้อย่างไร …

5
UTF-8: ทั่วไปใช่ไหม Bin? Unicode?
ฉันกำลังพยายามหาการเปรียบเทียบที่ฉันควรใช้สำหรับข้อมูลประเภทต่างๆ เนื้อหา 100% ที่ฉันจะจัดเก็บนั้นเป็นแบบที่ผู้ใช้ส่ง ความเข้าใจของฉันคือฉันควรใช้ UTF-8 General CI (ตัวพิมพ์เล็ก - ใหญ่) แทน UTF-8 Binary อย่างไรก็ตามฉันไม่สามารถค้นหาความแตกต่างที่ชัดเจนระหว่าง UTF-8 General CI และ UTF-8 Unicode CI ฉันควรจัดเก็บเนื้อหาที่ผู้ใช้ส่งในคอลัมน์ UTF-8 General หรือ UTF-8 Unicode CI หรือไม่ ข้อมูลประเภทใดที่จะใช้กับ UTF-8 Binary?
279 mysql  utf-8  collation 


16
วิธีใช้ UTF-8 ในคุณสมบัติทรัพยากรที่มี ResourceBundle
ฉันต้องใช้ UTF-8 ในคุณสมบัติของทรัพยากรของฉันโดยใช้ของ ResourceBundleJava เมื่อฉันป้อนข้อความลงในไฟล์คุณสมบัติโดยตรงมันจะแสดงเป็นโมจิเบค แอพของฉันทำงานบน Google App Engine ใครช่วยยกตัวอย่างได้บ้าง ฉันไม่สามารถทำงานนี้ได้


2
Url ถอดรหัส UTF-8 ใน Python
ฉันใช้เวลาไปมากพอ ๆ กับที่ฉันเพิ่งสมัครเป็น Python ฉันจะถอดรหัส URL เช่นนี้ได้อย่างไร: example.com?title=%D0%BF%D1%80%D0%B0%D0%B2%D0%BE%D0%B2%D0%B0%D1%8F+%D0%B7%D0%B0%D1%89%D0%B8%D1%82%D0%B0 หนึ่งในนี้ในหลาม 2.7: example.com?title==правовая+защита url=urllib.unquote(url.encode("utf8")) กำลังคืนสิ่งที่น่าเกลียดมาก ยังไม่มีวิธีแก้ปัญหาใด ๆ ที่เป็นที่นิยม

11
UTF-8 byte [] ถึง String
สมมุติว่าฉันเพิ่งใช้ a BufferedInputStreamเพื่ออ่านไบต์ของไฟล์ข้อความที่เข้ารหัส UTF-8 ลงในอาร์เรย์ไบต์ ฉันรู้ว่าฉันสามารถใช้รูทีนต่อไปนี้เพื่อแปลงไบต์เป็นสตริง แต่มีวิธีที่มีประสิทธิภาพ / ชาญฉลาดกว่าในการทำสิ่งนี้มากกว่าแค่วนซ้ำผ่านไบต์และแปลงแต่ละรายการหรือไม่ public String openFileToString(byte[] _bytes) { String file_string = ""; for(int i = 0; i < _bytes.length; i++) { file_string += (char)_bytes[i]; } return file_string; }
243 java  utf-8 

17
“ ค่าสตริงไม่ถูกต้อง” เมื่อพยายามแทรก UTF-8 ลงใน MySQL ผ่าน JDBC?
นี่คือวิธีการตั้งค่าการเชื่อมต่อของฉัน: Connection conn = DriverManager.getConnection(url + dbName + "?useUnicode=true&characterEncoding=utf-8", userName, password); และฉันได้รับข้อผิดพลาดต่อไปนี้เมื่อผูกเพื่อเพิ่มแถวลงในตาราง: Incorrect string value: '\xF0\x90\x8D\x83\xF0\x90...' for column 'content' at row 1 ฉันแทรกหลายพันระเบียนและฉันได้รับข้อผิดพลาดนี้เสมอเมื่อข้อความมี \ xF0 (เช่นค่าสตริงที่ไม่ถูกต้องเริ่มต้นด้วย \ xF0 เสมอ) การเปรียบเทียบคอลัมน์คือ utf8_general_ci มีปัญหาอะไร
228 mysql  jdbc  utf-8  utf8mb4 

16
ฉันต้องเข้ารหัส '&' เป็น '& amp;' จริง ๆ หรือไม่
ฉันใช้ ' &' สัญลักษณ์กับ HTML5 และ UTF-8 <title>ในเว็บไซต์ของฉัน Google แสดงเครื่องหมายแอมป์แซนด์ใน SERPs เช่นเดียวกับเบราว์เซอร์ทั้งหมดในชื่อ http://validator.w3.orgให้สิ่งนี้แก่ฉัน: & ไม่ได้เริ่มการอ้างอิงตัวละคร (และน่าจะได้รับการยกเว้นว่าเป็น&) ฉันต้องทำจริงๆ&เหรอ? ฉันไม่ได้ยุ่งเกี่ยวกับหน้าของฉันตรวจสอบเพื่อประโยชน์ในการตรวจสอบ แต่ฉันอยากรู้อยากเห็นความคิดเห็นของผู้คนเกี่ยวกับเรื่องนี้และถ้ามันเป็นสิ่งสำคัญและทำไม

4
เขียนไปยังไฟล์ UTF-8 ใน Python
codecs.open functionฉันสับสนจริงๆด้วย เมื่อฉัน: file = codecs.open("temp", "w", "utf-8") file.write(codecs.BOM_UTF8) file.close() มันทำให้ฉันมีข้อผิดพลาด UnicodeDecodeError: ตัวแปลงสัญญาณ 'ascii' ไม่สามารถถอดรหัสไบต์ 0xef ในตำแหน่ง 0: ลำดับไม่อยู่ในช่วง (128) ถ้าฉันทำ: file = open("temp", "w") file.write(codecs.BOM_UTF8) file.close() มันใช้งานได้ดี คำถามคือทำไมวิธีแรกล้มเหลว และฉันจะแทรก bom ได้อย่างไร? หากวิธีที่สองเป็นวิธีที่ถูกต้องในการทำสิ่งที่ใช้codecs.open(filename, "w", "utf-8")?

8
ปัญหาการเข้ารหัส HTML - ตัวอักษร "Â" ปรากฏขึ้นแทนที่จะเป็น "& nbsp;"
ฉันมีแอปรุ่นเก่าที่เพิ่งเริ่มทำงานผิดปกติไม่ว่าด้วยเหตุผลใดก็ตามฉันไม่แน่ใจ มันสร้างกลุ่ม HTML ที่กลายเป็นรายงาน PDF โดย ActivePDF กระบวนการทำงานเช่นนี้: ดึงเทมเพลต HTML จากฐานข้อมูลที่มีโทเค็นนั้นเพื่อแทนที่ (เช่น "~ CompanyName ~", "~ CustomerName ~" เป็นต้น) แทนที่โทเค็นด้วยข้อมูลจริง จัดระเบียบ HTML ด้วยฟังก์ชัน regex อย่างง่ายที่คุณสมบัติจะจัดรูปแบบค่าแอตทริบิวต์แท็ก HTML (ตรวจสอบให้แน่ใจว่าเครื่องหมายคำพูด ฯลฯ เนื่องจากเครื่องมือการเรนเดอร์การแสดงผลของ ActivePDF ไม่ชอบอะไรเลย ส่ง HTML ไปยังบริการเว็บที่สร้าง PDF อยู่ที่ไหนสักแห่งที่ว่างช่องว่างไม่แตกออกจากแม่แบบ HTML (  s) กำลังเข้ารหัสเป็น ISO-8859-1 เพื่อให้พวกเขาปรากฏขึ้นอย่างไม่ถูกต้องเป็นตัวอักษร "Â" เมื่อดูเอกสารในเบราว์เซอร์ (FireFox) ActivePDF pukes กับอักขระที่ไม่ใช่ UTF8 เหล่านี้ …

12
PHP DOMDocument loadHTML ไม่ได้เข้ารหัส UTF-8 อย่างถูกต้อง
ฉันพยายามแยก HTML บางส่วนโดยใช้ DOMDocument แต่เมื่อฉันทำฉันก็สูญเสียการเข้ารหัสของฉันทันที $profile = "<div><p>various japanese characters</p></div>"; $dom = new DOMDocument(); $dom->loadHTML($profile); $divs = $dom->getElementsByTagName('div'); foreach ($divs as $div) { echo $dom->saveHTML($div); } ผลลัพธ์ของรหัสนี้คือฉันได้รับตัวละครมากมายที่ไม่ใช่ภาษาญี่ปุ่น อย่างไรก็ตามถ้าฉัน: echo $profile; มันแสดงอย่างถูกต้อง ฉันลอง saveHTML และ saveXML แล้วและไม่แสดงอย่างถูกต้อง ฉันใช้ PHP 5.3 ฉันเห็นอะไร: ã¤ãªãã¤å·ã·ã«ã´ã«ã¦ãã¢ã¤ã«ã©ã³ãç³»ã®å®¶åº­ã«ã9人åå¼ã®5çªç®ã¨ãã¦çã¾ãããå½¼ãå«ãã¦4人ã俳åªã«ãªã£ããç¶è¦ªã¯æ¨æã®ã»ã¼ã«ã¹ãã³ã§ãæ¯è¦ªã¯éµä¾¿å±ã®å®¢å®¤ä¿ã ã£ããé«æ ¡æ代ã¯ã­ã£ãã£ã®ã¢ã«ãã¤ãã«å¤ãã¿ãæè²è³éãåããªããã«ããªãã¯ç³»ã®é«æ ¡ã¸é²å­¦ã สิ่งที่ควรแสดง: イリノイ州シカゴにて、アイルランド系の家庭に、9人兄弟の5番目として生まれる。彼を含めて4人が俳優になった。父親は木材のセールスマンで、母親は郵便局の客室係だった。高校時代はキャディのアルバイトに勤しみ、教育資金を受けながらカトリック系の高校へ進学 แก้ไข: ฉันลดความซับซ้อนของรหัสลงไปที่ห้าบรรทัดเพื่อให้คุณสามารถทดสอบด้วยตัวเอง $profile = …

9
วิธีแปลงสตริงเป็น utf-8 ใน Python
ฉันมีเบราว์เซอร์ที่ส่งอักขระ utf-8 ไปยังเซิร์ฟเวอร์ Python ของฉัน แต่เมื่อฉันดึงข้อมูลจากสตริงการสืบค้นการเข้ารหัสที่ Python ส่งคืนคือ ASCII ฉันจะแปลงสตริงธรรมดาเป็น utf-8 ได้อย่างไร หมายเหตุ: สตริงที่ส่งผ่านจากเว็บนั้นได้รับการเข้ารหัส UTF-8 แล้วฉันแค่อยากให้ Python ใช้มันเป็น UTF-8 ไม่ใช่ ASCII

30
ฉันจะส่งออก UTF-8 CSV ใน PHP ที่ Excel จะอ่านอย่างถูกต้องได้อย่างไร
ฉันมีสิ่งง่าย ๆ ที่เพิ่งเอาท์พุทบางอย่างในรูปแบบ CSV แต่มันต้องเป็น UTF-8 ฉันเปิดไฟล์นี้ใน TextEdit หรือ TextMate หรือ Dreamweaver และมันแสดงตัวอักษร UTF-8 อย่างถูกต้อง แต่ถ้าฉันเปิดมันใน Excel มันเป็นการทำสิ่งที่ไร้สาระแทน นี่คือสิ่งที่ฉันได้รับที่หัวหน้าเอกสารของฉัน: header("content-type:application/csv;charset=UTF-8"); header("Content-Disposition:attachment;filename=\"CHS.csv\""); ทั้งหมดนี้ดูเหมือนว่าจะมีผลที่ต้องการยกเว้น Excel (Mac, 2008) ไม่ต้องการนำเข้าอย่างถูกต้อง ไม่มีตัวเลือกใน Excel ให้ฉัน "เปิดเป็น UTF-8" หรืออะไรก็ได้ดังนั้น ... ฉันรู้สึกรำคาญเล็กน้อย ฉันไม่สามารถหาคำตอบที่ชัดเจนเกี่ยวกับเรื่องนี้ได้ทุกที่แม้จะมีคนจำนวนมากที่มีปัญหาเดียวกัน สิ่งที่ฉันเห็นมากที่สุดคือการรวม BOM แต่ฉันไม่สามารถหาวิธีที่จะทำ อย่างที่คุณเห็นด้านบนฉันแค่echoดึงข้อมูลนี้ฉันไม่ได้เขียนไฟล์ใด ๆ ฉันสามารถทำได้ถ้าฉันต้องการฉันไม่เพียงเพราะดูเหมือนจะไม่ต้องการในตอนนี้ ความช่วยเหลือใด ๆ อัปเดต: ฉันพยายามสะท้อน BOM echo pack("CCC", 0xef, 0xbb, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.