คำถามติดแท็ก character-encoding

การเข้ารหัสอักขระหมายถึงวิธีแสดงอักขระเป็นชุดของไบต์ การเข้ารหัสอักขระสำหรับเว็บถูกกำหนดในมาตรฐานการเข้ารหัส

17
มีอักขระคาเร็ตคว่ำ
ฉันต้องรักษาหน้า ASP คลาสสิกจำนวนมากซึ่งส่วนใหญ่มีข้อมูลแบบตารางโดยไม่มีความสามารถในการเรียงลำดับเลย ไม่ว่าคุณจะเรียงลำดับนักพัฒนาดั้งเดิมที่ใช้ในการสืบค้นฐานข้อมูลก็ตาม ฉันต้องการที่จะแก้ไขปัญหาการเรียงลำดับขั้นพื้นฐานไปยังหน้าเว็บเหล่านี้เป็นจำนวนมากและฉันกำลังดำเนินการกับไคลเอ็นต์ทั้งหมดด้วย javascript ฉันได้ทำสคริปต์พื้นฐานแล้วเพื่อเรียงลำดับตารางที่กำหนดในคอลัมน์ที่กำหนดในทิศทางที่กำหนดและทำงานได้ดีตราบใดที่ตารางนั้นถูก จำกัด โดยอนุสัญญาบางข้อที่เราติดตามมาที่นี่ สิ่งที่ฉันต้องการจะทำสำหรับ UI เพียงแค่ระบุทิศทางการจัดเรียงด้วยอักขระคาเร็ต (^) และ ... อะไร มีอักขระพิเศษที่ตรงข้ามกับคาเร็ตหรือไม่? จดหมายvไม่ได้ตัดเลย อีกวิธีหนึ่งมีการจับคู่อักขระอื่นที่ฉันสามารถใช้ได้หรือไม่

13
วิธีการแปลง Strings ไปเป็นและจากอาร์เรย์ UTF8 ไบต์ใน Java
ใน Java ฉันมี String และฉันต้องการเข้ารหัสเป็นอาร์เรย์ไบต์ (ใน UTF8 หรือการเข้ารหัสอื่น ๆ ) อีกวิธีหนึ่งฉันมีอาร์เรย์ไบต์ (ในการเข้ารหัสที่รู้จักกันบางส่วน) และฉันต้องการแปลงเป็นสตริง Java ฉันจะแปลงเหล่านี้ได้อย่างไร

8
กำลังเขียนข้อความ Unicode ไปยังไฟล์ข้อความ?
ฉันดึงข้อมูลออกจาก Google doc ประมวลผลแล้วเขียนลงในไฟล์ (ในที่สุดฉันก็จะวางลงในหน้า Wordpress) มันมีสัญลักษณ์ที่ไม่ใช่ ASCII ฉันจะแปลงสิ่งเหล่านี้อย่างปลอดภัยเป็นสัญลักษณ์ที่สามารถใช้ในซอร์ส HTML ได้อย่างไร ขณะนี้ฉันกำลังแปลงทุกอย่างเป็น Unicode ระหว่างทางรวมเข้าด้วยกันในสตริง Python จากนั้นทำ: import codecs f = codecs.open('out.txt', mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859-1", "replace")) มีข้อผิดพลาดในการเข้ารหัสในบรรทัดสุดท้าย: UnicodeDecodeError: ตัวแปลงสัญญาณ 'ascii' ไม่สามารถถอดรหัสไบต์ 0xa0 ในตำแหน่ง 12286: ลำดับไม่อยู่ในช่วง (128) โซลูชันบางส่วน: Python นี้ทำงานโดยไม่มีข้อผิดพลาด: row = [unicode(x.strip()) if x is not None else u'' for x …

18
คุณสะท้อนอักขระ Unicode 4 หลักใน Bash ได้อย่างไร
ฉันต้องการเพิ่มกะโหลก Unicode และ crossbones ใน shell prompt ของฉัน (โดยเฉพาะ 'SKULL AND CROSSBONES' (U + 2620)) แต่ฉันไม่สามารถหาคาถาเวทมนต์เพื่อสะท้อนเสียงคายหรือสิ่งอื่นใด อักขระ Unicode 4 หลัก หนึ่งหลักสองหลักนั้นง่าย ตัวอย่างเช่น echo -e "\ x55", นอกจากคำตอบด้านล่างนี้แล้วควรสังเกตว่าเทอร์มินัลของคุณต้องรองรับ Unicode เพื่อให้ได้ผลลัพธ์ตามที่คุณคาดหวัง gnome-terminal ทำงานได้ดีในเรื่องนี้ แต่ไม่จำเป็นต้องเปิดใช้งานตามค่าเริ่มต้น ในแอป Terminal ของ macOS ไปที่การตั้งค่า -> การเข้ารหัสและเลือก Unicode (UTF-8)


10
แท็บแนวตั้งคืออะไร
อะไรคือการใช้งานในอดีตของอักขระแท็บแนวตั้ง ( \vในภาษา C, ASCII 11) เคยมีปุ่มบนแป้นพิมพ์หรือไม่? มีคนสร้างมันขึ้นมาได้อย่างไร วันนี้มีภาษาหรือระบบใดบ้างที่ตัวอักษรแท็บแนวตั้งมีสิ่งที่น่าสนใจและมีประโยชน์หรือไม่

10
“ สำหรับสายเข้า…” ผลลัพธ์เป็น UnicodeDecodeError: ตัวแปลงสัญญาณ 'utf-8' ไม่สามารถถอดรหัสไบต์
นี่คือรหัสของฉัน for line in open('u.item'): #read each line เมื่อใดก็ตามที่ฉันเรียกใช้รหัสนี้จะให้ข้อผิดพลาดต่อไปนี้: UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 2892: invalid continuation byte ฉันพยายามที่จะแก้ปัญหานี้และเพิ่มพารามิเตอร์พิเศษใน open () รหัสดูเหมือน; for line in open('u.item', encoding='utf-8'): #read each line แต่อีกครั้งมันให้ข้อผิดพลาดเดียวกัน ฉันควรทำยังไงดี! กรุณาช่วย.

6
ทำไมชื่อ charset ไม่ใช่ค่าคงที่?
ปัญหาชุดอักขระนั้นสร้างความสับสนและซับซ้อนด้วยตัวเอง แต่นอกเหนือจากนั้นคุณต้องจำชื่อที่แน่นอนของชุดอักขระของคุณ มันคือ"utf8"อะไร หรือ"utf-8"? หรืออาจจะ"UTF-8"? เมื่อค้นหาตัวอย่างรหัสอินเทอร์เน็ตคุณจะเห็นข้อมูลทั้งหมดข้างต้น ทำไมไม่เพียงทำให้พวกเขาตั้งชื่อค่าคงที่และใช้Charset.UTF8?

16
ฉันต้องเข้ารหัส '&' เป็น '& amp;' จริง ๆ หรือไม่
ฉันใช้ ' &' สัญลักษณ์กับ HTML5 และ UTF-8 <title>ในเว็บไซต์ของฉัน Google แสดงเครื่องหมายแอมป์แซนด์ใน SERPs เช่นเดียวกับเบราว์เซอร์ทั้งหมดในชื่อ http://validator.w3.orgให้สิ่งนี้แก่ฉัน: & ไม่ได้เริ่มการอ้างอิงตัวละคร (และน่าจะได้รับการยกเว้นว่าเป็น&) ฉันต้องทำจริงๆ&เหรอ? ฉันไม่ได้ยุ่งเกี่ยวกับหน้าของฉันตรวจสอบเพื่อประโยชน์ในการตรวจสอบ แต่ฉันอยากรู้อยากเห็นความคิดเห็นของผู้คนเกี่ยวกับเรื่องนี้และถ้ามันเป็นสิ่งสำคัญและทำไม

12
PHP DOMDocument loadHTML ไม่ได้เข้ารหัส UTF-8 อย่างถูกต้อง
ฉันพยายามแยก HTML บางส่วนโดยใช้ DOMDocument แต่เมื่อฉันทำฉันก็สูญเสียการเข้ารหัสของฉันทันที $profile = "<div><p>various japanese characters</p></div>"; $dom = new DOMDocument(); $dom->loadHTML($profile); $divs = $dom->getElementsByTagName('div'); foreach ($divs as $div) { echo $dom->saveHTML($div); } ผลลัพธ์ของรหัสนี้คือฉันได้รับตัวละครมากมายที่ไม่ใช่ภาษาญี่ปุ่น อย่างไรก็ตามถ้าฉัน: echo $profile; มันแสดงอย่างถูกต้อง ฉันลอง saveHTML และ saveXML แล้วและไม่แสดงอย่างถูกต้อง ฉันใช้ PHP 5.3 ฉันเห็นอะไร: ã¤ãªãã¤å·ã·ã«ã´ã«ã¦ãã¢ã¤ã«ã©ã³ãç³»ã®å®¶åº­ã«ã9人åå¼ã®5çªç®ã¨ãã¦çã¾ãããå½¼ãå«ãã¦4人ã俳åªã«ãªã£ããç¶è¦ªã¯æ¨æã®ã»ã¼ã«ã¹ãã³ã§ãæ¯è¦ªã¯éµä¾¿å±ã®å®¢å®¤ä¿ã ã£ããé«æ ¡æ代ã¯ã­ã£ãã£ã®ã¢ã«ãã¤ãã«å¤ãã¿ãæè²è³éãåããªããã«ããªãã¯ç³»ã®é«æ ¡ã¸é²å­¦ã สิ่งที่ควรแสดง: イリノイ州シカゴにて、アイルランド系の家庭に、9人兄弟の5番目として生まれる。彼を含めて4人が俳優になった。父親は木材のセールスマンで、母親は郵便局の客室係だった。高校時代はキャディのアルバイトに勤しみ、教育資金を受けながらカトリック系の高校へ進学 แก้ไข: ฉันลดความซับซ้อนของรหัสลงไปที่ห้าบรรทัดเพื่อให้คุณสามารถทดสอบด้วยตัวเอง $profile = …

6
ความแตกต่างระหว่างการเข้ารหัส / ถอดรหัสคืออะไร?
ฉันไม่เคยแน่ใจว่าฉันเข้าใจความแตกต่างระหว่าง str / unicode decode และ encode ฉันรู้ว่าstr().decode()สำหรับเมื่อคุณมีสตริงของไบต์ที่คุณรู้ว่ามีการเข้ารหัสตัวอักษรบางอย่างเนื่องจากชื่อการเข้ารหัสนั้นจะส่งกลับสตริง Unicode ฉันรู้ว่าunicode().encode()แปลงอักขระ Unicode เป็นสตริงไบต์ตามชื่อการเข้ารหัสที่กำหนด แต่ฉันไม่เข้าใจว่าอะไรstr().encode()และunicode().decode()มีไว้เพื่ออะไร มีใครอธิบายได้บ้างและอาจแก้ไขสิ่งอื่นที่ฉันผิดไปได้ด้วย? แก้ไข: หลายคำตอบให้ข้อมูลเกี่ยวกับสิ่งที่.encodeไม่เกี่ยวกับสตริง แต่ไม่มีใครดูเหมือนจะรู้ว่าสิ่งที่.decodeไม่สำหรับ Unicode

11
แปลง Unicode เป็น ASCII โดยไม่มีข้อผิดพลาดใน Python
รหัสของฉันเพิ่ง scrapes หน้าเว็บแล้วแปลงเป็น Unicode html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) แต่ฉันได้รับUnicodeDecodeError: Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", line 55, in get html.encode("utf8","ignore") UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128) ฉันคิดว่านั่นหมายความว่า HTML มีความพยายามที่ผิดพลาดเกิดขึ้นที่ Unicode บางแห่ง ฉันสามารถทิ้งรหัสไบต์ใดก็ตามที่ทำให้เกิดปัญหาแทนที่จะได้รับข้อผิดพลาดได้หรือไม่

4
ทำไมต้องระบุ @charset“ UTF-8” ในไฟล์ CSS ของคุณ?
ฉันได้เห็นคำสั่งนี้เป็นบรรทัดแรกของไฟล์ CSS จำนวนมากที่หันมาหาฉัน: @charset "UTF-8"; มันทำอะไรและกฎนี้จำเป็นหรือไม่ นอกจากนี้หากฉันรวมเมตาแท็กนี้ไว้ในองค์ประกอบ "หัว" ของฉันนั่นจะช่วยลดความจำเป็นที่จะต้องมีแท็กนี้อยู่ในไฟล์ CSS ของฉันด้วยหรือไม่ <meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

11
การเข้ารหัสและชุดอักขระแตกต่างกันอย่างไร
ฉันสับสนเกี่ยวกับการเข้ารหัสข้อความและชุดอักขระ ด้วยเหตุผลหลายประการฉันต้องเรียนรู้สิ่งที่ไม่ใช่ Unicode และไม่ใช่ UTF8 ในงานที่กำลังจะมาถึง ฉันพบคำว่า "charset" ในส่วนหัวของอีเมลเช่นเดียวกับใน "ISO-2022-JP" แต่ไม่มีการเข้ารหัสในตัวแก้ไขข้อความ (ฉันมองไปรอบ ๆ เครื่องมือแก้ไขข้อความที่แตกต่างกัน) การเข้ารหัสข้อความและชุดอักขระแตกต่างกันอย่างไร ฉันจะขอบคุณถ้าคุณสามารถแสดงตัวอย่างกรณีการใช้งานให้ฉันได้

11
PHP: แปลงสตริงเป็น UTF-8 โดยไม่ทราบว่าชุดอักขระดั้งเดิมหรืออย่างน้อยลอง
ฉันมีแอปพลิเคชันที่จัดการกับลูกค้าจากทั่วทุกมุมโลกและโดยปกติฉันต้องการให้ทุกอย่างเข้าสู่ฐานข้อมูลของฉันเป็นแบบเข้ารหัส UTF-8 ปัญหาหลักสำหรับฉันคือฉันไม่รู้ว่าการเข้ารหัสแหล่งที่มาของสตริงใดจะเป็น - อาจมาจากกล่องข้อความ (การใช้<form accept-charset="utf-8">จะมีประโยชน์ก็ต่อเมื่อผู้ใช้ส่งฟอร์มจริง) หรืออาจเป็น จากไฟล์ข้อความที่อัปโหลดดังนั้นฉันจึงไม่สามารถควบคุมอินพุตได้ สิ่งที่ฉันต้องการคือฟังก์ชั่นหรือคลาสที่ทำให้แน่ใจว่าสิ่งต่าง ๆ ที่จะเข้าสู่ฐานข้อมูลของฉันคือเท่าที่เป็นไปได้เข้ารหัส UTF-8 ฉันได้ลองแล้วiconv(mb_detect_encoding($text), "UTF-8", $text); แต่มีปัญหา (ถ้าอินพุตคือ 'fiancée' จะส่งคืน 'fianc') ฉันได้ลองทำหลายสิ่งหลายอย่าง = / สำหรับการอัปโหลดไฟล์ฉันชอบที่จะขอให้ผู้ใช้ระบุการเข้ารหัสที่พวกเขาใช้และแสดงตัวอย่างของสิ่งที่เอาท์พุตจะเป็นอย่างไร แต่มันก็ไม่ได้ช่วยแฮกเกอร์ที่น่ารังเกียจ ง่ายขึ้นเล็กน้อย) ฉันได้อ่านคำถาม SO อื่น ๆ ในหัวข้อ แต่ดูเหมือนว่าทุกคนมีความแตกต่างเล็กน้อยเช่น "ฉันต้องแยกวิเคราะห์ RSS ฟีด" หรือ "ฉันขูดข้อมูลจากเว็บไซต์" (หรือแน่นอน "คุณไม่สามารถ") แต่ต้องมีบางสิ่งที่อย่างน้อยก็ต้องลองดี!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.