การเขียนโปรแกรม unicode

18

วิธีการใช้อักขระ Unicode ในบรรทัดคำสั่งของ Windows

เรามีโครงการใน Team Foundation Server (TFS) ที่มีตัวอักษรที่ไม่ใช่ภาษาอังกฤษ (š) อยู่ในนั้น เมื่อพยายามเขียนสคริปต์สิ่งที่เกี่ยวกับงานสร้างเราพบปัญหาเราไม่สามารถส่งจดหมายšไปยังเครื่องมือบรรทัดคำสั่งได้ พรอมต์คำสั่งหรือสิ่งอื่น ๆ ไม่ยุ่งและยูทิลิตี้tf.exeไม่สามารถหาโครงการที่ระบุ ฉันได้ลองรูปแบบที่แตกต่างกันสำหรับไฟล์. bat (ANSI, UTF-8 ที่มีและไม่มีBOM ) รวมถึงการเขียนสคริปต์ใน JavaScript (ซึ่งเป็น Unicode โดยเนื้อแท้) - แต่ไม่มีโชค ฉันจะรันโปรแกรมและส่งผ่านบรรทัดคำสั่งUnicode ได้อย่างไร

316 unicode command-line input windows-console

10

วิธีการแก้ไข TypeError: Unicode-objects ต้องได้รับการเข้ารหัสก่อนการแฮช

ฉันมีข้อผิดพลาดนี้: Traceback (most recent call last): File "python_md5_cracker.py", line 27, in <module> m.update(line) TypeError: Unicode-objects must be encoded before hashing เมื่อฉันพยายามรันโค้ดนี้ในPython 3.2.2 : import hashlib, sys m = hashlib.md5() hash = "" hash_file = input("What is the file name in which the hash resides? ") wordlist = input("What is your …

295 python python-3.x unicode syntax-error hashlib

6

SyntaxError: อักขระที่ไม่ใช่ ASCII '\ xa3' ในไฟล์เมื่อฟังก์ชันส่งคืน '£'

พูดว่าฉันมีฟังก์ชั่น: def NewFunction(): return '£' ฉันต้องการพิมพ์สิ่งที่มีเครื่องหมายปอนด์อยู่ข้างหน้าและพิมพ์ข้อผิดพลาดเมื่อฉันพยายามเรียกใช้โปรแกรมนี้ข้อความแสดงข้อผิดพลาดนี้จะปรากฏขึ้น: SyntaxError: Non-ASCII character '\xa3' in file 'blah' but no encoding declared; see http://www.python.org/peps/pep-0263.html for details ใครสามารถบอกฉันว่าฉันสามารถรวมเครื่องหมายปอนด์ในฟังก์ชั่นการส่งคืน โดยทั่วไปฉันใช้มันในชั้นเรียนและอยู่ใน'__str__'ส่วนที่มีเครื่องหมายปอนด์รวมอยู่ด้วย

284 python unicode python-unicode

21

วิธีรับวัตถุสตริงแทน Unicode จาก JSON

ฉันใช้Python 2เพื่อแยก JSON จากไฟล์ข้อความที่เข้ารหัส ASCII เมื่อโหลดไฟล์เหล่านี้ด้วยjsonหรือ simplejsonค่าสตริงของฉันทั้งหมดจะถูกส่งไปยังวัตถุ Unicode แทนที่จะเป็นวัตถุสตริง ปัญหาคือฉันต้องใช้ข้อมูลกับบางไลบรารีที่ยอมรับเฉพาะวัตถุสตริงเท่านั้น ฉันไม่สามารถเปลี่ยนห้องสมุดหรืออัพเดทได้ เป็นไปได้ที่จะรับวัตถุสตริงแทน Unicode หรือไม่ ตัวอย่าง >>> import json >>> original_list = ['a', 'b'] >>> json_list = json.dumps(original_list) >>> json_list '["a", "b"]' >>> new_list = json.loads(json_list) >>> new_list [u'a', u'b'] # I want these to be of type `str`, not `unicode` …

276 python json serialization unicode python-2.x

11

ฉันจะตรวจสอบว่าสตริงเป็น Unicode หรือ ascii ได้อย่างไร?

ฉันต้องทำอะไรใน Python เพื่อหาว่าการเข้ารหัสสตริงมีอะไรบ้าง

271 python unicode encoding utf-8

4

ทำไมรหัสนี้เขียนย้อนหลังพิมพ์“ Hello World!”

นี่คือรหัสที่ฉันพบบนอินเทอร์เน็ต: class M‮{public static void main(String[]a‭){System.out.print(new char[] {'H','e','l','l','o',' ','W','o','r','l','d','!'});}} รหัสนี้พิมพ์Hello World!ลงบนหน้าจอ คุณสามารถเห็นมันทำงานที่นี่ ฉันสามารถเห็นการpublic static void mainเขียนได้ชัดเจนแต่กลับด้านหลัง รหัสนี้ทำงานอย่างไร สิ่งนี้จะรวบรวมได้อย่างไร แก้ไข:ฉันลองใช้รหัสนี้ใน IntellIJ และทำงานได้ดี อย่างไรก็ตามด้วยเหตุผลบางอย่างมันไม่ทำงานใน notepad ++ พร้อมกับ cmd ฉันยังไม่พบวิธีแก้ไขปัญหาดังกล่าวดังนั้นหากมีใครแสดงความคิดเห็นลงด้านล่าง

261 java unicode right-to-left

10

UnicodeDecodeError ไบต์ต่อเนื่องที่ไม่ถูกต้อง

ทำไมรายการด้านล่างจึงล้มเหลว และทำไมถึงประสบความสำเร็จกับ "latin-1" codec o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving v = o.decode("utf-8") ผลลัพธ์ใน: Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) …

257 python unicode decode

7

แทนที่อักขระที่ไม่ใช่ ASCII ด้วยช่องว่างเดียว

ฉันต้องการแทนที่อักขระที่ไม่ใช่ ASCII (\ x00- \ x7F) ทั้งหมดด้วยช่องว่าง ฉันประหลาดใจที่นี่ไม่ได้เป็นเรื่องง่ายใน Python ถ้าฉันไม่ได้ทำอะไร ฟังก์ชันต่อไปนี้จะลบอักขระที่ไม่ใช่ ASCII ทั้งหมด: def remove_non_ascii_1(text): return ''.join(i for i in text if ord(i)<128) และอันนี้แทนที่อักขระที่ไม่ใช่ ASCII ด้วยจำนวนช่องว่างตามจำนวนไบต์ในจุดรหัสอักขระ (เช่น–ตัวละครจะถูกแทนที่ด้วย 3 ช่องว่าง): def remove_non_ascii_2(text): return re.sub(r'[^\x00-\x7F]',' ', text) ฉันจะแทนที่อักขระที่ไม่ใช่ ASCII ทั้งหมดด้วยช่องว่างเดียวได้อย่างไร ของ มากมายของที่คล้ายกันดังนั้นคำถาม , ไม่มีใครอยู่ตัวอักษรทดแทนเป็นตรงข้ามที่จะปอก , และนอกจากนี้ยังอยู่อักขระที่ไม่ใช่ ASCII ทั้งหมดที่ไม่ได้ตัวละครที่เฉพาะเจาะจง

244 python unicode encoding ascii

13

Python: ลบ \ xa0 จากสตริงหรือไม่

ขณะนี้ฉันกำลังใช้ Beautiful Soup เพื่อแยกไฟล์ HTML และการโทรget_text()ออก แต่ดูเหมือนว่าฉันถูกทิ้งให้อยู่กับ \ xa0 Unicode จำนวนมากแทนช่องว่าง มีวิธีที่มีประสิทธิภาพในการลบทั้งหมดใน Python 2.7 และเปลี่ยนเป็นช่องว่างหรือไม่ ฉันเดาคำถามทั่วไปมากขึ้นจะมีวิธีลบการจัดรูปแบบ Unicode หรือไม่ ฉันลองใช้: line = line.replace(u'\xa0',' ')ตามที่เธรดอื่นแนะนำ แต่เปลี่ยน \ xa0 เป็น u ดังนั้นตอนนี้ฉันมี "u" ทุกที่แทน ): แก้ไข: ปัญหาดูเหมือนว่าจะได้รับการแก้ไขstr.replace(u'\xa0', ' ').encode('utf-8')แต่เพียงทำ.encode('utf-8')โดยไม่replace()ดูเหมือนว่าจะทำให้มันคายออกแม้ตัวละคร Weirder \ xc2 เช่น มีใครอธิบายเรื่องนี้ได้บ้าง

241 python parsing unicode

12

อักขระ Unicode หนึ่งตัวต้องใช้กี่ไบต์

ฉันสับสนเล็กน้อยเกี่ยวกับการเข้ารหัส เท่าที่ฉันรู้ว่าอักขระ ASCII เก่านั้นใช้อักขระหนึ่งไบต์ต่ออักขระ อักขระ Unicode ต้องการจำนวนไบต์? ฉันสมมติว่าอักขระ Unicode หนึ่งตัวสามารถมีตัวละครที่เป็นไปได้ทุกภาษาจากทุกภาษาฉันจะแก้ไขไหม? ดังนั้นต้องมีกี่ไบต์ต่อตัวอักษร? UTF-7, UTF-6, UTF-16 ฯลฯ หมายถึงอะไร? พวกเขาเป็นรุ่นที่แตกต่างกันของ Unicode หรือไม่? ฉันอ่านบทความ Wikipedia เกี่ยวกับ Unicodeแต่มันค่อนข้างยากสำหรับฉัน ฉันรอคอยที่จะเห็นคำตอบง่ายๆ

239 string language-agnostic unicode encoding

5

ฉันจะเปลี่ยนการเข้ารหัสไฟล์ด้วย vim ได้อย่างไร?

ฉันเคยใช้เป็นกลุ่มในการแก้ไขจุดสิ้นสุดของไฟล์: $ file file file: ASCII text, with CRLF line terminators $ vim file :set ff=mac :wq $ file file file: ASCII text, with CR line terminators เป็นไปได้หรือไม่ที่จะใช้กระบวนการที่คล้ายกันเพื่อเปลี่ยนการเข้ารหัส Unicode ของไฟล์? ฉันกำลังลองสิ่งต่อไปนี้ซึ่งใช้งานไม่ได้: $ file file.xml file.xml: Unicode text, UTF-16, little-endian $ vim file :set encoding=utf-8 :wq $ file file.xml file.xml: Unicode …

235 vim unicode

8

กำลังเขียนข้อความ Unicode ไปยังไฟล์ข้อความ?

ฉันดึงข้อมูลออกจาก Google doc ประมวลผลแล้วเขียนลงในไฟล์ (ในที่สุดฉันก็จะวางลงในหน้า Wordpress) มันมีสัญลักษณ์ที่ไม่ใช่ ASCII ฉันจะแปลงสิ่งเหล่านี้อย่างปลอดภัยเป็นสัญลักษณ์ที่สามารถใช้ในซอร์ส HTML ได้อย่างไร ขณะนี้ฉันกำลังแปลงทุกอย่างเป็น Unicode ระหว่างทางรวมเข้าด้วยกันในสตริง Python จากนั้นทำ: import codecs f = codecs.open('out.txt', mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859-1", "replace")) มีข้อผิดพลาดในการเข้ารหัสในบรรทัดสุดท้าย: UnicodeDecodeError: ตัวแปลงสัญญาณ 'ascii' ไม่สามารถถอดรหัสไบต์ 0xa0 ในตำแหน่ง 12286: ลำดับไม่อยู่ในช่วง (128) โซลูชันบางส่วน: Python นี้ทำงานโดยไม่มีข้อผิดพลาด: row = [unicode(x.strip()) if x is not None else u'' for x …

225 python unicode character-encoding python-2.x

5

ความแตกต่างระหว่าง _tmain () และ main () ใน C ++ คืออะไร

ถ้าฉันรันแอปพลิเคชัน C ++ ด้วยวิธี main () ต่อไปนี้ทุกอย่างก็โอเค: int main(int argc, char *argv[]) { cout << "There are " << argc << " arguments:" << endl; // Loop through each argument and print its number and value for (int i=0; i<argc; i++) cout << i << " " << argv[i] << …

224 c++ unicode arguments

18

คุณสะท้อนอักขระ Unicode 4 หลักใน Bash ได้อย่างไร

ฉันต้องการเพิ่มกะโหลก Unicode และ crossbones ใน shell prompt ของฉัน (โดยเฉพาะ 'SKULL AND CROSSBONES' (U + 2620)) แต่ฉันไม่สามารถหาคาถาเวทมนต์เพื่อสะท้อนเสียงคายหรือสิ่งอื่นใด อักขระ Unicode 4 หลัก หนึ่งหลักสองหลักนั้นง่าย ตัวอย่างเช่น echo -e "\ x55", นอกจากคำตอบด้านล่างนี้แล้วควรสังเกตว่าเทอร์มินัลของคุณต้องรองรับ Unicode เพื่อให้ได้ผลลัพธ์ตามที่คุณคาดหวัง gnome-terminal ทำงานได้ดีในเรื่องนี้ แต่ไม่จำเป็นต้องเปิดใช้งานตามค่าเริ่มต้น ในแอป Terminal ของ macOS ไปที่การตั้งค่า -> การเข้ารหัสและเลือก Unicode (UTF-8)

224 bash shell unicode character-encoding

11

JavaScript + Unicode regexes

ฉันจะใช้นิพจน์ปกติที่รับรู้ Unicode ใน JavaScript ได้อย่างไร ตัวอย่างเช่นควรมีบางสิ่งที่คล้ายกับ\wที่สามารถจับคู่จุดรหัสใด ๆ ในหมวดหมู่จดหมายหรือเครื่องหมาย (ไม่ใช่แค่ ASCII) และหวังว่าจะมีตัวกรองเช่น [[P *]] สำหรับเครื่องหมายวรรคตอน ฯลฯ

216 javascript regex unicode character-properties

คำถามติดแท็ก unicode