การเขียนโปรแกรม unicode

12

เป็นตัวแทนของไดเรกทอรีและโครงสร้างไฟล์ในไวยากรณ์ Markdown

ฉันต้องการอธิบายโครงสร้างไดเรกทอรีและไฟล์ในบางส่วนของโพสต์บล็อกของ Jekyll ของฉัน Markdown จัดเตรียมวิธีที่เป็นระเบียบในการแสดงสิ่งนั้นหรือไม่? ตัวอย่างเช่นคุณสามารถดูที่ลิงค์นี้ในเว็บไซต์ Jekyll ว่าโครงสร้างไดเรกทอรีและไฟล์ถูกส่งออกบนหน้าอย่างเรียบร้อย: . ├── _config.yml ├── _drafts │ ├── begin-with-the-crazy-ideas.textile │ └── on-simplicity-in-technology.markdown ├── _includes │ ├── footer.html │ └── header.html ├── _layouts │ ├── default.html │ └── post.html ├── _posts │ ├── 2007-10-29-why-every-programmer-should-play-nethack.textile │ └── 2009-04-26-barcamp-boston-4-roundup.textile ├── _data │ └── members.yml ├── _site …

215 unicode markdown jekyll

6

Python __str__ กับ __unicode__

จะมีการประชุมหลามสำหรับเมื่อคุณควรใช้เมื่อเทียบกับ__str__() __unicode__()ฉันเคยเห็นคลาสที่เขียนทับ__unicode__()บ่อยกว่า__str__()แต่ดูเหมือนจะไม่สอดคล้องกัน มีกฎเฉพาะเจาะจงหรือไม่เมื่อนำไปใช้กับกฎอื่นจะดีกว่า จำเป็นต้องมี / วิธีปฏิบัติที่ดีในการใช้ทั้งสองอย่างหรือไม่

213 python string unicode conventions

16

จะตรวจสอบว่าสตริงใน Python อยู่ใน ASCII ได้อย่างไร?

ฉันต้องการตรวจสอบว่าสตริงอยู่ใน ASCII หรือไม่ ฉันรู้ord()แต่เมื่อฉันพยายามที่ฉันมีord('é') TypeError: ord() expected a character, but string of length 2 foundฉันเข้าใจว่ามันเกิดจากวิธีที่ฉันสร้าง Python (ดังอธิบายในord()เอกสารประกอบของ ) มีวิธีอื่นในการตรวจสอบหรือไม่

211 python string unicode ascii

7

“ การเชื่อมต่ออักขระ” ในตัวระบุ Java คืออะไร

ฉันกำลังอ่านสำหรับ SCJP และฉันมีคำถามเกี่ยวกับสายนี้: ตัวระบุต้องเริ่มต้นด้วยตัวอักษรตัวอักษรสกุลเงิน ($) หรือตัวเชื่อมต่อเช่นขีดล่าง (_) ตัวระบุไม่สามารถเริ่มต้นด้วยตัวเลขได้! มันระบุว่าชื่อตัวระบุที่ถูกต้องสามารถเริ่มต้นด้วยตัวเชื่อมต่อเช่นขีดล่าง ฉันคิดว่าขีดเส้นใต้เป็นตัวเลือกที่ถูกต้องเท่านั้น? มีอักขระเชื่อมต่ออื่นใดอีกบ้าง

208 java unicode identifier scjp

16

วิธีการแปลง wstring เป็นสตริง?

คำถามคือวิธีการแปลง wstring เป็นสตริง? ฉันมีตัวอย่างต่อไป: #include <string> #include <iostream> int main() { std::wstring ws = L"Hello"; std::string s( ws.begin(), ws.end() ); //std::cout <<"std::string = "<<s<<std::endl; std::wcout<<"std::wstring = "<<ws<<std::endl; std::cout <<"std::string = "<<s<<std::endl; } เอาต์พุตที่มีบรรทัดที่ใส่ความคิดเห็นคือ: std::string = Hello std::wstring = Hello std::string = Hello แต่ไม่มีเพียง: std::wstring = Hello มีอะไรผิดปกติในตัวอย่างหรือไม่ ฉันสามารถทำการแปลงแบบด้านบนได้ไหม? แก้ไข ตัวอย่างใหม่ …

204 c++ unicode stl wstring

9

วิธีแปลงสตริงเป็น utf-8 ใน Python

ฉันมีเบราว์เซอร์ที่ส่งอักขระ utf-8 ไปยังเซิร์ฟเวอร์ Python ของฉัน แต่เมื่อฉันดึงข้อมูลจากสตริงการสืบค้นการเข้ารหัสที่ Python ส่งคืนคือ ASCII ฉันจะแปลงสตริงธรรมดาเป็น utf-8 ได้อย่างไร หมายเหตุ: สตริงที่ส่งผ่านจากเว็บนั้นได้รับการเข้ารหัส UTF-8 แล้วฉันแค่อยากให้ Python ใช้มันเป็น UTF-8 ไม่ใช่ ASCII

193 python python-2.7 unicode utf-8

5

มีสัญลักษณ์สัญลักษณ์ยูนิโคดเพื่อเป็นตัวแทนของ "ค้นหา" [ปิด]

ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน4 ปีที่แล้ว ปรับปรุงคำถามนี้ Unicode มีร่ายมนตร์ไอคอนเป็นล้าน แต่มันยากมากที่จะค้นหา มีสัญลักษณ์ยูนิโคดที่ดูเหมือน "กล้องสองตา" หรือ "แว่นขยาย" หรือไม่? หรือมีสัญลักษณ์ที่ใช้หมายถึง "ค้นหา" ซึ่งอยู่ใน Unicode หรือไม่?

191 unicode symbols html-entities

5

Unicode รองรับได้ดีแค่ไหนใน C ++ 11?

ฉันอ่านแล้วได้ยินว่า C ++ 11 รองรับ Unicode คำถามสองสามข้อเกี่ยวกับเรื่องนี้: ไลบรารีมาตรฐาน C ++ รองรับ Unicode ได้ดีแค่ไหน ไม่std::stringทำในสิ่งที่ควร? ฉันจะใช้มันได้อย่างไร ปัญหาที่อาจเกิดขึ้นอยู่ที่ไหน

183 c++ unicode c++11

6

ความแตกต่างระหว่างการเข้ารหัส / ถอดรหัสคืออะไร?

ฉันไม่เคยแน่ใจว่าฉันเข้าใจความแตกต่างระหว่าง str / unicode decode และ encode ฉันรู้ว่าstr().decode()สำหรับเมื่อคุณมีสตริงของไบต์ที่คุณรู้ว่ามีการเข้ารหัสตัวอักษรบางอย่างเนื่องจากชื่อการเข้ารหัสนั้นจะส่งกลับสตริง Unicode ฉันรู้ว่าunicode().encode()แปลงอักขระ Unicode เป็นสตริงไบต์ตามชื่อการเข้ารหัสที่กำหนด แต่ฉันไม่เข้าใจว่าอะไรstr().encode()และunicode().decode()มีไว้เพื่ออะไร มีใครอธิบายได้บ้างและอาจแก้ไขสิ่งอื่นที่ฉันผิดไปได้ด้วย? แก้ไข: หลายคำตอบให้ข้อมูลเกี่ยวกับสิ่งที่.encodeไม่เกี่ยวกับสตริง แต่ไม่มีใครดูเหมือนจะรู้ว่าสิ่งที่.decodeไม่สำหรับ Unicode

180 python string unicode character-encoding python-2.x

11

แปลง Unicode เป็น ASCII โดยไม่มีข้อผิดพลาดใน Python

รหัสของฉันเพิ่ง scrapes หน้าเว็บแล้วแปลงเป็น Unicode html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) แต่ฉันได้รับUnicodeDecodeError: Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", line 55, in get html.encode("utf8","ignore") UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128) ฉันคิดว่านั่นหมายความว่า HTML มีความพยายามที่ผิดพลาดเกิดขึ้นที่ Unicode บางแห่ง ฉันสามารถทิ้งรหัสไบต์ใดก็ตามที่ทำให้เกิดปัญหาแทนที่จะได้รับข้อผิดพลาดได้หรือไม่

178 python unicode utf-8 character-encoding ascii

2

พารามิเตอร์ _snowman ในรูปแบบ Ruby on Rails 3 มีไว้เพื่ออะไร?

ใน Ruby on Rails 3 (ปัจจุบันใช้ Beta 4) ฉันเห็นว่าเมื่อใช้form_tagหรือform_forผู้ช่วยเหลือมีฟิลด์ที่ซ่อนชื่อที่_snowmanมีค่า of ( Unicode \ x9731) ปรากฏขึ้น ดังนั้นสิ่งนี้มีไว้เพื่ออะไร?

174 ruby-on-rails forms unicode

9

(grep) Regex จับคู่อักขระที่ไม่ใช่ ASCII หรือไม่

บน Linux ฉันมีไดเรกทอรีที่มีไฟล์จำนวนมาก บางคนมีอักขระที่ไม่ใช่ ASCII แต่พวกเขาจะถูกต้องทั้งหมดUTF-8 โปรแกรมหนึ่งมีข้อบกพร่องที่ป้องกันไม่ให้ทำงานกับชื่อไฟล์ที่ไม่ใช่ ASCII และฉันต้องค้นหาว่ามีผลกระทบกับจำนวนเท่าใด ฉันจะทำสิ่งนี้ด้วยfindแล้วทำgrepเพื่อพิมพ์อักขระที่ไม่ใช่ ASCII จากนั้นทำ a wc -lเพื่อค้นหาตัวเลข มันไม่จำเป็นต้องเป็น grep ฉันสามารถใช้นิพจน์ทั่วไปของ Unix มาตรฐานเช่นPerl , sed , AWKเป็นต้น อย่างไรก็ตามมีการแสดงออกปกติสำหรับ 'ตัวละครที่ไม่ใช่ตัวอักษร ASCII' หรือไม่?

169 regex unicode grep ascii

4

ความแตกต่างระหว่าง BYTE และ CHAR ในประเภทข้อมูลคอลัมน์

ใน Oracle ความแตกต่างระหว่าง: CREATE TABLE CLIENT ( NAME VARCHAR2(11 BYTE), ID_CLIENT NUMBER ) และ CREATE TABLE CLIENT ( NAME VARCHAR2(11 CHAR), -- or even VARCHAR2(11) ID_CLIENT NUMBER )

166 sql oracle unicode varchar

9

Concrete Javascript Regex สำหรับอักขระเน้นเสียง (กำกับเสียง)

ผมมองในกองมากเกิน ( แทนที่ตัวอักษร .. เอ๊ะ , วิธี JavaScript ไม่เป็นไปตามมาตรฐาน Unicode เกี่ยวกับนิพจน์ทั่วไป , ฯลฯ ) และมีไม่ได้จริงๆพบคำตอบที่เป็นรูปธรรมเพื่อคำถาม: How can JavaScript match for accented characters (those with diacritical marks)? ฉันบังคับให้ฟิลด์ใน UI จับคู่รูปแบบ: last_name, first_name (สุดท้าย [คอมม่าสเปซ] ก่อน)และฉันต้องการให้การสนับสนุนนักกำกับเสียง แต่เห็นได้ชัดว่าใน JavaScript มันยากกว่าภาษา / แพลตฟอร์มอื่นเล็กน้อย นี่เป็นรุ่นดั้งเดิมของฉันจนกว่าฉันจะต้องการเพิ่มการสนับสนุนการออกเสียง: /^[a-zA-Z]+,\s[a-zA-Z]+$/ ขณะนี้ฉันกำลังถกเถียงกันหนึ่งในสามวิธีในการเพิ่มการสนับสนุนซึ่งทั้งหมดนี้ฉันได้ทดสอบและทำงาน (อย่างน้อยก็ระดับหนึ่งฉันไม่รู้จริงๆว่า "ขอบเขต" เป็นวิธีที่สอง) ที่นี่พวกเขาคือ: แสดงรายการอักขระเน้นเสียงทั้งหมดที่ฉันต้องการยอมรับว่าใช้ได้อย่างถูกต้อง (อ่อนแอและซับซ้อนเกินไป): var accentedCharacters …

166 javascript regex unicode

8

อักขระ Unicode ในสตริง PHP

คำถามนี้ดูเรียบง่าย แต่ไม่สามารถหาคำตอบได้ PHP เทียบเท่ากับโค้ด C # ต่อไปนี้คืออะไร? string str = "\u1000"; ตัวอย่างนี้สร้างสตริงที่มีอักขระ Unicode เดียวซึ่งมี "ค่าตัวเลข Unicode" คือ 1000 ในเลขฐานสิบหก (4096 เป็นทศนิยม) นั่นคือใน PHP ฉันจะสร้างสตริงที่มีอักขระ Unicode ตัวเดียวที่รู้จักกันในชื่อ "ค่าตัวเลข Unicode" ได้อย่างไร

164 php unicode

คำถามติดแท็ก unicode