คำถามติดแท็ก character-encoding

ระบบการเข้ารหัสอักขระประกอบด้วยรหัสที่จับคู่อักขระแต่ละตัวจากเพลงที่กำหนดกับสิ่งอื่น - เช่นรูปแบบบิตลำดับของจำนวนธรรมชาติ octet หรือพัไฟฟ้าเพื่ออำนวยความสะดวกในการส่งข้อมูล (โดยทั่วไปเป็นตัวเลขหรือข้อความ ) ผ่านเครือข่ายโทรคมนาคมหรือสำหรับจัดเก็บข้อมูล

0
ต้องคัดลอกสองครั้งเพื่อคัดลอกตัวอักษรจีนอย่างถูกต้อง
ฉันใช้ Windows 7 ฉันสามารถดูตัวอักษรจีนที่ดีบนหน้าเว็บ แต่เมื่อผมคัดลอกและวางพวกเขาบางพวกเขาแสดงเป็น???'s อาจเป็นเพราะฉันไม่มีภาษาเอเชียตะวันออกติดตั้งอย่างถูกต้องในคอมพิวเตอร์ของฉัน อย่างไรก็ตามสิ่งที่แปลกคือถ้าฉันคัดลอกสองครั้ง (เช่นกดCtrl+ Cสองครั้งติดต่อกัน) ตัวละครจะปรากฏขึ้นอย่างถูกต้อง ดังนั้นคำถามของฉันคือทำไมCtrl+ CและCtrl+ C× 2 ใส่ข้อมูลที่แตกต่างกันในคลิปบอร์ด ฉันหวังว่าฉันจะอธิบายสถานการณ์อย่างเพียงพอ มันทำให้ฉันสับสนอยู่พักนึงแล้วและฉันก็ยินดีจริง ๆ ถ้ามีใครสามารถอธิบายสิ่งนี้ได้!

2
คุณประมวลผลการเข้ารหัส EBCDIC CCSID 65535 โดยไม่มี iSeries อย่างไร
เป็นคำถามที่คลุมเครือ แต่เป็นแบบที่ฉันรู้ว่าผู้ใช้ SU อาจช่วยได้ ฉันได้รับไฟล์จาก iSeries ที่เข้ารหัสเป็น CCSID 65535 (ไบนารี) ซึ่งโดยทั่วไปหมายความว่ามันเข้ารหัสเป็นเลขฐานสิบหก (ใน EBCDIC) ฉันต้องการที่จะเข้าใจวิธีการทำงานของรูปแบบที่ดูเหมือนจะเผลอข้ามเข้าและออกจากการเข้ารหัสฐานสิบหก ตัวอย่างเช่น: 4040404040404040404040F3F040404040404040404040F1 0 04040404040404040404040F8F0F0F3F54040404040F3F4F0404040F3F0F3F8F1F1F7F1F0F8404040404040404040404040404040404040 2009E2D5F9F6F0F0F0F0F0F7 0 04040404040404040404040404040404040404040 40 คือ EBCDIC ช่องว่างฉันรู้ แต่คุณจะเห็นว่ามีช่องว่างตามตัวอักษรในข้อความเช่นกัน การเปลี่ยนเกิดขึ้นในขอบเขตคี่และคู่และมองว่าส่วนแรกที่มีช่องว่างตามตัวอักษร "F1 0 040" คุณจะเห็น hex ที่เข้ารหัส '1' ("F1"), ช่องว่างตามตัวอักษรหลายตัว, ตัวอักษร '0' บางตัว ช่องว่างมากขึ้นตัวอักษร '0' อีกครั้งและจากนั้นพื้นที่เข้ารหัส hex ฉีกเส้นผมของฉันออกจากที่นี่ดูเหมือนจะไม่มีเหตุผล ฉันสงสัยว่า 'ความรู้' สำหรับรูปแบบอาจจัดขึ้นใน iSeries ในคำจำกัดความแยกต่างหาก แต่ฉันไม่พบเอกสารที่ชัดเจนใด …

1
แปลงไฟล์จำนวนมากเป็นการเข้ารหัสเดียวกัน
ฉันต้องการตรวจสอบให้แน่ใจว่าไฟล์ทั้งหมดของฉันได้รับการเข้ารหัสอย่างถูกต้องใน UTF-8 ในที่เก็บโครงการขนาดใหญ่ มีเครื่องมือสำหรับสิ่งนั้นหรือวิธีการที่จะใช้เครื่องมือ unix หรือไม่?

1
ฉันจะบอกได้อย่างไรว่าการเข้ารหัสชื่อไฟล์กำลังใช้งานอยู่?
ฉันมีบางไฟล์ที่มีชื่อภาษารัสเซีย (ซิริลลิก) เมื่อฉันเปิดใน Windows Explorer ชื่อจะแสดงอย่างถูกต้อง เมื่อฉันแสดงรายการไว้ใน Command shell (cmd) พวกเขาจะแสดงเป็น "?????" ตัวละคร มีวิธีบอกการเข้ารหัสที่ใช้ในชื่อไฟล์หรือไม่? หนึ่งในหน้ารหัส? (ฉันลองรหัสซิริลลิกทั่วไปหน้า 866 และ 1251 โดยใช้chcpคำสั่งโดยไม่มีโชค) Unicode (ฉันลอง 65001 ไม่มีโชค)? อื่น ๆ อีก? ฉันไม่สนใจวิธีการของคำตอบเป็นพิเศษ (ทั้งหมดต่อไปนี้เป็นที่ยอมรับได้: โปรแกรมฟรีแวร์, สคริปต์ Perl, สคริปต์ Powershell, หน้าเว็บที่ทำให้ฉันอัปโหลดไฟล์) ระบบ: Windows XP SP3

2
ชื่อไฟล์กลายเป็นคำพูดพล่อยๆ
การใช้ JDownloader เพื่อดาวน์โหลดไฟล์บางไฟล์ทำให้ชื่อไฟล์ดูเหมือน ".a ·å²è¬åï¼çç港ä¸é" ในระบบไฟล์ของฉัน ชื่อไฟล์ต้นฉบับเป็นภาษาจีน นี่เป็นปัญหาการเข้ารหัสหรือไม่ (การเข้ารหัสดั้งเดิมไม่ใช่ UTF-8) หากเป็นกรณีนี้สามารถกู้คืนได้หรือไม่ ฉันเดาว่าจะหาตัวแปลงการเข้ารหัสและแปลงเป็น UTF-8

0
ตีความไฟล์ข้อความด้วยรหัสฐานสิบหกไหม?
ฉันมีไฟล์ที่มีเนื้อหาเหมือน PK\u0003\u0004\u0014\u0000\u0006\u0000\b\u0000\u0000\u0000!\u0000À¸<91><91>¢\u0001. อย่างไรก็ตามฉันมีไฟล์เดียวกันในเวอร์ชันที่ต่างออกไป PK^C^D^T^@^F^@^H^@^@^@!^@À¸<91><91>¢^A ฉันต้องการ "ตีความ" ไฟล์แรกเพื่อให้รหัสฐานสิบหก (แต่ละอักขระรวมถึง 6 ตัว \u ) รับการแก้ไขให้เป็นตัวจริง อย่างไรก็ตามอย่างที่คุณเห็นไฟล์ไม่ได้เป็นแบบไบนารีจริงๆ แต่มีการแสดงข้อความของรหัสเลขฐานสิบหก (เช่นเดียวกับบางคนตีความเช่น ! ฯลฯ ) ฉันคิดเกี่ยวกับการใช้ xxd -rเป็นผลให้มีตัวละครที่ไม่ถูกต้องเพียงไม่กี่ตัว ฉันจะแปลงไฟล์ที่ 1 ของฉันเพื่อให้มันมีลักษณะคล้ายกับรุ่นที่ 2 ได้อย่างไร

2
อะไรทำให้ไฟล์ที่เหมือนกันสองไฟล์นี้มีแฮชต่างกัน
ฉันไม่สามารถหาสาเหตุได้ว่าทำไมสองไฟล์ต่อไปนี้จึงทำให้แฮชแตกต่างกัน (SHA1, CRC32, SHA384, อะไรก็ตาม): https://cdn.jsdelivr.net/npm/jsonify-error@1.2.1/dist/jsonify-error.js https://cdn.jsdelivr.net/npm/jsonify-error@1.2.2/dist/jsonify-error.js ฉันลองใช้งานยูทิลิตี้ต่างกันหลายครั้ง แต่พวกเขาทั้งหมดอ้างว่าไฟล์เหมือนกัน ฉันดาวน์โหลดทั้งไฟล์และตรวจสอบด้วย Sublime Text 3 และ Visual Studio Code ทั้งคู่ดูเหมือนว่าเป็น UTF-8, CRLF แต่ทันทีที่ฉันเปิดไฟล์แรกและกด Ctrl + S บนมัน (โดยไม่เปลี่ยนอะไรเลย!) ให้เหมือนกับที่สอง เกิดอะไรขึ้นที่นี่ แก้ไขเพื่อชี้แจง: ฉันต้องการทราบว่ามีความแตกต่างระหว่างไฟล์อย่างไร ฉันรู้ว่ามันเป็นสิ่งที่มีตัวละครช่องว่างหรือการสิ้นสุดบรรทัด แต่อะไร สายไหน ที่ไหน? ตัวละครไหน

0
แบบอักษร 'AppleColorEmoji' มีความกว้าง / ไม่ดี
ฉันกำลังพยายามเพิ่มอิโมจิในลายเซ็นอีเมลของฉัน ฉันคัดลอก / วางถ้าจากเว็บไซต์ที่แสดงรายการอิโมจิทั้งหมด มันแสดงผลได้ดีในลูกค้าทุกคนที่ฉันพยายามเปิดอีเมลด้วย: แต่เมื่อฉันพยายามบันทึกอีเมลของฉันใน PDF (โดยใช้ฟังก์ชั่นการพิมพ์ใน Gmail หรือ Office 365) และเปิดด้วย Acrobat ฉันได้รับข้อผิดพลาดนี้: เกิดอะไรขึ้น? ทำไมต้อง 'AppleColorEmoji' ฉันไม่ได้ใช้ iOS ฉันยังพยายามคัดลอก / วางอิโมจิจากเว็บไซต์อื่น ๆ ไม่กี่แห่ง แต่ฉันได้รับข้อความเดียวกันเมื่อเปิด PDF

1
Ubuntu บนตัวอักษร VirtualBox ให้ผลลัพธ์ที่แตกต่าง
ฉันใช้ Ubuntu 14.04 Server บน Virtual Box + Mac เมื่อฉันพิมพ์ [,], \, {,}, | ฯลฯ ฉันจะได้รับผลลัพธ์ต่อไปนี้ ฉันมี UTF บนโลแคล UPDATE: ฉันพบว่าฉันสามารถพิมพ์ | โดยตัวเลือกที่เหมาะสม + shift + | บน Mac แต่ฉันจะตั้งค่าอย่างไรเพื่อให้ฉันสามารถพิมพ์ได้ตามปกติโดยไม่ต้องกดปุ่ม + ตัวเลือกด้านขวา?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.