จากความคิดเห็นที่ฉันได้รับฉันได้ตรวจสอบเรื่องนี้เพิ่มเติมอีกเล็กน้อย ดูเหมือนว่าขณะนี้การปฏิบัติที่ดีที่สุดคือการละเลยการใช้หน่วยงาน HTML และใช้จริง UTF-8 ตัวอักษรแทน เหตุผลดังต่อไปนี้:
- การเข้ารหัส UTF-8 นั้นอ่านและแก้ไขได้ง่ายกว่าสำหรับผู้ที่เข้าใจความหมายของอักขระและรู้วิธีพิมพ์
- การเข้ารหัส UTF-8 นั้นไม่สามารถเข้าใจได้เช่นเดียวกับการเข้ารหัสเอนทิตี HTML สำหรับผู้ที่ไม่เข้าใจ แต่มีข้อดีของการแสดงผลเป็นอักขระพิเศษแทนที่จะเข้าใจการเข้ารหัสทศนิยมหรือฐานสิบหกได้ยาก
ตราบใดที่การเข้ารหัสของเพจของคุณถูกตั้งค่าเป็น UTF-8 อย่างถูกต้องคุณควรใช้อักขระจริงแทนเอนทิตี HTML ฉันอ่านเอกสารหลายฉบับเกี่ยวกับหัวข้อนี้ แต่สิ่งที่เป็นประโยชน์ที่สุด ได้แก่ :
จากบทความUTF-8: The Secret of Character Encoding :
Wikipedia เป็นกรณีศึกษาที่ยอดเยี่ยมสำหรับแอปพลิเคชันที่เดิมใช้ ISO-8859-1 แต่เปลี่ยนไปใช้ UTF-8 เมื่อมันยุ่งยากเกินไปที่จะรองรับภาษาต่างประเทศ บอทตอนนี้จะจริงไปผ่านบทความและแปลงหน่วยงานที่ตัวละครตัวละครจริงที่สอดคล้องกันของพวกเขาเพื่อประโยชน์ในการใช้เป็นมิตรและความสามารถในการค้นหา
บทความนั้นยังให้ตัวอย่างที่ดีเกี่ยวกับการเข้ารหัสภาษาจีน นี่คือตัวอย่างโดยย่อเพื่อความเกียจคร้าน:
UTF-8:
這兩個字是甚麼意思
เอนทิตี HTML :
這兩個字是甚麼意思
การเข้ารหัสเอนทิตี UTF-8 และ HTML ไม่มีความหมายสำหรับฉัน แต่อย่างน้อยการเข้ารหัส UTF-8 ก็จำได้ว่าเป็นภาษาต่างประเทศและจะแสดงผลอย่างถูกต้องในช่องแก้ไข บทความกล่าวต่อไปนี้เกี่ยวกับเวอร์ชันที่เข้ารหัสเอนทิตี HTML:
ไม่สะดวกอย่างยิ่งสำหรับพวกเราที่รู้ว่าเอนทิตีตัวละครคืออะไรไม่เข้าใจโดยสิ้นเชิงสำหรับผู้ใช้ที่ไม่ดีที่ไม่ได้! แม้แต่เอนทิตีอักขระที่ "เข้าใจง่าย" ที่ใช้งานง่ายกว่าเล็กน้อยเช่น & theta; จะทำให้ผู้ใช้ที่ไม่สนใจเรียนรู้ HTML เกาหัว ในทางกลับกันถ้าพวกเขาเห็นθในช่องแก้ไขพวกเขาจะรู้ว่าเป็นอักขระพิเศษและปฏิบัติตามแม้ว่าพวกเขาจะไม่รู้ว่าจะเขียนอักขระนั้นอย่างไร
ดังที่ผู้อื่นกล่าวไว้คุณยังคงต้องใช้เอนทิตี HTML สำหรับอักขระ XML ที่สงวนไว้ (เครื่องหมายและน้อยกว่ามากกว่า)