มีไฟล์ข้อความธรรมดาจำนวนมากที่เข้ารหัสในชุดอักขระที่หลากหลาย
ฉันต้องการแปลงเป็น UTF-8 ทั้งหมด แต่ก่อนที่จะรัน iconv ฉันจำเป็นต้องรู้การเข้ารหัสดั้งเดิม เบราว์เซอร์ส่วนใหญ่มีAuto Detect
ตัวเลือกในการเข้ารหัสอย่างไรก็ตามฉันไม่สามารถตรวจสอบไฟล์ข้อความเหล่านี้ทีละไฟล์เพราะมีจำนวนมากเกินไป
เมื่อรู้ว่าการเข้ารหัสดั้งเดิมแล้วฉันก็สามารถแปลงข้อความiconv -f DETECTED_CHARSET -t utf-8
ได้
มียูทิลิตี้ในการตรวจจับการเข้ารหัสไฟล์ข้อความธรรมดาหรือไม่? มันไม่จำเป็นต้องสมบูรณ์แบบ 100% ฉันไม่คิดว่ามีไฟล์ 100 ไฟล์ใน 1,000,000 ไฟล์ที่เข้าใจผิด
python-chardet
ใน Ubuntu repo