ฉันกำลังพยายามทำงานกับชุดข้อมูลขนาดใหญ่ที่มีอักขระที่ไม่เป็นมาตรฐานอยู่ในนั้น ฉันจำเป็นต้องใช้ Unicode ตามข้อกำหนดของงาน แต่ฉันรู้สึกงุนงง (และค่อนข้างจะทำผิดทั้งหมด)
ฉันเปิด CSV โดยใช้:
15 ncesReader = csv.reader(open('geocoded_output.csv', 'rb'), delimiter='\t', quotechar='"')
จากนั้นฉันพยายามเข้ารหัสด้วย:
name=school_name.encode('utf-8'), street=row[9].encode('utf-8'), city=row[10].encode('utf-8'), state=row[11].encode('utf-8'), zip5=row[12], zip4=row[13],county=row[25].encode('utf-8'), lat=row[22], lng=row[23])
ฉันกำลังเข้ารหัสทุกอย่างยกเว้น lat และ lng เพราะต้องส่งไปยัง API เมื่อฉันรันโปรแกรมเพื่อแยกวิเคราะห์ชุดข้อมูลเป็นสิ่งที่ฉันสามารถใช้ได้ฉันจะได้รับ Traceback ดังต่อไปนี้
Traceback (most recent call last):
File "push_into_db.py", line 80, in <module>
main()
File "push_into_db.py", line 74, in main
district_map = buildDistrictSchoolMap()
File "push_into_db.py", line 32, in buildDistrictSchoolMap
county=row[25].encode('utf-8'), lat=row[22], lng=row[23])
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1 in position 2: ordinal not in range(128)
ฉันคิดว่าฉันควรบอกคุณว่าฉันใช้ python 2.7.2 และนี่เป็นส่วนหนึ่งของแอพที่สร้างบน django 1.4 ฉันได้อ่านโพสต์ต่างๆเกี่ยวกับหัวข้อนี้ แต่ดูเหมือนจะไม่มีข้อใดเกี่ยวข้องโดยตรง ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก
คุณอาจต้องการทราบด้วยว่าอักขระที่ไม่ได้มาตรฐานบางตัวที่ทำให้เกิดปัญหาคือÑและอาจเป็นไปได้ว่าÉ