เมื่อฉันทำงานกับโครงการวิเคราะห์ข้อมูลฉันมักจะเก็บข้อมูลไว้ในไฟล์ข้อมูลด้วยเครื่องหมายจุลภาคหรือคั่นด้วยแท็บ (CSV, TSV) ในขณะที่ข้อมูลมักอยู่ในระบบการจัดการฐานข้อมูลเฉพาะ สำหรับแอปพลิเคชันของฉันมากมายนี่จะเป็นการทำสิ่งที่เกินความจำเป็น
ฉันสามารถแก้ไขไฟล์ CSV และ TSV ใน Excel (หรือโปรแกรมสเปรดชีตอื่นน่าจะเป็น) สิ่งนี้มีประโยชน์:
- สเปรดชีตทำให้ง่ายต่อการป้อนข้อมูล
นอกจากนี้ยังมีปัญหาหลายประการ:
- การทำงานกับไฟล์ CSV และ TSV นำไปสู่ข้อความเตือนที่หลากหลายเกี่ยวกับคุณลักษณะที่สูญหายและวิธีการบันทึกเฉพาะแผ่นงานที่ใช้งานและอื่น ๆ ดังนั้นจึงเป็นเรื่องน่ารำคาญหากคุณต้องการเปิดไฟล์และทำการเปลี่ยนแปลงเล็กน้อย
- เป็นการแปลงที่ "ฉลาดพอสมควร" หลายอย่าง ตัวอย่างเช่นหากคุณป้อน 12/3 จะคิดว่าคุณต้องการป้อนวันที่ UPDATE:ฉันควรจะกล่าวว่าตัวอย่างวันที่เป็นเพียงหนึ่งในหลายตัวอย่าง ปัญหาส่วนใหญ่ดูเหมือนจะเกี่ยวข้องกับการแปลงที่ไม่เหมาะสม โดยเฉพาะอย่างยิ่งฟิลด์ข้อความที่มีลักษณะเหมือนตัวเลขหรือวันที่ทำให้เกิดปัญหา
หรือฉันสามารถทำงานโดยตรงกับไฟล์ข้อความในเท็กซ์เอดิเตอร์มาตรฐาน สิ่งนี้ทำให้มั่นใจได้ว่าสิ่งที่ฉันป้อนคือสิ่งที่บันทึกไว้ อย่างไรก็ตามเป็นวิธีที่ไม่สะดวกในการป้อนข้อมูล (คอลัมน์ไม่เรียงกันเป็นเรื่องยากที่จะป้อนข้อมูลลงในเซลล์หลาย ๆ เซลล์ ฯลฯ )
คำถาม
- กลยุทธ์ที่ดีในการทำงานกับไฟล์ข้อมูล CSV หรือ TSV คืออะไร เช่นกลยุทธ์ใดที่ทำให้การป้อนและจัดการข้อมูลเป็นเรื่องง่ายในขณะเดียวกันก็มั่นใจได้ว่าสิ่งที่คุณป้อนนั้นตีความได้อย่างถูกต้องจริงหรือไม่