ตามที่คาดหวังจาก Hadley บทความของเขามีคำจำกัดความที่ดีของข้อมูลที่เป็นระเบียบและฉันเห็นด้วยกับเกือบทุกอย่างในบทความของเขาและเชื่อว่ามันไม่เพียงถูกต้องกับ "ผู้เชี่ยวชาญด้านข้อมูล" อย่างไรก็ตามบางประเด็นที่เขาทำนั้นค่อนข้างง่ายต่อการแก้ไข (เช่นกับแพ็คเกจที่เขาแต่งขึ้น) หากหลีกเลี่ยงปัญหาพื้นฐานเพิ่มเติมบางอย่าง ปัญหาเหล่านี้ส่วนใหญ่เป็นผลมาจากการใช้งาน Excel อย่างกว้างขวาง Excel เป็นเครื่องมือที่มีค่าและมีข้อดี แต่สิ่งอำนวยความสะดวกบางอย่างส่งผลให้เกิดปัญหาสำหรับนักวิเคราะห์ข้อมูล
บางจุด (จากประสบการณ์ของฉัน):
- บางคนชอบสเปรดชีตที่มีสีสันและใช้ประโยชน์จากตัวเลือกการจัดรูปแบบมากมาย นี่เป็นเรื่องปกติถ้ามันช่วยให้พวกเขาจัดระเบียบข้อมูลและเตรียมตารางสำหรับการนำเสนอ อย่างไรก็ตามมันอันตรายหากสีของเซลล์เข้ารหัสข้อมูลจริง มันง่ายที่จะสูญเสียข้อมูลนี้และยากมากที่จะนำข้อมูลดังกล่าวไปสู่ซอฟต์แวร์ทางสถิติ (เช่นดูคำถามนี้ใน Stack Overflow)
- บางครั้งฉันได้รับข้อมูลที่จัดรูปแบบมาอย่างดี (หลังจากที่ฉันบอกผู้คนถึงวิธีการเตรียมข้อมูล) แต่ถึงแม้จะขอให้พวกเขาใช้คอลัมน์เฉพาะหรือไฟล์แยกต่างหากสำหรับความคิดเห็นพวกเขาตัดสินใจที่จะใส่ความคิดเห็นลงในคอลัมน์ค่า ฉันไม่เพียงต้องจัดการกับคอลัมน์นี้ด้วยวิธีพิเศษเมื่อนำเข้าข้อมูล แต่ปัญหาหลักคือฉันจะต้องเลื่อนดูตารางทั้งหมดเพื่อดูความคิดเห็นดังกล่าว (ซึ่งฉันมักจะไม่ทำ) สิ่งนี้ยิ่งแย่ลงถ้าพวกเขาใช้สิ่งอำนวยความสะดวกการแสดงความคิดเห็นของ Excel
- สเปรดชีตที่มีหลายตารางในนั้นบรรทัดส่วนหัวหลายเซลล์หรือเซลล์ที่เชื่อมต่อส่งผลให้ทำงานด้วยตนเองเพื่อเตรียมพวกเขาสำหรับการนำเข้าในซอฟต์แวร์ทางสถิติ นักวิเคราะห์ข้อมูลที่ดีมักจะไม่ชอบงานประเภทนี้
- ไม่เคยซ่อนคอลัมน์ใน Excel หากไม่ต้องการให้ลบออก หากพวกเขาต้องการแสดงพวกเขา
- xls และผู้สืบทอดนั้นไม่ใช่รูปแบบไฟล์ที่เหมาะสมสำหรับการแลกเปลี่ยนข้อมูลกับผู้อื่นหรือเก็บถาวร สูตรได้รับการอัปเดตเมื่อเปิดไฟล์และ Excel เวอร์ชันอื่นอาจจัดการกับไฟล์ต่างกัน ฉันแนะนำไฟล์ CSV ง่าย ๆ แทนเนื่องจากซอฟต์แวร์ที่เกี่ยวข้องกับข้อมูลเกือบทั้งหมดสามารถนำเข้าไฟล์นั้น (แม้แต่ Excel) และสามารถคาดว่าไฟล์นั้นจะไม่เปลี่ยนแปลงในไม่ช้า อย่างไรก็ตามโปรดทราบว่า Excel จะปัดเศษเป็นตัวเลขที่มองเห็นได้เมื่อบันทึกเป็น CSV (ซึ่งเป็นการละทิ้งความแม่นยำ)
- หากคุณต้องการทำให้ชีวิตง่ายขึ้นสำหรับผู้อื่นโปรดปฏิบัติตามหลักการที่ระบุไว้ในบทความของ Hadley มีคอลัมน์ค่าสำหรับแต่ละตัวแปรและคอลัมน์ปัจจัยที่กำหนดชั้น
อาจมีหลายจุดเพิ่มเติมที่ไม่ได้อยู่ในใจของฉัน