ฉันรู้จักใครที่กำลังทำงานในโครงการที่เกี่ยวข้องกับการนำเข้าแฟ้มข้อมูลโดยไม่คำนึงถึงคอลัมน์หรือชนิดข้อมูล ภารกิจคือการใช้ไฟล์ที่มีคอลัมน์จำนวนเท่าใดก็ได้รวมถึงชนิดข้อมูลต่างๆและสถิติสรุปผลลัพธ์ของข้อมูลตัวเลข
อย่างไรก็ตามเขาไม่แน่ใจว่าจะดำเนินการกำหนดประเภทข้อมูลแบบไดนามิกสำหรับข้อมูลตามจำนวนที่แน่นอนได้อย่างไร ตัวอย่างเช่น:
CITY
Albuquerque
Boston
Chicago
เห็นได้ชัดว่านี่ไม่ใช่ข้อมูลตัวเลขและจะถูกเก็บไว้เป็นข้อความ อย่างไรก็ตาม
ZIP
80221
60653
25525
ไม่ชัดเจนว่าเป็นหมวดหมู่ ซอฟต์แวร์ของเขาจะกำหนดรหัสไปรษณีย์เป็นตัวเลขและสรุปสถิติผลลัพธ์ของมันซึ่งไม่สมเหตุสมผลสำหรับข้อมูลประเภทนั้น
แนวคิดสองสามข้อที่เรามี:
- หากคอลัมน์เป็นจำนวนเต็มทั้งหมดให้ระบุชื่อเป็นหมวดหมู่ เห็นได้ชัดว่าใช้งานไม่ได้ แต่เป็นความคิด
- หากคอลัมน์มีค่าที่ไม่ซ้ำกันน้อยกว่าnค่าและเป็นตัวเลขให้กำหนดป้ายกำกับให้เป็นหมวดหมู่ นี่อาจเข้าใกล้ แต่ก็ยังอาจมีปัญหาเกี่ยวกับข้อมูลที่เป็นตัวเลข
- ปรับปรุงรายการข้อมูลตัวเลขทั่วไปที่ควรจัดหมวดหมู่และเปรียบเทียบส่วนหัวคอลัมน์กับรายการนี้เพื่อจับคู่ ตัวอย่างเช่นทุกอย่างที่มี "ZIP" ในนั้นจะเป็นหมวดหมู่
ลำไส้ของฉันบอกฉันว่าไม่มีวิธีที่จะกำหนดข้อมูลตัวเลขอย่างถูกต้องเป็นหมวดหมู่หรือตัวเลข แต่หวังว่าจะได้รับคำแนะนำ ข้อมูลเชิงลึกใด ๆ ที่คุณได้รับการชื่นชมอย่างมาก