คำถามติดแท็ก numerical

6
คุณสมบัติการเข้ารหัสเช่นเดือนและชั่วโมงเป็นหมวดหมู่หรือตัวเลข?
มันจะดีกว่าที่จะเข้ารหัสคุณสมบัติเช่นเดือนและชั่วโมงเป็นปัจจัยหรือตัวเลขในรูปแบบการเรียนรู้ของเครื่อง? ในอีกด้านหนึ่งฉันรู้สึกว่าการเข้ารหัสตัวเลขอาจสมเหตุสมผลเนื่องจากเวลาเป็นกระบวนการที่ก้าวหน้าไปข้างหน้า (เดือนที่ห้าตามด้วยเดือนที่หก) แต่ในทางกลับกันฉันคิดว่าการเข้ารหัส categorial อาจสมเหตุสมผลมากกว่าเนื่องจากลักษณะวงจร ของปีและวัน (เดือนที่ 12 ตามด้วยเดือนแรก) มีวิธีแก้ไขปัญหาทั่วไปหรือแบบแผนสำหรับสิ่งนี้หรือไม่?

3
ฉันจะแยกความแตกต่างระหว่างข้อมูลที่เป็นหมวดหมู่และข้อมูลที่เป็นตัวเลขได้อย่างไร
ฉันรู้จักใครที่กำลังทำงานในโครงการที่เกี่ยวข้องกับการนำเข้าแฟ้มข้อมูลโดยไม่คำนึงถึงคอลัมน์หรือชนิดข้อมูล ภารกิจคือการใช้ไฟล์ที่มีคอลัมน์จำนวนเท่าใดก็ได้รวมถึงชนิดข้อมูลต่างๆและสถิติสรุปผลลัพธ์ของข้อมูลตัวเลข อย่างไรก็ตามเขาไม่แน่ใจว่าจะดำเนินการกำหนดประเภทข้อมูลแบบไดนามิกสำหรับข้อมูลตามจำนวนที่แน่นอนได้อย่างไร ตัวอย่างเช่น: CITY Albuquerque Boston Chicago เห็นได้ชัดว่านี่ไม่ใช่ข้อมูลตัวเลขและจะถูกเก็บไว้เป็นข้อความ อย่างไรก็ตาม ZIP 80221 60653 25525 ไม่ชัดเจนว่าเป็นหมวดหมู่ ซอฟต์แวร์ของเขาจะกำหนดรหัสไปรษณีย์เป็นตัวเลขและสรุปสถิติผลลัพธ์ของมันซึ่งไม่สมเหตุสมผลสำหรับข้อมูลประเภทนั้น แนวคิดสองสามข้อที่เรามี: หากคอลัมน์เป็นจำนวนเต็มทั้งหมดให้ระบุชื่อเป็นหมวดหมู่ เห็นได้ชัดว่าใช้งานไม่ได้ แต่เป็นความคิด หากคอลัมน์มีค่าที่ไม่ซ้ำกันน้อยกว่าnค่าและเป็นตัวเลขให้กำหนดป้ายกำกับให้เป็นหมวดหมู่ นี่อาจเข้าใกล้ แต่ก็ยังอาจมีปัญหาเกี่ยวกับข้อมูลที่เป็นตัวเลข ปรับปรุงรายการข้อมูลตัวเลขทั่วไปที่ควรจัดหมวดหมู่และเปรียบเทียบส่วนหัวคอลัมน์กับรายการนี้เพื่อจับคู่ ตัวอย่างเช่นทุกอย่างที่มี "ZIP" ในนั้นจะเป็นหมวดหมู่ ลำไส้ของฉันบอกฉันว่าไม่มีวิธีที่จะกำหนดข้อมูลตัวเลขอย่างถูกต้องเป็นหมวดหมู่หรือตัวเลข แต่หวังว่าจะได้รับคำแนะนำ ข้อมูลเชิงลึกใด ๆ ที่คุณได้รับการชื่นชมอย่างมาก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.