การเรียนรู้ของเครื่องด้วยข้อมูลที่เป็นหมวดหมู่และต่อเนื่อง


9

คำถามนี้สามารถไปที่นี่หรืออาจดังนั้น ...

สมมติว่าชุดข้อมูลการฝึกอบรมของคุณมีทั้งข้อมูลที่เป็นหมวดหมู่และต่อเนื่องเช่นการตั้งค่านี้:

 Animal, breed,  sex, age, weight, blood_pressure, annual_cost
 cat,    calico, M,   10,  15    ,   100         , 100 
 cat,    tabby,  F,   5,   10    ,   80          , 200
 dog,    beagle, M,   3,   30    ,   90          , 200
 dog,    lab,    F,   8,   75    ,   80          , 100

และตัวแปรตามที่คาดการณ์ได้คือต้นทุนสัตวแพทย์ประจำปี ฉันสับสนเล็กน้อยเกี่ยวกับเทคนิคเฉพาะที่มีเพื่อจัดการกับชุดข้อมูลดังกล่าว วิธีการที่ใช้กันทั่วไปในการจัดการกับชุดข้อมูลที่มีการผสมผสานของข้อมูลต่อเนื่องและเด็ดขาดคืออะไร?

คำตอบ:


8

สำหรับแต่ละคลาส (สายพันธุ์, เพศ ... ) ของแอตทริบิวต์ที่เป็นหมวดหมู่คุณสามารถเพิ่มจำนวนองค์ประกอบลงในเวกเตอร์คุณสมบัติของคุณเท่ากับจำนวนของค่าที่เป็นไปได้ในชั้นเรียนนั้น จากนั้นหากจุดข้อมูลมีค่า ith คุณจะต้องตั้งค่าหนึ่งในองค์ประกอบเหล่านั้นเป็น 1 และส่วนที่เหลือสำหรับแอตทริบิวต์นั้นเป็น 0

ในตัวอย่างของคุณสำหรับเพศคุณจะเพิ่มสององค์ประกอบใหม่ให้กับคุณสมบัติเวกเตอร์ของคุณ หากสัตว์เป็นเพศชายคุณจะตั้งค่าตัวแรกเป็น 1 และอันดับที่สองเป็น 0 และในทางกลับกันหากสัตว์นั้นเป็นเพศหญิง สำหรับสัตว์ถ้าความเป็นไปได้ของคุณคือแมวสุนัขและปลาคุณก็ต้องทำสามอย่างด้วยกัน

สิ่งเหล่านี้จะอยู่ร่วมกันพร้อมกับคุณลักษณะแบบต่อเนื่อง คุณอาจต้องการปรับขนาดของ "ค่าตัวบ่งชี้" (ค่าที่คุณใช้เมื่อแอตทริบิวต์คือ "เปิด") เพื่อให้สามารถเปรียบเทียบได้กับขนาดของค่าต่อเนื่องที่คุณใช้

หากคุณเลือกวิธีนี้ในการแก้ไขปัญหาของคุณขั้นตอนต่อไปคือการเลือกและอัลกอริธึมเช่นเครื่องสนับสนุนเวกเตอร์และป้อนฟีเจอร์ฟีเจอร์ของคุณ แน่นอนว่าวิธีการบางอย่างเช่นต้นไม้การตัดสินใจไม่จำเป็นต้องมีขั้นตอนที่ฉันกล่าวถึงข้างต้นเพื่อเริ่มต้น


1
สุดยอดเคล็ดลับ! สิ่งที่เกี่ยวกับสถานการณ์ที่เป็นไปได้ในข้อมูลการทดสอบที่สายพันธุ์ไม่เคยเกิดขึ้นในข้อมูลการฝึกอบรม? ตัวอย่างเช่นหากมีพุดเดิ้ลในข้อมูลการทดสอบ แต่ไม่ใช่ข้อมูลการฝึกอบรม วิธีที่ดีที่สุดที่จะไปแค่มีเลขศูนย์สำหรับส่วนประกอบทั้งหมดของสายพันธุ์เวกเตอร์?
สัตว์เลื้อยคลาน

2
ในความเป็นจริงวิธีการตรงกันข้าม (หรือที่เรียกว่าการแยกประเภทข้อมูล) มักจะเป็นตัวเลือกที่ดีที่สุดสำหรับวิธีการลำดับชั้น (เช่นอัลกอริทึมต้นไม้ตัดสินใจ) การแยกส่วนข้อมูลเป็นเทคนิคการประมวลผลข้อมูลล่วงหน้า (ดังที่ได้กล่าวไว้ในคำตอบอื่น ๆ )
rvcoutinho

2

คุณควรจะดูที่ข้อมูลก่อนการประมวลผล มันเป็นก่อนที่จะมีเทคนิคการเรียนรู้เครื่องใด ๆ นี่คือการแนะนำที่ดี (พบได้ที่ Google)

เกี่ยวกับเทคนิคมีวิธีการต่างๆ มากมาย คุณสามารถใช้ส่วนใหญ่หลังจากประมวลผลข้อมูลของคุณล่วงหน้า คุณควรลองพวกเขาและเลือกสิ่งที่เหมาะกับความต้องการของคุณมากที่สุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.