คุณไม่จำเป็นต้องมีความรู้เกี่ยวกับโดเมน (ความรู้เกี่ยวกับความหมายของข้อมูลของคุณ) เพื่อทำวิศวกรรมฟีเจอร์ (ค้นหาวิธีที่ชัดเจนกว่าในการกำหนดกรอบข้อมูลของคุณ)
ดังที่Tu N. อธิบายไว้คุณสามารถค้นหาการรวมคุณสมบัติ "ที่รวดเร็วและสกปรก" ซึ่งอาจเป็นประโยชน์ได้อย่างง่ายดาย ได้รับการส่งออกและคุณลักษณะของแต่ละบุคคลxคุณสามารถใช้การแปลงต่อไปนี้x ' ∈ { E x , บันทึก( x ) , x 2 , x 3 , tanh ( x ) } การตรวจสอบอย่างรวดเร็วของประโยชน์ของการเปลี่ยนแปลงคือถ้าความสัมพันธ์ระหว่าง{ y , x ′ }สูงกว่าความสัมพันธ์ระหว่างYxx'∈ { ex, เข้าสู่ระบบ( x ) , x2, x3, tanh( x ) }{ y, x'} }{ y, x }
คำเตือนเกี่ยวกับสหสัมพันธ์:สหสัมพันธ์ไม่แสดงทุกอย่างและขึ้นอยู่กับรุ่นที่คุณใช้ (ไม่ใช่แบบเส้นตรงสูงเช่น NN หรือ RF) และการโต้ตอบกับตัวแปรอื่น ๆ การเปลี่ยนแปลงความสัมพันธ์อาจไม่มีความหมายอะไรเลย
อย่างไรก็ตามหากคุณกำลังใช้โมเดลเชิงเส้นอย่างง่ายเช่นการถดถอยโลจิสติกมันเป็นตัวบ่งชี้ตกลงของความสมบูรณ์ วิธีที่ดีที่สุดในการประเมินการเปลี่ยนแปลงดังกล่าวโดยFokhruz Zamanคือการสร้างแบบจำลองที่มีและไม่มีคุณลักษณะที่แปลงสภาพของคุณและดูว่าข้อผิดพลาดในการตรวจสอบความถูกต้อง
มันค่อนข้างง่ายที่จะมองเห็นการเปลี่ยนแปลงคุณสมบัติเดียวด้วยวิธีนี้ สิ่งเหล่านี้นำไปใช้กับข้อมูลจำนวนมากซึ่งความสัมพันธ์ที่ชัดเจนระหว่างอินพุตและเอาต์พุตของคุณอาจแตกต่างกัน เพื่อยกตัวอย่างความสัมพันธ์ระหว่างรายได้กับ "ความสุข"ดูเหมือนจะเป็นลอการิทึม แต่คุณจะไม่บันทึกบันทึกรายได้ของผู้เข้าร่วมโดยตรง
DD2
มันอาจเป็นเรื่องยากที่จะตีความการเป็นตัวแทนภายในของ NN หรือตีความความสำคัญของคุณลักษณะในป่าสุ่ม วิธีที่ง่ายกว่าและเหมาะสมกว่าสำหรับจุดประสงค์นี้แบบจำลองจะได้รับการกระตุ้นด้วยต้นไม้ตัดสินใจ มีห้องสมุดจำนวนมากที่ใช้งาน Boosting และหากคุณเข้าร่วมการแข่งขัน Kaggle เนื่องจากโพสต์ของคุณดูเหมือนว่าXGBoostดูเหมือนจะถูกใช้โดยผู้เข้าร่วมจำนวนมากดังนั้นคุณอาจพบความช่วยเหลือ / แบบฝึกหัดเกี่ยวกับสิ่งที่ฉันจะอธิบาย
ครั้งแรกเรียกใช้ขั้นตอนวิธีการส่งเสริมของคุณโดยใช้ตอไม้เพียงต้นไม้ตัดสินใจ 1 ระดับ ตอไม้นั้นอ่อนแอมาก แต่การเพิ่มระดับทำให้มันเป็นแบบจำลองที่สมเหตุสมผล สิ่งนี้จะทำหน้าที่เป็นพื้นฐานของคุณ ขึ้นอยู่กับไลบรารีที่คุณใช้คุณควรจะสามารถแสดงได้อย่างง่ายดายซึ่งเป็นคุณสมบัติที่ใช้มากที่สุดและคุณควรจะปรับให้เข้ากับการตอบสนอง (หรือทำฮิสโตแกรมหากการตอบสนองเป็นหมวดหมู่) เพื่อระบุรูปแบบ สิ่งนี้อาจทำให้คุณมีสัญชาตญาณว่าอะไรจะเป็นการแปลงคุณสมบัติที่ดี
จากนั้นเรียกใช้อัลกอริทึม Boosting ด้วยแผนผังการตัดสินใจ 2 ระดับ รุ่นนี้มีความซับซ้อนมากกว่ารุ่นก่อนมาก หากตัวแปรสองตัวที่รวมเข้าด้วยกันมีพลังงานมากกว่าที่แยกกันแบบจำลองนี้ควรมีประสิทธิภาพสูงกว่ารุ่นก่อนหน้าของคุณ (อีกครั้งไม่ใช่ในรูปแบบของข้อผิดพลาดในการฝึกอบรม จากนี้คุณควรจะสามารถแยกตัวแปรที่มักจะใช้ร่วมกันและสิ่งนี้จะนำคุณไปสู่การเปลี่ยนแปลงหลายคุณสมบัติที่อาจเกิดขึ้น
ในเนื้อหาที่เกี่ยวข้องฉันจะแนะนำวิดีโอต่อไปนี้เนื่องจากง่ายต่อการติดตาม