แบบฝึกหัดสำหรับวิศวกรรมฟีเจอร์


19

วิศวกรรมคุณสมบัติเป็นสิ่งสำคัญอย่างยิ่งต่อการเรียนรู้ของเครื่อง แต่ฉันพบวัสดุบางอย่างที่เกี่ยวข้องกับเรื่องนี้ ฉันเข้าร่วมการแข่งขันหลายรายการในKaggleและเชื่อว่าคุณสมบัติที่ดีอาจมีความสำคัญมากกว่าตัวจําแนกที่ดีในบางกรณี ไม่มีใครรู้บทเรียนเกี่ยวกับวิศวกรรมฟีเจอร์หรือเป็นประสบการณ์ที่แท้จริง


1
คุณหมายถึงการประมวลผลคุณลักษณะล่วงหน้า (การทำให้เป็นมาตรฐานและการแปลงอื่น ๆ ) หรือการเลือกคุณลักษณะหรือไม่?
MattBagg

2
@ mb3041023 ไม่ขั้นตอนก่อนหน้าทั้งสองซึ่งคุณแปลงข้อมูลดิบบางอย่างเช่นข้อความรูปภาพหรือชุดข้อมูลให้เป็นแอตทริบิวต์ที่ใช้งานได้

8
จากประสบการณ์ของฉันส่วนใหญ่ของปัญหาของการเรียนรู้ของเครื่องคือการตั้งค่าปัญหาที่ถูกต้องที่จะแก้ไข / ปรับให้เหมาะสม (เช่นคุณสมบัติการแสดงคุณสมบัติการเลือก ฯลฯ ) ฉันชอบที่จะเห็นหนังสือที่ทุ่มเทให้กับการเลือกคุณลักษณะเชิงประจักษ์และการประมวลผลล่วงหน้าพร้อมภาพประกอบชีวิตจริงมากมาย (เช่น kaggle) ถ้าใครรู้หนึ่งกรุณา เสา มีหนังสือหลายเล่มที่อุทิศให้กับสิ่งต่าง ๆ เช่นการล้างข้อมูล / การใส่ข้อมูล แต่จำเป็นต้องใช้ข้อความเชิงปฏิบัติเฉพาะในการเลือกคุณสมบัติอย่างมาก
pat

2
ดูที่: "การแยกคุณลักษณะ: พื้นฐานและแอปพลิเคชัน", 2006
jasonb

2
@jasonb, วิธีการเกี่ยวกับผู้แต่ง, ขนาด, ราคา, และลิงค์, สิ่งนี้: Guyon ed., การสกัดคุณลักษณะ: มูลนิธิและแอปพลิเคชัน 2006, 778p, $ 306
denis

คำตอบ:


7

ฉันจะบอกประสบการณ์ - แนวคิดพื้นฐานคือ:

  • เพื่อให้เหมาะสมกับการทำงานของตัวแยกประเภท การให้ปัญหาเรขาคณิตกับต้นไม้มิติข้อมูลที่ใหญ่เกินไปของ kNN และข้อมูลช่วงเวลาของ SVM ไม่ใช่แนวคิดที่ดี
  • ลบความไม่เชิงเส้นให้ได้มากที่สุด คาดหวังว่าผู้จําแนกบางคนจะทำการวิเคราะห์ฟูริเยร์ข้างในค่อนข้างไร้เดียงสา (แม้ว่ามันจะเสียความซับซ้อนไปมาก)
  • สร้างคุณสมบัติทั่วไปให้กับวัตถุทั้งหมดเพื่อให้การสุ่มตัวอย่างบางอย่างในห่วงโซ่ไม่ทำให้ล้มลง
  • ตรวจสอบผลงานก่อนหน้า - บ่อยครั้งที่การเปลี่ยนแปลงที่ใช้สำหรับการสร้างภาพข้อมูลหรือการทดสอบประเภทของข้อมูลที่คล้ายกันนั้นได้รับการปรับเพื่อเปิดเผยประเด็นที่น่าสนใจ
  • หลีกเลี่ยงความไม่แน่นอนและการปรับการแปลงให้เหมาะสมเช่น PCA ซึ่งอาจทำให้เกิดการโอเวอร์โหลด
  • ทดลองมาก

คุณจะกำหนด "ข้อมูลช่วงเวลา" ได้อย่างไร ฉันค้นหาใน Google และพบคำจำกัดความต่าง ๆ มากมาย
พลัง

คุณสามารถอธิบายอย่างละเอียดเกี่ยวกับจุด PCA ได้หรือไม่
Daniel Velkov

@power ตัวอย่างเช่นชุดและการตัดสินใจ | x - นายกที่ใกล้ที่สุด| < 0.3คือเมื่อมีการแยกแอททริบิวต์ออกเป็นช่วง ๆ แทนที่จะใส่ในการแปลงต่อเนื่องแบบง่าย ๆ x|x-นายกที่ใกล้ที่สุด|<0.3

@DanielVelkov เมื่อคุณบู๊ต PCA กับข้อมูลที่มีเสียงดังมากส่วนประกอบมักจะไม่เสถียร สิ่งนี้ส่งเสริมความคิดที่จะทำให้ PCA ทั่วโลกหนึ่งชุดในชุดที่มีอยู่ทั้งหมดข้อมูลรั่วไหลและเป็นวิธีที่ตรงไปตรงมาเพื่อประเมินผลเสีย

@mbq จะเกิดอะไรขึ้นถ้า PCA ทำงานเฉพาะในชุดฝึกอบรมวิธีที่ควรจะเป็นคืออะไร?
Daniel Velkov

1

มีหนังสือจาก O'Reilly เรียกว่า " Feature Engineering for Machine Learning " โดย Zheng et al.

ฉันอ่านหนังสือและครอบคลุมข้อมูลประเภทต่าง ๆ (เช่นหมวดหมู่ข้อความ ... ) และอธิบายแง่มุมต่าง ๆ ของวิศวกรรมฟีเจอร์ที่สอดคล้องกับมัน ซึ่งรวมถึงสิ่งต่าง ๆ เช่นการทำข้อมูลให้เป็นมาตรฐานการเลือกคุณสมบัติ tf-idf ในข้อความ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.