คำถามติดแท็ก feature-construction

วิศวกรรมคุณลักษณะเป็นกระบวนการใช้ความรู้โดเมนของข้อมูลเพื่อสร้างคุณลักษณะสำหรับโมเดลการเรียนรู้ของเครื่อง แท็กนี้มีไว้สำหรับคำถามทั้งในเชิงทฤษฎีและเชิงปฏิบัติเกี่ยวกับวิศวกรรมคุณลักษณะยกเว้นคำถามที่ถามหาโค้ดซึ่งจะไม่ตรงประเด็นใน CrossValidated

6
วิธีหลักในการยุบตัวแปรเด็ดขาดที่มีหลายระดับ?
เทคนิคใดบ้างที่มีให้สำหรับการยุบ (หรือรวมกำไร) หลายหมวดหมู่ถึงสองสามเพื่อจุดประสงค์ในการใช้พวกมันเป็นอินพุท (ตัวทำนาย) ในแบบจำลองทางสถิติ พิจารณาตัวแปรเช่นนักศึกษาวิทยาลัยที่สำคัญ (วินัยที่เลือกโดยนักศึกษาระดับปริญญาตรี) มันไม่มีการเรียงลำดับและจัดหมวดหมู่ แต่อาจมีหลายระดับที่แตกต่างกัน สมมติว่าฉันต้องการใช้วิชาเอกเป็นตัวทำนายในตัวแบบการถดถอย การใช้ระดับเหล่านี้ตามที่เป็นอยู่สำหรับการสร้างแบบจำลองจะนำไปสู่ปัญหาทุกประเภทเพราะมีจำนวนมาก ความแม่นยำทางสถิติจำนวนมากจะถูกนำไปใช้และผลลัพธ์นั้นยากต่อการตีความ เราไม่ค่อยสนใจวิชาเอกที่เฉพาะเจาะจง - เรามีแนวโน้มที่จะสนใจในหมวดหมู่กว้าง ๆ (กลุ่มย่อย) ของวิชาเอก แต่มันก็ไม่ชัดเจนเสมอไปว่าจะแบ่งระดับออกเป็นหมวดหมู่ระดับสูงกว่านี้ได้อย่างไรหรือแม้กระทั่งจำนวนหมวดหมู่ระดับสูงที่จะใช้ สำหรับข้อมูลทั่วไปฉันยินดีที่จะใช้การวิเคราะห์ปัจจัยเมทริกซ์ตัวประกอบหรือเทคนิคการสร้างแบบจำลองที่ไม่ต่อเนื่องแฝง แต่วิชาเอกเป็นหมวดหมู่พิเศษร่วมกันดังนั้นฉันลังเลที่จะใช้ประโยชน์จากความแปรปรวนร่วมของพวกเขาเพื่ออะไร นอกจากนี้ฉันไม่สนใจหมวดหมู่ที่สำคัญด้วยตัวเอง ฉันดูแลเกี่ยวกับการผลิตประเภทระดับสูงที่มีความเชื่อมโยงกันด้วยความเคารพต่อผลการถดถอยของฉัน ในกรณีผลไบนารีที่แนะนำให้ฉันบางสิ่งบางอย่างเช่นการวิเคราะห์ discriminant เชิงเส้น (LDA) เพื่อสร้างหมวดหมู่ระดับที่สูงขึ้นที่เพิ่มประสิทธิภาพการเลือกปฏิบัติสูงสุด แต่ LDA เป็นเทคนิคที่ จำกัด และรู้สึกเหมือนถูกขุดลอกข้อมูลสกปรกให้ฉัน ยิ่งกว่านั้นการแก้ปัญหาแบบต่อเนื่องใด ๆ ก็ยากที่จะตีความ ในขณะเดียวกันบางสิ่งที่อยู่บนพื้นฐานของความแปรปรวนร่วมเช่นการวิเคราะห์การติดต่อหลายทาง (MCA) ดูเหมือนว่าฉันสงสัยในกรณีนี้เพราะการพึ่งพาอาศัยกันของตัวแปรหุ่นที่ไม่เหมือนใคร ตัวแปรเดียวกัน แก้ไข : เพื่อให้ชัดเจนนี่คือการยุบหมวดหมู่ (ไม่ได้เลือกหมวดหมู่) และหมวดหมู่เป็นตัวทำนายหรือตัวแปรอิสระ ในการเข้าใจถึงปัญหาย้อนหลังปัญหานี้ดูเหมือนจะเป็นเวลาที่เหมาะสมในการ "ทำให้เป็นปกติ" ทั้งหมดและปล่อยให้พระเจ้าจัดเรียง 'em out …

2
ระบบเข้ารหัสอัตโนมัติไม่สามารถเรียนรู้คุณสมบัติที่มีความหมายได้
ฉันมี 50,000 ภาพเช่นสองภาพนี้: พวกเขาแสดงกราฟของข้อมูล ฉันต้องการแยกฟีเจอร์จากภาพเหล่านี้ดังนั้นฉันจึงใช้รหัส autoencoder ที่จัดทำโดย Theano (deeplearning.net) ปัญหาคือตัวเข้ารหัสอัตโนมัติเหล่านี้ดูเหมือนจะไม่ได้เรียนรู้คุณสมบัติใด ๆ ฉันลอง RBM แล้วมันก็เหมือนกัน ชุดข้อมูล MNIST ให้คุณสมบัติที่ดี แต่ดูเหมือนว่าข้อมูลของฉันจะไม่ให้ผลลัพธ์ ฉันแนบตัวอย่างด้านล่าง: ตัวกรองที่สร้างบน MNIST: ตัวกรองที่สร้างขึ้นโดยการฝึกอบรมกับข้อมูลของฉัน: ฉันใช้พีชคณิตขนาดต่าง ๆ ที่ซ่อนอยู่และการฝึกอบรมต่าง ๆ มากมาย แต่ผลลัพธ์ก็เหมือนกันเสมอ ทำไมมันไม่ทำงาน ทำไมระบบเข้ารหัสอัตโนมัติไม่สามารถดึงคุณสมบัติต่าง ๆ จากภาพเหล่านี้ได้? แก้ไข: สำหรับใครก็ตามที่มีปัญหาคล้ายกัน วิธีการแก้ปัญหานั้นง่ายมากและเป็นสาเหตุที่โง่ ฉันลืมที่จะ rescale ค่าพิกเซลจากการเข้ารหัส RGB เพื่อลอยในช่วง 0 - 1 การลดขนาดค่าแก้ปัญหา

7
จะแสดงภูมิศาสตร์หรือรหัสไปรษณีย์ในรูปแบบการเรียนรู้ของเครื่องหรือระบบผู้แนะนำได้อย่างไร
ฉันกำลังสร้างแบบจำลองและฉันคิดว่าที่ตั้งทางภูมิศาสตร์น่าจะดีในการทำนายตัวแปรเป้าหมายของฉัน ฉันมีรหัสไปรษณีย์ของผู้ใช้แต่ละคน ฉันไม่แน่ใจเกี่ยวกับวิธีที่ดีที่สุดในการรวมรหัสไปรษณีย์เป็นคุณลักษณะตัวทำนายในโมเดลของฉัน แม้ว่ารหัสไปรษณีย์จะเป็นตัวเลข แต่ก็ไม่ได้มีความหมายอะไรเลยถ้าตัวเลขนั้นขึ้นหรือลง ฉันสามารถรวบรวมรหัสไปรษณีย์ 30,000 รหัสแล้วรวมเป็นคุณลักษณะหรือคอลัมน์ใหม่ (เช่น {user_1: {61822: 1, 62118: 0, 62444: 0, ฯลฯ }} อย่างไรก็ตามดูเหมือนว่ามันจะเพิ่มตัน คุณสมบัติของรุ่นของฉัน มีความคิดเกี่ยวกับวิธีที่ดีที่สุดในการจัดการกับสถานการณ์นี้หรือไม่?

2
จะเริ่มต้นองค์ประกอบของเมทริกซ์ตัวกรองได้อย่างไร
ฉันพยายามทำความเข้าใจกับเครือข่ายประสาทเทียมให้ดีขึ้นด้วยการเขียนรหัส Python ที่ไม่ได้ขึ้นอยู่กับไลบรารี่ (เช่น Convnet หรือ TensorFlow) และฉันติดอยู่ในวรรณกรรมเกี่ยวกับวิธีเลือกค่าสำหรับเคอร์เนลเมทริกซ์เมื่อ ทำการสังวัตนาบนรูปภาพ ฉันพยายามที่จะเข้าใจรายละเอียดการใช้งานในขั้นตอนระหว่างฟีเจอร์แมปในภาพด้านล่างแสดงเลเยอร์ของซีเอ็นเอ็น ตามแผนภาพนี้: เคอร์เนลเมทริกซ์เคอร์เนล "ขั้นตอน" เหนือภาพสร้างแผนผังคุณลักษณะโดยที่แต่ละพิกเซลคือผลรวมของผลิตภัณฑ์องค์ประกอบที่ชาญฉลาดระหว่างน้ำหนักของเคอร์เนลแต่ละตัว (หรือเมทริกซ์ฟิลเตอร์) และค่าพิกเซลที่สอดคล้องกันของภาพอินพุต คำถามของฉันคือเราจะเริ่มต้นน้ำหนักของเคอร์เนล (หรือตัวกรอง) เมทริกซ์ได้อย่างไร ในการสาธิตข้างต้นพวกเขาเป็นเพียง 1 และ 0 แต่ฉันคิดว่านี่เป็นเรื่องง่ายจากสาเกของแผนภาพ น้ำหนักเหล่านี้ผ่านการฝึกอบรมในบางขั้นตอนการประมวลผลล่วงหน้าหรือไม่ หรือเลือกโดยผู้ใช้อย่างชัดเจน?

2
เมื่อใดที่เราควรแยก / bin ตัวแปร / คุณสมบัติอิสระอย่างต่อเนื่องและเมื่อไม่ควร?
เมื่อใดที่เราควรแยก / bin ตัวแปรอิสระ / คุณสมบัติและเมื่อไม่ควร? ความพยายามของฉันที่จะตอบคำถาม: โดยทั่วไปแล้วเราไม่ควรทิ้งขยะเพราะการทำข้อมูลจะหายไป จริง ๆ แล้วการ Binning เป็นการเพิ่มระดับของอิสระของแบบจำลองดังนั้นจึงเป็นไปได้ที่จะทำให้เกิดการกระชับหลังจากการ binning หากเรามีรูปแบบ "ความลำเอียงสูง" การไม่ถูก binning อาจไม่เลว แต่ถ้าเรามีรูปแบบ "ความแปรปรวนสูง" เราควรหลีกเลี่ยงการ binning ขึ้นอยู่กับรุ่นที่เราใช้ หากเป็นโหมดเชิงเส้นและข้อมูลมีความน่าจะเป็นของ "ค่าผิดปกติ" จำนวนมากจะดีกว่า หากเรามีรูปแบบต้นไม้ดังนั้นค่าผิดปกติและการฝังรากจะสร้างความแตกต่างมากเกินไป ฉันถูกไหม? และอะไรอีก ฉันคิดว่าคำถามนี้ควรถามหลายครั้ง แต่ฉันไม่พบคำถามเหล่านี้ใน CV เฉพาะโพสต์เหล่านี้ เราควรจะเก็บตัวแปรต่อเนื่องหรือไม่? ประโยชน์ของการแยกตัวแปรทำนายอย่างต่อเนื่องคืออะไร?

5
เหตุใดคุณสมบัติทางวิศวกรรมจึงทำงาน
เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ว่าวิธีหนึ่งในการค้นหาวิธีแก้ไขปัญหา ML ที่ดีกว่าคือการสร้างคุณลักษณะ หนึ่งสามารถทำได้โดยตัวอย่างเช่นการรวมสองคุณสมบัติ ตัวอย่างเช่นเรามีคุณสมบัติสองอย่างคือ "การโจมตี" และ "การป้องกัน" ของฮีโร่บางประเภท จากนั้นเราสร้างคุณลักษณะเพิ่มเติมที่เรียกว่า "ผลรวม" ซึ่งเป็นผลรวมของ "การโจมตี" และ "การป้องกัน" ตอนนี้สิ่งที่ดูเหมือนแปลกสำหรับฉันคือแม้แต่ "การโจมตี" และ "การป้องกัน" ที่ยากลำบากก็มีความสัมพันธ์อย่างสมบูรณ์แบบกับ "ทั้งหมด" เรายังคงได้รับข้อมูลที่เป็นประโยชน์ คณิตศาสตร์อยู่เบื้องหลังอะไร? หรือฉันคิดผิด นอกจากนี้นั่นไม่ใช่ปัญหาสำหรับผู้จัดประเภทเช่น kNN ว่า "ยอดรวม" จะใหญ่กว่า "การโจมตี" หรือ "การป้องกัน" เสมอหรือไม่ ดังนั้นแม้หลังจาก standarization เราจะมีคุณสมบัติที่มีค่าจากช่วงที่แตกต่างกันอย่างไร

2
แบบฝึกหัดสำหรับวิศวกรรมฟีเจอร์
วิศวกรรมคุณสมบัติเป็นสิ่งสำคัญอย่างยิ่งต่อการเรียนรู้ของเครื่อง แต่ฉันพบวัสดุบางอย่างที่เกี่ยวข้องกับเรื่องนี้ ฉันเข้าร่วมการแข่งขันหลายรายการในKaggleและเชื่อว่าคุณสมบัติที่ดีอาจมีความสำคัญมากกว่าตัวจําแนกที่ดีในบางกรณี ไม่มีใครรู้บทเรียนเกี่ยวกับวิศวกรรมฟีเจอร์หรือเป็นประสบการณ์ที่แท้จริง

1
การสร้างคุณสมบัติที่ดีที่สุดของกลางวันในโครงข่ายประสาทเทียม
ทำงานเกี่ยวกับปัญหาการถดถอยฉันเริ่มคิดเกี่ยวกับการเป็นตัวแทนของคุณสมบัติ "วันของสัปดาห์" ฉันสงสัยว่าวิธีการใดที่จะทำงานได้ดีกว่า: คุณสมบัติเดียว; ค่า 1/7 สำหรับวันจันทร์; 2/7 ในวันอังคาร ... 7 คุณสมบัติ: (1, 0, 0, 0, 0, 0, 0) สำหรับวันจันทร์; (0, 1, 0, 0, 0, 0, 0) สำหรับวันอังคาร ... เป็นการยากที่จะวัดเนื่องจากความแตกต่างของการกำหนดค่าเครือข่าย (ควรมีฟีเจอร์หกอย่างเพิ่มเติมที่สะท้อนให้เห็นในจำนวนโหนดที่ซ่อนอยู่ที่ฉันเชื่อ) จำนวนคุณสมบัติทั้งหมดคือประมาณ 20 ฉันใช้ backprop ง่าย ๆ เพื่อเรียนรู้เครือข่ายนิวรัลไปข้างหน้าแบบธรรมดา

1
“ ฟีเจอร์สเปซ” คืออะไร
คำจำกัดความของ "ฟีเจอร์สเปซ" คืออะไร? ตัวอย่างเช่นเมื่ออ่านเกี่ยวกับ SVM ฉันอ่านเกี่ยวกับ "การแมปไปยังพื้นที่ของฟีเจอร์" เมื่ออ่านเกี่ยวกับรถเข็นฉันอ่านเกี่ยวกับ "การแบ่งพาร์ติชันเพื่อใช้พื้นที่" ฉันเข้าใจว่าเกิดอะไรขึ้นโดยเฉพาะกับรถเข็น แต่ฉันคิดว่ามีคำจำกัดความที่ฉันพลาดไป มีคำจำกัดความทั่วไปของ "ฟีเจอร์สเปซ" หรือไม่? มีคำจำกัดความที่จะให้ข้อมูลเชิงลึกแก่ฉันเกี่ยวกับเมล็ด SVM และ / หรือรถเข็นมากขึ้นหรือไม่

2
การผสมข้อมูลอย่างต่อเนื่องและไบนารีกับ Linear SVM หรือไม่
ดังนั้นฉันจึงได้เล่นรอบกับ SVM และฉันสงสัยว่านี่เป็นสิ่งที่ดีที่จะทำ: ฉันมีชุดคุณสมบัติแบบต่อเนื่อง (0 ถึง 1) และชุดคุณสมบัติแบบหมวดหมู่ที่ฉันแปลงเป็นตัวแปรจำลอง ในกรณีพิเศษนี้ฉันเข้ารหัสวันที่ของการวัดในตัวแปรจำลอง: มี 3 ช่วงเวลาที่ฉันมีข้อมูลจากและฉันจองหมายเลขฟีเจอร์ 3 หมายเลขสำหรับพวกเขา: 20: 21: 22: ดังนั้นขึ้นอยู่กับช่วงเวลาที่ข้อมูลมาคุณสมบัติที่แตกต่างจะได้รับ 1 กำหนด; คนอื่นจะได้รับ 0 SVM จะทำงานอย่างถูกต้องกับสิ่งนี้หรือสิ่งนี้เป็นสิ่งที่ไม่ดีที่ต้องทำหรือไม่? ฉันใช้ SVMLight และเคอร์เนลเชิงเส้น

5
มันจะดีกว่าที่จะทำการวิเคราะห์ข้อมูลเชิงสำรวจในชุดข้อมูลการฝึกอบรมเท่านั้น?
ฉันกำลังทำการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ในชุดข้อมูล จากนั้นฉันจะเลือกคุณสมบัติบางอย่างเพื่อทำนายตัวแปรตาม คำถามคือ: ฉันควรทำ EDA บนชุดข้อมูลการฝึกอบรมของฉันเท่านั้นหรือไม่ หรือฉันควรเข้าร่วมการฝึกอบรมและการทดสอบชุดข้อมูลจากนั้นทำ EDA กับพวกเขาทั้งสองและเลือกคุณสมบัติตามการวิเคราะห์นี้?

2
ความคลาดเคลื่อนเฉลี่ยสูงสุด (การกระจายระยะทาง)
ฉันมีชุดข้อมูลสองชุด (แหล่งข้อมูลและข้อมูลเป้าหมาย) ซึ่งเป็นไปตามการแจกแจงที่แตกต่างกัน ฉันกำลังใช้ MMD - นั่นคือการกระจายระยะทางแบบไม่อิงพารามิเตอร์ - เพื่อคำนวณการกระจายระยะขอบระหว่างข้อมูลต้นทางและเป้าหมาย แหล่งข้อมูล Xs ข้อมูลเป้าหมาย Xt การปรับเมทริกซ์ A * ข้อมูลที่คาดการณ์ไว้ Zs = A '* Xs และ Zt = A' Xt * MMD => ระยะทาง (P (Xs), P (Xt)) = | Mean (A'Xs) - mean (A ' Xt) | นั่นหมายถึง: ระยะห่างของการกระจายระหว่างข้อมูลต้นทางและปลายทางในพื้นที่ดั้งเดิมเท่ากับระยะห่างระหว่างวิธีการของแหล่งข้อมูลที่คาดการณ์และข้อมูลเป้าหมายในพื้นที่ฝังตัว ฉันมีคำถามเกี่ยวกับแนวคิดของ MMD ในสูตร …

1
การสร้างคุณสมบัติและการปรับสภาพในการเรียนรู้ของเครื่อง
ให้บอกว่าฉันต้องการสร้างลอจิสติกลอจิสติกสำหรับภาพยนตร์เอ็มคุณสมบัติของฉันจะเป็นเช่นอายุของบุคคลเพศอาชีพสถานที่ ดังนั้นชุดฝึกอบรมจะเป็นอย่างไร: อายุเพศอาชีพตำแหน่งชอบ (1) / ไม่ชอบ (0) 23 M ซอฟต์แวร์ US 1 24 F Doctor UK 0 และอื่น ๆ .... ตอนนี้คำถามของฉันคือฉันควรปรับขนาดและแสดงคุณสมบัติของฉันอย่างไร วิธีหนึ่งที่ฉันคิดว่า: แบ่งอายุเป็นกลุ่มอายุดังนั้น 18-25, 25-35, 35- ข้างต้นเพศเป็น M, F, สถานที่เช่นสหรัฐอเมริกา, อังกฤษ, อื่น ๆ ตอนนี้สร้างคุณสมบัติไบนารีสำหรับค่าเหล่านี้ดังนั้นอายุจะมี 3 คุณลักษณะไบนารีแต่ละที่สอดคล้องกับกลุ่มอายุและอื่น ๆ ดังนั้นผู้ชายอายุ 28 ปีจากสหรัฐอเมริกาจะถูกแสดงเป็น 010 10 100 (010-> กลุ่มอายุ 25-35, 10 -> ชาย, 100 …

1
การแยกคำหลักอัตโนมัติ: ใช้ความคล้ายคลึงโคไซน์เป็นคุณสมบัติ
ฉันมีเมทริกซ์เอกสารและตอนนี้ฉันต้องการแยกคำหลักสำหรับแต่ละเอกสารด้วยวิธีการเรียนรู้ภายใต้การดูแล (SVM, Naive Bayes, ... ) ในรุ่นนี้ฉันใช้แท็ก Tf-idf, Pos tag, ...MMM แต่ตอนนี้ฉันสงสัยเกี่ยวกับเน็กซ์ ฉันมีเมทริกซ์มีความเหมือนโคไซน์ระหว่างคำCCC มีความเป็นไปได้ไหมที่จะใช้ความคล้ายคลึงกันนี้เป็นคุณสมบัติสำหรับโมเดลของฉัน? ผมคิดว่าสำหรับระยะในเอกสาร , การใช้ค่าเฉลี่ยของความคล้ายคลึงกันโคไซน์ของข้อความทั้งหมดในเอกสารที่มีระยะเวลาฉันสิ่งนี้มีประโยชน์หรือไม่?iiiddddddiii

2
คุณสมบัติวิศวกรรมที่ไม่เชื่อเรื่องพระเจ้าที่ยังคงรักษาความหมายของความหมาย?
คุณสมบัติทางวิศวกรรมมักเป็นส่วนประกอบสำคัญในการเรียนรู้ของเครื่อง (มันถูกใช้อย่างหนักเพื่อเอาชนะ KDD Cup ในปี 2010 ) อย่างไรก็ตามฉันพบว่าเทคนิคทางวิศวกรรมส่วนใหญ่มีคุณสมบัติเช่นกัน ทำลายความหมายใด ๆ ที่ใช้งานง่ายของคุณสมบัติพื้นฐานหรือ มีความเฉพาะเจาะจงกับโดเมนหนึ่ง ๆ หรือแม้กระทั่งคุณสมบัติบางประเภท ตัวอย่างแบบดั้งเดิมของอดีตคือการวิเคราะห์องค์ประกอบหลัก สำหรับฉันแล้วความรู้ใด ๆ ที่ผู้เชี่ยวชาญในหัวเรื่องจะมีเกี่ยวกับคุณลักษณะนั้นจะถูกทำลายโดยการแปลงคุณสมบัติเหล่านั้นให้เป็นองค์ประกอบหลัก ตรงกันข้ามกับเทคนิคง่ายๆในการแปลงวันที่เป็นคุณสมบัติสำหรับ "วันของเดือน" และ "วันของสัปดาห์" ความหมายพื้นฐานยังคงอยู่ในคุณลักษณะใหม่ แต่เห็นได้ชัดว่าเทคนิคเฉพาะนี้ใช้เฉพาะกับวันที่เท่านั้นและไม่ใช่คุณสมบัติที่กำหนดเอง มีเนื้อหามาตรฐานของเทคนิควิศวกรรมฟีเจอร์ที่ไม่ทำลายความหมายของคุณสมบัติพื้นฐานในขณะที่ใช้กับโดเมนที่กำหนดเอง (หรืออย่างน้อยก็มีโดเมนที่หลากหลาย)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.