การเลือกคุณสมบัติโดยใช้การเรียนรู้ลึก?

ฉันต้องการคำนวณความสำคัญของคุณลักษณะอินพุตแต่ละรายการโดยใช้ตัวแบบลึก

แต่ผมพบว่าเพียงหนึ่งกระดาษเกี่ยวกับการเลือกใช้คุณลักษณะการเรียนรู้ลึก - เลือกคุณลักษณะลึก พวกเขาแทรกเลเยอร์ของโหนดที่เชื่อมต่อกับแต่ละคุณสมบัติโดยตรงก่อนเลเยอร์ที่ซ่อนอยู่เป็นครั้งแรก

ฉันได้ยินมาว่าเครือข่ายความเชื่อลึก (DBN) สามารถใช้กับงานประเภทนี้ได้เช่นกัน แต่ฉันคิดว่า DBN นำเสนอคุณลักษณะที่เป็นนามธรรม (กลุ่ม) เช่น PCA เท่านั้นแม้ว่าจะสามารถลดขนาดได้อย่างมีประสิทธิภาพฉันสงสัยว่าถ้าเป็นไปได้ในการคำนวณความสำคัญ (น้ำหนัก) ของแต่ละคุณลักษณะ

เป็นไปได้หรือไม่ที่จะคำนึงถึงความสำคัญของคุณลักษณะด้วย DBN และมีวิธีการอื่นที่รู้จักกันในการเลือกคุณสมบัติโดยใช้การเรียนรู้อย่างลึกซึ้งหรือไม่?

— z991
แหล่งที่มา

วิธีการหนึ่งที่คุณสามารถทำได้สำหรับเกือบทุกรูปแบบการทำนายคือการฝึกอบรมโมเดลของคุณก่อนและค้นหาความแม่นยำจากนั้นสำหรับอินพุตหนึ่งจะเพิ่มเสียงรบกวนและตรวจสอบความถูกต้องอีกครั้ง ทำซ้ำสิ่งนี้สำหรับแต่ละอินพุตและสังเกตว่าเสียงรบกวนการคาดการณ์แย่ลงอย่างไร หากอินพุตเป็นสิ่งสำคัญความไม่แน่นอนที่เพิ่มขึ้นเนื่องจากสัญญาณรบกวนจะเป็นอันตราย

โปรดจำไว้ว่าตั้งค่าความแปรปรวนของเสียงให้เป็นสัดส่วนกับความแปรปรวนของอินพุตที่เป็นปัญหา

แน่นอนว่าเสียงรบกวนนั้นเป็นแบบสุ่มและคุณไม่ต้องการให้อินพุตหนึ่งรายการไม่สำคัญเนื่องจากเอฟเฟกต์แบบสุ่ม หากคุณมีตัวอย่างการฝึกอบรมน้อยให้พิจารณาการคำนวณการเปลี่ยนแปลงความถูกต้องซ้ำ ๆ สำหรับตัวอย่างการฝึกอบรมแต่ละครั้งด้วยเสียงใหม่ที่เพิ่มเข้ามาในแต่ละครั้ง

เพื่อตอบสนองต่อความคิดเห็น:

การวิเคราะห์นี้สามารถทำได้โดยการลบตัวแปรทั้งหมด แต่มีข้อเสียบางอย่างเมื่อเทียบกับการเพิ่มเสียงรบกวน

สมมติว่าอินพุตของคุณหนึ่งค่าคงที่มันทำหน้าที่เหมือนคำอคติดังนั้นจึงมีบทบาทในการทำนาย แต่จะไม่มีการเพิ่มข้อมูลใด ๆ หากคุณลบอินพุตนี้โดยสิ้นเชิงการคาดคะเนจะแม่นยำน้อยลงเพราะ Perceptrons จะได้รับอคติที่ไม่ถูกต้อง สิ่งนี้ทำให้อินพุตดูเหมือนเป็นสิ่งสำคัญสำหรับการคาดการณ์แม้ว่าจะไม่มีการเพิ่มข้อมูลก็ตาม การเพิ่มเสียงรบกวนจะไม่ทำให้เกิดปัญหานี้ จุดแรกนี้ไม่ใช่ปัญหาถ้าคุณปรับมาตรฐานอินพุตทั้งหมดให้มีค่าเฉลี่ยเป็นศูนย์
หากสองอินพุตมีความสัมพันธ์ดังนั้นข้อมูลเกี่ยวกับอินพุตหนึ่งจะให้ข้อมูลเกี่ยวกับอีกอินพุตหนึ่ง แบบจำลองสามารถได้รับการฝึกอบรมอย่างดีหากคุณใช้เพียงหนึ่งอินพุตที่สัมพันธ์กันดังนั้นคุณจึงต้องการการวิเคราะห์เพื่อค้นหาว่าอินพุตหนึ่งรายการไม่มีประโยชน์ หากคุณเพิ่งลบหนึ่งในอินพุตเช่นเดียวกับที่จุดแรกทำความแม่นยำในการทำนายจะลดลงมากซึ่งบ่งชี้ว่ามันเป็นสิ่งสำคัญ อย่างไรก็ตามการเพิ่มเสียงรบกวนจะไม่ทำให้เกิดปัญหานี้

— ฮิวจ์
แหล่งที่มา

ฮิวจ์ฉันคุ้นเคยกับการทำเช่นนั้นโดยการลบคุณลักษณะ ข้อดีของการแทนที่คุณสมบัติด้วยเสียงรบกวนคืออะไร

— DaL

@Dan ฉันไม่ได้หมายความว่าคุณสมบัติควรจะถูกแทนที่ด้วยเสียงรบกวนอย่างสมบูรณ์เพียงแค่เพิ่มเสียงรบกวนบางส่วน การลบคุณลักษณะสามารถทำให้คุณสมบัติที่ไม่สำคัญดูสำคัญหากมีค่าเฉลี่ยที่ไม่เป็นศูนย์หรือหากมีความสัมพันธ์กับตัวแปรอื่น ๆ ฉันได้แก้ไขคำตอบเพื่ออธิบาย

— Hugh

ขอบคุณสำหรับความคิดเห็น แต่ในความเป็นจริงฉันมีชุดคุณลักษณะ (อินพุต) จำนวนมากและส่วนใหญ่มีความสัมพันธ์กัน ในกรณีนี้เวลาในการคำนวณอาจใกล้เคียงกับ n! ตามที่ฉันต้องพิจารณาชุดค่าผสม ดังนั้นฉันต้องการใช้โมเดลการเรียนรู้แบบลึกซึ่งสามารถพิจารณาการผสมผสานคุณสมบัติที่ซับซ้อนได้

— z991

@ z991 ในการถดถอยเชิงเส้นหลายตัวแปรปัญหาเดียวกันสามารถเกิดขึ้นได้กับตัวแปรที่ไม่สัมพันธ์กันอย่างสมบูรณ์ บ่อยครั้งที่เราแนะนำแต่ละตัวแปรทีละตัวหรือใช้ตัวแปรทั้งหมดแล้วลบทีละตัว ไม่มีวิธีง่ายๆในการคำนวณชุดค่าผสมที่ดีที่สุด หากยังไม่ได้รับการแก้ไขสำหรับการถดถอยเชิงเส้นคุณจะไม่พบวิธีแก้ปัญหาสำหรับ NN คุณสามารถใช้วิธีการเดียวกันและลบตัวแปรทีละตัวและหลีกเลี่ยง n! การคำนวณ

— ฮิวจ์

@Huge ขอบคุณสำหรับความคิดเห็น ฉันเห็นด้วยกับคุณ. แต่สิ่งที่ฉันอยากรู้จริงๆก็คือวิธีการคำนวณความสำคัญของแต่ละคุณสมบัติด้วยการเรียนรู้ลึกหรือเครือข่ายประสาท เนื่องจากพวกเขาใช้การแยกคุณลักษณะหลายอย่าง (เลเยอร์ที่ซ่อนอยู่) ฉันจึงยากที่จะวิเคราะห์ความสำคัญของคุณลักษณะ เป็นไปได้ที่จะคำนวณน้ำหนักทั้งหมดของแต่ละคุณสมบัติ แต่ดูเหมือนจะค่อนข้างซับซ้อนและใช้เวลานาน กระดาษที่เชื่อมโยงใช้เลเยอร์เชิงเส้นเดียวและฉันคิดว่าเป็นความคิดที่ดี ฉันต้องการทราบวิธีการอื่นที่ดีกว่าสำหรับการวิเคราะห์ความสำคัญของคุณลักษณะบนเครือข่าย

— z991

อาจตรวจสอบกระดาษนี้: https://arxiv.org/pdf/1712.08645.pdf

พวกเขาใช้กลางคันเพื่อจัดอันดับคุณสมบัติ

... ในงานนี้เราใช้แนวคิดดรอปเอาท์ในเลเยอร์คุณลักษณะอินพุตและปรับอัตราการออกกลางคันตามคุณลักษณะที่เหมาะสม เนื่องจากคุณลักษณะแต่ละอย่างถูกลบออกโดยสุ่มวิธีการของเราจะสร้างเอฟเฟกต์คล้ายกับการบรรจุถุง (Ho, 1995) และจัดการเพื่อจัดอันดับคุณลักษณะที่สัมพันธ์กันได้ดีกว่าวิธีอื่น ๆ ที่ไม่ใช่การบรรจุถุงเช่น LASSO เราเปรียบเทียบวิธีการของเรากับ Random Forest (RF), LASSO, ElasticNet, การจัดอันดับส่วนเพิ่มและเทคนิคต่าง ๆ ที่ได้รับความสำคัญใน DNN เช่นการเลือกคุณสมบัติลึกและการวิเคราะห์พฤติกรรมต่าง ๆ ...

— ชายฟลอริดา
แหล่งที่มา

ดูที่โพสต์นี้: https://medium.com/@a.mirzaei69/how-to-use-deep-learning-for-feature-selection-python-keras-24a68bef1e33

และบทความนี้: https://arxiv.org/pdf/1903.07045.pdf

พวกเขานำเสนอรูปแบบที่ดีสำหรับการใช้แบบจำลองลึกสำหรับการเลือกคุณสมบัติ

— อาลีมีร์ซา
แหล่งที่มา