การเลือกคุณสมบัติโดยใช้การเรียนรู้ลึก?


9

ฉันต้องการคำนวณความสำคัญของคุณลักษณะอินพุตแต่ละรายการโดยใช้ตัวแบบลึก

แต่ผมพบว่าเพียงหนึ่งกระดาษเกี่ยวกับการเลือกใช้คุณลักษณะการเรียนรู้ลึก - เลือกคุณลักษณะลึก พวกเขาแทรกเลเยอร์ของโหนดที่เชื่อมต่อกับแต่ละคุณสมบัติโดยตรงก่อนเลเยอร์ที่ซ่อนอยู่เป็นครั้งแรก

ฉันได้ยินมาว่าเครือข่ายความเชื่อลึก (DBN) สามารถใช้กับงานประเภทนี้ได้เช่นกัน แต่ฉันคิดว่า DBN นำเสนอคุณลักษณะที่เป็นนามธรรม (กลุ่ม) เช่น PCA เท่านั้นแม้ว่าจะสามารถลดขนาดได้อย่างมีประสิทธิภาพฉันสงสัยว่าถ้าเป็นไปได้ในการคำนวณความสำคัญ (น้ำหนัก) ของแต่ละคุณลักษณะ

เป็นไปได้หรือไม่ที่จะคำนึงถึงความสำคัญของคุณลักษณะด้วย DBN และมีวิธีการอื่นที่รู้จักกันในการเลือกคุณสมบัติโดยใช้การเรียนรู้อย่างลึกซึ้งหรือไม่?

คำตอบ:


10

วิธีการหนึ่งที่คุณสามารถทำได้สำหรับเกือบทุกรูปแบบการทำนายคือการฝึกอบรมโมเดลของคุณก่อนและค้นหาความแม่นยำจากนั้นสำหรับอินพุตหนึ่งจะเพิ่มเสียงรบกวนและตรวจสอบความถูกต้องอีกครั้ง ทำซ้ำสิ่งนี้สำหรับแต่ละอินพุตและสังเกตว่าเสียงรบกวนการคาดการณ์แย่ลงอย่างไร หากอินพุตเป็นสิ่งสำคัญความไม่แน่นอนที่เพิ่มขึ้นเนื่องจากสัญญาณรบกวนจะเป็นอันตราย

โปรดจำไว้ว่าตั้งค่าความแปรปรวนของเสียงให้เป็นสัดส่วนกับความแปรปรวนของอินพุตที่เป็นปัญหา

แน่นอนว่าเสียงรบกวนนั้นเป็นแบบสุ่มและคุณไม่ต้องการให้อินพุตหนึ่งรายการไม่สำคัญเนื่องจากเอฟเฟกต์แบบสุ่ม หากคุณมีตัวอย่างการฝึกอบรมน้อยให้พิจารณาการคำนวณการเปลี่ยนแปลงความถูกต้องซ้ำ ๆ สำหรับตัวอย่างการฝึกอบรมแต่ละครั้งด้วยเสียงใหม่ที่เพิ่มเข้ามาในแต่ละครั้ง

เพื่อตอบสนองต่อความคิดเห็น:

การวิเคราะห์นี้สามารถทำได้โดยการลบตัวแปรทั้งหมด แต่มีข้อเสียบางอย่างเมื่อเทียบกับการเพิ่มเสียงรบกวน

  • สมมติว่าอินพุตของคุณหนึ่งค่าคงที่มันทำหน้าที่เหมือนคำอคติดังนั้นจึงมีบทบาทในการทำนาย แต่จะไม่มีการเพิ่มข้อมูลใด ๆ หากคุณลบอินพุตนี้โดยสิ้นเชิงการคาดคะเนจะแม่นยำน้อยลงเพราะ Perceptrons จะได้รับอคติที่ไม่ถูกต้อง สิ่งนี้ทำให้อินพุตดูเหมือนเป็นสิ่งสำคัญสำหรับการคาดการณ์แม้ว่าจะไม่มีการเพิ่มข้อมูลก็ตาม การเพิ่มเสียงรบกวนจะไม่ทำให้เกิดปัญหานี้ จุดแรกนี้ไม่ใช่ปัญหาถ้าคุณปรับมาตรฐานอินพุตทั้งหมดให้มีค่าเฉลี่ยเป็นศูนย์

  • หากสองอินพุตมีความสัมพันธ์ดังนั้นข้อมูลเกี่ยวกับอินพุตหนึ่งจะให้ข้อมูลเกี่ยวกับอีกอินพุตหนึ่ง แบบจำลองสามารถได้รับการฝึกอบรมอย่างดีหากคุณใช้เพียงหนึ่งอินพุตที่สัมพันธ์กันดังนั้นคุณจึงต้องการการวิเคราะห์เพื่อค้นหาว่าอินพุตหนึ่งรายการไม่มีประโยชน์ หากคุณเพิ่งลบหนึ่งในอินพุตเช่นเดียวกับที่จุดแรกทำความแม่นยำในการทำนายจะลดลงมากซึ่งบ่งชี้ว่ามันเป็นสิ่งสำคัญ อย่างไรก็ตามการเพิ่มเสียงรบกวนจะไม่ทำให้เกิดปัญหานี้


2
ฮิวจ์ฉันคุ้นเคยกับการทำเช่นนั้นโดยการลบคุณลักษณะ ข้อดีของการแทนที่คุณสมบัติด้วยเสียงรบกวนคืออะไร
DaL

@Dan ฉันไม่ได้หมายความว่าคุณสมบัติควรจะถูกแทนที่ด้วยเสียงรบกวนอย่างสมบูรณ์เพียงแค่เพิ่มเสียงรบกวนบางส่วน การลบคุณลักษณะสามารถทำให้คุณสมบัติที่ไม่สำคัญดูสำคัญหากมีค่าเฉลี่ยที่ไม่เป็นศูนย์หรือหากมีความสัมพันธ์กับตัวแปรอื่น ๆ ฉันได้แก้ไขคำตอบเพื่ออธิบาย
Hugh

ขอบคุณสำหรับความคิดเห็น แต่ในความเป็นจริงฉันมีชุดคุณลักษณะ (อินพุต) จำนวนมากและส่วนใหญ่มีความสัมพันธ์กัน ในกรณีนี้เวลาในการคำนวณอาจใกล้เคียงกับ n! ตามที่ฉันต้องพิจารณาชุดค่าผสม ดังนั้นฉันต้องการใช้โมเดลการเรียนรู้แบบลึกซึ่งสามารถพิจารณาการผสมผสานคุณสมบัติที่ซับซ้อนได้
z991

@ z991 ในการถดถอยเชิงเส้นหลายตัวแปรปัญหาเดียวกันสามารถเกิดขึ้นได้กับตัวแปรที่ไม่สัมพันธ์กันอย่างสมบูรณ์ บ่อยครั้งที่เราแนะนำแต่ละตัวแปรทีละตัวหรือใช้ตัวแปรทั้งหมดแล้วลบทีละตัว ไม่มีวิธีง่ายๆในการคำนวณชุดค่าผสมที่ดีที่สุด หากยังไม่ได้รับการแก้ไขสำหรับการถดถอยเชิงเส้นคุณจะไม่พบวิธีแก้ปัญหาสำหรับ NN คุณสามารถใช้วิธีการเดียวกันและลบตัวแปรทีละตัวและหลีกเลี่ยง n! การคำนวณ
ฮิวจ์

1
@Huge ขอบคุณสำหรับความคิดเห็น ฉันเห็นด้วยกับคุณ. แต่สิ่งที่ฉันอยากรู้จริงๆก็คือวิธีการคำนวณความสำคัญของแต่ละคุณสมบัติด้วยการเรียนรู้ลึกหรือเครือข่ายประสาท เนื่องจากพวกเขาใช้การแยกคุณลักษณะหลายอย่าง (เลเยอร์ที่ซ่อนอยู่) ฉันจึงยากที่จะวิเคราะห์ความสำคัญของคุณลักษณะ เป็นไปได้ที่จะคำนวณน้ำหนักทั้งหมดของแต่ละคุณสมบัติ แต่ดูเหมือนจะค่อนข้างซับซ้อนและใช้เวลานาน กระดาษที่เชื่อมโยงใช้เลเยอร์เชิงเส้นเดียวและฉันคิดว่าเป็นความคิดที่ดี ฉันต้องการทราบวิธีการอื่นที่ดีกว่าสำหรับการวิเคราะห์ความสำคัญของคุณลักษณะบนเครือข่าย
z991

2

อาจตรวจสอบกระดาษนี้: https://arxiv.org/pdf/1712.08645.pdf

พวกเขาใช้กลางคันเพื่อจัดอันดับคุณสมบัติ

... ในงานนี้เราใช้แนวคิดดรอปเอาท์ในเลเยอร์คุณลักษณะอินพุตและปรับอัตราการออกกลางคันตามคุณลักษณะที่เหมาะสม เนื่องจากคุณลักษณะแต่ละอย่างถูกลบออกโดยสุ่มวิธีการของเราจะสร้างเอฟเฟกต์คล้ายกับการบรรจุถุง (Ho, 1995) และจัดการเพื่อจัดอันดับคุณลักษณะที่สัมพันธ์กันได้ดีกว่าวิธีอื่น ๆ ที่ไม่ใช่การบรรจุถุงเช่น LASSO เราเปรียบเทียบวิธีการของเรากับ Random Forest (RF), LASSO, ElasticNet, การจัดอันดับส่วนเพิ่มและเทคนิคต่าง ๆ ที่ได้รับความสำคัญใน DNN เช่นการเลือกคุณสมบัติลึกและการวิเคราะห์พฤติกรรมต่าง ๆ ...


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.