ทำไมเครือข่ายนิวรัลจึงต้องเลือกคุณสมบัติ / วิศวกรรม


14

โดยเฉพาะอย่างยิ่งในบริบทของการแข่งขัน kaggle ฉันได้สังเกตเห็นว่าประสิทธิภาพของโมเดลนั้นเกี่ยวกับการเลือกคุณสมบัติ / วิศวกรรม ในขณะที่ฉันสามารถเข้าใจได้อย่างสมบูรณ์ว่าเหตุใดในกรณีที่ต้องจัดการกับอัลกอริธึม ML / แบบเก่ามากกว่าเดิมฉันไม่เห็นว่าทำไมมันถึงเป็นเช่นนี้เมื่อใช้โครงข่ายประสาทเทียมลึก

อ้างถึงหนังสือการเรียนรู้ลึก:

การเรียนรู้เชิงลึกแก้ปัญหาศูนย์กลางนี้ในการเรียนรู้การเป็นตัวแทนโดยการแนะนำการเป็นตัวแทนที่แสดงในแง่ของการเป็นตัวแทนอื่น ๆ ที่ง่ายกว่าการเป็นตัวแทน การเรียนรู้อย่างลึกซึ้งทำให้คอมพิวเตอร์สามารถสร้างแนวคิดที่ซับซ้อนจากแนวคิดที่เรียบง่าย

ดังนั้นฉันจึงคิดเสมอว่าถ้า "ข้อมูลอยู่ในข้อมูล" เครือข่ายประสาทที่มีความลึกและมีพารามิเตอร์เพียงพอจะรับคุณสมบัติที่เหมาะสมเมื่อใช้เวลาในการฝึกอบรมเพียงพอ


4
สมองของคุณยังทรงพลังกว่าเครื่องจักรดังนั้นความช่วยเหลือเล็กน้อยจากมนุษย์จะไปไกล
Aksakal

ใครบอกว่าพวกเขาต้องการการเลือกคุณสมบัติ / วิศวกรรม คุณสามารถให้การอ้างอิงใด ๆ เมื่อคุณทำงานกับภาพพวกเขาทำงานตั้งแต่ต้นจนจบ ...

@ user2137591 นั่นคือประเด็น ฉันได้รับความประทับใจว่าในโครงข่ายประสาทวรรณกรรมมักแสดงให้เห็นว่าเป็นขั้นตอนที่เพิ่มขึ้นจากการเรียนรู้ของเครื่องจักรทั่วไปเนื่องจากพวกเขาคาดคะเนคุณสมบัติทางวิศวกรรมและการเลือกโดยอัตโนมัติ (ตามนัยโดย Goodfellow, Bengio, Courville ในหนังสือ นี่เป็นเรื่องจริงในหลาย ๆ งานใน CV หรือ NLP ที่ฉันเชื่อว่าข้อมูลยังขาดแคลน ในอีกด้านหนึ่งในวิทยาศาสตร์ข้อมูลการแข่งขัน (kaggle) ซึ่งมีข้อมูลที่มีเสียงดังจำนวนมากความเชื่อทั่วไปคือปัจจัยที่สำคัญที่สุดในการสร้างโซลูชันการแข่งขันคือการค้นหา "คุณสมบัติมายากล"
CephasW

ฉันสามารถพูดกับ CompVis ได้ซึ่งฉันจำไม่ได้ว่ามีโครงการใดที่ทำฟีเจอร์วิศวกรรมเพื่อป้อนเข้าสู่เครือข่ายหลังจากนั้น ... นี่เป็นข้อมูลภาพทางการแพทย์เช่นกันซึ่งคุณภาพของภาพมักจะต่ำกว่า อาจจะแตกต่างกันในด้านอื่น ๆ ... คุณมีเอกสารหรือแหล่งเผยแพร่ที่คุณสามารถอ้างถึงในเรื่องนี้? ฉันจะขอบคุณมันขอบคุณ

คำตอบ:


18
  • จะเกิดอะไรขึ้นถ้าเครือข่าย "ที่ลึกพอ" มีขนาดใหญ่มากจนทำให้การฝึกอบรมแบบจำลองมีราคาแพงเกินไป (ค่าธรรมเนียม AWS เพิ่มขึ้น!) หรือเพราะคุณจำเป็นต้องปรับใช้เครือข่ายในสภาพแวดล้อมที่ จำกัด ทรัพยากร

  • วิธีที่คุณสามารถทราบเบื้องต้นว่าเครือข่ายเป็นอย่างดีแปร? อาจต้องใช้การทดลองมากมายเพื่อค้นหาเครือข่ายที่ใช้งานได้ดี

  • จะเกิดอะไรขึ้นถ้าข้อมูลที่คุณทำงานด้วยไม่เป็นมิตรกับวิธีการวิเคราะห์มาตรฐานเช่นสตริงไบนารี่ที่ประกอบไปด้วยหลายพันหรือหลายล้านบิตโดยที่แต่ละลำดับมีความยาวต่างกัน

  • ถ้าคุณสนใจข้อมูลระดับผู้ใช้ แต่คุณถูกบังคับให้ทำงานกับฐานข้อมูลที่รวบรวมเฉพาะข้อมูลระดับธุรกรรม

  • 12,32,486,73,5,18,7

เราต้องการอยู่ในโลกที่การวิเคราะห์ข้อมูลเป็น "แบบครบวงจร" แต่มักจะมีวิธีแก้ปัญหาเหล่านี้ในกรณีพิเศษเท่านั้น งานจำนวนมากได้พัฒนา CNN ที่ลึกซึ้งสำหรับการจัดประเภทรูปภาพ - งานก่อนหน้ามีขั้นตอนที่เปลี่ยนภาพแต่ละภาพให้เป็นเวกเตอร์ที่มีความยาวคงที่

คุณสมบัติวิศวกรรมช่วยให้ผู้ปฏิบัติงานเปลี่ยนความรู้เกี่ยวกับปัญหาโดยตรงเป็นเวกเตอร์ที่มีความยาวคงที่ซึ่งรองรับเครือข่ายการส่งต่อข้อมูล การเลือกคุณสมบัติสามารถแก้ไขปัญหาของการรวมคุณสมบัติที่ไม่เกี่ยวข้องจำนวนมากที่สัญญาณใด ๆ หายไปรวมถึงการลดจำนวนพารามิเตอร์ให้กับโมเดลอย่างมาก


6

คำสำคัญที่นี่มีไพรเออร์และขนาด เป็นตัวอย่างง่ายๆลองจินตนาการว่าคุณกำลังพยายามทำนายอายุของบุคคลจากภาพถ่าย ด้วยชุดข้อมูลของภาพและอายุคุณสามารถฝึกอบรมรูปแบบการเรียนรู้ลึกเพื่อคาดการณ์ สิ่งนี้ไม่มีประสิทธิภาพอย่างแท้จริงเนื่องจาก 90% ของภาพไม่มีประโยชน์และมีเพียงภูมิภาคเดียวกับบุคคลที่มีประโยชน์ โดยเฉพาะอย่างยิ่งใบหน้าของบุคคลร่างกายและเสื้อผ้าของพวกเขา

ในทางกลับกันคุณสามารถใช้เครือข่ายการตรวจจับวัตถุที่ผ่านการฝึกอบรมมาก่อนเพื่อแยกกล่องขอบเขตสำหรับบุคคลครอบตัดรูปภาพแล้วส่งผ่านเครือข่าย กระบวนการนี้จะปรับปรุงความแม่นยำของโมเดลของคุณอย่างมีนัยสำคัญด้วยเหตุผลหลายประการ:

1) ทรัพยากรเครือข่ายทั้งหมด (เช่นน้ำหนัก) สามารถมุ่งเน้นไปที่งานที่แท้จริงของการทำนายอายุเมื่อเทียบกับการหาคนแรกก่อน สิ่งนี้สำคัญอย่างยิ่งเพราะใบหน้าของบุคคลนั้นมีคุณสมบัติที่มีประโยชน์ มิฉะนั้นคุณสมบัติที่ดีกว่าที่คุณต้องการอาจหายไปในเลเยอร์แรก ๆ ในทางทฤษฎีเครือข่ายที่ใหญ่พออาจแก้ปัญหานี้ได้ แต่มันจะไร้ประสิทธิภาพอย่างมาก ภาพตัดยังเป็นอย่างมากปกติมากกว่าภาพต้นฉบับ ในขณะที่ภาพต้นฉบับมีสัญญาณรบกวนเป็นจำนวนมากเนื้อหาที่ขัดแย้งกันในภาพที่ถูกครอบตัดนั้นมีความสัมพันธ์อย่างมากกับวัตถุประสงค์

2) ภาพที่ตัดสามารถที่จะมีนัยเดียวกันขนาด วิธีนี้จะช่วยให้เครือข่ายที่สองจัดการกับปัญหาการปรับขนาดเนื่องจากในภาพต้นฉบับผู้คนสามารถเกิดขึ้นได้ใกล้หรือไกล การปรับขนาดมาตรฐานไว้ล่วงหน้าทำให้ภาพที่ถูกครอบตัดนั้นรับประกันว่าจะมีบุคคลอยู่ในนั้นที่เติมภาพที่ครอบตัดเต็ม หากต้องการดูว่าวิธีการนี้สามารถช่วยปรับขนาดได้อย่างไรร่างกายที่ถูกครอบตัดซึ่งครึ่งหนึ่งของความกว้างและความสูงของภาพต้นฉบับจะมีพิกเซลประมวลผล 4x น้อยลงและด้วยเหตุนี้เครือข่ายเดียวกันที่นำมาใช้กับภาพนี้

ตัวอย่างเช่นในการแข่งขัน kaggle lung ชุดรูปแบบทั่วไปในโซลูชันระดับสูงคือการประมวลผลล่วงหน้าของภาพปอดบางชนิดที่ครอบตัดมันให้มากที่สุดเท่าที่จะเป็นไปได้และแยกส่วนประกอบของแต่ละปอด สิ่งนี้มีความสำคัญอย่างยิ่งในภาพ 3 มิติเนื่องจากเอฟเฟกต์เป็นลูกบาศก์: โดยการลบ 20% ของแต่ละมิติคุณจะได้กำจัดพิกเซลเกือบครึ่งหนึ่ง!


4

สัญชาตญาณของฉันเกี่ยวกับปรากฏการณ์นี้เชื่อมโยงกับความซับซ้อนของแบบจำลองที่ต้องเรียนรู้ เครือข่ายประสาทลึกสามารถประมาณฟังก์ชันใด ๆในทางทฤษฎีแน่นอน แต่มิติของพื้นที่พารามิเตอร์สามารถมีขนาดใหญ่มากเช่นในล้าน ดังนั้นการค้นหาเครือข่ายประสาทที่ดีจึงเป็นเรื่องยาก ฉันชอบคิดเกี่ยวกับวิศวกรรมฟีเจอร์เพื่อเริ่มต้นอัลกอริทึมโดยให้ข้อมูลเพิ่มเติมเกี่ยวกับการแสดงข้อมูลที่ดีพอในบางแง่มุม แน่นอนว่านี่ไม่ใช่คำอธิบายอย่างเป็นทางการคำถามนี้อาจตอบยากด้วยความแม่นยำทางวิทยาศาสตร์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.