ขั้นตอนวิธีการเรียนรู้วงดนตรีขั้นสุดยอดในงานการจดจำรูปแบบ?


14

โครงสร้างของคำถามนี้มีดังต่อไปนี้:ในตอนแรกฉันให้แนวคิดของการเรียนรู้ทั้งมวลฉันยังจัดทำรายการของการจดจำรูปแบบจากนั้นฉันก็ยกตัวอย่างของอัลกอริทึมการเรียนรู้ทั้งมวลและในที่สุดก็แนะนำคำถามของฉัน ผู้ที่ไม่ต้องการข้อมูลเสริมทั้งหมดอาจแค่ดูหัวข้อข่าวและตรงไปที่คำถามของฉัน


การเรียนรู้ทั้งมวลคืออะไร

ตามบทความ Wikipedia :

ในสถิติและการเรียนรู้ของเครื่องจักรวิธีการทั้งมวลใช้อัลกอริทึมการเรียนรู้หลายอย่างเพื่อให้ได้ประสิทธิภาพการทำนายที่ดีกว่าที่จะได้รับจากอัลกอริทึมการเรียนรู้ที่เป็นส่วนประกอบใด ๆ เพียงอย่างเดียว ซึ่งแตกต่างจากชุดสถิติในกลศาสตร์เชิงสถิติซึ่งโดยทั่วไปแล้วจะไม่มีที่สิ้นสุดชุดการเรียนรู้ของเครื่องหมายถึงชุดรูปแบบทางเลือกที่ จำกัด ของคอนกรีตเท่านั้น แต่โดยทั่วไปแล้วจะช่วยให้โครงสร้างมีความยืดหยุ่นมากขึ้น


ตัวอย่างของงานการจดจำรูปแบบ:


ตัวอย่างของอัลกอริทึมการเรียนรู้ทั้งมวล:

ต่อไปนี้ขั้นตอนวิธีการเรียนรู้ชุดใช้สำหรับงานพีอาร์ (ตามวิกิพีเดีย)

Ensemble learning algorithm (การควบคุม meta-algorithms สำหรับการรวมอัลกอริทึมการเรียนรู้หลายตัวเข้าด้วยกัน):

  • Boosting (การเรียนรู้ของเครื่องโดยใช้เมตาดาต้าอัลกอริธึมสำหรับการลดอคติและความแปรปรวนในการเรียนรู้แบบมีผู้ควบคุมและอัลกอริทึมการเรียนรู้ของเครื่องซึ่งเปลี่ยนผู้เรียนที่อ่อนแอไปเป็นคนที่แข็งแกร่ง)

  • การรวม Bootstrap ("การห่อ ") (เครื่องเรียนรู้ชุดเมตาอัลกอริทึมที่ออกแบบมาเพื่อปรับปรุงเสถียรภาพและความแม่นยำของอัลกอริทึมการเรียนรู้ของเครื่องที่ใช้ในการจำแนกทางสถิติและการถดถอย)

  • ค่าเฉลี่ยของ Ensemble (กระบวนการสร้างหลายรุ่นและรวมเข้าด้วยกันเพื่อสร้างเอาต์พุตที่ต้องการซึ่งต่างจากการสร้างเพียงหนึ่งโมเดลบ่อยครั้งที่ชุดของโมเดลทำงานได้ดีกว่าโมเดลใด ๆ ก็ตามเนื่องจากข้อผิดพลาดต่างๆของโมเดล "เฉลี่ยหมด" )

  • ส่วนผสมของผู้เชี่ยวชาญการผสมผสานของผู้เชี่ยวชาญ

การใช้งานที่แตกต่างกัน

  • ตระการตาของโครงข่ายประสาทเทียม (ชุดของโมเดลโครงข่ายประสาทเทียมที่ใช้ตัดสินใจโดยเฉลี่ยผลลัพธ์ของแบบจำลองแต่ละตัว)
  • ป่าสุ่ม (วิธีการเรียนรู้ทั้งมวลสำหรับการจำแนกการถดถอยและงานอื่น ๆ ที่ดำเนินการโดยการสร้างต้นไม้ตัดสินใจจำนวนมากในเวลาฝึกอบรมและแสดงผลชั้นเรียนที่เป็นโหมดของการเรียน (การจำแนก) หรือการทำนายค่าเฉลี่ยของแต่ละบุคคล ต้นไม้)
  • AdaBoost (ผลลัพธ์ของอัลกอริทึมการเรียนรู้อื่น ('ผู้เรียนที่อ่อนแอ') รวมกันเป็นผลรวมถ่วงน้ำหนักที่แสดงถึงผลลัพธ์สุดท้ายของลักษณนามที่เพิ่มขึ้น)

นอกจากนี้:

  • วิธีการที่ใช้เครือข่ายประสาทเทียมเดียวเพื่อรวมตัวแยกประเภทที่แตกต่างกัน
  • วิธีการพื้นที่ความสามารถ

คำถามของฉัน

อัลกอริทึมการเรียนรู้ชุดใดที่ถือว่าเป็นสุดยอดในปัจจุบันและมีการใช้งานจริงในทางปฏิบัติ (สำหรับการตรวจจับใบหน้า, การจดจำแผ่นป้ายทะเบียนยานพาหนะ, การจดจำตัวอักษรแบบออปติคัล ฯลฯ ) โดยองค์กรและองค์กร การใช้อัลกอริธึมการเรียนรู้ทั้งมวลนั้นน่าจะช่วยเพิ่มความแม่นยำในการจดจำและนำไปสู่ประสิทธิภาพการคำนวณที่ดีขึ้น แต่เรื่องต่าง ๆ ยืนหยัดในทางที่เป็นจริงได้ไหม?

วิธีการทั้งมวลแบบใดที่อาจแสดงความแม่นยำและประสิทธิภาพในการจำแนกประเภทที่ดีขึ้นในงานการจดจำรูปแบบ บางทีวิธีการบางอย่างอาจล้าสมัยไปแล้วหรือแสดงว่าไม่มีประสิทธิภาพ นอกจากนี้ยังเป็นไปได้ที่วิธีการรวมทั้งหมดนี้จะไม่ใช้อีกต่อไปกับจุดแข็งของอัลกอริทึมใหม่ ผู้ที่มีประสบการณ์ในพื้นที่หรือมีความรู้เพียงพอในด้านนี้คุณสามารถช่วยชี้แจงเรื่องนี้ได้หรือไม่?


สิ่งที่ฉันได้ยินเมื่อเร็ว ๆ นี้คือผู้คนรักXGBoostและมันแสดงให้เห็นถึงประสิทธิภาพที่น่าประทับใจในการแข่งขัน Kaggle หลายรายการ
Sangwoong Yoon

คำตอบนั้นสั้น: คำตอบที่ให้คะแนน CV ดีที่สุด โดยปกติแล้วจะซ้อนกัน
Alexey Grigorev

ความสำเร็จและความล้มเหลวของแบบจำลองทั้งหมดเป็นหน้าที่ของแบบจำลองสมาชิกของทั้งมวลและลักษณะของข้อมูล ทั้งมวลทำงานเพราะสมาชิกรุ่นให้ระดับความหลากหลาย คำถามของคุณอาจไม่สามารถตอบได้หากไม่มีข้อมูลเฉพาะของทั้งสองโมเดลที่คุณใส่ลงในชุดของคุณและชุดข้อมูลที่เป็นปัญหา
horaceT

คำตอบ:


9

อัลกอริทึมที่ล้ำสมัยอาจแตกต่างจากที่ใช้ในการผลิตในอุตสาหกรรม นอกจากนี้หลังสามารถลงทุนในการปรับวิธีการขั้นพื้นฐาน (และมักจะตีความได้มากขึ้น) เพื่อให้พวกเขาทำงานได้ดีกว่าสิ่งที่นักวิชาการจะ

ตัวอย่างที่ 1: จากTechCrunch Nuance จะเริ่มใช้ "เทคโนโลยีการเรียนรู้ลึก" ในผลิตภัณฑ์มังกรรู้จำเสียงในเดือนกันยายนนี้

ตัวอย่างที่ 2: Chiticariu, Laura, Yunyao Li และ Frederick R. Reiss "การสกัดข้อมูลแบบใช้กฎตายแล้ว! ระบบการสกัดข้อมูลแบบใช้กฎแบบสดยาว!" ใน EMNLP ไม่ ตุลาคม, หน้า 827-832 2013 https://scholar.google.com/scholar?cluster=12856773132046965379&hl=en&as_sdt=0,22 ; http://www.aclweb.org/website/old_anthology/D/D13/D13-1079.pdf

ป้อนคำอธิบายรูปภาพที่นี่

ด้วยการพูดว่า:

อัลกอริทึมการเรียนรู้แบบใดที่ถือได้ว่าทันสมัยที่สุดในปัจจุบัน

หนึ่งในระบบที่ล้ำสมัยสำหรับการจัดหมวดหมู่ภาพได้รับประโยชน์อย่างมากจากวงดนตรี (เช่นเดียวกับระบบอื่น ๆ ที่ฉันรู้จัก): เขา Kaiming, Xiangyu Zhang, Shaoqing Ren และ Jian Sun "การเรียนรู้สิ่งที่เหลืออย่างลึกซึ้งเพื่อการจดจำภาพ" พิมพ์ arXiv arXiv: 1512.03385 (2015) https://scholar.google.com/scholar?cluster=17704431389020559554&hl=en&as_sdt=0,22 ; https://arxiv.org/pdf/1512.03385v1.pdf

ป้อนคำอธิบายรูปภาพที่นี่


3

ฉันเดาได้ว่าการเรียนรู้อย่างลึกซึ้งนั้นค่อนข้างล้ำสมัยในโดเมนย่อยส่วนใหญ่ของการมองเห็นคอมพิวเตอร์ (การจำแนกการตรวจจับความละเอียดสูงการตรวจจับขอบ ... ) ยกเว้นงานเฉพาะอย่างเช่น SLAM ที่ การเรียนรู้ที่ลึกล้ำนั้นยังไม่ได้ใช้วิธีเดียว

บ่อยครั้งที่จะได้รับเพิ่มอีกไม่กี่เปอร์เซ็นต์ในการชนะเครือข่ายการแข่งขันโดยเฉลี่ย แต่การใช้เครือข่ายนั้นดีมากจนไม่สำคัญอีกต่อไป

ในการผลิตมันแตกต่างกันโดยสิ้นเชิง บริษัท ขนาดใหญ่มักใช้อัลกอริทึมแบบเก่าที่พิสูจน์แล้วว่ามีประสิทธิภาพและผู้เชี่ยวชาญในสถานที่นั้นมีความรู้และใช้งานมาเป็นปี
รวมกับการรวมอัลกอริทึมใหม่ในห่วงโซ่อุปทานต้องใช้เวลามาก ฉันคิดว่า บริษัท กล้องบางแห่งยังคงใช้เครื่องตรวจจับ Viola Jones สำหรับการตรวจจับใบหน้าและฉันรู้ว่า SIFT กำลังถูกใช้อย่างหนักในแอพพลิเคชั่นมากมายในอุตสาหกรรม

พวกเขายังมีความสงสัยเล็กน้อยเกี่ยวกับวิธีการเรียนรู้ลึกที่ถือว่าเป็นกล่องดำที่อันตราย
แต่ผลลัพธ์ที่น่าประทับใจของอัลกอริธึมเหล่านั้นช้าทำให้ผู้คนเปลี่ยนใจได้

การเริ่มต้นมีความเต็มใจที่จะใช้โซลูชันดังกล่าวมากขึ้นเนื่องจากต้องมีโซลูชันที่เป็นนวัตกรรมเพื่อรับเงินทุน

ฉันจะบอกว่าในยี่สิบปีของผลิตภัณฑ์คอมพิวเตอร์วิสัยทัศน์ส่วนใหญ่จะใช้การเรียนรู้ลึกแม้ว่าสิ่งที่มีประสิทธิภาพมากขึ้นถูกค้นพบในระหว่าง
เพื่อเพิ่มคำตอบของ Franck การเรียนรู้ที่ลึกซึ้งกำลังเปลี่ยนไปอย่างรวดเร็วซึ่ง ResNets of Kaiming เขาไม่ได้ทันสมัยอีกต่อไปเชื่อมต่อเครือข่าย Convolutionalและเครือข่ายWide and Deep ที่เริ่มการทำงาน SGDเป็น SOTA บนEDIT CIFAR และ SVHN และอาจเป็น Imagenet ด้วย สามารถเปลี่ยนแปลงได้ภายในสองสามวันด้วยผลลัพธ์ของ ILSVRC 2016 ในวันที่ 16 กันยายน

หากคุณสนใจในผลงานศิลปะบน MS-COCO มากขึ้นชุดข้อมูลการตรวจจับที่ท้าทายที่สุดที่มีอยู่จะเปิดตัวที่ ECCV ในเดือนตุลาคม


1
ในความเป็นจริงหลังจากตรวจสอบซ้ำบทความที่ฉันอ้างถึงไม่ได้กล่าวถึงผลลัพธ์ของพวกเขาใน Imagenet! ดังนั้นมันเป็นความผิดพลาดของฉัน! แต่เนื่องจากพวกเขาเหนือกว่า CIFAR และ SVHN ฉันคิดว่ามันต้องเหมือนกันกับ Imagenet แต่คุณไม่มีทางรู้ ฉันเดาว่าพวกเขาไม่ได้เอ่ยถึงมันเพื่อรอผลของ ILSVRC แต่ฉันอาจผิด!
ยีน

1
@FranckDernoncourt ผลลัพธ์ที่น่าตื่นเต้นนี้เป็นเรื่องที่น่าตื่นเต้นมาก แต่ก็สามารถสร้างแรงกดดันให้กับผู้ที่ต้องการเผยแพร่ในฟิลด์นี้ซึ่งสามารถนำไปสู่ข้อผิดพลาดเช่นนี้บทความ SARM ที่น่าอับอายในปัจจุบันซึ่งผู้เขียนถอนตัวออกจาก NIPS วันนี้
jean

ขอบคุณใช่ฉันเห็นว่าจริง ๆ แต่ไม่ได้มีโอกาสตรวจสอบกระดาษที่…ฉันมีปัญหาการล้างรายการที่ต้องอ่านของฉันกับทั้งหมดใหม่ ANN PDF: /
Franck Dernoncourt

เหตุการณ์การถอนตัวของ SARM ทำให้ฉันคิดใหม่ถึงวิกฤตการทำซ้ำในสถิติ จำเป็นต้องมีรายละเอียดการใช้งานเท่าใดในกระบวนการตรวจสอบจำนวนที่น้อยเกินไป ฯลฯ
horaceT

2

มีคำถามมากมายที่เกี่ยวข้องกับคำถามของคุณและมักจะค้นหาโมเดลที่ดีที่สุดเกี่ยวข้องกับการทดสอบส่วนใหญ่เกี่ยวกับข้อมูลเหล่านี้ เพียงเพราะแบบจำลองในทางทฤษฎีสามารถให้ผลลัพธ์ที่แม่นยำมากขึ้นไม่ได้หมายความว่ามันจะสร้างแบบจำลองที่มีข้อผิดพลาดต่ำที่สุดเสมอ

ที่ถูกกล่าวว่า ... Neural Net ตระการตามีความแม่นยำมากตราบใดที่คุณสามารถยอมรับกล่องดำ การเปลี่ยนแปลงโดยจำนวนโหนดและจำนวนเลเยอร์สามารถครอบคลุมความแปรปรวนจำนวนมากในข้อมูลด้วยการแนะนำปัจจัยการสร้างแบบจำลองจำนวนมากนี้มันอาจเป็นเรื่องง่ายที่จะ overfit ข้อมูล

ป่าสุ่มนั้นไม่ค่อยให้ผลลัพธ์ที่แม่นยำที่สุด แต่ต้นไม้ที่ได้รับการส่งเสริมสามารถสร้างแบบจำลองความสัมพันธ์ที่ซับซ้อนเช่นในงาน AI ที่คุณกล่าวถึงโดยไม่ต้องเสี่ยงมากกับการล้น

ใครจะคิดว่าทำไมไม่เพียง แต่รวบรวมโมเดลทั้งหมดเหล่านี้เข้าด้วยกัน แต่รุ่นนี้ลดทอนความแข็งแกร่งที่เป็นไปได้ของแต่ละรุ่น อีกครั้งนี้อาจนำไปสู่ปัญหา overfitting บางอย่าง

แบบจำลองที่มีประสิทธิภาพในการคำนวณเป็นเรื่องที่แตกต่างกันและฉันจะไม่เริ่มต้นด้วยโครงข่ายประสาทที่ซับซ้อนมาก การใช้ตาข่ายประสาทเป็นมาตรฐานในประสบการณ์ของฉันมันมีประสิทธิภาพมากที่สุดโดยใช้ต้นไม้เพิ่มขึ้น

สิ่งนี้ขึ้นอยู่กับประสบการณ์ของฉันและความเข้าใจที่สมเหตุสมผลของทฤษฎีที่เกี่ยวข้องกับแบบจำลองแต่ละประเภทที่กล่าวถึง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.