ทำไมจึงเป็นสิ่งสำคัญที่จะมีทฤษฎีหลักการและคณิตศาสตร์สำหรับการเรียนรู้ของเครื่อง?


25

ฉันสงสัยอยู่แล้วว่าทำไมการเรียนรู้ด้วยเครื่อง / ทฤษฎีอย่างมีเหตุผลจึงสำคัญ? จากมุมมองส่วนบุคคลในฐานะมนุษย์ฉันสามารถเข้าใจได้ว่าทำไมการเรียนรู้ด้วยเครื่องแบบแยกส่วนจึงสำคัญ:

  • มนุษย์ชอบทำความเข้าใจกับสิ่งที่พวกเขากำลังทำเราค้นหาความงามและความพึงพอใจต่อความเข้าใจ
  • จากมุมมองทางทฤษฎีคณิตศาสตร์ก็สนุก
  • เมื่อมีหลักการที่เป็นแนวทางในการออกแบบสิ่งต่าง ๆ มีเวลาน้อยลงในการคาดเดาแบบสุ่มการลองผิดลองถูกและผิดพลาด ถ้าเราเข้าใจพูดได้ว่าโครงข่ายประสาททำงานอย่างไรเราอาจใช้เวลาที่ดีกว่าในการออกแบบพวกมันมากกว่าการลองผิดลองถูกจำนวนมหาศาล
  • อีกไม่นานหากหลักการมีความชัดเจนและทฤษฎีก็ชัดเจนเช่นกันก็ควรจะมีความโปร่งใสมากขึ้นในระบบ สิ่งนี้เป็นสิ่งที่ดีเพราะถ้าเราเข้าใจว่าระบบทำงานอะไรอยู่ AI ก็มีความเสี่ยงที่ผู้คนจำนวนมากจะหายตัวไปในทันที
  • หลักการดูเหมือนจะเป็นวิธีที่กระชับเพื่อสรุปโครงสร้างที่สำคัญที่โลกอาจมีและเมื่อต้องใช้เครื่องมือมากกว่าที่อื่น

อย่างไรก็ตามเหตุผลเหล่านี้มีความแข็งแกร่งเพียงพอที่จะพิสูจน์การศึกษาเชิงทฤษฎีที่เข้มข้นของการเรียนรู้ด้วยเครื่องได้หรือไม่? หนึ่งในข้อวิจารณ์ที่ใหญ่ที่สุดของทฤษฎีก็คือเพราะมันยากที่จะทำพวกเขามักจะจบลงด้วยการศึกษากรณีที่ถูก จำกัด มากหรือข้อสันนิษฐานที่ต้องนำมาเป็นหลักทำให้ผลลัพธ์ไร้ประโยชน์ ฉันคิดว่าฉันได้ยินเรื่องนี้อีกครั้งในการพูดคุยที่ MIT โดยผู้สร้าง Tor การวิพากษ์วิจารณ์บางส่วนของทอร์ที่เขาเคยได้ยินเป็นข้อโต้แย้งเชิงทฤษฎี แต่โดยพื้นฐานแล้วผู้คนไม่สามารถพิสูจน์สิ่งต่าง ๆ เกี่ยวกับสถานการณ์จริงของชีวิตจริงเพราะพวกเขาซับซ้อนมาก

ในยุคใหม่นี้ด้วยพลังการประมวลผลและข้อมูลที่มากมายเราสามารถทดสอบโมเดลของเราด้วยชุดข้อมูลจริงและชุดทดสอบ เราสามารถดูว่าสิ่งต่าง ๆ ทำงานโดยใช้ประสบการณ์นิยม ถ้าเราสามารถบรรลุ AGI หรือระบบที่ทำงานกับวิศวกรรมและประสบการณ์นิยมได้มันก็ยังคุ้มค่าที่จะทำตามหลักการและเหตุผลทางทฤษฎีสำหรับการเรียนรู้ของเครื่องจักรโดยเฉพาะอย่างยิ่งเมื่อขอบเขตเชิงปริมาณนั้นยากที่จะบรรลุ แต่สัญชาตญาณและคำตอบเชิงคุณภาพ บรรลุด้วยวิธีการขับเคลื่อนข้อมูล? วิธีการนี้ไม่สามารถใช้ได้ในสถิติแบบดั้งเดิมซึ่งเป็นเหตุผลที่ฉันคิดว่าทฤษฎีมีความสำคัญในช่วงเวลาเหล่านั้นเพราะคณิตศาสตร์เป็นวิธีเดียวที่เราจะมั่นใจได้ว่าสิ่งต่าง ๆ ถูกต้องหรือว่าพวกเขาทำงานจริงอย่างที่เราคิด

ฉันชอบทฤษฎีความคิดส่วนตัวและความคิดส่วนตัวอยู่เสมอ แต่ด้วยพลังของความสามารถในการทดลองกับข้อมูลจริงและพลังการประมวลผลทำให้ฉันสงสัยว่าความพยายามในระดับสูง

ทฤษฎีและหลักการของการเรียนรู้ของเครื่องเป็นสิ่งสำคัญจริง ๆ หรือไม่?


"หากไม่มีทฤษฎีคุณต้องพึ่งพาความหวังที่ว่าผลลัพธ์เชิงประจักษ์จะนำไปใช้กับชุดข้อมูลใหม่ที่คุณจะใช้วิธีการ ML อย่างไรก็ตามคุณสมบัติหรือสมมติฐานบางอย่างที่เกิดขึ้นเมื่อคุณสังเกตผลลัพธ์เชิงประจักษ์ของคุณอาจไม่จำเป็นต้องก้าวไปข้างหน้า ในชุดข้อมูลใหม่ "
Charlie Parker

คำตอบ:


17

ไม่มีคำตอบที่ถูกต้องสำหรับเรื่องนี้ แต่อาจจะ "ทุกอย่างอยู่ในความดูแล" ในขณะที่การปรับปรุงล่าสุดหลายอย่างในการเรียนรู้ของเครื่องเช่นการออกกลางคันการเชื่อมต่อที่เหลือการเชื่อมต่อที่หนาแน่นการทำแบ็ตช์แบบมาตรฐานไม่ได้ถูกหยั่งรากในทฤษฎีลึกโดยเฉพาะ (ส่วนใหญ่สามารถพิสูจน์ได้ในสองสามย่อหน้า) ผลลัพธ์ดังกล่าวสามารถสร้างผลกระทบอย่างมาก ในบางจุดคุณต้องนั่งลงและหาทฤษฎีพิเศษเพื่อที่จะก้าวกระโดดครั้งต่อไป ทฤษฎีสามารถใช้สัญชาตญาณได้เพราะสามารถพิสูจน์คุณภาพหรือข้อ จำกัด ของแบบจำลองได้ภายในข้อสงสัยที่สมเหตุสมผล นี่เป็นสิ่งสำคัญอย่างยิ่งสำหรับการค้นหาหากพูดว่า SGD ดีกว่าโมเมนตัมสำหรับปัญหาเฉพาะ นั่นเป็นสิ่งที่ดีเกี่ยวกับทฤษฎี: มันบังคับให้คุณนามธรรมปัญหาที่คุณแก้ไข

ตัวอย่างใหญ่ที่นึกถึงคือการสนับสนุนเครื่องเวคเตอร์ ตอนแรกพวกเขาได้รับการคิดค้นโดย Vapnik และ Chervonenkis ในช่วงต้นยุค 60 แต่จริงๆแล้วเริ่มต้นขึ้นในช่วงต้นยุค 90 เมื่อ Vapnik และคนอื่น ๆ รู้ว่าคุณสามารถทำ SVM ที่ไม่เชิงเส้นโดยใช้ Kernel Trick Vapnik และ Chervonenkis ยังใช้ทฤษฎีเบื้องหลังมิติ VCซึ่งเป็นความพยายามที่จะเกิดขึ้นกับมาตรการที่ซับซ้อนสำหรับการเรียนรู้ของเครื่อง ฉันไม่สามารถนึกถึงแอปพลิเคชันเชิงปฏิบัติของมิติ VC แต่ฉันคิดว่าความคิดของ SVM อาจได้รับอิทธิพลจากงานของพวกเขาในเรื่องนี้ Kernel Trick นั้นมาจากคณิตศาสตร์ที่ไร้สาระเกี่ยวกับการเว้นวรรคของ Hilbert มันอาจจะเป็นการยืดที่จะบอกว่าจำเป็นต้องรู้เรื่องไร้สาระนี้มากับ SVMs แต่ฉันคิดว่ามันอาจช่วยได้เล็กน้อยโดยเฉพาะอย่างยิ่งเนื่องจากมีนักคณิตศาสตร์จำนวนมากตื่นเต้นเกี่ยวกับการเรียนรู้ของเครื่อง

ในเรื่องของ ResNet มีงานบางอย่างที่เน่าเปื่อยเมื่อไม่นานมานี้ชี้ให้เห็นว่าสถาปัตยกรรมที่ตกค้างไม่จำเป็นต้องเป็นชั้นลึกกว่า 100 วินาที ในความเป็นจริงงานบางอย่างแสดงให้เห็นว่าการเชื่อมต่อที่เหลือคล้ายกับ RNNs เช่นการเชื่อมช่องว่างระหว่างการเรียนรู้ที่เหลือเครือข่ายประสาทที่เกิดขึ้นอีกและ Visual Cortex "Liao et al. ฉันคิดว่านี่น่าคุ้มค่าที่จะมองลึกลงไป ตามหลักการแล้ว ResNet ที่มีหลายเลเยอร์นั้นแท้จริงแล้วไม่มีประสิทธิภาพและป่องอย่างไม่น่าเชื่อ

ความคิดสำหรับการตัดลาดสำหรับ RNNs ถูกธรรมดีมากในตอนนี้กระดาษที่มีชื่อเสียง " ในความยากลำบากของการฝึกอบรมเครือข่ายประสาทกำเริบ " - Pascanu, et อัล ในขณะที่คุณอาจจะเกิดขึ้นกับการไล่ระดับสีโดยไม่มีทฤษฎีทั้งหมดฉันคิดว่ามันไปไกลในการทำความเข้าใจว่าทำไม RNNs จึงยากที่จะฝึกโดยไม่ทำอะไรแฟนซีโดยเฉพาะอย่างยิ่งโดยการวาดแอนะล็อกไปยังแผนที่ระบบพลวัต )

มีจำนวนมากของความตื่นเต้นเกี่ยวกับการเป็นเอนโทรปี Stochastic ไล่โทนสีโคตรวิธี สิ่งเหล่านี้ได้มาจากการเปลี่ยนแปลงของ Langevin และผลลัพธ์ทางทฤษฎีส่วนใหญ่ได้รับการฝังรากอย่างแน่นหนาในทฤษฎี PDE เชิงทฤษฎีคลาสสิกและฟิสิกส์เชิงสถิติ ผลลัพธ์มีแนวโน้มเพราะพวกเขานำเสนอ SGD ในแง่ใหม่ว่ามันติดอยู่กับความผันผวนของฟังก์ชั่นการสูญเสียในท้องถิ่นได้อย่างไรและจะทำให้ฟังก์ชั่นการสูญเสียในประเทศราบรื่นขึ้นเพื่อให้ SGD มีประสิทธิภาพมากขึ้นได้อย่างไร มันไปไกลในการทำความเข้าใจเมื่อ SGD มีประโยชน์และเมื่อมันทำงานได้ไม่ดี นี่ไม่ใช่สิ่งที่คุณจะได้รับจากการสังเกตุโดยทดลองใช้ SGD กับรุ่นที่แตกต่าง

ในกระดาษคุณสมบัติที่น่าสนใจของโครงข่ายประสาทเทียมผู้เขียนสรุปว่าโครงข่ายประสาทมีความไวต่อตัวอย่างที่เป็นปฏิปักษ์ (นิยามว่าเป็นการรบกวนที่คำนวณได้และการรบกวนของรูปภาพ) เนื่องจากค่าคงที่ของ Lipchitz สูงระหว่างชั้น นี่ยังคงเป็นพื้นที่ของการวิจัยและสามารถเข้าใจได้ดีขึ้นผ่านการพิสูจน์ทางทฤษฎีมากขึ้น

นอกจากนี้ยังมีตัวอย่างของการวิเคราะห์ข้อมูลทอพอโลยีซึ่งมี บริษัท อย่างน้อยหนึ่งแห่ง ( Ayasdi ) ก่อตั้งขึ้น นี่เป็นตัวอย่างที่น่าสนใจอย่างยิ่งเพราะเทคนิคที่ใช้สำหรับมันมีความเฉพาะเจาะจงและเป็นนามธรรมที่แม้กระทั่งทุกวันนี้มันยังคงใช้เวลานานมากในการดูว่าความคิดของทฤษฎีนี้จบลงที่ใด ความเข้าใจของฉันคือความซับซ้อนของการคำนวณของอัลกอริทึมที่เกี่ยวข้องมีแนวโน้มที่จะค่อนข้างสูง (แต่แล้วอีกครั้งมันก็สูงพอ ๆ กันสำหรับเครือข่ายประสาทแม้แต่ 20 ปีที่แล้ว)


7

คำตอบของคำถามนี้ง่ายมากจริง ๆ ด้วยเหตุผลทางทฤษฎีที่อยู่เบื้องหลังโมเดลการเรียนรู้ของเครื่องเราอย่างน้อยสามารถพิสูจน์ได้ว่าเมื่อเงื่อนไขบางอย่างที่เหมือนจริงมากขึ้นหรือน้อยลงจะมีการรับประกันว่าจะได้ผลดีที่สุดสำหรับการแก้ปัญหา ไม่ว่าเราไม่ได้มีใด ๆค้ำประกันใด ๆ แน่นอนว่าคุณสามารถพูดว่า "ขอเพียงแค่ตรวจสอบว่าการทำงานและใช้มันสำหรับปัญหาที่เกิดขึ้นโดยเฉพาะอย่างยิ่ง" แต่นี้เป็นไปไม่ได้เนื่องจากมีอนันต์หลายวิธีวิธีที่คุณสามารถแก้ปัญหาการเรียนรู้เครื่องใด ๆ

สมมติว่าคุณต้องการที่จะทำนายบางให้บางXคุณรู้ได้อย่างไรว่าไม่ใช่วิธีที่ดีที่สุดในการแก้ปัญหานี้? แล้วล่ะ หรือ ? อาจแค่คืนเป็นคำทำนายของคุณ? หรือถ้าเป็นเลขคี่ให้ใช้และส่งคืนค่าหรือไม่? แน่นอนว่าคำแนะนำทั้งหมดนั้นฟังดูไร้สาระ แต่คุณจะมั่นใจได้อย่างไรว่าไม่มีทฤษฎีใดที่ว่าหนึ่งในนั้นจะไม่เหมาะสม ด้วยการแก้ปัญหาที่เป็นไปได้จำนวนอนันต์แม้แต่ปัญหาที่ง่ายที่สุดก็ไม่สามารถแก้ไขได้ ทฤษฎี จำกัด "พื้นที่การค้นหา" ของคุณในแบบจำลองที่เป็นไปได้สำหรับปัญหาบางประเภทYXX+42X+42.5X-4242XX+420


2
ตรวจสอบว่ารุ่นที่ผ่านการฝึกอบรมของคุณใช้งานได้กับการตรวจสอบและชุดการทดสอบไม่เพียงพอ เช่นเดียวกับการรับประกันว่าขอบเขตทางทฤษฎีมีอะไรถ้าขอบเขตของพวกเขาไม่สามารถใช้งานได้จริง?
Charlie Parker

6
X+(-,)

5

เพียงแค่ดูที่คำถาม: การเรียนรู้ด้วยเครื่องจักรและการเรียนรู้ด้วยทฤษฎีนั้นสำคัญหรือไม่?

กำหนดสิ่งที่คุณหมายถึงโดย "สำคัญ" มาจากมุมมองทางปรัชญามันเป็นความแตกต่างพื้นฐานถ้าคุณต้องการอธิบายบางสิ่งบางอย่างหรือเข้าใจบางสิ่งบางอย่าง ในคำตอบที่ค่อนข้างหยาบมันเป็นความแตกต่างระหว่างการเป็นวิทยาศาสตร์หรืออย่างอื่น ส่วนที่ใช้งานได้จริงนั้นไม่เกี่ยวข้องกับคำถามพื้นฐาน หากบางสิ่งยากเกินกว่าจะพิสูจน์ได้หรือเป็นไปไม่ได้ที่จะพิสูจน์สิ่งนี้ในตัวมันเองก็เป็นการค้นพบที่สำคัญ (ป้อน Goedel และคณะ) แต่นี่ไม่ได้หมายความว่าไม่เกี่ยวข้อง อย่างน้อยมันก็อาจดูเหมือนไม่เกี่ยวข้องกับมุมมองในทางปฏิบัติ แต่อย่างน้อยควรได้รับการยอมรับว่าเป็นสิ่งที่มีความสำคัญและคุณค่า

พิจารณาเปรียบเทียบ: ยาโดยรวม (และจากอดีต) ไม่ใช่วิทยาศาสตร์ ในบางวิธีมันไม่สามารถเป็นจริงได้ มันเป็นวินัยที่ควบคุมโดยผลของมันทั้งหมด ในกรณีส่วนใหญ่ไม่มีอะไรเหมือน "ความจริง" แต่ปรากฎว่าบางส่วนสามารถเป็นวิทยาศาสตร์ได้ - และนี่คือจุดที่ความก้าวหน้าส่วนใหญ่เกิดขึ้น

คำอธิบายสั้น ๆ อีกข้อหนึ่งอาจเป็นไปได้ว่าหากไม่มีทฤษฎีคุณก็สามารถทำเงินได้มากมาย หากมีประโยชน์จริง ๆ สำหรับ "ดีกว่า" คุณอาจได้รับรางวัลโนเบล แต่คุณจะไม่เคยได้รับเหรียญฟิลด์


1
+1 ฉันพบว่านี่เป็นคำตอบที่น่าสนใจสำหรับ OP แต่จะขอให้คุณอธิบายรายละเอียดเกี่ยวกับการแพทย์ว่าไม่ใช่ทางวิทยาศาสตร์ กระบวนการวินิจฉัยของการค้นหาสิ่งที่ไม่สบายผู้ป่วยเป็นกระบวนการที่ควรวินิจฉัยแยกโรค (แนวคิดเชิงทฤษฎีของโรคที่น่าสงสัย) และควรมีการรวบรวมข้อมูลเพื่อทำนายว่าโรคใดน่าจะเป็นไปได้มากที่สุด? ...
IWS

(ต่อ) ... ไม่มีการพยากรณ์โรคที่แพทย์พยายามประเมินแนวทางการเกิดโรคในอนาคตจากข้อมูลที่มีอยู่ซึ่งสามารถตรวจสอบและติดตามได้บ่อยครั้งโดยการติดตามและการค้นพบเชิงประจักษ์ และในที่สุดวิทยาศาสตร์คือการแสวงหาความจริงที่สูงกว่า แต่มีอยู่จริงหรือว่าเราคาดการณ์ความจริงที่เราเชื่อว่ามีอยู่ในปัจจุบันหรือไม่?
IWS

จริงๆแล้วคำถามเรื่องยานั้นลึกกว่าเดิมเล็กน้อย วิทยาศาสตร์นั้นเป็นเพียงวิธีหรือกระบวนการ สำหรับวิทยาศาสตร์ "สู่การทำงาน" คุณจะต้องมีความสามารถในการทดสอบสมมติฐานบนพื้นดินที่เท่าเทียมกันโดยมีความเป็นไปได้โดยธรรมชาติของการทำผิด ในระยะสั้น: ถ้าคุณไม่สามารถพิสูจน์ทฤษฎีที่ผิดมันไม่ใช่ทางวิทยาศาสตร์ สำหรับยาสิ่งนี้มีความเกี่ยวข้องทางจริยธรรมมากเกินไปและเนื่องจากคุณไม่สามารถปฏิบัติต่อผู้อื่นในเวลาเดียวกันด้วยการทดสอบสมมติฐานทางเลือกที่แตกต่างกันนั้นยากมาก [... ]
เทวดา

เกี่ยวกับส่วนที่สอง (วิทยาศาสตร์เป็นการแสวงหาความจริง) - อีกครั้งมันเป็นเพียงวิธีการ ดูเหมือนว่าจะเป็นวิธีการที่ประสบความสำเร็จที่สุดของมนุษย์ แต่มันไม่ได้เชื่อตามมันขึ้นอยู่กับข้อเท็จจริง และในบางวิธีมันก็เป็นระบบปิด ไม่มีความแตกต่าง (ทางวิทยาศาสตร์) ระหว่างความจริงและสิ่งก่อสร้างที่ดูเหมือนจะเหมือนกันมาก ข้อตกลงระหว่างนักวิทยาศาสตร์อาจให้กฎง่ายๆ (เช่น Occams มีดโกน) แต่วิทยาศาสตร์ไม่ใช่เข็มทิศในทะเลที่ไม่ใช่วิทยาศาสตร์
เทวดา

5

มนุษย์สามารถสร้างเรือรถม้าและอาคารมานานนับศตวรรษโดยปราศจากกฎของฟิสิกส์ แต่เนื่องจากวิทยาศาสตร์สมัยใหม่เราสามารถนำเทคโนโลยีเหล่านั้นไปสู่ระดับใหม่ทั้งหมด ทฤษฎีที่ได้รับการพิสูจน์แล้วช่วยให้สามารถทำการปรับปรุงได้อย่างมีหลักการ เราไม่เคยทำให้มันถึงดวงจันทร์หรือมีคอมพิวเตอร์โดยไม่มีทฤษฎีทางคณิตศาสตร์ของสสารและการคำนวณ

การเรียนรู้ของเครื่องเป็นเพียงอีกสาขาหนึ่งของวิทยาศาสตร์และวิศวกรรมศาสตร์เหมือนกัน แนวทางหลักในการเรียนรู้ของเครื่องทำให้เรามีเครื่องเคอร์เนลการเรียนรู้แบบมีโครงสร้างและวิธีการรวมกลุ่ม (การส่งเสริมป่าสุ่ม)


5

นี่เป็นตัวอย่างง่ายๆจากงานของฉัน

ฉันพอดีอวนประสาทมากกับผลลัพธ์อย่างต่อเนื่อง หนึ่งกำหนดน้ำหนักโดย backpropagation ในที่สุดมันก็จะมาบรรจบกัน

(ATA)-1ATY
AY

สุทธิลู่ของฉันวิธีที่เร็วกว่า

ขอบคุณทฤษฎี


3

ประสบการณ์นิยมกับทฤษฎี

คุณเขียน:

หนึ่งในข้อวิจารณ์ที่ใหญ่ที่สุดของทฤษฎีก็คือเพราะมันยากที่จะทำพวกเขามักจะจบลงด้วยการศึกษากรณีที่ถูก จำกัด มากหรือข้อสันนิษฐานที่ต้องนำมาเป็นหลักทำให้ผลลัพธ์ไร้ประโยชน์

นี้ผมคิดว่าแสดงให้เห็นถึงการแบ่งหลักระหว่างสองมุมมองที่เราสามารถเรียกเชิงประจักษ์และทฤษฎี

จากมุมมองเชิงประจักษ์ตามที่คุณอธิบายไว้ทฤษฎีบทก็ไร้ประโยชน์เพราะมันไม่ซับซ้อนพอที่จะสร้างแบบจำลองโลกแห่งความจริง พวกเขาพูดคุยเกี่ยวกับสถานการณ์ในอุดมคติที่เรียบง่ายซึ่งไม่ได้นำไปใช้ในโลกแห่งความเป็นจริง ดังนั้นประเด็นในการทำทฤษฎีคืออะไร

อย่างไรก็ตามจากมุมมองทางทฤษฎีตรงกันข้ามเป็นจริง สิ่งที่ประจักษ์นิยมสามารถสอนเราได้มากกว่า "ฉันใช้วิธีนี้กับชุดข้อมูลนี้และมันก็ดีกว่าการใช้วิธีอื่นในชุดข้อมูลเดียวกันนี้" สิ่งนี้มีประโยชน์สำหรับหนึ่งอินสแตนซ์ แต่พูดถึงปัญหาเล็กน้อย

ทฤษฎีอะไรที่ให้การค้ำประกันบางอย่าง นอกจากนี้ยังช่วยให้เราสามารถศึกษาสถานการณ์ที่ง่ายขึ้นอย่างแท้จริงเพื่อให้เราสามารถเริ่มทำความเข้าใจกับสิ่งที่เกิดขึ้น

ตัวอย่าง

ลองนึกภาพตัวอย่างจริง: คุณต้องการดูว่าแนวคิดเปลี่ยนไป (เมื่อข้อมูลเปลี่ยนแปลงตลอดเวลา) ส่งผลต่อความสามารถในการเรียนรู้ของคุณอย่างไร นักประสบการณ์นิยมที่บริสุทธิ์จะเข้าหาคำถามนี้ได้อย่างไร? สิ่งที่เขาทำได้จริงๆคือเริ่มใช้วิธีการต่าง ๆ และคิดว่าเขาสามารถทำได้ กระบวนการทั้งหมดอาจคล้ายกับสิ่งนี้:

  • ใช้เวลา 300 วันที่ผ่านมาและลองตรวจสอบว่าค่าเฉลี่ยของตัวแปรนั้นเปลี่ยนไปหรือไม่ ตกลงมันค่อนข้างทำงาน
  • ถ้าเราลอง 200 วันแทนล่ะ
  • ตกลงดีกว่าเราลองเปลี่ยนอัลกอริทึมเมื่อมีการดริฟท์เกิดขึ้น
  • รับชุดข้อมูลเพิ่มเติมและดูว่าวิธีการใดที่พัฒนาขึ้นได้ดีที่สุด
  • ผลลัพธ์ไม่ได้เป็นข้อสรุปบางทีอาจเดาได้ว่ามีแนวคิดแนวดิ่งมากกว่าหนึ่งประเภทเกิดขึ้นหรือไม่
  • ลองจำลองสถานการณ์ จะเกิดอะไรขึ้นถ้าเราจำลองแนวความคิดบางอย่างจากนั้นใช้วิธีการต่าง ๆ โดยใช้จำนวนวันที่แตกต่างกันเพื่อตรวจสอบว่ามีการเปลี่ยนแปลงเกิดขึ้นหรือไม่

สิ่งที่เรามีที่นี่คือผลลัพธ์ที่แม่นยำมากในชุดข้อมูลสองสามชุด อาจเป็นข้อมูลเพื่อให้การอัปเดตอัลกอริทึมการเรียนรู้ตามการสังเกต 200 วันที่ผ่านมาให้ความแม่นยำสูงสุด แต่จะใช้งานกับข้อมูลอื่นได้หรือไม่ การประมาณการ 200 วันนี้เชื่อถือได้เพียงใด การจำลองช่วย แต่พวกเขาไม่ได้สะท้อนโลกแห่งความจริง - ทฤษฎีปัญหาเดียวกันมี

ตอนนี้จินตนาการสิ่งเดียวกันจากมุมมองทางทฤษฎี:

  • ลดความซับซ้อนของสถานการณ์ให้เป็นระดับที่ไร้สาระ อาจใช้การแจกแจงแบบปกติ 2 รูปแบบโดยที่ค่าเฉลี่ยเปลี่ยนไปตามกาลเวลา
  • เลือกเงื่อนไขของคุณอย่างชัดเจน - เลือกรุ่นที่เหมาะสมที่สุดกับข้อมูลปกติ สมมติว่าคุณรู้ว่าข้อมูลเป็นเรื่องปกติ สิ่งที่คุณไม่รู้คือเมื่อเกิดการเปลี่ยนแปลง
  • อุปกรณ์วิธีการตรวจจับเมื่อมีการเปลี่ยนแปลงเกิดขึ้น อีกครั้งสามารถเริ่มต้นด้วยการสังเกต 200 ครั้ง
  • ขึ้นอยู่กับการตั้งค่าเหล่านี้เราควรจะสามารถคำนวณข้อผิดพลาดเฉลี่ยสำหรับลักษณนามเวลาเฉลี่ยที่ใช้สำหรับอัลกอริทึมจะตรวจสอบว่ามีการเปลี่ยนแปลงเกิดขึ้นและปรับปรุง อาจเป็นกรณีที่เลวร้ายที่สุดและรับประกันได้ในระดับโอกาส 95%

ตอนนี้สถานการณ์นี้ชัดเจนขึ้น - เราสามารถแยกปัญหาได้โดยแก้ไขรายละเอียดทั้งหมด เรารู้ข้อผิดพลาดโดยเฉลี่ยของตัวจําแนกของเรา สามารถประมาณจำนวนวันที่ต้องใช้เพื่อตรวจสอบว่ามีการเปลี่ยนแปลงเกิดขึ้น ลดสิ่งที่พารามิเตอร์นี้ขึ้นอยู่กับ (เช่นขนาดของการเปลี่ยนแปลง) และตอนนี้ก็ขึ้นอยู่กับบางสิ่งบางอย่างที่สร้างทางออกในทางปฏิบัติ แต่ที่สำคัญที่สุดคือทั้งหมดผลลัพธ์นี้ (หากคำนวณอย่างถูกต้อง) จะไม่มีการเปลี่ยนแปลง อยู่ที่นี่ตลอดไปและทุกคนสามารถเรียนรู้จากมัน

เหมือนหนึ่งในบรรพบุรุษของการเรียนรู้เครื่องจักรที่ทันสมัย ​​- Jürgen Schmidhuber ชอบพูดว่า:

การเรียนรู้แบบไปและกลับ - ทฤษฎีบทมีไว้สำหรับนิรันดร์

บทเรียนจากสาขาอื่น

นอกจากนี้ยังต้องการที่จะพูดถึงแนวบางอย่างเกี่ยวกับฟิสิกส์ ฉันคิดว่าพวกเขาเคยมีปัญหานี้เช่นกัน นักฟิสิกส์กำลังศึกษาวัตถุไร้ความเสียดทานของมวลอนันต์ที่เคลื่อนที่ไปในอวกาศ จากภาพรวมในครั้งแรกสิ่งนี้สามารถบอกเราเกี่ยวกับความเป็นจริงที่เราต้องการทราบว่าเกล็ดหิมะเคลื่อนไหวอย่างไรในสายลม แต่มันให้ความรู้สึกเหมือนว่าทฤษฎีพาพวกมันไปได้นาน


2

คุณพูดถึงเหตุผลบางอย่างซึ่งความสามารถในการตีความผลลัพธ์ ML เป็นสิ่งสำคัญที่สุดในความคิดของฉัน ให้เราบอกว่าผู้พิทักษ์ทรัพย์สินที่ขับเคลื่อนด้วย AI ตัดสินใจที่จะยิงสุนัขของเพื่อนบ้าน มันเป็นสิ่งสำคัญที่จะต้องเข้าใจว่าทำไมมันถึงทำเช่นนั้น หากไม่ป้องกันสิ่งนี้ให้เกิดขึ้นในอนาคตอย่างน้อยก็ต้องเข้าใจว่าใครเป็นผู้รับผิดชอบและใครจะเป็นผู้จ่ายค่าชดเชยให้เจ้าของ

อย่างไรก็ตามสำหรับฉันเหตุผลที่สำคัญที่สุดคือการเข้าใจหลักการที่อัลกอริทึมถูกก่อตั้งขึ้นช่วยให้เข้าใจข้อ จำกัด และปรับปรุงประสิทธิภาพการทำงาน พิจารณาการใช้ระยะทางแบบยุคลิดใน ML ในอัลกอริทึมการจัดกลุ่มจำนวนมากที่คุณเริ่มต้นด้วยคำจำกัดความของระยะห่างระหว่างตัวอย่างจากนั้นดำเนินการค้นหาขอบเขตระหว่างคุณสมบัติของตัวอย่างที่กลุ่มพวกเขาอยู่ใกล้เคียง เมื่อคุณเพิ่มจำนวนฟีเจอร์ระยะทางแบบยุคลิดจะหยุดทำงานในบางจุด คุณสามารถใช้เวลามากในการพยายามทำให้มันเป็นจริงหรือ - ถ้าคุณรู้ว่าระยะทางแบบยุคลิดในขณะที่การวัดระยะทางนั้นไม่ทำงานในขีด จำกัด มิติที่ไม่มีที่สิ้นสุด - เพียงแค่เปลี่ยนไปใช้ตัวชี้วัดระยะทางอื่น ๆ เช่นแมนฮัตตัน เกี่ยวกับปัญหาที่แท้จริง คุณสามารถค้นหาตัวอย่างมากมายเช่นอันนี้


2
ผมเคยได้ยินเรื่องนี้ยืนยันมาก่อน แต่ฉันไม่คิดว่าฉันรู้ตัวอย่างที่เฉพาะเจาะจงใด ๆ ที่จะแสดงให้เห็นถึงนี้: มีตัวอย่างของข้อมูลบางส่วนที่ไม่ได้รับการจัดกลุ่มกันด้วยระยะทางแบบยุคลิด แต่มีการจัดกลุ่มดีกับระยะทางที่แมนฮัตตัน?
อะมีบาพูดว่า Reinstate Monica

1
@ Amoeba นี่คือการอ้างอิงทั่วไปถึงแม้ว่าฉันจะวิ่งเข้าไปในนี้ก่อนหน้านี้ในบริบทที่แตกต่าง ถ้าคุณดูที่อัตราส่วนของปริมาตรของไฮเปอร์สเฟียร์ภายในหน่วยไฮเปอร์คิวบ์มันจะลดลงเป็นศูนย์เมื่อมิติของไฮเปอร์คิวบ์ไปที่อนันต์ โดยทั่วไปแล้วในมิติที่สูงขึ้นร่างกายนูนทั้งหมดยุบลงในจุด - การตีความของฉัน
Aksakal

2

ฉันคิดว่ามันยากมากที่จะไม่พูดถึงเรื่องปรัชญา คำตอบของฉันเป็นคำพูดที่ดีมากที่กล่าวถึงแล้วที่นี่ (+1 สำหรับทุกคน); ฉันแค่ต้องการชี้ไปที่ข้อความจาก Andrew Gelman ที่พูดกับฉันจริงๆว่าเป็นคนที่ฝึกฝนเป็นนักวิทยาศาสตร์คอมพิวเตอร์ ฉันรู้สึกว่าหลายคนที่เรียกสิ่งที่พวกเขาเรียนรู้ด้วยเครื่องจักรนั้นมาจากวิทยาการคอมพิวเตอร์ ข้อความอ้างอิงมาจากการพูดคุยที่ Gelman ให้ไว้ในการประชุม R New York 2017 ในปี 2560 ที่เรียกว่าTheoretical Statistics เป็นทฤษฎีของสถิติประยุกต์ :

ทฤษฎีสามารถปรับขนาดได้

ทฤษฎีจะบอกคุณว่าอะไรเหมาะสมและอะไรไม่ได้ภายใต้เงื่อนไขบางประการ เราต้องการทำแบบจำลองเป็นพันหรือหมื่นหรือหมื่นเพื่อให้เข้าใจถึงความจริงหรือไม่? เราต้องการเปรียบเทียบเชิงประจักษ์กับชุดข้อมูลมาตรฐานเพิ่มมากขึ้นหรือไม่? อาจต้องใช้เวลาสักครู่และผลลัพธ์ของเราอาจยังเปราะบาง นอกจากนี้เราจะทราบได้อย่างไรว่าการเปรียบเทียบที่เราทำนั้นสมเหตุสมผล เราจะรู้ได้อย่างไรว่าผู้เรียน Deep Deep ใหม่ของเราที่มีความแม่นยำ 99.5% นั้นดีกว่าคนเก่าที่มีความแม่นยำ 99.1% จริงๆ ทฤษฎีบางอย่างจะช่วยที่นี่

ฉันเป็นแฟนตัวยงของการจำลองและฉันใช้มันเป็นจำนวนมากในการทำความเข้าใจโลก (หรือแม้กระทั่งเข้าใจทฤษฎี) แต่การเรียนรู้ด้วยเครื่องเชิงทฤษฎีคือทฤษฎีของการเรียนรู้ด้วยเครื่องประยุกต์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.