GLM เป็นรูปแบบการเรียนรู้ทางสถิติหรือเครื่องหรือไม่


11

ฉันคิดว่าแบบจำลองเชิงเส้นทั่วไป (GLM) จะถือเป็นแบบจำลองทางสถิติ แต่เพื่อนคนหนึ่งบอกฉันว่าเอกสารบางประเภทจัดเป็นเทคนิคการเรียนรู้ของเครื่อง สิ่งใดเป็นจริง (หรือแม่นยำยิ่งขึ้น) คำอธิบายใด ๆ ที่จะได้รับการชื่นชม


1
ฉันคิดว่าการเรียนรู้ด้วยเครื่องจักรมักจะเป็นแอพพลิเคชั่นของการสร้างแบบจำลองทางสถิติดังนั้นฉันจึงบอกว่ามันเป็นทั้งสองอย่าง
joews

คำตอบ:


21

GLM เป็นแบบจำลองทางสถิติอย่างแน่นอน แต่แบบจำลองเชิงสถิติและเทคนิคการเรียนรู้ของเครื่องนั้นไม่ได้เกิดขึ้นพร้อมกัน โดยทั่วไปสถิติจะเกี่ยวข้องกับพารามิเตอร์ที่อนุมานมากกว่าในขณะที่การเรียนรู้ของเครื่องการคาดการณ์เป็นเป้าหมายสูงสุด


15

เกี่ยวกับการคาดการณ์สถิติและวิทยาศาสตร์การเรียนรู้ของเครื่องจักรเริ่มที่จะแก้ปัญหาเดียวกันส่วนใหญ่จากมุมมองที่แตกต่างกัน

สถิติโดยทั่วไปถือว่าข้อมูลถูกสร้างขึ้นโดยโมเดลสุ่มที่กำหนด ดังนั้นจากมุมมองทางสถิติโมเดลจะถูกสันนิษฐานและให้สมมติฐานต่าง ๆ ว่าข้อผิดพลาดได้รับการปฏิบัติและพารามิเตอร์ของโมเดลและคำถามอื่น ๆ ถูกอนุมาน

การเรียนรู้ของเครื่องมาจากมุมมองของวิทยาศาสตร์คอมพิวเตอร์ ตัวแบบเป็นอัลกอริทึมและมักจะมีข้อสมมติน้อยมากเกี่ยวกับข้อมูล เราทำงานกับพื้นที่สมมุติฐานและอคติการเรียนรู้ การแสดงออกที่ดีที่สุดของการเรียนรู้เครื่องผมพบว่ามีอยู่ในหนังสือเล่มทอมมิตเชลล์เรียกว่าเครื่องเรียนรู้

สำหรับแนวคิดที่ละเอียดและครบถ้วนสมบูรณ์มากขึ้นเกี่ยวกับสองวัฒนธรรมคุณสามารถอ่านกระดาษ Leo Breiman ที่เรียกว่าแบบจำลองเชิงสถิติ: The Two Cultures

อย่างไรก็ตามสิ่งที่ต้องเพิ่มคือแม้ว่าวิทยาศาสตร์ทั้งสองเริ่มต้นด้วยมุมมองที่แตกต่างกันตอนนี้พวกเขาทั้งสองตอนนี้แบ่งปันความรู้และเทคนิคทั่วไปจำนวนพอสมควร ทำไมเพราะปัญหาเหมือนกัน แต่เครื่องมือต่างกัน ดังนั้นตอนนี้การเรียนรู้เครื่องได้รับการรักษาส่วนใหญ่มาจากมุมมองทางสถิติ (ตรวจสอบ Hastie, Tibshirani หนังสือฟรีดแมนองค์ประกอบของการเรียนรู้ทางสถิติจากเครื่องมุมมองการเรียนรู้ด้วยการบำบัดทางสถิติและบางทีหนังสือเควินพีเมอร์ฟี่ 's เครื่องเรียนรู้: การ มุมมองความน่าจะเป็นเพื่อตั้งชื่อหนังสือเพียงไม่กี่เล่มที่ดีที่สุดในปัจจุบัน)

แม้แต่ประวัติศาสตร์ของการพัฒนาด้านนี้ก็ยังแสดงให้เห็นถึงประโยชน์ของการผสานมุมมองนี้ ฉันจะอธิบายสองเหตุการณ์

อย่างแรกคือการสร้างต้นไม้ CART ซึ่งถูกสร้างโดย Breiman ที่มีภูมิหลังทางสถิติที่มั่นคง ในเวลาประมาณเดียวกัน Quinlan พัฒนา ID3, C45, See5 และอื่น ๆ ชุดต้นไม้ตัดสินใจที่มีพื้นหลังวิทยาศาสตร์คอมพิวเตอร์มากขึ้น ตอนนี้ทั้งครอบครัวของต้นไม้และวิธีการรวมกันเช่นห่อและป่ากลายเป็นเหมือนกัน

เรื่องที่สองเป็นเรื่องเกี่ยวกับการส่งเสริม เริ่มแรกพวกเขาได้รับการพัฒนาโดย Freund และ Shapire เมื่อพวกเขาค้นพบ AdaBoost ตัวเลือกสำหรับการออกแบบ AdaBoost ส่วนใหญ่ทำจากมุมมองการคำนวณ แม้แต่ผู้เขียนก็ไม่เข้าใจว่าทำไมมันถึงได้ผล เพียง 5 ปีต่อมา Breiman (อีกครั้ง!) ได้อธิบายโมเดล adaboost จากมุมมองทางสถิติและให้คำอธิบายว่าทำไมถึงได้ผล ตั้งแต่นั้นมานักวิทยาศาสตร์ที่มีชื่อเสียงหลายคนที่มีภูมิหลังทั้งสองประเภทได้พัฒนาแนวคิดเหล่านั้นที่นำไปสู่การเพิ่มอัลกอริธึมมากมายเช่นการเพิ่มโลจิสติกการส่งเสริมการไล่ระดับสี ตอนนี้มันเป็นเรื่องยากที่จะคิดว่าการส่งเสริมโดยไม่มีพื้นฐานทางสถิติที่แข็งแกร่ง

โมเดลเชิงเส้นทั่วไปคือการพัฒนาทางสถิติ อย่างไรก็ตามการรักษาแบบเบย์ใหม่ทำให้อัลกอริทึมนี้ยังอยู่ในสนามเด็กเล่นการเรียนรู้ของเครื่อง ดังนั้นฉันจึงเชื่อว่าการอ้างสิทธิ์ทั้งสองอาจถูกต้องเนื่องจากการตีความและการปฏิบัติต่อวิธีการทำงานอาจแตกต่างกัน


5

นอกเหนือจากคำตอบของเบ็นแล้วความแตกต่างที่ละเอียดอ่อนระหว่างแบบจำลองทางสถิติและแบบจำลองการเรียนรู้ของเครื่องคือในแบบจำลองทางสถิติคุณจะต้องตัดสินใจโครงสร้างสมการเอาท์พุทอย่างชัดเจนก่อนสร้างแบบจำลอง แบบจำลองถูกสร้างขึ้นเพื่อคำนวณพารามิเตอร์ / ค่าสัมประสิทธิ์

ใช้โมเดลเชิงเส้นหรือ GLM เช่น

y = a1x1 + a2x2 + a3x3

ตัวแปรอิสระของคุณคือ x1, x2, x3 และค่าสัมประสิทธิ์ที่ต้องพิจารณาคือ a1, a2, a3 คุณกำหนดโครงสร้างสมการของคุณด้วยวิธีนี้ก่อนที่จะสร้างแบบจำลองและคำนวณ a1, a2, a3 หากคุณเชื่อว่า y มีความสัมพันธ์กับ x2 ในลักษณะที่ไม่ใช่เชิงเส้นคุณสามารถลองแบบนี้ได้

y = a1x1 + a2(x2)^2 + a3x3.

ดังนั้นคุณวางข้อ จำกัด ในแง่ของโครงสร้างเอาท์พุท ตัวแบบเชิงสถิติโดยธรรมชาติเป็นตัวแบบเชิงเส้นยกเว้นว่าคุณใช้การแปลงอย่างชัดเจนเช่น sigmoid หรือเคอร์เนลเพื่อทำให้เป็นแบบไม่เชิงเส้น (GLM และ SVM)

ในกรณีของรูปแบบการเรียนรู้ของเครื่องคุณไม่ค่อยระบุโครงสร้างเอาท์พุทและอัลกอริธึมเช่นต้นไม้ตัดสินใจโดยเนื้อแท้แล้วไม่เชิงเส้นและทำงานได้อย่างมีประสิทธิภาพ

ตรงกันข้ามกับสิ่งที่เบ็นชี้ให้เห็นโมเดลการเรียนรู้ของเครื่องไม่ได้เป็นเพียงแค่การคาดการณ์เท่านั้น แต่ยังมีการจำแนกประเภทการถดถอยและอื่น ๆ ซึ่งสามารถใช้ในการทำนายซึ่งทำโดยตัวแบบสถิติต่างๆ


การใช้ตรรกะโครงข่ายประสาทเทียมนั้นเป็นแบบจำลองทางสถิติเนื่องจากมีการตัดสินใจสถาปัตยกรรมล่วงหน้า ฉันไม่คิดว่าจะพยายามกำหนดขอบเขตที่ชัดเจนระหว่างสถิติและการเรียนรู้ของเครื่องเป็นไปได้หรือจำเป็น
Marc Claesen

นี่คือเหตุผลที่ฉันพูดถึงคำว่า 'ไม่ค่อย' ในย่อหน้าการเรียนรู้ของเครื่อง ฉันไม่ได้บอกว่าคุณทำไม่ได้อย่างแน่นอน! สำหรับคนที่เริ่มสำรวจสิ่งเหล่านี้เป็นเรื่องดีที่จะทราบถึงความแตกต่างระหว่างการเรียนรู้ทางสถิติและการเรียนรู้ของเครื่องจักร
binga

ฉันชอบคำอธิบายนี้ ฉันได้พบว่าในโลกสถิติมีความสำคัญอย่างมากต่อการทำให้ข้อมูลเป็นมาตรฐานวิศวกรรมคุณลักษณะและการปรับโมเดลให้เหมาะสม ในโลก ML ขณะที่ยังคงมีความสำคัญปรากฏว่าผู้คนใช้การทำให้เป็นปกติและข้อมูลจำนวนมากขึ้นเพื่อ 'ค้นหารูปแบบที่ถูกต้อง' ซึ่งต้องใช้สมมติฐานที่น้อยกว่า หมายเหตุ: นั่นเป็นความรู้สึกของฉันจากการได้เป็นอาจารย์ทั้งใน แต่ฉันยินดีต้อนรับผู้อื่นแก้ไขฉันถ้าพวกเขาคิดว่าฉันผิด
user1761806

2

GLM เป็นอย่างแบบจำลองทางสถิติในขณะที่วิธีการมากขึ้นและสถิติได้ถูกนำมาใช้ในอุตสาหกรรมการผลิตเป็นกลไกการเรียนรู้เทคนิค การวิเคราะห์เมตาซึ่งฉันอ่านมากที่สุดในช่วงนี้เป็นตัวอย่างที่ดีในด้านสถิติ

การประยุกต์ใช้ในอุตสาหกรรมที่สมบูรณ์แบบด้วย GLM สามารถอธิบายได้ว่าทำไมเพื่อนของคุณบอกคุณว่า GLM ถูกมองว่าเป็นกลไกการเรียนรู้เทคนิค คุณสามารถอ้างถึงเอกสารต้นฉบับได้ที่http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdfเกี่ยวกับเรื่องนั้น

ฉันใช้งานแบบย่อซึ่งถือว่าเป็นกรอบงานหลักสำหรับระบบคำแนะนำของฉันในสถานการณ์การผลิตเมื่อไม่กี่สัปดาห์ที่ผ่านมา ชื่นชมมากถ้าคุณให้คำแนะนำกับฉันและคุณสามารถตรวจสอบซอร์สโค้ดได้ที่: https://github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala

หวังว่านี้จะช่วยให้คุณวันดี!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.