ฉันคิดว่าแบบจำลองเชิงเส้นทั่วไป (GLM) จะถือเป็นแบบจำลองทางสถิติ แต่เพื่อนคนหนึ่งบอกฉันว่าเอกสารบางประเภทจัดเป็นเทคนิคการเรียนรู้ของเครื่อง สิ่งใดเป็นจริง (หรือแม่นยำยิ่งขึ้น) คำอธิบายใด ๆ ที่จะได้รับการชื่นชม
ฉันคิดว่าแบบจำลองเชิงเส้นทั่วไป (GLM) จะถือเป็นแบบจำลองทางสถิติ แต่เพื่อนคนหนึ่งบอกฉันว่าเอกสารบางประเภทจัดเป็นเทคนิคการเรียนรู้ของเครื่อง สิ่งใดเป็นจริง (หรือแม่นยำยิ่งขึ้น) คำอธิบายใด ๆ ที่จะได้รับการชื่นชม
คำตอบ:
GLM เป็นแบบจำลองทางสถิติอย่างแน่นอน แต่แบบจำลองเชิงสถิติและเทคนิคการเรียนรู้ของเครื่องนั้นไม่ได้เกิดขึ้นพร้อมกัน โดยทั่วไปสถิติจะเกี่ยวข้องกับพารามิเตอร์ที่อนุมานมากกว่าในขณะที่การเรียนรู้ของเครื่องการคาดการณ์เป็นเป้าหมายสูงสุด
เกี่ยวกับการคาดการณ์สถิติและวิทยาศาสตร์การเรียนรู้ของเครื่องจักรเริ่มที่จะแก้ปัญหาเดียวกันส่วนใหญ่จากมุมมองที่แตกต่างกัน
สถิติโดยทั่วไปถือว่าข้อมูลถูกสร้างขึ้นโดยโมเดลสุ่มที่กำหนด ดังนั้นจากมุมมองทางสถิติโมเดลจะถูกสันนิษฐานและให้สมมติฐานต่าง ๆ ว่าข้อผิดพลาดได้รับการปฏิบัติและพารามิเตอร์ของโมเดลและคำถามอื่น ๆ ถูกอนุมาน
การเรียนรู้ของเครื่องมาจากมุมมองของวิทยาศาสตร์คอมพิวเตอร์ ตัวแบบเป็นอัลกอริทึมและมักจะมีข้อสมมติน้อยมากเกี่ยวกับข้อมูล เราทำงานกับพื้นที่สมมุติฐานและอคติการเรียนรู้ การแสดงออกที่ดีที่สุดของการเรียนรู้เครื่องผมพบว่ามีอยู่ในหนังสือเล่มทอมมิตเชลล์เรียกว่าเครื่องเรียนรู้
สำหรับแนวคิดที่ละเอียดและครบถ้วนสมบูรณ์มากขึ้นเกี่ยวกับสองวัฒนธรรมคุณสามารถอ่านกระดาษ Leo Breiman ที่เรียกว่าแบบจำลองเชิงสถิติ: The Two Cultures
อย่างไรก็ตามสิ่งที่ต้องเพิ่มคือแม้ว่าวิทยาศาสตร์ทั้งสองเริ่มต้นด้วยมุมมองที่แตกต่างกันตอนนี้พวกเขาทั้งสองตอนนี้แบ่งปันความรู้และเทคนิคทั่วไปจำนวนพอสมควร ทำไมเพราะปัญหาเหมือนกัน แต่เครื่องมือต่างกัน ดังนั้นตอนนี้การเรียนรู้เครื่องได้รับการรักษาส่วนใหญ่มาจากมุมมองทางสถิติ (ตรวจสอบ Hastie, Tibshirani หนังสือฟรีดแมนองค์ประกอบของการเรียนรู้ทางสถิติจากเครื่องมุมมองการเรียนรู้ด้วยการบำบัดทางสถิติและบางทีหนังสือเควินพีเมอร์ฟี่ 's เครื่องเรียนรู้: การ มุมมองความน่าจะเป็นเพื่อตั้งชื่อหนังสือเพียงไม่กี่เล่มที่ดีที่สุดในปัจจุบัน)
แม้แต่ประวัติศาสตร์ของการพัฒนาด้านนี้ก็ยังแสดงให้เห็นถึงประโยชน์ของการผสานมุมมองนี้ ฉันจะอธิบายสองเหตุการณ์
อย่างแรกคือการสร้างต้นไม้ CART ซึ่งถูกสร้างโดย Breiman ที่มีภูมิหลังทางสถิติที่มั่นคง ในเวลาประมาณเดียวกัน Quinlan พัฒนา ID3, C45, See5 และอื่น ๆ ชุดต้นไม้ตัดสินใจที่มีพื้นหลังวิทยาศาสตร์คอมพิวเตอร์มากขึ้น ตอนนี้ทั้งครอบครัวของต้นไม้และวิธีการรวมกันเช่นห่อและป่ากลายเป็นเหมือนกัน
เรื่องที่สองเป็นเรื่องเกี่ยวกับการส่งเสริม เริ่มแรกพวกเขาได้รับการพัฒนาโดย Freund และ Shapire เมื่อพวกเขาค้นพบ AdaBoost ตัวเลือกสำหรับการออกแบบ AdaBoost ส่วนใหญ่ทำจากมุมมองการคำนวณ แม้แต่ผู้เขียนก็ไม่เข้าใจว่าทำไมมันถึงได้ผล เพียง 5 ปีต่อมา Breiman (อีกครั้ง!) ได้อธิบายโมเดล adaboost จากมุมมองทางสถิติและให้คำอธิบายว่าทำไมถึงได้ผล ตั้งแต่นั้นมานักวิทยาศาสตร์ที่มีชื่อเสียงหลายคนที่มีภูมิหลังทั้งสองประเภทได้พัฒนาแนวคิดเหล่านั้นที่นำไปสู่การเพิ่มอัลกอริธึมมากมายเช่นการเพิ่มโลจิสติกการส่งเสริมการไล่ระดับสี ตอนนี้มันเป็นเรื่องยากที่จะคิดว่าการส่งเสริมโดยไม่มีพื้นฐานทางสถิติที่แข็งแกร่ง
โมเดลเชิงเส้นทั่วไปคือการพัฒนาทางสถิติ อย่างไรก็ตามการรักษาแบบเบย์ใหม่ทำให้อัลกอริทึมนี้ยังอยู่ในสนามเด็กเล่นการเรียนรู้ของเครื่อง ดังนั้นฉันจึงเชื่อว่าการอ้างสิทธิ์ทั้งสองอาจถูกต้องเนื่องจากการตีความและการปฏิบัติต่อวิธีการทำงานอาจแตกต่างกัน
นอกเหนือจากคำตอบของเบ็นแล้วความแตกต่างที่ละเอียดอ่อนระหว่างแบบจำลองทางสถิติและแบบจำลองการเรียนรู้ของเครื่องคือในแบบจำลองทางสถิติคุณจะต้องตัดสินใจโครงสร้างสมการเอาท์พุทอย่างชัดเจนก่อนสร้างแบบจำลอง แบบจำลองถูกสร้างขึ้นเพื่อคำนวณพารามิเตอร์ / ค่าสัมประสิทธิ์
ใช้โมเดลเชิงเส้นหรือ GLM เช่น
y = a1x1 + a2x2 + a3x3
ตัวแปรอิสระของคุณคือ x1, x2, x3 และค่าสัมประสิทธิ์ที่ต้องพิจารณาคือ a1, a2, a3 คุณกำหนดโครงสร้างสมการของคุณด้วยวิธีนี้ก่อนที่จะสร้างแบบจำลองและคำนวณ a1, a2, a3 หากคุณเชื่อว่า y มีความสัมพันธ์กับ x2 ในลักษณะที่ไม่ใช่เชิงเส้นคุณสามารถลองแบบนี้ได้
y = a1x1 + a2(x2)^2 + a3x3.
ดังนั้นคุณวางข้อ จำกัด ในแง่ของโครงสร้างเอาท์พุท ตัวแบบเชิงสถิติโดยธรรมชาติเป็นตัวแบบเชิงเส้นยกเว้นว่าคุณใช้การแปลงอย่างชัดเจนเช่น sigmoid หรือเคอร์เนลเพื่อทำให้เป็นแบบไม่เชิงเส้น (GLM และ SVM)
ในกรณีของรูปแบบการเรียนรู้ของเครื่องคุณไม่ค่อยระบุโครงสร้างเอาท์พุทและอัลกอริธึมเช่นต้นไม้ตัดสินใจโดยเนื้อแท้แล้วไม่เชิงเส้นและทำงานได้อย่างมีประสิทธิภาพ
ตรงกันข้ามกับสิ่งที่เบ็นชี้ให้เห็นโมเดลการเรียนรู้ของเครื่องไม่ได้เป็นเพียงแค่การคาดการณ์เท่านั้น แต่ยังมีการจำแนกประเภทการถดถอยและอื่น ๆ ซึ่งสามารถใช้ในการทำนายซึ่งทำโดยตัวแบบสถิติต่างๆ
GLM เป็นอย่างแบบจำลองทางสถิติในขณะที่วิธีการมากขึ้นและสถิติได้ถูกนำมาใช้ในอุตสาหกรรมการผลิตเป็นกลไกการเรียนรู้เทคนิค การวิเคราะห์เมตาซึ่งฉันอ่านมากที่สุดในช่วงนี้เป็นตัวอย่างที่ดีในด้านสถิติ
การประยุกต์ใช้ในอุตสาหกรรมที่สมบูรณ์แบบด้วย GLM สามารถอธิบายได้ว่าทำไมเพื่อนของคุณบอกคุณว่า GLM ถูกมองว่าเป็นกลไกการเรียนรู้เทคนิค คุณสามารถอ้างถึงเอกสารต้นฉบับได้ที่http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdfเกี่ยวกับเรื่องนั้น
ฉันใช้งานแบบย่อซึ่งถือว่าเป็นกรอบงานหลักสำหรับระบบคำแนะนำของฉันในสถานการณ์การผลิตเมื่อไม่กี่สัปดาห์ที่ผ่านมา ชื่นชมมากถ้าคุณให้คำแนะนำกับฉันและคุณสามารถตรวจสอบซอร์สโค้ดได้ที่: https://github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala
หวังว่านี้จะช่วยให้คุณวันดี!