การถดถอยเชิงเส้นควรเรียกว่า“ การเรียนรู้ของเครื่อง” เมื่อใด


90

ในการสัมมนาที่ผ่านมาบทคัดย่อของผู้พูดอ้างว่าพวกเขาใช้การเรียนรู้ของเครื่อง ในระหว่างการพูดคุยสิ่งเดียวที่เกี่ยวข้องกับการเรียนรู้ของเครื่องคือพวกเขาทำการถดถอยเชิงเส้นในข้อมูลของพวกเขา หลังจากการคำนวณค่าสัมประสิทธิ์ที่เหมาะสมที่สุดในพื้นที่พารามิเตอร์ 5D พวกเขาเปรียบเทียบค่าสัมประสิทธิ์เหล่านี้ในระบบหนึ่งกับค่าสัมประสิทธิ์ที่เหมาะสมที่สุดของระบบอื่น ๆ

เมื่อใดที่การเรียนรู้ของเครื่องถดถอยเชิงเส้นตรงข้ามกับการหาเส้นที่เหมาะสมที่สุด (บทคัดย่อของผู้วิจัยทำให้เข้าใจผิดหรือไม่)

ด้วยการเรียนรู้ด้วยความสนใจทั้งหมดได้รับการรวบรวมเมื่อเร็ว ๆ นี้ดูเหมือนว่าสิ่งสำคัญที่จะทำให้ความแตกต่างดังกล่าว

คำถามของฉันเป็นแบบนี้ยกเว้นคำถามนั้นถามถึงคำจำกัดความของ "การถดถอยเชิงเส้น" ในขณะที่ฉันถามเมื่อการถดถอยเชิงเส้น (ซึ่งมีแอปพลิเคชันจำนวนมาก) อาจถูกเรียกว่า "การเรียนรู้ด้วยเครื่อง" อย่างเหมาะสม

ชี้แจง

ฉันไม่ได้ถามเมื่อการถดถอยเชิงเส้นเหมือนกับการเรียนรู้ของเครื่อง ตามที่บางคนได้ชี้ให้เห็นอัลกอริทึมเดียวไม่ได้เป็นสาขาของการศึกษา ฉันถามว่าถูกต้องหรือไม่ที่จะบอกว่าสิ่งหนึ่งกำลังทำการเรียนรู้ของเครื่องเมื่ออัลกอริทึมที่ใช้อยู่นั้นเป็นเพียงการถดถอยเชิงเส้น

เรื่องตลกทั้งหมด (ดูความคิดเห็น) หนึ่งในเหตุผลที่ฉันถามเรื่องนี้ก็เพราะมันผิดจรรยาบรรณที่จะบอกว่าหนึ่งคือการเรียนรู้ของเครื่องเพื่อเพิ่มดาวสีทองสองสามชื่อของคุณถ้าพวกเขาไม่ได้เรียนรู้ด้วยเครื่องจริงๆ (นักวิทยาศาสตร์หลายคนคำนวณชนิดของสายที่ดีที่สุดเหมาะสำหรับการทำงานของพวกเขาบางส่วน แต่นี้ไม่ได้หมายความว่าพวกเขากำลังทำกลไกการเรียนรู้.) บนมืออื่น ๆ ที่มีอย่างชัดเจนสถานการณ์เมื่อการถดถอยเชิงเส้นจะถูกนำมาใช้เป็นส่วนหนึ่งของการเรียนรู้เครื่อง ฉันกำลังมองหาผู้เชี่ยวชาญเพื่อช่วยจำแนกสถานการณ์เหล่านี้ ;-)



75
คุณควรเปลี่ยนชื่อการถดถอยของคุณเป็น 'การเรียนรู้ของเครื่อง' ทุกครั้งที่คุณต้องการเพิ่มค่าธรรมเนียมเป็นสองเท่าในบัตรราคาของคุณ
Sycorax

3
มีความแตกต่าง การเรียนรู้เป็นกระบวนการ แบบที่ดีที่สุดคือเป้าหมาย ดูคำตอบของฉันด้านล่าง ตรงไปตรงคำไม่ได้มีความหมายเหมือนกันแม้ว่าจะสามารถปรากฏในบริบทเดียวกันเช่น "นกบิน" หนึ่งสามารถเชื่อมโยงทั้งสอง แต่นกไม่ได้บินและแม้ว่าการบินสำหรับนกมันเป็นสำหรับ F -18 เครื่องบินไอพ่นเช่นกัน
Carl

20
@Sycorax และการเรียนรู้ลึกเมื่อคุณต้องการสี่เท่า
Franck Dernoncourt

11
@FranckDernoncourt "ฉันเป็นนักวิทยาศาสตร์ด้านข้อมูลที่ใช้การเรียนรู้อย่างลึกล้ำในสภาพแวดล้อมข้อมูลขนาดใหญ่เพื่อแก้ปัญหาการเรียนรู้ของเครื่อง"ดูเหมือนจะเป็นส่วนหัวที่ดีสำหรับโปรไฟล์ LinkedIn;)
ทิม

คำตอบ:


78

ตอบคำถามของคุณด้วยคำถาม: การเรียนรู้ของเครื่องคืออะไร เทรเวอร์ Hastie, โรเบิร์ตทิบชิรา นี และเจอโรมฟรีดแมนในองค์ประกอบของการเรียนรู้ทางสถิติ , เควินพีเมอร์ฟี่ในเครื่องการเรียนรู้น่าจะเป็นมุมมองของคริสโตบิชอปในรูปแบบการรับรู้และการเรียนรู้เครื่องเอียน Goodfellow, โยชัวเบนจิโอและอาโรน Courville ในการเรียนรู้ลึกและจำนวนของ การเรียนรู้ของเครื่องอื่น ๆ "พระคัมภีร์" พูดถึงการถดถอยเชิงเส้นเป็นหนึ่งในการเรียนรู้ของเครื่อง "อัลกอริทึม" การเรียนรู้ของเครื่องเป็นส่วนหนึ่งของคำศัพท์สำหรับสถิติที่ใช้และความแตกต่างระหว่างสถิติและการเรียนรู้ของเครื่องมักจะพร่ามัว


4
จริง แต่พวกเขาอยู่ในวินัยส่วนใหญ่ siled กับวรรณกรรม nonoverlapping จำนวนมากวิธีและอัลกอริทึม ตัวอย่างเช่นในการเรียนรู้ของเครื่องจักรโลกในปัจจุบันข้อมูลและวิทยาศาสตร์คอมพิวเตอร์เป็นวิธีที่นำหน้าผู้สมัครทางสถิติทั้งในแง่ของเงินทุนเงินช่วยเหลือและงานที่ทำ
Mike Hunter

6
@Dohnson ดังนั้นจึงใช้สถิติกับแพคเกจใหม่ขายในราคาที่สูงขึ้น .. ? ฉันไม่คิดว่าความจริงที่ว่ามันอินเทรนด์ไม่ได้ทำให้มันเป็นคำฮิต สถิติแบบเบย์มีวิธีการของตนเองวารสารการประชุมคู่มือและการใช้งานที่ไม่ทับซ้อนกับสถิติแบบดั้งเดิม - มันทำให้มีวินัยที่แตกต่างกับสถิติหรือไม่?
ทิม

3
ได้. ฉันเพิกเฉยต่อข้อสังเกตของฉันเกี่ยวกับผู้ปฏิบัติงาน ML ที่มีข้อสังเกตทั่วไปมากขึ้นว่าผู้ปฏิบัติงานที่มีสมาธิและปรีชาญาณที่หวุดหวิดนั้นมีถิ่นกำเนิดในทุกสาขาอาชีพและไม่ใช่แค่ ML มันเป็นอันตรายอย่างหนึ่งจากการทำงาน - อ่านความล้มเหลวของมนุษย์ - ผู้คนเพิ่มความตาบอดให้กับข้อมูลที่อยู่นอกเหนือความต้องการและความสนใจในทันที CV ก็ไม่มีข้อยกเว้น
Mike Hunter

23
(+1) ฉันเห็นด้วยไม่มีความแตกต่างที่ชัดเจน ในระดับที่ฉันคิดว่าแตกต่างฉันมักจะคิดถึง ML ที่เกี่ยวข้องกับการคาดการณ์และสถิติที่เกี่ยวข้องกับการอนุมานพารามิเตอร์มากกว่า (เช่นการออกแบบการทดลองสำหรับการสร้างแบบจำลองพื้นผิวการตอบสนองจะไม่เป็นเรื่องปกติใน ML?) ดังนั้นในกรณีดังกล่าวตัวอย่าง OP - ซึ่งค่าสัมประสิทธิ์การถดถอยดูเหมือนจะเป็นที่กังวลมากที่สุด - จะเป็น "สถิติเหมือน" (?) มากขึ้น
GeoMatt22

3
ดูเพิ่มเติมสองวัฒนธรรมโดย Leo Breiman ซึ่งทำให้มีลักษณะคล้ายกับ @ GeoMatt22: ML เน้นการทำนายที่แม่นยำ ไม่ว่าจะเป็นรูปแบบที่เป็นจริงไม่สำคัญ สถิติแบบคลาสสิกกำลังมองหาโมเดล "ของจริง" ในบางแง่มุมหรืออย่างน้อยก็เป็นโมเดลที่ให้ข้อมูลเชิงลึกเกี่ยวกับกระบวนการที่สร้างข้อมูล
ปีเตอร์

41

การถดถอยเชิงเส้นเป็นวิธีที่แน่นอนที่สามารถใช้ในการเรียนรู้ของเครื่อง แต่reductio น่าหัวเราะ : ทุกคนที่มีสำเนาของ Excel สามารถพอดีกับรูปแบบเชิงเส้น

แม้แต่การ จำกัด ตัวเราเองให้อยู่ในรูปแบบเชิงเส้นมีอีกหลายสิ่งที่ต้องพิจารณาเมื่อคุยเรื่องการเรียนรู้ของเครื่อง:

  • การเรียนรู้ของเครื่องเกี่ยวกับปัญหาทางธุรกิจอาจเกี่ยวข้องกับข้อมูลมากขึ้น " ข้อมูลขนาดใหญ่ " ถ้าคุณต้องการใช้ buzzword การทำความสะอาดและการเตรียมข้อมูลอาจใช้เวลามากกว่างานจริง และเมื่อปริมาณข้อมูลเกินขีดความสามารถของเครื่องเดียวในการประมวลผลความท้าทายด้านวิศวกรรมก็มีความสำคัญเท่ากับความท้าทายทางสถิติ (Rule of thumb: ถ้ามันพอดีกับหน่วยความจำหลักไม่ใช่ข้อมูลขนาดใหญ่)
  • การเรียนรู้ของเครื่องมักจะเกี่ยวข้องกับตัวแปรอธิบาย (คุณสมบัติ) มากกว่าแบบจำลองสถิติดั้งเดิม บางทีหลายสิบคนบางทีอาจเป็นหลายร้อยคนซึ่งบางส่วนจะเป็นตัวแปรเด็ดขาดที่มีหลายระดับ เมื่อคุณสมบัติเหล่านี้สามารถโต้ตอบ (เช่นในรูปแบบข้ามผลกระทบ) จำนวนของแบบจำลองที่มีศักยภาพเพื่อให้พอดีกับการเติบโตอย่างรวดเร็ว
  • ผู้ปฏิบัติงานการเรียนรู้ของเครื่องจักรมักจะเกี่ยวข้องกับความสำคัญของคุณลักษณะแต่ละอย่างน้อยกว่าและเกี่ยวข้องกับการบีบพลังการทำนายให้ได้มากที่สุดเท่าที่จะเป็นไปได้จากแบบจำลอง (ค่า P เกี่ยวข้องกับคำอธิบายไม่ใช่การทำนาย)
  • ด้วยคุณสมบัติจำนวนมากและวิธีการต่าง ๆ ของคุณสมบัติเหล่านั้นการเลือกรุ่นด้วยมือจึงเป็นไปไม่ได้ ในความคิดของฉันความท้าทายที่แท้จริงในการเรียนรู้ของเครื่องคือการเลือกคุณสมบัติโดยอัตโนมัติ (คุณสมบัติวิศวกรรม) และด้านอื่น ๆ ของข้อกำหนดรุ่น ด้วยโมเดลเชิงเส้นมีวิธีการต่าง ๆ ในการทำเช่นนี้ซึ่งโดยปกติจะเป็นตัวแปรของแรงเดรัจฉาน รวมถึงการถดถอยขั้นตอนการกำจัดหลังเป็นต้นซึ่งทั้งหมดนี้ต้องการพลังการประมวลผลที่สำคัญอีกครั้ง (กฎข้อที่สองง่ายๆ: ถ้าคุณเลือกคุณสมบัติด้วยมือคุณกำลังทำสถิติไม่ใช่การเรียนรู้ของเครื่อง)
  • เมื่อคุณติดตั้งหลายรุ่นโดยอัตโนมัติด้วยคุณสมบัติมากมายการปรับขนาดที่เหมาะสมเป็นปัญหาที่ร้ายแรง การจัดการกับปัญหานี้มักจะเกี่ยวข้องกับการตรวจสอบความถูกต้องของรูปแบบ: คือการคำนวณแรงเดรัจฉานมากขึ้น!

คำตอบสั้น ๆ จากมุมมองของฉันคือที่การเรียนรู้เครื่องเบี่ยงเบนจากการสร้างแบบจำลองทางสถิติแบบดั้งเดิมในการประยุกต์ใช้กำลังดุร้ายและวิธีการเชิงตัวเลขเพื่อเลือกรูปแบบโดยเฉพาะในโดเมนที่มีข้อมูลจำนวนมากและตัวแปรอธิบายจำนวนมาก โดยให้ความสำคัญกับพลังการทำนายแล้วตามด้วยกำลังดุร้ายมากขึ้นสำหรับการตรวจสอบความถูกต้องของแบบจำลอง


2
ฉันชอบความแตกต่างนี้โดยทั่วไป อย่างไรก็ตามการตรวจสอบความถูกต้องไขว้ที่เคยใช้ในโมเดล "เชิงสถิติ" หรือเป็นสิ่งที่ไม่ค่อยมีความจำเป็นเนื่องจากปกติแล้วจะทำด้วยมือ? คุณสมบัติของวิศวกรรมนั้นถือเป็นสถิติหรือไม่
Josh

3
@ Josh, ใช่มันเป็นไปได้ แต่ถ้าคุณดูที่แท็กการตรวจสอบความถูกต้องไขว้คำถามเกือบทั้งหมดเกี่ยวกับการสร้างแบบจำลองการคาดการณ์
david25272

@ david25272 ฉันอยากรู้ว่าคุณคิดอย่างไรกับ bootstrap, .632+ bootstrap และการทดสอบการเรียงสับเปลี่ยน - ฉันมักจะคิดว่าพวกเขาเป็น "สถิติประยุกต์" มากกว่า "การเรียนรู้เครื่อง" เพราะพวกเขาเป็นอย่างไร มีแรงจูงใจ แต่พวกมันก็คล้ายกัน "กำลังดุร้าย" กับ k-fold หรือการตรวจสอบความถูกต้องไขว้กันของ k-fold ฉันคิดว่าการทำให้เป็นมาตรฐานของ L1 สามารถถูกมองว่าเป็นประเภทหนึ่งของการเลือกคุณสมบัติภายในกรอบทางสถิติ ...
Patrick B.

@ แพทริกstats.stackexchange.com/questions/18348เป็นคำตอบที่ดีกว่าในการใช้ประโยชน์จาก bootstapping สำหรับรูปแบบการตรวจสอบกว่าที่ฉันจะให้
david25272

@ david25272 อ่าาาคำถามของฉันยิ่งกว่านี้ไม่ว่าคุณจะคิดว่าพวกเขาเป็นเทคนิค "การเรียนรู้ของเครื่อง" หรือเทคนิค "สถิติที่ใช้" เนื่องจากพวกเขามีแรงจูงใจทางสถิติ แต่ก็เป็น "กำลังดุร้าย" ฉันคุ้นเคยกับการใช้ bootstraps ที่แก้ไขโดยอคติสำหรับการตรวจสอบความถูกต้องของแบบจำลอง
Patrick B.

14

ฉันคิดว่าคำจำกัดความของมิตเชลล์ให้วิธีที่เป็นประโยชน์ในการอภิปรายการเรียนรู้ของเครื่องซึ่งเป็นหลักการแรก ตามที่เผยแพร่บนWikipedia :

โปรแกรมคอมพิวเตอร์ได้รับการกล่าวเพื่อเรียนรู้จากประสบการณ์ E เกี่ยวกับงานบางประเภท T และการวัดประสิทธิภาพ P หากประสิทธิภาพการทำงานที่งานใน T ตามที่วัดโดย P ปรับปรุงด้วยประสบการณ์ E

สิ่งนี้มีประโยชน์ในหลายวิธี ข้อแรกสำหรับคำถามเร่งด่วนของคุณ: การถดถอยคือการเรียนรู้ของเครื่องเมื่อหน้าที่ของมันคือการให้คุณค่าโดยประมาณจากคุณสมบัติการทำนายในบางแอปพลิเคชัน ประสิทธิภาพควรเพิ่มขึ้นตามที่วัดโดยค่าเฉลี่ยกำลังสอง (หรือสัมบูรณ์เป็นต้น) ยื่นข้อผิดพลาดเนื่องจากมีข้อมูลมากขึ้น

ประการที่สองมันช่วยอธิบายการเรียนรู้ของเครื่องจากคำศัพท์ที่เกี่ยวข้องและการใช้เป็นคำศัพท์ทางการตลาด เปรียบเทียบงานข้างต้นกับการถดถอยมาตรฐานที่อนุมานซึ่งนักวิเคราะห์ตีความค่าสัมประสิทธิ์สำหรับความสัมพันธ์ที่สำคัญ ที่นี่โปรแกรมจะส่งคืนข้อสรุป: ค่าสัมประสิทธิ์ค่า p เป็นต้นโปรแกรมไม่สามารถพูดได้ว่าจะปรับปรุงประสิทธิภาพการทำงานด้วยประสบการณ์ งานคือการคำนวณที่ซับซ้อน

ในที่สุดมันจะช่วยรวมฟิลด์ย่อยการเรียนรู้ของเครื่องทั้งสองที่ใช้กันทั่วไปในงานแสดงสินค้าเบื้องต้น (แบบมีผู้ดูแลไม่ได้ดูแล) กับผู้อื่นเช่นการเรียนรู้การเสริมแรงหรือการประมาณความหนาแน่น (แต่ละคนมีภารกิจการวัดประสิทธิภาพและแนวคิดเกี่ยวกับประสบการณ์ถ้าคุณคิดกับพวกเขามากพอ) ฉันคิดว่ามันเป็นคำจำกัดความที่สมบูรณ์ยิ่งขึ้นซึ่งจะช่วยวิเคราะห์สองฟิลด์โดยไม่ลดลงโดยไม่จำเป็น ตัวอย่างเช่น "ML สำหรับการคาดการณ์สถิติสำหรับการอนุมาน" จะไม่สนใจทั้งเทคนิคการเรียนรู้ของเครื่องนอกการเรียนรู้ภายใต้การดูแลและเทคนิคทางสถิติที่มุ่งเน้นไปที่การทำนาย


12

ไม่มีกฎหมายที่บอกว่าผู้ผลิตตู้ไม่สามารถใช้เลื่อยของผู้ผลิตบาร์เรล

การเรียนรู้ของเครื่องและสถิติเป็นป้ายกำกับที่คลุมเครือ แต่หากกำหนดชัดเจนจะมีการทับซ้อนกันระหว่างสถิติและการเรียนรู้ของเครื่องเป็นจำนวนมาก และนี่จะเป็นวิธีการของสองพื้นที่นี้รวมถึง (และแยกกัน) สำหรับผู้ที่ติดป้ายตัวเองด้วยสองพื้นที่นี้ แต่เท่าที่ไปคณิตศาสตร์การเรียนรู้ของเครื่องทั้งหมดภายในเขตของสถิติ

การถดถอยเชิงเส้นเป็นกระบวนการทางคณิตศาสตร์ที่กำหนดไว้อย่างดี ฉันมักจะเชื่อมโยงกับพื้นที่ของสถิติและผู้ที่เรียกตัวเองว่า 'สถิติ' และผู้ที่ออกมาจากโปรแกรมการศึกษาที่มีป้ายกำกับเช่น 'สถิติ' SVM (Support Vector Machines) เป็นกระบวนการทางคณิตศาสตร์ที่กำหนดไว้อย่างดีเช่นกันซึ่งมีอินพุตและเอาต์พุตเหมือนกันทุกตัวและแก้ไขปัญหาที่คล้ายกัน แต่ฉันมักจะเชื่อมโยงกับมัน แต่กับพื้นที่ของการเรียนรู้ของเครื่องและผู้ที่เรียกตัวเองว่านักวิทยาศาสตร์คอมพิวเตอร์หรือผู้ที่ทำงานในด้านปัญญาประดิษฐ์หรือการเรียนรู้ของเครื่องซึ่งมีแนวโน้มที่จะถือเป็นส่วนหนึ่งของวิทยาศาสตร์คอมพิวเตอร์เป็นวินัย

แต่นักสถิติบางคนอาจใช้ SVM และคน AI บางคนใช้การถดถอยโลจิสติก ชัดเจนว่ามีแนวโน้มที่นักสถิติหรือนักวิจัย AI จะพัฒนาวิธีการมากกว่าที่จะนำไปใช้จริง

ฉันวางวิธีการทั้งหมดของการเรียนรู้ของเครื่องจักรอย่างละเอียดภายในขอบเขตของสถิติ แม้แต่สิ่งใหม่ ๆ เช่น Deep Learning, RNNs, CNNs, LSTMs, CRFs นักสถิติศาสตร์ประยุกต์ (ชีวสถิติ, นักปฐพีวิทยา) อาจไม่คุ้นเคยกับพวกเขา นั่นคือวิธีการสร้างแบบจำลองการคาดการณ์ทั้งหมดมักจะระบุด้วย 'การเรียนรู้ของเครื่อง' และไม่ค่อยเกี่ยวข้องกับสถิติ แต่เป็นแบบจำลองการทำนายด้วยค่าเผื่อที่พวกเขาสามารถตัดสินโดยใช้วิธีการทางสถิติ

ในที่สุดการถดถอยโลจิสติกจะต้องได้รับการพิจารณาเป็นส่วนหนึ่งของการเรียนรู้ของเครื่อง

แต่ใช่ฉันเห็นและมักจะแบ่งปันความไม่ชอบของคุณสำหรับการใช้คำที่ผิดเหล่านี้ การถดถอยเชิงเส้นดังกล่าวเป็นส่วนพื้นฐานของสิ่งที่เรียกว่าสถิติที่มันรู้สึกแปลกมากและทำให้เข้าใจผิดที่จะเรียกใช้ 'การเรียนรู้เครื่อง'

เพื่อแสดงให้เห็นว่า Logistic regression นั้นเหมือนกันในเชิงคณิตศาสตร์กับเครือข่าย Deep Learning ที่ไม่มีโหนดที่ซ่อนอยู่และฟังก์ชั่น logistic เป็นฟังก์ชั่นการเปิดใช้งานสำหรับโหนดเอาต์พุตเดี่ยว ฉันจะไม่เรียกการถดถอยโลจิสติกเป็นวิธีการเรียนรู้ของเครื่อง แต่มันถูกใช้ในบริบทการเรียนรู้ของเครื่องอย่างแน่นอน

มันเป็นเรื่องของความคาดหวัง

A: "ฉันใช้การเรียนรู้ของเครื่องเพื่อทำนายการกลับเข้ารักษาซ้ำในโรงพยาบาลหลังการผ่าตัดหัวใจ"

B: "ใช่แล้วการเรียนรู้ลึกป่าสุ่ม? !!"

A: "โอ้ไม่ไม่มีอะไรน่าประหลาดใจเพียงแค่ Logistic Regression"

B: ดูผิดหวังมาก

มันก็เหมือนกับการพูดว่าเมื่อล้างหน้าต่างด้วยน้ำที่คุณใช้เคมีควอนตัม ใช่แน่นอนว่านั่นไม่ใช่เทคนิคที่ผิด แต่คุณหมายถึงมากกว่าสิ่งที่จำเป็น

แต่จริงๆนั่นคือว่าความแตกต่างทางวัฒนธรรมกับความแตกต่างสาร ความหมายของคำศัพท์และการเชื่อมโยงกับกลุ่มคน (LR ไม่ใช่ ML!) เทียบกับคณิตศาสตร์และแอปพลิเคชัน (LR คือ ML โดยสิ้นเชิง!)


3
การถดถอยแบบลอจิสติกนั้นคล้ายคลึงกันมากทั้งในทางปฏิบัติและในทางทฤษฎีกับ SVM: web.stanford.edu/~hastie/Papers/svmtalk.pdf
Patrick B.

3

มุมมองทั่วไปคือการเรียนรู้ของเครื่องประกอบด้วย 4 ส่วนคือ

1) การลดขนาด

2) การจัดกลุ่ม

3) การจำแนกประเภท

4) การถดถอย

การถดถอยเชิงเส้นคือการถดถอย เมื่อแบบจำลองได้รับการฝึกฝนแล้วมันสามารถใช้สำหรับการทำนายเช่นเดียวกับคนอื่น ๆ พูดการถดถอยป่าแบบสุ่ม


จริงๆแล้วมีความแตกต่างแม้ว่าการถดถอยเชิงเส้นสามารถแก้ไขได้โดยใช้การเรียนรู้ของเครื่อง เป้าหมายการถดถอยทั่วไปเป็นกำลังสองน้อยสุดธรรมดาซึ่งหมายความว่าฟังก์ชันการสูญเสียเป้าหมายของเราคือผลรวมส่วนที่เหลือกำลังสองจะลดลง ตอนนี้การเรียนรู้ของเครื่องก็จะอ้างถึงวิธีการที่เราลดฟังก์ชั่นการสูญเสียให้น้อยที่สุด
Carl

ดังนั้นแนวคิดการถดถอยเชิงเส้นผ่านทางลาด (การเรียนรู้) ลาดเลือกที่ดีกว่าและดีกว่าผลรวมที่เหลือสแควร์ (ฟังก์ชั่นการสูญเสีย) แนวคิดพื้นฐานนั้นเหมือนกันสำหรับอัลกอริทึมการเรียนรู้ขั้นสูงเช่นเครือข่ายประสาท อัลกอริธึมเหล่านี้สามารถแทนที่ตัวแบบเชิงเส้นด้วยแบบจำลองที่ซับซ้อนมากขึ้นและฟังก์ชันต้นทุนที่ซับซ้อนกว่านั้น .
Carl

1
ดังนั้นคำตอบสำหรับคำถาม OP เมื่อไรที่การเรียนรู้ของเครื่องถดถอยเชิงเส้นตรงข้ามกับการหาเส้นที่ดีที่สุด? เมื่อการถดถอยเชิงเส้นดำเนินการโดยใช้องค์ประกอบที่กำหนดได้ของการเรียนรู้ของเครื่องเช่นการไล่ระดับสีแบบไล่ระดับมันเป็นการถดถอยเชิงเส้นโดยใช้การเรียนรู้ของเครื่อง
Carl

5
@Carl ปัญหาที่นี่ที่กำหนด "การเรียนรู้ของเครื่อง" สำหรับฉันถ้าเราสามารถใช้แบบจำลองทางสถิติและแบบจำลองนั้นจะมีความสามารถในการทำนายว่าเป็นการเรียนรู้ของเครื่อง และไม่สำคัญว่าวิธีการใดที่ใช้ในการค้นหาค่าสัมประสิทธิ์ของแบบจำลอง
Akavall

1
ฉันพบว่าคำตอบของ Akavall ค่อนข้างชัดเจน ฉันเชื่อว่าปัญหาของ Akavall คือคำจำกัดความที่คุณนำเสนอเป็นวงกลมเนื่องจากดูเหมือนว่าจะเดือดลงไปที่ "Q: เทคนิค X นับเป็น 'การเรียนรู้ของเครื่องจักร' เมื่อใด? A: เมื่อเทคนิค X ถูกใช้โดยใช้องค์ประกอบที่ชัดเจน (น่าเสียดายที่ฉันไม่เข้าใจจุดที่สองที่คุณทำดังนั้นฉันจึงไม่สามารถตอบกลับได้)
Patrick B.

2

การถดถอยเชิงเส้นเป็นเทคนิคในขณะที่การเรียนรู้ของเครื่องเป็นเป้าหมายที่สามารถทำได้ด้วยวิธีการและเทคนิคที่แตกต่างกัน

ดังนั้นประสิทธิภาพการถดถอยจึงวัดได้จากความใกล้เคียงกับเส้น / เส้นโค้งที่คาดหวังในขณะที่การเรียนรู้ของเครื่องวัดได้ว่ามันสามารถแก้ปัญหาได้ดีเพียงใดโดยใช้วิธีใดก็ได้ที่จำเป็น


2

ฉันจะยืนยันว่าความแตกต่างระหว่างการเรียนรู้ของเครื่องและการอนุมานเชิงสถิตินั้นชัดเจน ในระยะสั้นการเรียนรู้ของเครื่อง = การทำนายการสังเกตการณ์ในอนาคต สถิติ = คำอธิบาย

นี่คือตัวอย่างจากสาขาวิชาที่ฉันสนใจ (ยา): เมื่อพัฒนายาเราค้นหายีนที่อธิบายสภาวะโรคได้ดีที่สุดโดยมีเป้าหมายในการกำหนดเป้าหมายยา / พวกเขาด้วยยา เราใช้สถิติเพื่อสิ่งนั้น ในทางตรงกันข้ามเมื่อพัฒนาการทดสอบการวินิจฉัยเช่นการทำนายว่ายาเสพติดจะช่วยผู้ป่วยหรือไม่เป้าหมายคือการค้นหาตัวทำนายที่ดีที่สุดของผลลัพธ์ในอนาคตอย่างเคร่งครัดแม้ว่าจะประกอบด้วยยีนจำนวนมากและซับซ้อนเกินกว่าจะเข้าใจได้ เราใช้การเรียนรู้ของเครื่องเพื่อจุดประสงค์นี้ มีหลายตัวอย่างที่ตีพิมพ์ [1], [2], [3], [4] แสดงให้เห็นว่าเป้าหมายของยาเสพติดไม่ใช่ตัวทำนายผลการรักษาที่ดีดังนั้นจึงมีความแตกต่าง

จากสิ่งนี้มันยุติธรรมที่จะบอกว่ามีใครเรียนรู้ด้วยเครื่องเมื่อเป้าหมายคือการทำนายผลของการสังเกตในอนาคต / ที่ไม่เคยเห็นมาก่อนอย่างเคร่งครัด หากเป้าหมายคือการเข้าใจปรากฏการณ์เฉพาะนั่นก็คือการอนุมานเชิงสถิติไม่ใช่การเรียนรู้ด้วยเครื่อง ดังที่คนอื่น ๆ ชี้ว่าสิ่งนี้เป็นจริงโดยไม่คำนึงถึงวิธีการที่เกี่ยวข้อง

เพื่อตอบคำถามของคุณ: ในการวิจัยเฉพาะที่คุณอธิบายนักวิทยาศาสตร์ได้เปรียบเทียบบทบาทปัจจัย (น้ำหนัก) ในตัวแบบการถดถอยเชิงเส้นที่แตกต่างกันไม่ใช่การเปรียบเทียบความแม่นยำของแบบจำลอง ดังนั้นจึงไม่ถูกต้องที่จะเรียกการเรียนรู้ของเครื่องอนุมาน

[1] Messersmith WA, Ahnen DJ การกำหนดเป้าหมาย EGFR ในมะเร็งลำไส้ใหญ่ วารสารการแพทย์นิวอิงแลนด์; 2008 359; 17

[2] Pogue-Geile KL และคณะ การทำนายระดับของผลประโยชน์จาก Adjuvant Trastuzumab ในการทดลอง NSABP B-31 J Natl Cancer Inst; 2013; 105: 1782-1788

[3] Pazdur R. การอนุมัติ FDA สำหรับ Vemurafenib https://www.cancer.gov/about-cancer/treatment/drugs/fda-vemurafenib อัปเดต 3 กรกฎาคม 2556

[4] Ray T. การศึกษา ASCO สองครั้งแสดงให้เห็นถึงความท้าทายในการใช้สัญญาณ MET เป็นเครื่องหมายบ่งชี้ในการทดลองใช้ยา NSCLC GenomeWeb, 11 มิถุนายน 2014


7
ฉันยอมรับว่าการวิจัยการเรียนรู้ของเครื่องจักรนั้นเน้นหนักกว่าการคาดการณ์มากกว่าการประมาณค่าพารามิเตอร์ แต่นั่นไม่ใช่เส้นแบ่งที่ชัดเจน: การวิจัยสถิตินั้นอุดมไปด้วยวิธีการทำนาย
หน้าผา AB

4
ดังนั้นนักสถิติที่คาดการณ์ก่อนที่คอมพิวเตอร์จะมีอยู่ (หรือมีให้บริการอย่างกว้างขวาง) พวกเขาใช้การเรียนรู้ด้วยเครื่องกระดาษและดินสอหรือไม่!
ทิม

1
@Tim: อาร์กิวเมนต์ที่ดีมาก ฉันเชื่อว่าคำตอบคือใช่ถ้าพวกเขาจดจ่อกับการสังเกตในอนาคตแม้ว่าฉันจะยอมรับในกรณีเหล่านี้ (หายาก) ชื่อการเรียนรู้ทางสถิติจะมีความเหมาะสมมากกว่า กับการกำเนิดของคอมพิวเตอร์การเรียนรู้ของเครื่องจักรกลายเป็นเรื่องที่ทันสมัยมากขึ้น จุดไม่ใช่ชื่อหรือการใช้คอมพิวเตอร์ มันคือความชัดเจนของวัตถุประสงค์ ในมุมมองของฉันแทบจะเป็นไปไม่ได้เลยที่จะเพิ่มประสิทธิภาพการทำนายที่แม่นยำของการสำรวจที่ไม่เคยเห็นมาก่อนและความเข้าใจในปรากฏการณ์ ดีกว่าที่จะมุ่งเน้นอย่างเหมาะสม
ljubomir

4
การคาดการณ์อนุกรมเวลา (การทำนายการสังเกตการณ์ในอนาคต) เป็นปัญหาที่ได้รับความนิยมในด้านสถิติ (และเศรษฐมิติ) ดังนั้นฉันจึงไม่เห็นด้วยกับความแตกต่างที่ชัดเจนตามนั้น
Richard Hardy

1
คำตอบนี้ปลอม การทำนายเป็นเพียงส่วนเล็ก ๆ ของการเรียนรู้ของเครื่อง นักสถิติยังทำนายผล แม้ว่าจะเป็นการยากที่จะแยกแยะระหว่างการเรียนรู้ของเครื่องและสถิติ แต่นี่ไม่ใช่วิธีที่ถูกต้อง
robguinness

2

มันจะมีประโยชน์ในการเรียกการเรียนรู้เครื่องถดถอยเชิงเส้นเพราะการทำเช่นนั้นโดยทั่วไปแสดงถึงสิ่งสำคัญสองสามอย่างเกี่ยวกับวิธีการที่คุณแก้ไขปัญหาของคุณ:

  1. คุณตัดสินใจว่าไม่จำเป็นต้องตรวจสอบสมมติฐานเชิงสาเหตุและทฤษฎีก่อนหน้านี้ที่อยู่เบื้องหลังตัวแปรอธิบายของคุณ มันเป็นสัญญาณว่าแบบจำลองของคุณไม่ได้ตั้งใจจะอธิบาย แต่เพื่อทำนาย สิ่งนี้มีความสมเหตุสมผลอย่างสมบูรณ์แบบในการตั้งค่าจำนวนมากตัวอย่างเช่นการทำนายอีเมลขยะตามคำหลัก มีวรรณคดีจำนวนมากที่คำทำนายสแปมและมีคำมากมายที่ไม่เหมาะสมที่จะคิดผ่านความสำคัญทางทฤษฎีของแต่ละคำ
  2. คุณไม่ได้ตรวจสอบความสำคัญของตัวแปรหรือใช้ค่า p แต่เลือกที่จะเลือกชุดโฮลด์หรือการตรวจสอบข้ามเพื่อประเมินประสิทธิภาพการทำนายนอกตัวอย่าง สิ่งนี้สามารถใช้งานได้อย่างสมบูรณ์แบบหาก - กลับไปที่ตัวอย่างอีเมลสแปม - หากสิ่งที่คุณใส่ใจจริงๆคือการสร้างแบบจำลองที่ทำนายสแปมได้อย่างมีประสิทธิภาพแม้ว่าจะมีค่าใช้จ่ายในการรวมตัวแปรที่อาจไม่ผ่านการทดสอบความสำคัญดั้งเดิม

อย่างไรก็ตามหากแบบจำลองของคุณมีจุดประสงค์ที่จะอธิบายมากกว่าการคาดการณ์และคุณตรวจสอบสมมติฐานเชิงสาเหตุเชิงทฤษฎีของแบบจำลองอย่างเข้มงวด ฯลฯ ใช่แล้วมันค่อนข้างโง่ที่จะเรียกมันว่าการเรียนรู้ของเครื่อง


2

ยอมรับคำตอบสำหรับคำถามนี้เป็นความเห็นมากกว่าความเป็นจริงวัตถุประสงค์ แต่ฉันจะพยายามที่จะออกวางตรรกะของฉันทำไมฉันคิดว่าคำตอบคือไม่ สิ่งที่เรียกว่าผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องหรือผู้สอนเท่านั้นที่จะเปิดเผยความไม่รู้ของพวกเขาโดยเป็นตัวแทนของการถดถอยเชิงเส้นเช่นนี้

การกำหนดสาขาวิชาทางวิชาการเป็นเรื่องเกี่ยวกับการกำหนดชุมชนมากกว่าวิธีการ สาขาวิชาวิทยาศาสตร์ยืมวิธีการข้ามสาขาตลอดเวลา ยิ่งไปกว่านั้นในศตวรรษที่ 19 (เมื่อการถดถอยเชิงเส้นได้รับการพัฒนา) และก่อนหน้านั้นสาขาวิชาวิทยาศาสตร์ไม่ได้ถูกวิเคราะห์อย่างชัดเจนเหมือนในปัจจุบัน ดังนั้นโดยเฉพาะอย่างยิ่งเมื่อมีการพัฒนาวิธีการในศตวรรษที่ 19 หรือก่อนหน้านี้เราควรระมัดระวังในการกำหนดให้มีระเบียบวินัยโดยเฉพาะ

ที่ถูกกล่าวว่าหนึ่งสามารถดูประวัติของวินัยและเหตุผลที่สรุปได้ว่าวิธีการเฉพาะ "เป็น" หนึ่งในวินัยหรืออื่น ๆ ไม่มีใครจะพูดในวันนี้ว่าแคลคูลัสเป็นของสาขาฟิสิกส์แม้ว่านิวตันซึ่งเป็นหนึ่งในนักประดิษฐ์ของแคลคูลัสก็พยายามใช้สิ่งนี้กับฟิสิกส์อย่างแน่นอน แคลคูลัสเป็นของคณิตศาสตร์อย่างชัดเจนไม่ใช่ฟิสิกส์ นี่เป็นเพราะแคลคูลัสเป็นวิธีการทางคณิตศาสตร์ทั่วไปที่สามารถใช้ได้อย่างสมบูรณ์นอกบริบททางฟิสิกส์

ด้วยเหตุผลเดียวกันการถดถอยเชิงเส้นเป็นวินัยของสถิติแม้ว่ามันจะถูกใช้เป็นตัวอย่างง่ายๆของการปรับข้อมูลให้เหมาะกับรูปแบบในบริบทของการเรียนรู้ของเครื่อง เช่นเดียวกับแคลคูลัสที่สามารถใช้นอกบริบทของฟิสิกส์การถดถอยเชิงเส้นสามารถ (และเป็น) ที่ใช้ภายนอกบริบทของการเรียนรู้ของเครื่อง

ผู้สอนการเรียนรู้ด้วยเครื่องควรจะชี้ให้เห็นว่าการถดถอยเชิงเส้นนั้นมีการใช้มาตั้งแต่ปลายศตวรรษที่ 19นานก่อนที่ความคิดสมัยใหม่ของการเรียนรู้ของเครื่องจะเกิดขึ้น พวกเขาควรเน้นด้วยว่าการเรียนรู้ของเครื่องใช้ประโยชน์จากแนวคิดที่น่าจะเป็นและสถิติรวมถึงสาขาวิชาอื่น ๆ (เช่นทฤษฎีสารสนเทศ) อย่างไรก็ตามแนวคิดเหล่านี้ไม่ได้แสดงถึงการเรียนรู้ของเครื่องหรือ "อัลกอริทึม" ของการเรียนรู้ของเครื่อง


1

มันคือเครื่องจักรโง่!

ฉันไม่ใช่ผู้เชี่ยวชาญด้านสถิติหรือผู้เชี่ยวชาญด้าน Big Data (TM) อย่างไรก็ตามฉันจะบอกว่าความแตกต่างที่สำคัญคือ "การเรียนรู้ของเครื่อง" ต้องมี "เครื่อง" โดยเฉพาะอย่างยิ่งมันหมายถึงหน่วยงาน ผลจะไม่ถูกบริโภคโดยมนุษย์ แต่ผลลัพธ์จะเป็นอินพุตของรอบปิดซึ่งระบบอัตโนมัติจะปรับปรุงประสิทธิภาพของมัน

ระบบปิด

นี้เป็นอย่างมากในแนวเดียวกันกับคำตอบของฌอนอีสเตอร์ แต่ผมแค่อยากจะเน้นว่าในการใช้งานในเชิงพาณิชย์เครื่องกำลังมองหาที่ผลและทำหน้าที่เกี่ยวกับพวกเขา ตัวอย่างคลาสสิกคืออัลกอริทึม CineMatch ซึ่งเป็นเป้าหมายของรางวัล Netflix มนุษย์สามารถดูผลลัพธ์ของ CineMatch และเรียนรู้คุณสมบัติที่น่าสนใจเกี่ยวกับผู้ชมภาพยนตร์ แต่นั่นไม่ใช่เหตุผลที่มีอยู่ วัตถุประสงค์ของ CineMatch คือการจัดเตรียมกลไกที่เซิร์ฟเวอร์ Netflix สามารถแนะนำภาพยนตร์ให้กับลูกค้าที่พวกเขาจะได้เพลิดเพลิน ผลลัพธ์ของแบบจำลองทางสถิติจะเข้าสู่บริการผู้แนะนำซึ่งท้ายที่สุดจะสร้างข้อมูลให้มากขึ้นในขณะที่ภาพยนตร์ให้คะแนนลูกค้าซึ่งบางเรื่องได้รับการคัดเลือกตามคำแนะนำของ CineMatch

ระบบเปิด

ในทางตรงกันข้ามถ้าเป็นนักวิจัยใช้วิธีการที่จะก่อให้เกิดผลทางสถิติซึ่งจะแสดงในงานนำเสนอให้กับมนุษย์อื่น ๆ จากนั้นนักวิจัยที่เป็นส่วนใหญ่เด็ดไม่ได้มีส่วนร่วมในการเรียนรู้เครื่อง นี่คือค่อนข้างเห็นได้ชัดกับผมว่าการเรียนรู้ของมนุษย์ การวิเคราะห์ดำเนินการโดยเครื่อง แต่ไม่ใช่เครื่องที่ทำการเรียนรู้ตามลำดับ ตอนนี้มันเป็น "การเรียนรู้ของเครื่อง" ในระดับที่สมองมนุษย์ไม่ได้สัมผัสกับตัวอย่างทั้งหมดและรับผลลัพธ์ทางสถิติ "ทางชีวภาพ" แต่ฉันจะเรียกมันว่า "สถิติ" เพราะนี่คือสิ่งที่นักสถิติได้ทำมาตั้งแต่มีการคิดค้นฟิลด์

ข้อสรุป

ดังนั้นฉันจะตอบคำถามนี้โดยถามว่า: "ใครบริโภคผลลัพธ์?" หากคำตอบคือ: "มนุษย์" แสดงว่าเป็น "สถิติ" หากคำตอบคือ: "ซอฟต์แวร์" แสดงว่า "การเรียนรู้ของเครื่อง" และเมื่อเราพูดว่า "ซอฟต์แวร์สิ้นเปลืองผลลัพธ์" เราไม่ได้หมายความว่ามันเก็บไว้ที่ใดที่หนึ่งเพื่อเรียกคืนในภายหลัง เราหมายถึงว่ามันมีประสิทธิภาพพฤติกรรมซึ่งจะถูกกำหนดโดยผลในวงปิด


8
นี่เป็นประเด็นที่สมเหตุสมผล แต่ฉันคิดว่าในทางปฏิบัติ ML model มักถูกส่งมอบให้กับผู้คนเพื่อตีความและทำงานด้วย
gung

1
ฉันอยากจะบอกว่านั่นเป็นเพราะ ML ในฐานะที่เป็นทุ่งนาได้สร้างเครื่องมือที่มีประโยชน์มากมายโดยนักสถิติแม้ว่ามันจะไม่ใช่สิ่งที่พวกเขาต้องการเรียกตัวเองเพื่อจุดประสงค์ทางการตลาดก็ตาม ;)
คนตัดหญ้า

ฉันเห็นด้วยอย่างยิ่งกับ @gung; เช่นเดียวกับคำตอบอื่น ๆ ฉันยอมรับว่านี่เป็นแรงจูงใจสำหรับผู้ที่เรียกตัวเองว่า "นักวิจัย ML" มากกว่าซึ่งไม่ใช่แนวที่กำหนดแน่นอน ตัวอย่างตัวนับสองตัว: ระบบผู้แนะนำถือเป็นพื้นที่การวิจัย ML แต่ผลลัพธ์จะถูกป้อนโดยตรงกับมนุษย์ ตัวกรองคาลมานมักใช้ในการนำทางสำหรับนักบินอัตโนมัติโดยไม่มีมนุษย์อยู่ในวง แต่โดยทั่วไปแล้วจะถือว่าเป็นวิธีการทางสถิติ
หน้าผา AB

-1

ในความคิดของฉันหนึ่งสามารถพูดถึงการเรียนรู้ของเครื่องเมื่อเครื่องถูกตั้งโปรแกรมให้อนุมานพารามิเตอร์ของบางรุ่นโดยใช้ข้อมูลบางอย่าง

หากการถดถอยเชิงเส้นกระทำโดยเครื่องดังนั้นจึงมีคุณสมบัติ

ถ้าทำด้วยมือแล้วมันไม่ได้

คำจำกัดความที่ขึ้นอยู่กับความชุกของตัวแทน (เช่น Excel) หรือการปรับปรุงซ้ำ (เช่น Sean Easter แนะนำด้านบน) พยายามแยกมันออกจากสถิติหรือขึ้นอยู่กับว่าจะทำอย่างไรกับผลลัพธ์ที่ได้จะไม่สอดคล้องกันในความคิดของฉัน


3
ดังนั้นถ้าคุณคำนวณการถดถอยหรือ kNN หรือแผนภูมิการตัดสินใจโดยใช้กระดาษและดินสอและได้ผลลัพธ์เช่นเดียวกับที่คำนวณบนคอมพิวเตอร์แล้วในกรณีแรกมันจะเป็นการเรียนรู้ของเครื่องและที่สองไม่ใช่ .. ? ในอีกทางหนึ่งถ้าคุณใช้คอมพิวเตอร์เพื่อกำหนดค่าบางอย่างเป็น "พารามิเตอร์" ของแบบจำลองของคุณแบบสุ่มคุณจะมีคุณสมบัติเป็นเครื่องเรียนรู้เนื่องจากมันทำโดยเครื่องจักรหรือไม่ คำจำกัดความนี้ดูเหมือนจะไม่สมเหตุสมผลนัก ...
ทิม

คุณแทบจะไม่สามารถเรียกมันว่าการเรียนรู้ของเครื่องหากคุณไม่ได้ใช้เครื่อง มันเป็นเครื่องจักรที่เรียนรู้หลังจากทั้งหมด และฉันได้ปรับใช้โมเดลที่ "เรียนรู้" พารามิเตอร์ของพวกเขาโดยกระบวนการสุ่ม (Monte Carlo) อย่างไรก็ตามฉันต้องยอมรับว่ามีขั้นตอนการตรวจสอบความเกี่ยวข้องหลังจากนั้น
Ytsen de Boer

2
อัลกอริทึมเช่น Support Vector Machinesถูกเรียกว่า "machines" ด้วยเหตุผลทางประวัติศาสตร์เพราะในช่วงแรกผู้คนจะต้องสร้างเครื่องจักร / คอมพิวเตอร์จริงเพื่อเรียกใช้พวกเขา ( stats.stackexchange.com/questions/261041/ … ) ไม่มีอะไรที่จะต้อง ทำอย่างไรกับ "อัลกอริทึมที่ทำงานบนเครื่อง" ยิ่งกว่านั้นโมเดลอนุกรมเวลาเช่น ARIMA ไม่ได้อยู่ในขอบเขตของการเรียนรู้ของเครื่อง แต่เป็นสถิติและพวกเขาก็ทำงานบนคอมพิวเตอร์
ทิม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.