ความแตกต่างระหว่างการเรียนรู้และการอนุมานคืออะไร?


20

เอกสารการเรียนรู้การเรียนรู้ด้วยเครื่องมักจะรักษาการเรียนรู้และการอนุมานว่าเป็นภารกิจสองอย่างที่แยกกัน แต่ก็ไม่ชัดเจนสำหรับฉันว่าความแตกต่างคืออะไร ในหนังสือเล่มนี้พวกเขาใช้สถิติแบบเบย์สำหรับงานทั้งสองประเภท แต่ไม่ได้ให้แรงจูงใจสำหรับความแตกต่างนั้น ฉันมีความคิดที่คลุมเครือหลายอย่างเกี่ยวกับสิ่งที่อาจเป็นเกี่ยวกับ แต่ฉันอยากจะเห็นคำจำกัดความที่มั่นคงและบางทีก็อาจเป็นการโต้แย้งหรือการขยายความคิดของฉัน:

  • ความแตกต่างระหว่างการอนุมานค่าของตัวแปรแฝงสำหรับจุดข้อมูลที่แน่นอนและการเรียนรู้รูปแบบที่เหมาะสมสำหรับข้อมูล
  • ความแตกต่างระหว่างการแยกความแปรปรวน (การอนุมาน) และการเรียนรู้การบุกรุกเพื่อที่จะสามารถแยกความแปรปรวน (โดยการเรียนรู้พลวัตของพื้นที่อินพุต / กระบวนการ / โลก)
  • การเปรียบเทียบทางระบบประสาทอาจเป็น potentiation / depression ระยะสั้น (ร่องรอยความจำ) เทียบกับ potentiation / depression ระยะยาว

4
ไม่แน่ใจว่าสิ่งนี้จะช่วยได้หรือไม่ แต่ในสถิติหนึ่งความแตกต่างอยู่ระหว่างว่าคุณต้องการคิดเกี่ยวกับการเรียนรู้แบบอนุมาน (ส่วนใหญ่เป็น Bayes) หรือเป็นการประมาณ สำหรับอดีตการเรียนรู้เกี่ยวกับทุกสิ่ง - ตัวแปรแฝงพารามิเตอร์การทำนายแบบจำลอง - เป็นการอนุมาน (ซึ่งส่งกลับการแจกแจง) สำหรับหลังปัญหาการเรียนรู้บางอย่างอาจเป็นการอนุมานและอื่น ๆ ปัญหาการประมาณค่า (ซึ่งส่งคืนการประมาณและการสุ่มตัวอย่าง - ช่วงความไม่แน่นอนของแรงจูงใจในทางทฤษฎีสำหรับมัน)
conjugateprior

5
"การเรียนรู้" เป็นเพียงคำเปรียบเทียบที่นำมาซึ่งกระบวนการฝึกอบรมอัลกอริทึมการเรียนรู้ของเครื่องจักร ฉันไม่คิดว่าจะได้รับข้อมูลเชิงลึกมากนักที่นี่
Sycorax พูดว่า Reinstate Monica


1
@ วิงค์คุณอ่านคำถามที่เชื่อมโยงแล้วหรือยัง ไม่มีคำตอบใดที่ทำให้ฉันขอแยกความแตกต่างอย่างชัดเจน
Lenar Hoyt

1
@conjugateprior ในการเรียนรู้ของเครื่องจะไม่มีใครพูดว่า "การเรียนรู้เกี่ยวกับทุกสิ่ง - ตัวแปรแฝง, พารามิเตอร์, การทำนาย, แบบจำลอง - เป็นการอนุมาน" การเรียนรู้และการอนุมานถือว่าแยกจากกันโดยสิ้นเชิงแม้ว่าพวกเขาทั้งสองจะสามารถสร้างการแจกแจง
Neil G

คำตอบ:


11

ฉันเห็นด้วยกับคำตอบของ Neil G แต่บางทีวลีทางเลือกนี้อาจช่วย:

พิจารณาการตั้งค่าของรูปแบบการผสมแบบเกาส์เรียบง่าย ที่นี่เราสามารถคิดถึงพารามิเตอร์ของแบบจำลองเป็นชุดของส่วนประกอบแบบเกาส์ของแบบจำลองการผสม (แต่ละวิธีและความแปรปรวนและน้ำหนักของแต่ละคนในการผสม)

เมื่อพิจารณาจากพารามิเตอร์ของแบบจำลองการอนุมานเป็นปัญหาในการระบุว่าองค์ประกอบใดที่น่าจะสร้างตัวอย่างหนึ่งที่กำหนดโดยปกติจะอยู่ในรูปแบบของ "ความรับผิดชอบ" สำหรับแต่ละองค์ประกอบ ที่นี่ตัวแปรแฝงเป็นเพียงตัวระบุเดียวที่องค์ประกอบสร้างเวกเตอร์ที่กำหนดและเราอนุมานว่าองค์ประกอบใดที่น่าจะเป็น (ในกรณีนี้การอนุมานนั้นง่าย แต่ในรุ่นที่ซับซ้อนกว่านั้นจะค่อนข้างซับซ้อน)

การเรียนรู้เป็นกระบวนการของการให้กลุ่มตัวอย่างจากแบบจำลองการระบุพารามิเตอร์แบบจำลอง (หรือการกระจายตัวเหนือพารามิเตอร์แบบจำลอง) ที่เหมาะสมที่สุดกับข้อมูลที่ได้รับ: การเลือกค่าเฉลี่ยความแปรปรวนและน้ำหนักของ Gaussians

อัลกอริทึมการเรียนรู้ความคาดหวัง - สูงสุดสามารถคิดเป็นการดำเนินการอนุมานสำหรับชุดการฝึกอบรมจากนั้นเรียนรู้พารามิเตอร์ที่ดีที่สุดที่ได้รับจากการอนุมานนั้นแล้วทำซ้ำ การอนุมานมักใช้ในกระบวนการเรียนรู้ด้วยวิธีนี้ แต่มันก็เป็นเรื่องที่น่าสนใจเช่นกันว่าจะเลือกส่วนประกอบใดที่สร้างจุดข้อมูลที่กำหนดในรูปแบบการผสมแบบเกาส์เซียนเพื่อตัดสินใจเกี่ยวกับสถานะที่ซ่อนอยู่ในแบบจำลองมาร์คอฟ เพื่อกำหนดค่าที่หายไปในรูปแบบกราฟิกทั่วไปที่มากขึ้น, ....


1
และคำเตือนเล็ก ๆ ที่หนึ่งสามารถเลือกที่จะทำลายสิ่งลงไปเรียนรู้และการอนุมานด้วยวิธีนี้ แต่หนึ่งสามารถยังเลือกทำจำนวนมากทั้งเป็นอนุมาน: stats.stackexchange.com/questions/180582/...
conjugateprior

ทำไมต้องมีหลายบรรทัด? ฉันต้องการที่จะเห็นคำตอบง่าย ๆ ที่ทำให้พวกเขาแตกต่างในหนึ่งหรือสองประโยค นอกจากนี้ไม่ใช่ทุกคนที่คุ้นเคยกับ GMM หรือ EM
nbro

9

การอนุมานคือการเลือกการกำหนดค่าตามอินพุตเดียว การเรียนรู้คือการเลือกพารามิเตอร์ตามตัวอย่างการฝึกอบรม

ในกรอบแบบจำลองพลังงานที่ใช้ (วิธีการดูสถาปัตยกรรมการเรียนรู้ของเครื่องเกือบทั้งหมด) การอนุมานเลือกการกำหนดค่าเพื่อลดฟังก์ชั่นพลังงานในขณะที่ถือพารามิเตอร์คงที่ การเรียนรู้เลือกพารามิเตอร์เพื่อลดความสูญเสียหน้าที่

ในขณะที่สังยุคคะแนนก่อนหน้าคนอื่น ๆ ใช้คำศัพท์ที่แตกต่างกันในสิ่งเดียวกัน ตัวอย่างเช่นอธิการใช้ "การอนุมาน" และ "การตัดสินใจ" เพื่อหมายถึงการเรียนรู้และการอนุมานตามลำดับ การอนุมานสาเหตุหมายถึงการเรียนรู้ แต่ไม่ว่าคุณจะเลือกคำไหนแนวคิดทั้งสองนี้แตกต่างกัน

การเปรียบเทียบทางระบบประสาทเป็นรูปแบบของการยิงเซลล์ประสาทเป็นรูปแบบ; ชุดของจุดแข็งลิงก์คือพารามิเตอร์


@mcb ฉันยังไม่รู้ว่าคุณหมายถึงอะไรโดย "variances" "Invariances" ไม่แม้แต่คำเดียวในพจนานุกรม ใช่มีอัลกอริทึมการเรียนรู้มากมายที่อาศัยการกำหนดค่าอนุมานเช่น EM ที่อธิบายไว้ในคำตอบของ Dougal
Neil G

@mcb ฉันไม่เข้าใจคำถามของคุณเช่นกัน; บางทีมันอาจช่วยระบุรูปแบบตัวอย่างและเจาะจงเกี่ยวกับการกระจาย / ความแปรปรวน / ค่าคงที่ (?) ที่คุณกำลังพูดถึง
Dougal

ขอบคุณสำหรับคำตอบของคุณ บางทีฉันอาจเข้าใจผิดบางอย่าง
Lenar Hoyt

@ NeilG ฉันเชื่อว่าคำศัพท์นี้ส่วนใหญ่จะใช้ในงานการมองเห็น ML ซึ่งการตัดสินใจการจำแนกควรเป็น 'ไม่คงที่' สำหรับการแปลวัตถุการหมุนการลดขนาด ฯลฯ ไม่สามารถหาข้อมูลอ้างอิงที่ดีได้ แต่มีสิ่งนี้: en.wikipedia.org/wiki / Prior_knowledge_for_pattern_recognition
conjugateprior

@conjugateprior ฉันมีความรู้สึกว่าเป็นสิ่งที่เขาได้รับ แต่ฉันต้องการที่จะดูว่าเขาจะทำให้คำถามของเขาชัดเจน
Neil G

4

ดูเหมือนความสับสนวุ่นวายศัพท์แสงคลาสสิกข้ามวินัย OP ดูเหมือนว่าจะใช้คำศัพท์ที่เหมือนประสาทวิทยาศาสตร์โดยที่ทั้งสองคำในคำถามอาจมีความหมายที่แตกต่างกัน แต่เนื่องจากการตรวจสอบข้ามโดยทั่วไปเกี่ยวข้องกับสถิติและการเรียนรู้การใช้เครื่องจักรฉันจะลองตอบคำถามตามการใช้งานทั่วไปของข้อกำหนดเหล่านี้ในสาขาเหล่านั้น

ในสถิติคลาสสิกการอนุมานเป็นเพียงการทำสิ่งที่คุณรู้เกี่ยวกับตัวอย่างและสร้างประโยคทางคณิตศาสตร์เกี่ยวกับประชากรที่เป็นตัวแทน (หวังว่า) จากตำราเรียนที่ได้รับการยอมรับของ Casella & Berger (2002): "เรื่องของทฤษฎีความน่าจะเป็นเป็นรากฐานของการสร้างสถิติทั้งหมด ... ผ่านโมเดลเหล่านี้นักสถิติสามารถวาดการอนุมานเกี่ยวกับประชากร ส่วนหนึ่งของทั้งหมด " ดังนั้นในสถิติการอนุมานจึงมีความสัมพันธ์เฉพาะกับค่า p สถิติการทดสอบและการแจกแจงตัวอย่าง

สำหรับการเรียนรู้ฉันคิดว่าตารางนี้จากสถิติทั้งหมดของ Wasserman (2003) อาจมีประโยชน์:

ป้อนคำอธิบายรูปภาพที่นี่


ไม่เห็นด้วยกับหนังสือเรียนเล่มอื่นรวมถึงหนังสือของอธิการที่กล่าวถึงในความคิดเห็น การจำแนกประเภทเป็นการเรียนรู้แบบมีผู้สอนเมื่อตัวแปรเป้าหมายเป็นหมวดหมู่ คำว่า "การประมาณค่า" เพียงอย่างเดียวนั้นคลุมเครือ: โดยปกติเราหมายถึง "การประมาณค่าความหนาแน่น" หรือ "การประมาณค่าพารามิเตอร์" หรือ "การประมาณค่าตามลำดับ" หรือ "การประมาณค่าโอกาสสูงสุด"
Neil G

1
นอกจากนี้ Bayes net ไม่ได้เป็นเพียงกราฟกำกับรอบเท่านั้น! เป็นชนิดของ dag ที่โหนดแสดงถึงข้อเสนอและมีขอบแสดงถึงการพึ่งพาความน่าจะเป็น มันระบุความสัมพันธ์ที่เป็นอิสระตามเงื่อนไข
Neil G

1
@ NeilG ค่อนข้างเป็นเช่นนั้น การแปลสถิติที่ใกล้เคียงที่สุดน่าจะเป็น "โมเดลสมการโครงสร้าง"
conjugateprior

2
และในจำนวนสถิติที่น่ากลัวควรมีสองบรรทัดเกี่ยวกับข้อมูล: CS: ข้อมูลการฝึกอบรม, สถิติ: ข้อมูล CS: ข้อมูลทดสอบ, สถิติ: wut?
conjugateprior

รูปที่ 101: wut = อีกตัวอย่าง (สุ่มหวังว่า) จากกลุ่มประชากรของคุณ ...
Zoë Clark

-1

เป็นเรื่องแปลกที่ไม่มีใครพูดถึงเรื่องนี้ แต่คุณสามารถอนุมานได้เฉพาะในกรณีที่คุณมีการแจกแจงความน่าจะเป็น ที่นี่เพื่ออ้างถึง Wiki ซึ่งเสนอราคาพจนานุกรม Oxford:

การอนุมานทางสถิติเป็นกระบวนการของการใช้การวิเคราะห์ข้อมูลเพื่ออนุมานคุณสมบัติของการแจกแจงความน่าจะเป็นพื้นฐาน (Oxford Dictionary of Statistics)

https://en.wikipedia.org/wiki/Statistical_inference

ในกรณีของเครือข่ายนิวรัลแบบดั้งเดิม k-NN หรือวานิลลา SVMs คุณไม่มีความหนาแน่นของความน่าจะเป็นที่จะประเมินหรือสมมติฐานเกี่ยวกับความหนาแน่นใด ๆ ดังนั้นจึงไม่มีการอนุมานเชิงสถิติ การฝึกอบรม / การเรียนรู้เท่านั้น อย่างไรก็ตามสำหรับกระบวนการทางสถิติส่วนใหญ่ (ทั้งหมด?) คุณสามารถใช้ทั้งการอนุมานและการเรียนรู้เนื่องจากขั้นตอนเหล่านี้มีสมมติฐานบางอย่างเกี่ยวกับการกระจายของประชากรที่เป็นปัญหา


นี่เป็นสิ่งที่ผิด อย่างไรก็ตามคุณสามารถตีความเครือข่ายประสาทเทียมเป็นการผลิตการกระจายหากคุณต้องการ ดูเช่น Amari 1998.
Neil G

มันไม่ผิดหรือระบุ คุณสามารถตีความได้ แต่เดิมไม่มีการตีความดังกล่าว
ว่ายน้ำ S.

มันผิดเพราะคนใช้การอนุมานคำกับโมเดลเช่น autoenciders
Neil G

ดังนั้นมันผิดเพราะคนบางกลุ่มใช้คำผิดหรือเปล่า? หรือเพราะพวกเขามีการแปลความน่าจะเป็นบางอย่างสำหรับ NN ของพวกเขา (ฉันไม่คุ้นเคยกับระบบเข้ารหัสอัตโนมัติ)? ฉันให้เหตุผลเชิงเหตุผลว่าทำไมหนึ่งคำจึงแตกต่างจากอีกคำหนึ่ง ดังนั้นจากคำนิยามข้างต้นฉันเห็นว่าผู้ที่ใช้คำอนุมานกับ NNs, k-NNs หรือ SVM (เว้นแต่มีการตีความที่น่าจะเป็น) จะเป็นการใช้สัญลักษณ์ที่ดูถูก
ว่ายน้ำส.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.