หลักการมีดโกนของ Occam จะทำงานอย่างไรในการเรียนรู้ของเครื่อง


11

คำถามต่อไปนี้ที่ปรากฏในภาพถูกถามในระหว่างการสอบเมื่อเร็ว ๆ นี้ ฉันไม่แน่ใจว่าฉันเข้าใจหลักการมีดโกนของ Occam หรือไม่ ตามการแจกแจงและขอบเขตการตัดสินใจที่กำหนดไว้ในคำถามและตามด้วยมีดโกนของ Occam ขอบเขตการตัดสินใจ B ในทั้งสองกรณีควรเป็นคำตอบ เนื่องจากตาม Razor ของ Occam ให้เลือกตัวแยกประเภทที่ง่ายกว่าซึ่งทำงานได้ดีแทนที่จะซับซ้อน

ใครบางคนโปรดเป็นพยานถ้าความเข้าใจของฉันถูกต้องและคำตอบที่เลือกนั้นเหมาะสมหรือไม่? โปรดช่วยด้วยเพราะฉันเป็นเพียงผู้เริ่มต้นในการเรียนรู้ของเครื่อง

คำถาม


2
3.328 "ถ้าไม่จำเป็นต้องมีสัญญาณก็ไม่มีความหมายนั่นคือความหมายของ Occam's Razor" จาก the Tractatus Logico-Philosophicus โดย Wittgenstein
Jorge Barrios

คำตอบ:


13

หลักการมีดโกนของ Occam:

การมีสมมติฐานสองข้อ (ที่นี่ขอบเขตการตัดสินใจ) ที่มีความเสี่ยงเชิงประจักษ์เดียวกัน (ที่นี่ข้อผิดพลาดการฝึกอบรม) คำอธิบายสั้น ๆ (ที่นี่ขอบเขตที่มีพารามิเตอร์น้อยกว่า) มีแนวโน้มที่จะถูกต้องมากกว่าคำอธิบายที่ยาว

ในตัวอย่างของคุณทั้ง A และ B ไม่มีข้อผิดพลาดในการฝึกอบรมดังนั้น B (คำอธิบายที่สั้นกว่า) จึงเป็นที่ต้องการ

เกิดอะไรขึ้นถ้าการฝึกอบรมผิดพลาดไม่เหมือนกัน?

หากขอบเขต A มีข้อผิดพลาดในการฝึกอบรมน้อยกว่า B การเลือกจะยุ่งยาก เราจำเป็นต้องหาปริมาณ "ขนาดคำอธิบาย" เหมือนกับ "ความเสี่ยงจากการประจักษ์" และรวมฟังก์ชันการให้คะแนนทั้งสองในหนึ่งเดียวจากนั้นดำเนินการเปรียบเทียบ A และ B ตัวอย่างจะเป็นAkaike Information Criterion (AIC) ที่รวมความเสี่ยงเชิงประจักษ์ บันทึกความน่าจะเป็น) และขนาดคำอธิบาย (วัดด้วยจำนวนพารามิเตอร์) ในหนึ่งคะแนน

ในฐานะที่เป็นบันทึกย่อด้าน AIC ไม่สามารถใช้ได้กับทุกรุ่นและมีทางเลือกมากมายสำหรับ AIC เช่นกัน

ความสัมพันธ์กับชุดการตรวจสอบความถูกต้อง

ในกรณีที่ใช้งานได้จริงหลายอย่างเมื่อแบบจำลองดำเนินไปสู่ความซับซ้อนมากขึ้น (คำอธิบายที่ใหญ่กว่า) เพื่อให้เกิดข้อผิดพลาดในการฝึกอบรมที่ต่ำกว่า AIC และสิ่งที่คล้ายกันสามารถถูกแทนที่ด้วยชุดการตรวจสอบความถูกต้อง เราหยุดความคืบหน้าเมื่อข้อผิดพลาดการตรวจสอบ (ข้อผิดพลาดของแบบจำลองในชุดการตรวจสอบ) เริ่มเพิ่มขึ้น ด้วยวิธีนี้เราสร้างสมดุลระหว่างข้อผิดพลาดในการฝึกอบรมต่ำและคำอธิบายสั้น ๆ


3

Occam Razor เป็นเพียงคำพ้องกับอาจารย์ใหญ่ Parsimony (จูบให้ง่ายและโง่) algos ส่วนใหญ่ทำงานในหลักการนี้

ในคำถามข้างต้นเราต้องคิดในการออกแบบขอบเขตที่แบ่งแยกง่าย ๆ

เหมือนในภาพแรกคำตอบ D1 คือ B ตามที่กำหนดเส้นที่ดีที่สุดที่แยก 2 ตัวอย่างในขณะที่ a คือพหุนามและอาจจบลงด้วยการกระชับมากเกินไป (ถ้าฉันจะใช้ SVM บรรทัดนั้นจะมา)

ในทำนองเดียวกันในรูปที่ 2 คำตอบ D2 คือ B


2

ใบมีดโกนของ Occam ในงานปรับข้อมูล:

  1. ลองใช้สมการเชิงเส้นก่อน
  2. หาก (1) ไม่ช่วยอะไรมาก - เลือกอันที่ไม่เป็นเชิงเส้นที่มีคำน้อยกว่าและ / หรือตัวแปรที่เล็กกว่า

D2

Bชนะอย่างชัดเจนเพราะมันเป็นขอบเขตเชิงเส้นซึ่งแยกข้อมูลอย่างชัดเจน (อะไรคือสิ่งที่ "ดี" ฉันไม่สามารถนิยามได้ในขณะนี้คุณต้องพัฒนาความรู้สึกนี้ด้วยประสบการณ์) Aขอบเขตเป็นแบบไม่เป็นเชิงเส้นซึ่งดูเหมือนคลื่นไซน์ที่กระวนกระวายใจ

D1

อย่างไรก็ตามฉันไม่แน่ใจเกี่ยวกับอันนี้ Aเขตแดนเป็นเหมือนวงกลมและBเป็นเส้นตรงอย่างเคร่งครัด IMHO สำหรับฉัน - เส้นขอบไม่ใช่ส่วนวงกลมหรือส่วนของเส้น - มันเป็นเส้นโค้งเหมือนพาราโบลา:

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นฉันเลือกC:-)


ฉันยังไม่แน่ใจว่าทำไมคุณถึงต้องการอินไลน์ระหว่าง D1 มีดโกนของ Occam บอกว่าจะใช้วิธีแก้ปัญหาง่ายๆที่ใช้งานได้ ขาดข้อมูลมากขึ้น B เป็นส่วนที่ถูกต้องสมบูรณ์แบบที่เหมาะกับข้อมูล หากเราได้รับข้อมูลเพิ่มเติมที่แนะนำให้โค้งมากกว่าชุดข้อมูลของ B ฉันจะเห็นการโต้แย้งของคุณ แต่การขอให้ C เทียบกับจุดของคุณ (1) เนื่องจากมันเป็นขอบเขตเชิงเส้นที่ใช้งานได้
Delioth

เนื่องจากมีพื้นที่ว่างมากมายจากBบรรทัดไปยังกลุ่มวงกลมด้านซ้ายของจุด ซึ่งหมายความว่าจุดสุ่มใหม่ใด ๆ ที่มาถึงมีโอกาสสูงมากที่จะถูกกำหนดให้กับคลัสเตอร์วงกลมทางด้านซ้ายและมีโอกาสน้อยมากที่จะได้รับมอบหมายให้กับคลัสเตอร์ด้านขวา ดังนั้นBเส้นไม่ใช่ขอบเขตที่เหมาะสมในกรณีที่มีจุดสุ่มใหม่บนเครื่องบิน และคุณไม่สามารถเพิกเฉยข้อมูลแบบสุ่มได้เนื่องจากโดยทั่วไปมักจะมีการแทนที่คะแนนแบบสุ่มเสมอไป
Agnius Vasiliauskas

0

ฉันไม่แน่ใจว่าฉันเข้าใจหลักการมีดโกนของ Occam หรือไม่

ก่อนอื่นมาพูดกับมีดโกนของ Occam:

Occam's razor [.. ] กล่าวว่า "วิธีแก้ปัญหาที่ง่ายกว่ามีแนวโน้มที่จะถูกต้องมากกว่าวิธีที่ซับซ้อน" - วิกิ

ต่อไปเราจะตอบคำถามของคุณ:

เนื่องจากตาม Razor ของ Occam ให้เลือกตัวแยกประเภทที่ง่ายกว่าซึ่งทำงานได้ดีแทนที่จะซับซ้อน

สิ่งนี้ถูกต้องเพราะในการเรียนรู้ของเครื่องการ overfitting เป็นปัญหา หากคุณเลือกรูปแบบที่ซับซ้อนมากขึ้นคุณมีแนวโน้มที่จะจำแนกข้อมูลการทดสอบไม่ใช่พฤติกรรมที่แท้จริงของปัญหา ซึ่งหมายความว่าเมื่อคุณใช้ตัวจําแนกเชิงซ้อนของคุณเพื่อคาดการณ์ข้อมูลใหม่มีแนวโน้มที่จะแย่กว่าตัวจําแนกอย่างง่าย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.