จากการอ่านการสร้างแบบจำลองทางสถิติที่ยอดเยี่ยม: ทั้งสองวัฒนธรรม (Breiman 2001)เราสามารถยึดความแตกต่างทั้งหมดระหว่างแบบจำลองทางสถิติแบบดั้งเดิม (เช่นการถดถอยเชิงเส้น) และอัลกอริทึมการเรียนรู้ของเครื่องจักร (เช่นการห่อป่าแบบสุ่ม
Breiman วิพากษ์วิจารณ์แบบจำลองข้อมูล (พารามิเตอร์) เพราะพวกเขาอยู่บนพื้นฐานของข้อสันนิษฐานว่าการสังเกตนั้นถูกสร้างขึ้นโดยแบบจำลองที่เป็นทางการซึ่งเป็นที่รู้จักซึ่งกำหนดโดยนักสถิติซึ่งอาจเลียนแบบธรรมชาติได้ไม่ดี ในทางตรงกันข้าม ML algos จะไม่ถือว่าแบบจำลองที่เป็นทางการใด ๆ และเรียนรู้การเชื่อมโยงโดยตรงระหว่างตัวแปรอินพุตและเอาต์พุตจากข้อมูล
ฉันตระหนักว่าบรรจุถุง / RF และการส่งเสริมการนอกจากนี้ยังมีการจัดเรียงของพารา: ยกตัวอย่างเช่นntree , mtryใน RF, อัตราการเรียนรู้ , ส่วนถุง , ซับซ้อนต้นไม้ใน Stochastic ไล่โทนสีต้นไม้เพิ่มขึ้นมีการปรับจูนทุกพารามิเตอร์ นอกจากนี้เรายังประมาณค่าพารามิเตอร์เหล่านี้จากข้อมูลเนื่องจากเราใช้ข้อมูลเพื่อค้นหาค่าที่ดีที่สุดของพารามิเตอร์เหล่านี้
ดังนั้นความแตกต่างคืออะไร? RF และ Boosted Trees เป็นโมเดลพาราเมตริกหรือไม่?