ป่าสุ่มและการส่งเสริมพารามิเตอร์หรือไม่ใช่พารามิเตอร์หรือไม่


13

จากการอ่านการสร้างแบบจำลองทางสถิติที่ยอดเยี่ยม: ทั้งสองวัฒนธรรม (Breiman 2001)เราสามารถยึดความแตกต่างทั้งหมดระหว่างแบบจำลองทางสถิติแบบดั้งเดิม (เช่นการถดถอยเชิงเส้น) และอัลกอริทึมการเรียนรู้ของเครื่องจักร (เช่นการห่อป่าแบบสุ่ม

Breiman วิพากษ์วิจารณ์แบบจำลองข้อมูล (พารามิเตอร์) เพราะพวกเขาอยู่บนพื้นฐานของข้อสันนิษฐานว่าการสังเกตนั้นถูกสร้างขึ้นโดยแบบจำลองที่เป็นทางการซึ่งเป็นที่รู้จักซึ่งกำหนดโดยนักสถิติซึ่งอาจเลียนแบบธรรมชาติได้ไม่ดี ในทางตรงกันข้าม ML algos จะไม่ถือว่าแบบจำลองที่เป็นทางการใด ๆ และเรียนรู้การเชื่อมโยงโดยตรงระหว่างตัวแปรอินพุตและเอาต์พุตจากข้อมูล

ฉันตระหนักว่าบรรจุถุง / RF และการส่งเสริมการนอกจากนี้ยังมีการจัดเรียงของพารา: ยกตัวอย่างเช่นntree , mtryใน RF, อัตราการเรียนรู้ , ส่วนถุง , ซับซ้อนต้นไม้ใน Stochastic ไล่โทนสีต้นไม้เพิ่มขึ้นมีการปรับจูนทุกพารามิเตอร์ นอกจากนี้เรายังประมาณค่าพารามิเตอร์เหล่านี้จากข้อมูลเนื่องจากเราใช้ข้อมูลเพื่อค้นหาค่าที่ดีที่สุดของพารามิเตอร์เหล่านี้

ดังนั้นความแตกต่างคืออะไร? RF และ Boosted Trees เป็นโมเดลพาราเมตริกหรือไม่?

คำตอบ:


12

แบบจำลอง Parametrical มีพารามิเตอร์ (อนุมาน) หรือสมมติฐานเกี่ยวกับการกระจายข้อมูลในขณะที่ RF, โครงข่ายประสาทหรือต้นไม้ที่เพิ่มขึ้นมีพารามิเตอร์ที่เกี่ยวข้องกับอัลกอริทึมเอง แต่พวกเขาไม่ต้องการสมมติฐานเกี่ยวกับการกระจายข้อมูลของคุณหรือจำแนกข้อมูลของคุณ . ในความเป็นจริงอัลกอริทึมเกือบทั้งหมดมีพารามิเตอร์เช่นการวนซ้ำหรือค่ามาร์จิ้นที่เกี่ยวข้องกับการปรับให้เหมาะสม


5
ดังนั้นเพื่อสรุป: 1) พารามิเตอร์ทั้ง ML และพารามิเตอร์โมเดลถูกปรับ / ประเมินตามข้อมูล BUT 2) ใน ML พารามิเตอร์ควบคุมวิธีที่อัลกอริทึมเรียนรู้จากข้อมูล (โดยไม่มีการตั้งสมมติฐานใด ๆ เกี่ยวกับข้อมูลและดาวน์สตรีมของ การสร้างข้อมูล) ในขณะที่พารามิเตอร์ของตัวแบบพารามิเตอร์ (แบบจำลองที่ถือว่าเป็นนิรนัย) ควบคุมกลไกที่สันนิษฐานว่าจะสร้างข้อมูล (โดยมีข้อสันนิษฐานที่ไม่สมจริงจำนวนมากที่ไม่ค่อยได้ใช้ในทางปฏิบัติ) คุณคิดว่านี่เป็นบทสรุปที่เพียงพอหรือไม่? คุณจะเพิ่ม / เปลี่ยนแปลงอะไร
แอนทอน

4
ฉันคิดว่าประโยคหนึ่งจากกระดาษของ Breiman ที่สรุปทุกอย่างคือ "การสร้างแบบจำลองอัลกอริทึมเปลี่ยนโฟกัสจากแบบจำลองข้อมูลไปสู่คุณสมบัติของอัลกอริทึม"
แอนทอน

1
คุณสามารถสรุปแบบนี้ได้ แต่ .. อย่าดูถูกดูแคลนพารามิเตอร์โมเดลมีสถานการณ์ที่พวกเขาจำเป็นและเหมาะสมที่สุดในการแก้ปัญหาจำนวนมาก นอกจากนี้สมมติฐานของพวกเขาก็ไม่สมจริงเช่นกัน การแจกแจงทางทฤษฎีหลายอย่างนั้นถูกต้องสำหรับการอธิบายสิ่งต่าง ๆ มากมายตั้งแต่ปกติจนถึงทวินาม lognormal เรขาคณิต ฯลฯ มันไม่เกี่ยวกับอย่างใดอย่างหนึ่งมันเกี่ยวกับการเลือกวิธีที่ถูกต้องในการแก้ปัญหา
D.Castro

4
ฉันเห็นด้วย. เมื่อกระบวนการทางกายภาพพื้นฐานเป็นที่รู้จักกันดีแบบจำลองพารามิเตอร์จะเหมาะสม Breiman กำลังวิจารณ์การใช้โมเดลพาราเมตริกเพื่อการค้นหาความรู้และการทำนายเมื่อกระบวนการพื้นฐานไม่เป็นที่รู้จัก
แอนทอน

1

ฉันคิดว่าเกณฑ์สำหรับ parametric และ non-parametric คือ: ว่าจำนวนของพารามิเตอร์จะเพิ่มขึ้นตามจำนวนตัวอย่างการฝึกอบรมหรือไม่ สำหรับการถดถอยโลจิสติกและ svm เมื่อคุณเลือกคุณสมบัติคุณจะไม่ได้รับพารามิเตอร์มากขึ้นโดยการเพิ่มข้อมูลการฝึกอบรมเพิ่มเติม แต่สำหรับ RF เป็นต้นรายละเอียดของแบบจำลองจะเปลี่ยน (เช่นความลึกของต้นไม้) แม้ว่าจำนวนต้นไม้จะไม่เปลี่ยนแปลง


แต่ใน RF หรือ Boosting การเพิ่มความลึกของต้นไม้ไม่ได้เพิ่มพารามิเตอร์ คุณยังมีtree.complexityพารามิเตอร์อยู่คุณเพียงแค่เปลี่ยนค่า นอกจากนี้ใน RF และการเพิ่มจำนวนต้นไม้ในป่า / ลำดับจะเปลี่ยนไปตามขนาดตัวอย่างของคุณ
Antoine

ในตัวเลือกของฉันเมื่อความลึกของต้นไม้เปลี่ยนแปลงมีการแยกในต้นไม้มากขึ้นดังนั้นคุณจึงมีพารามิเตอร์มากขึ้น เมื่อจำนวนต้นไม้เปลี่ยนแปลงใน RF และ Boosting เป็นการเปลี่ยนแปลงข้อมูล แต่จะไม่เกิดขึ้นเมื่อแบบจำลองเป็นแบบจำลองเชิงเส้น
Yu Zhang

1

ในแง่สถิติโมเดลเป็นพารามิเตอร์ถ้าเรียนรู้หรืออนุมานพารามิเตอร์ตามข้อมูล ต้นไม้ในแง่นี้ไม่มีพารามิเตอร์ แน่นอนความลึกของต้นไม้เป็นพารามิเตอร์ของอัลกอริทึม แต่ไม่ได้มาจากข้อมูลโดยกำเนิด แต่เป็นพารามิเตอร์อินพุตที่ผู้ใช้ต้องจัดเตรียมไว้


ดังนั้นสมมติว่าคุณต้องนำเสนอ OLS และโมเดลจากแผนภูมิให้กับผู้ชมที่ไม่ใช่ด้านเทคนิคคุณสามารถพูดได้หรือไม่ว่าในอดีตนั้นเป็นพารามิเตอร์
Tanguy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.