RandomForestClassifier กับ ExtraTreesClassifier ใน scikit เรียนรู้


95

ใครช่วยอธิบายความแตกต่างระหว่าง RandomForestClassifier และ ExtraTreesClassifier ใน scikit ได้ ฉันใช้เวลาพอสมควรในการอ่านบทความ:

P. Geurts, D. Ernst. และ L. Wehenkel,“ Extremely randomized trees”, Machine Learning, 63 (1), 3-42, 2006

ดูเหมือนว่านี่คือความแตกต่างสำหรับ ET:

1) เมื่อเลือกตัวแปรแบบแยกตัวอย่างจะถูกดึงมาจากชุดการฝึกอบรมทั้งหมดแทนที่จะเป็นตัวอย่าง bootstrap ของชุดการฝึกอบรม

2) การแยกจะถูกเลือกโดยการสุ่มจากช่วงของค่าในตัวอย่างในแต่ละการแบ่ง

ผลจากสองสิ่งนี้คือ "ใบไม้" อีกมากมาย


7
เหตุผลที่ฉันสนใจเครื่องคัดแยกประเภทภายนอกมากก็คือฉันได้รับผลลัพธ์ที่ดีขึ้นมากกับ ET ในปัญหาหนึ่ง ๆ เวกเตอร์คุณลักษณะของฉันมีขนาดใหญ่> 200 ตัวแปรและตัวแปรมีเสียงดังมาก ตัวจำแนก RDF มาตรฐานได้รับผลลัพธ์ที่ไม่ดี แต่ ET ได้รับคะแนน F1> 90% ชั้นเรียนไม่สมดุลกับตัวอย่างชั้นเรียนเชิงบวกค่อนข้างน้อยและเชิงลบจำนวนมาก
denson

ดูคำตอบล่าสุดเพิ่มเติมได้ที่: stats.stackexchange.com/questions/175523/…
Archie

คำตอบ:


59

ใช่ข้อสรุปทั้งสองถูกต้องแม้ว่าการใช้งาน Random Forest ใน scikit-learn จะทำให้สามารถเปิดหรือปิดการสุ่มตัวอย่าง bootstrap ได้

ในทางปฏิบัติ RF มักมีขนาดกะทัดรัดกว่า ET ET โดยทั่วไปมีราคาถูกกว่าในการฝึกอบรมจากมุมมองด้านการคำนวณ แต่สามารถเติบโตได้มากกว่า ETs บางครั้งสามารถคุยดีกว่า RFs แต่มันยากที่จะคาดเดาเมื่อมันเป็นกรณีที่ทั้งสองโดยไม่ต้องพยายามครั้งแรก (และการปรับแต่งn_estimators, max_featuresและmin_samples_splitโดยการค้นหาตารางข้ามการตรวจสอบ)


21

ตัวแยกประเภท ExtraTrees จะทดสอบการแยกส่วนแบบสุ่มมากกว่าเศษส่วนของคุณสมบัติเสมอ (ตรงกันข้ามกับ RandomForest ซึ่งจะทดสอบการแยกส่วนที่เป็นไปได้ทั้งหมดในส่วนของคุณสมบัติ)


13
ฉันรู้สึกสนุกที่ความคิดเห็นนี้เป็นคำตอบแบบคำต่อคำสำหรับคำถามแบบทดสอบ Coursera
Bob

ใช่ @ บ็อบมันคือ ฉันพบว่าคำตอบนี้มีประโยชน์มากนั่นคือเหตุผลที่ฉันโพสต์ที่นี่มันช่วยให้คนอื่นเข้าใจความแตกต่างระหว่างต้นไม้พิเศษและป่าสุ่ม
Muhammad Umar Amanat

3
ก็มาจากหลักสูตรเดียวกัน และคำตอบนี้มีประโยชน์!
killezio

ใช่ @ skeller88 นี่เป็นหลักสูตรที่ยอดเยี่ยม คุณควรดูที่coursera.org/learn/competitive-data-science?specialization=aml
Muhammad Umar Amanat

0

ความแตกต่างที่สำคัญระหว่างป่าสุ่มและต้นไม้พิเศษ (โดยปกติเรียกว่าป่าสุ่มแบบสุดขั้ว) อยู่ที่ความจริงที่ว่าแทนที่จะคำนวณคุณลักษณะที่เหมาะสมที่สุดในพื้นที่ / ชุดค่าผสมที่แยกออกมา (สำหรับฟอเรสต์แบบสุ่ม) สำหรับแต่ละคุณสมบัติที่พิจารณาแล้วจะมีการเลือกค่าแบบสุ่ม สำหรับการแยก (สำหรับต้นไม้พิเศษ) นี่คือแหล่งข้อมูลที่ดีที่จะทราบข้อมูลเพิ่มเติมเกี่ยวกับความแตกต่างของพวกเขาในรายละเอียดเพิ่มเติม Random forest vs extra tree


ฉันคิดว่าคุณตั้งใจจะวางลิงค์
Tomasz Gandor
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.