ป่าสุ่มที่รู้จักกันดีในการดำเนินการอย่างเป็นธรรมได้ดีบนความหลากหลายของงานและได้รับการเรียกว่าLeatherman วิธีการเรียนรู้ มีปัญหาประเภทใดบ้างหรือเงื่อนไขใดบ้างที่ควรหลีกเลี่ยงการใช้ฟอเรสต์แบบสุ่ม?
ป่าสุ่มที่รู้จักกันดีในการดำเนินการอย่างเป็นธรรมได้ดีบนความหลากหลายของงานและได้รับการเรียกว่าLeatherman วิธีการเรียนรู้ มีปัญหาประเภทใดบ้างหรือเงื่อนไขใดบ้างที่ควรหลีกเลี่ยงการใช้ฟอเรสต์แบบสุ่ม?
คำตอบ:
เมื่อนึกถึงภาษาเฉพาะของใบเสนอราคา leatherman นั้นเป็นเครื่องมือหลายอย่าง: ฮาร์ดแวร์ชิ้นเดียวที่มี gizmos น้อยมากมายซ่อนตัวอยู่ในนั้น มันเป็นคีมและมีดและไขควงและอีกมากมาย! แทนที่จะต้องพกเครื่องมือแต่ละอย่างเหล่านี้แยกต่างหาก leatherman เป็นรายการเดียวที่คุณสามารถหนีบกับกางเกงของคุณได้ สิ่งนี้สะดวกแต่การแลกเปลี่ยนคือเครื่องมือแต่ละอย่างนั้นไม่ใช่ดีที่สุดในงาน ที่เปิดกระป๋องใช้งานยากบิตไขควงมักจะมีขนาดที่ไม่ถูกต้องและมีดสามารถทำได้มากกว่าการถาก หากการทำงานใด ๆ เหล่านี้มีความสำคัญคุณจะได้รับบริการที่ดีกว่าด้วยเครื่องมือพิเศษ: มีดจริงไขควงจริงหรือคีมจริง
ป่าสุ่มสามารถคิดในแง่เดียวกัน ฟอเรสต์แบบสุ่มให้ผลลัพธ์ที่แข็งแกร่งในชุดข้อมูลที่หลากหลายและไม่ไวต่อพารามิเตอร์การปรับแต่งอย่างไม่น่าเชื่อ แต่มันไม่สมบูรณ์แบบ ยิ่งคุณรู้ปัญหามากเท่าไหร่ก็จะยิ่งสร้างโมเดลเฉพาะเพื่อรองรับปัญหาเฉพาะของคุณได้ง่ายขึ้นเท่านั้น
มีบางกรณีที่เห็นได้ชัดว่าป่าสุ่มจะต้องดิ้นรน:
Sparsity - เมื่อข้อมูลกระจัดกระจายมากเป็นไปได้มากว่าสำหรับบางโหนดตัวอย่าง bootstrapped และส่วนย่อยของคุณสมบัติแบบสุ่มจะทำงานร่วมกันเพื่อสร้างพื้นที่คุณลักษณะคงที่ ไม่ต้องมีการแบ่งที่มีประสิทธิผลดังนั้นจึงไม่น่าที่ลูก ๆ ของโหนดนี้จะเป็นประโยชน์ XGBoost สามารถทำได้ดีกว่าในบริบทนี้
ข้อมูลไม่ได้แกนชิด - สมมติว่ามีขอบเขตการตัดสินใจในแนวทแยงในพื้นที่ของทั้งสองคุณสมบัติและ 2 แม้ว่านี่จะเป็นมิติข้อมูลที่เกี่ยวข้องเพียงอย่างเดียวกับข้อมูลของคุณ แต่จะใช้โมเดลการสุ่มป่าทั่วไปหลาย ๆ ตัวแยกกันเพื่ออธิบายขอบเขตแนวทแยงนั้น นี้เป็นเพราะแต่ละคนแยกเป็นเชิงตั้งฉากกับแกนของทั้งหรือ 2 (สิ่งนี้ควรเป็นสัญชาตญาณเพราะโมเดลฟอเรสต์แบบสุ่มธรรมดากำลังแยกส่วนของรูปแบบ.) Rotation forest ซึ่งดำเนินการฉาย PCA บนชุดย่อยของคุณสมบัติที่เลือกสำหรับแต่ละการแยกสามารถใช้เพื่อเอาชนะสิ่งนี้: การคาดการณ์ในรูปแบบมุมฉากโดยหลักการแล้วจะลดอิทธิพลของคุณสมบัติที่จัดเรียงตามแนวแกนเนื่องจากการแยก จะไม่จัดแนวแกนในพื้นฐานเดิมอีกต่อไป
รูปภาพนี้เป็นอีกตัวอย่างของความแตกต่างของแนวแกนที่มีอิทธิพลต่อการตัดสินใจของฟอเรสต์ ขอบเขตการตัดสินใจเป็นวงกลมที่จุดเริ่มต้น แต่โปรดทราบว่ารูปแบบฟอเรสต์แบบสุ่มนี้จะวาดกล่องเพื่อประมาณวงกลม มีหลายสิ่งที่เราสามารถทำได้เพื่อปรับปรุงขอบเขตนี้ ที่ง่ายที่สุดคือการรวบรวมข้อมูลมากขึ้นและสร้างต้นไม้มากขึ้น
มุมแหลม ความถูกต้อง
พวกเขาใช้วิธีการแพร่ พวกเขาพอดีสิ่งที่เป็นก้อนดี พวกเขาไม่พอดีกับรายละเอียดและสิ่งที่มีรายละเอียดสูงเมื่อขนาดตัวอย่างต่ำ ฉันนึกภาพว่าพวกเขาทำข้อมูลอนุกรมเวลาหลายชุดได้ไม่ดีนักเมื่อสิ่งที่นี่ขึ้นอยู่กับระยะทางนั่น
ป่าที่มีการไล่ระดับสีอาจเหมาะสมหรือพอดี แต่อาจได้รับข้อผิดพลาดที่ต่ำกว่าอย่างมากสำหรับข้อมูลเดียวกัน
" Leathermen " ไม่มีอยู่ ไม่มี "กระสุนเงิน" มีกล่องเครื่องมือ รู้จักเครื่องมือของคุณและดูแลพวกมันให้ดีเพื่อที่พวกเขาจะได้ดูแลคุณ ระวัง "เมื่อคุณเป็นค้อนจากนั้นทุกปัญหาดูเหมือนกับเล็บ" โดยเฉพาะอย่างยิ่งเมื่อคุณไม่มีห้องสมุดหนาแน่นในกล่องเครื่องมือของคุณ
จนกว่าคุณจะรู้ปัญหาเป็นอย่างดีมันเป็นเรื่องง่ายที่จะจินตนาการว่าอะไรก็ตามที่อาจแก้ไขได้หรือเครื่องมือที่คุณโปรดปรานอาจแก้ไขได้ ภูมิปัญญาแนะนำการทำความเข้าใจปัญหาอย่างลึกซึ้งและคุ้นเคยกับเครื่องมือของคุณมาก
เพิ่ม: หากคุณมีทรัพยากรการคำนวณหรือระยะเวลาที่เพียงพอที่จะใช้อย่างอื่น RF ไม่เพียง แต่รวดเร็วในการฝึกอบรม แต่ยังรวดเร็วในการรัน โครงสร้างที่ได้รับการเพิ่มความลึกมากนั้นน้อยกว่านั้น คุณต้องมีค่าใช้จ่ายในการสนับสนุน
นี่เป็นครั้งแรกที่ฉันตอบคำถามดังนั้นอย่าตรึงฉันไว้เลย .. แต่ฉันคิดว่าฉันสามารถตอบคำถามของคุณได้:
หากคุณสนใจในประสิทธิภาพของแบบจำลองเท่านั้นและไม่ได้อยู่ในสิ่งที่ต้องการการแปลความหมายป่าสุ่มตัวอย่างมักจะเป็นอัลกอริทึมการเรียนรู้ที่ดีมาก แต่จะแย่ลงเล็กน้อยในกรณีต่อไปนี้
1. ) เมื่อมิติข้อมูล (จำนวนคุณสมบัติ) สูงมากเมื่อเทียบกับจำนวนตัวอย่างการฝึกอบรมในกรณีเหล่านี้การถดถอยเชิงเส้นปกติหรือ SVM จะดีขึ้น
2. ) ในกรณีที่มีการแสดงคำสั่ง / โครงสร้าง convolutional สูงขึ้นเช่นในปัญหาการมองเห็นคอมพิวเตอร์ ในกรณีที่คอมพิวเตอร์มีวิสัยทัศน์โครงข่ายประสาทเทียมจะมีประสิทธิภาพสูงกว่าป่าสุ่ม (โดยทั่วไปหากมีความรู้สามารถรวมเข้ากับการเรียนรู้ที่เป็นสิ่งที่ดีกว่า)
การพูดว่าป่าสุ่มเป็นจุดเริ่มต้นที่ดีมาก หนึ่งในคนที่ฉันชื่นชอบในทักษะการเรียนรู้ของเครื่องของเขามักจะเริ่มต้นด้วยการเรียนรู้ป่าสุ่มและ regressor เชิงเส้นปกติ
อย่างไรก็ตามถ้าคุณต้องการประสิทธิภาพที่ดีที่สุดเท่าที่เป็นไปได้ผมเชื่อว่าทุกวันนี้เครือข่ายประสาทหรือที่รู้จัก การเรียนรู้แบบลึกนั้นดูเหมือนวิธีการที่น่าสนใจมาก ๆ ผู้ชนะมากขึ้นเรื่อย ๆ ในเว็บไซต์ข้อมูลที่ท้าทายเช่น Kaggle ใช้โมเดลการเรียนรู้ลึกสำหรับการแข่งขัน อีกโปรที่มีโครงข่ายใยประสาทเทียมคือพวกมันสามารถจัดการกับตัวอย่างจำนวนมาก (> 10 ^ 6 สามารถฝึกพวกมันได้โดยใช้การไล่ระดับสีแบบสุ่มสุ่มลงมาป้อนข้อมูลครั้งละบิต) โดยส่วนตัวฉันพบว่านี่เป็นมืออาชีพที่น่าสนใจมากสำหรับการเรียนรู้ลึก
ประการแรกป่าสุ่มไม่สามารถใช้กับชนิดข้อมูลต่อไปนี้:
สำหรับชนิดข้อมูลแบบตารางคุณควรตรวจสอบฟอเรสต์แบบสุ่มเสมอเพราะ: