คำถามเชิงปฏิบัติเกี่ยวกับการปรับแต่งป่าสุ่ม


65

คำถามของฉันเกี่ยวกับป่าสุ่ม แนวคิดของลักษณนามที่สวยงามนี้ชัดเจนสำหรับฉัน แต่ยังมีคำถามการใช้งานมากมาย น่าเสียดายที่ฉันล้มเหลวในการหาคู่มือที่เป็นประโยชน์สำหรับ RF (ฉันค้นหาบางสิ่งเช่น "คู่มือปฏิบัติสำหรับเครื่อง Boltzman ที่ จำกัด การฝึกอบรม" โดย Geoffrey Hinton แต่สำหรับป่าสุ่ม!

หนึ่งวิธีสามารถปรับคลื่นความถี่วิทยุในทางปฏิบัติได้อย่างไร?

จริงหรือที่ต้นไม้จำนวนมากจะดีกว่าเสมอ มีข้อ จำกัด ที่สมเหตุสมผล (ยกเว้นความสามารถของ บริษัท แน่นอน) ในการเพิ่มจำนวนต้นไม้และวิธีการประมาณสำหรับชุดข้อมูลที่กำหนดหรือไม่?

ความลึกของต้นไม้ล่ะ? วิธีการเลือกที่เหมาะสมหรือไม่ มีความรู้สึกอย่างไรในการทดสอบต้นไม้ที่มีความยาวต่างกันในป่าหนึ่งและคำแนะนำสำหรับสิ่งนั้นคืออะไร?

มีพารามิเตอร์อื่น ๆ ที่ควรพิจารณาเมื่อฝึกอบรม RF หรือไม่ อาจสร้าง Algos สำหรับต้นไม้แต่ละต้น?

เมื่อพวกเขาพูดว่า RF ทนต่อการ overfitting ความจริงเป็นอย่างไร

ฉันจะขอบคุณคำตอบและ / หรือลิงก์ไปยังคู่มือหรือบทความที่ฉันอาจพลาดไปในขณะที่ค้นหา


สำหรับการปรับจูนแบบ perfoamnce โปรดดูที่SO: "วิธีการปรับปรุงประสิทธิภาพแบบสุ่มป่า"
smci

คำตอบ:


43

ฉันไม่ได้เป็นบุคคลที่มีสิทธิ์ดังนั้นให้พิจารณาหมายเหตุย่อของผู้ประกอบการเหล่านี้:

ต้นไม้มากขึ้นจะดีขึ้นเมื่อผลตอบแทนลดลง ต้นไม้ที่ลึกกว่ามักจะดีกว่าที่จะต้องใช้ต้นไม้มากขึ้นเพื่อประสิทธิภาพที่คล้ายกัน

จุดสองจุดข้างต้นเป็นผลโดยตรงจากการแลกเปลี่ยนอคติความแปรปรวน ต้นไม้ที่ลึกจะช่วยลดอคติ ต้นไม้มากขึ้นช่วยลดความแปรปรวน

พารามิเตอร์ไฮเปอร์ที่สำคัญที่สุดคือจำนวนฟีเจอร์ที่ต้องทดสอบสำหรับการแยกแต่ละครั้ง ยิ่งมีฟีเจอร์ที่ไร้ประโยชน์มากเท่าใดคุณก็จะต้องลองใช้ฟีเจอร์นั้นมากขึ้น สิ่งนี้ต้องการการปรับแต่ง คุณสามารถปรับจูนผ่าน OOB โดยประมาณหากคุณต้องการรู้ประสิทธิภาพการทำงานของคุณในข้อมูลการฝึกอบรมและไม่มีการบิด (~ ซ้ำหลายมาตรการ) แม้ว่านี่จะเป็นพารามิเตอร์ที่สำคัญที่สุด แต่ก็เหมาะสมที่สุดโดยปกติแล้วจะค่อนข้างใกล้เคียงกับค่าเริ่มต้นที่แนะนำ (sqrt (p) หรือ (p / 3) สำหรับการจำแนกประเภท / การถดถอย)

การวิจัยเมื่อไม่นานมานี้แสดงให้เห็นว่าคุณไม่จำเป็นต้องทำการค้นหาแยกอย่างละเอียดภายในคุณลักษณะเพื่อให้ได้ประสิทธิภาพที่ดี เพียงลองจุดตัดสองสามจุดสำหรับแต่ละคุณสมบัติที่เลือกและดำเนินการต่อ ทำให้การฝึกอบรมรวดเร็วยิ่งขึ้น (ป่า / ต้นไม้ที่สุ่มสุ่มมาก)


คู่อื่นบันทึก: ในทางปฏิบัติฉันมักจะยืนยันการบรรจบกันโดยเปรียบเทียบการทำนายจากต้นไม้ครึ่งหนึ่งกับอีก เท่าที่ overfitting มันเป็นหน้าที่ของสิ่งที่คุณพยายามจะพูดถึง พวกเขาจะไม่กระฉับกระเฉงเกินไปหากคุณกำลังฝึกอบรมกับกลุ่มตัวอย่าง แต่ก็ไม่ค่อยจะได้ผลเท่าไหร่
Shea Parkes

ต้นไม้ลึก = ของคุณดีขึ้นหรือไม่คงที่ทุกอย่างเป็นจริงสำหรับข้อมูลที่มีเสียงดังมากพร้อมโครงสร้างการพึ่งพาซึ่งเปลี่ยนแปลงตลอดเวลาความสัมพันธ์เชิงเส้นที่มีความแข็งแกร่งที่สุดที่จะไม่เปลี่ยนแปลงระหว่างชุดการฝึกอบรมและชุดทดสอบ
Jase

ฉันเห็นศักยภาพของต้นไม้ที่ตื้นกว่าจะดีกว่าถ้าคุณมีสถานการณ์ที่คุณควรเรียนรู้ความสัมพันธ์ที่ตื้น แต่ฉันต้องการใช้หลักฐานเชิงประจักษ์เพื่อพิสูจน์มัน (และไม่มีเวลาทำงาน) หากคุณเชื่อหรือมีข้อพิสูจน์ว่าความสัมพันธ์เชิงเส้นนั้นมีความยืดหยุ่นมากที่สุดฉันจะพิจารณาบางอย่างที่ไม่ยึดตามต้นไม้ บางทีเครือข่ายประสาทเทียมที่มีการข้ามเลเยอร์?
Shea Parkes

สมมติว่าคุณมีชุดข้อมูลที่มี 3 คุณสมบัติที่เกี่ยวข้องและ 100 คุณสมบัติที่มีสัญญาณรบกวนสีขาวและ 50 ชุดข้อมูล แต่คุณไม่ทราบว่ามีสัญญาณรบกวนสีขาวและมีความเกี่ยวข้องก่อนเวลาคุณเพิ่งรู้ว่าข้อมูลของคุณเป็นเสียงรบกวนว่าเป็นกรณีนี้ เห็นได้ชัดว่าต้นไม้ตื้น ๆ ที่มีขนาดใหญ่mtryนั้นดีกว่าไม่จำเป็นต้องมีหลักฐานหรือหลักฐานเชิงประจักษ์ที่จะเห็นสิ่งนี้
Jase

22
  • จำนวนต้นไม้ : ยิ่งใหญ่ยิ่งดี: ใช่ วิธีหนึ่งในการประเมินและรู้ว่าเมื่อใดที่จะหยุดคือการตรวจสอบอัตราความผิดพลาดของคุณในขณะที่สร้างฟอเรสต์ของคุณ (หรือเกณฑ์การประเมินอื่น ๆ ที่คุณสามารถใช้) และตรวจพบเมื่อมาบรรจบกัน คุณสามารถทำสิ่งนั้นได้ในชุดการเรียนรู้หรือในชุดทดสอบอิสระหากมี นอกจากนี้ยังมีข้อสังเกตว่าจำนวนโหนดทดสอบในต้นไม้ของคุณนั้นถูก จำกัด ด้วยจำนวนของวัตถุดังนั้นหากคุณมีตัวแปรจำนวนมากและไม่ได้มีวัตถุฝึกอบรมจำนวนมากแนะนำให้ใช้ฟอเรสต์ขนาดใหญ่เพื่อเพิ่ม โอกาสในการประเมิน descriptors ทั้งหมดอย่างน้อยหนึ่งครั้งในป่าของคุณ

  • ความลึกของต้นไม้ : มีหลายวิธีในการควบคุมความลึกของต้นไม้ (จำกัด ความลึกสูงสุด จำกัด จำนวนโหนด จำกัด จำนวนของวัตถุที่จำเป็นในการแยกหยุดการแยกถ้าการแยกไม่เพิ่มความพอดีให้พอดี ... ) ส่วนใหญ่แล้วขอแนะนำให้ตัด (จำกัด ความลึกของต้นไม้) หากคุณกำลังจัดการกับข้อมูลที่มีเสียงดัง สุดท้ายคุณสามารถใช้ต้นไม้ที่ได้รับการพัฒนาอย่างเต็มที่เพื่อคำนวณประสิทธิภาพของต้นไม้ที่สั้นกว่าเพราะนี่คือ "ส่วนย่อย" ของต้นไม้ที่ได้รับการพัฒนาเต็มที่

  • จำนวนคุณสมบัติที่จะทดสอบในแต่ละโหนด : ตรวจสอบประสบการณ์ของคุณด้วยค่าที่หลากหลาย (รวมถึงค่าที่แนะนำ) คุณควรได้รับกราฟประสิทธิภาพและสามารถระบุค่าสูงสุดที่ชี้ให้เห็นว่าอะไรคือค่าที่ดีที่สุดสำหรับพารามิเตอร์นี้ + Shea Parkes ตอบ

  • Shea Parkes พูดถึง Extra-Trees นี่คือเอกสารต้นฉบับที่อธิบายรายละเอียดวิธีการ: http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.