สมมติฐานป่าสุ่ม


43

ฉันเป็นคนใหม่ในป่าสุ่มดังนั้นฉันยังคงดิ้นรนกับแนวคิดพื้นฐานบางอย่าง
ในการถดถอยเชิงเส้นเราถือว่าการสังเกตอย่างอิสระความแปรปรวนคงที่ ...

  • อะไรคือสมมติฐาน / สมมติฐานพื้นฐานที่เราทำเมื่อเราใช้ฟอเรสต์แบบสุ่ม?
  • อะไรคือความแตกต่างที่สำคัญระหว่างป่าสุ่มและอ่าวไร้เดียงสาในแง่ของสมมติฐานแบบจำลอง?

คำตอบ:


33

ขอบคุณสำหรับคำถามที่ดีมาก! ฉันจะพยายามให้สัญชาตญาณของฉันอยู่ข้างหลัง

เพื่อที่จะเข้าใจสิ่งนี้จำ "ส่วนผสม" ของตัวจําแนกฟอเรสต์แบบสุ่ม (มีการดัดแปลงบางอย่าง แต่นี่คือท่อส่งทั่วไป):

  1. ในแต่ละขั้นตอนของการสร้างต้นไม้แต่ละต้นเราจะพบการแยกข้อมูลที่ดีที่สุด
  2. ในขณะที่สร้างต้นไม้เราไม่ได้ใช้ชุดข้อมูลทั้งหมด แต่เป็นตัวอย่าง bootstrap
  3. เรารวบรวมผลของต้นไม้แต่ละต้นโดยเฉลี่ย (จริง ๆ แล้ว 2 และ 3 หมายถึงขั้นตอนการบรรจุถุงทั่วไปมากขึ้น)

สมมติว่าเป็นจุดแรก ไม่สามารถหาการแยกที่ดีที่สุดได้เสมอไป ตัวอย่างเช่นในชุดข้อมูลต่อไปนี้แต่ละการแบ่งจะให้หนึ่งวัตถุที่ผิดประเภท ตัวอย่างของชุดข้อมูลที่ไม่มีการแยกที่ดีที่สุด

และฉันคิดว่าจุดนี้อาจทำให้สับสน: จริง ๆ แล้วพฤติกรรมของการแยกบุคคลนั้นคล้ายกับพฤติกรรมของลักษณนาม Naive Bayes: หากตัวแปรขึ้นอยู่กับ - ไม่มีการแยกที่ดีกว่าสำหรับต้นไม้การตัดสินใจและลักษณนาม Naive Bayes ก็ล้มเหลวเช่นกัน (เพื่อเตือน: ตัวแปรอิสระเป็นสมมติฐานหลักที่เราสร้างในตัวจําแนก Naive Bayes; สมมติฐานอื่น ๆ ทั้งหมดมาจากโมเดลความน่าจะเป็นที่เราเลือก)

แต่นี่มาประโยชน์ที่ดีของต้นไม้ตัดสินใจ: เราใช้เวลาใด ๆแยกและยังคงแยกเพิ่มเติม และสำหรับการแยกต่อไปนี้เราจะพบการแยกที่สมบูรณ์แบบ (สีแดง) ตัวอย่างของขอบเขตการตัดสินใจ

และเนื่องจากเราไม่มีโมเดลความน่าจะเป็น แต่เป็นเพียงการแบ่งไบนารีเราไม่จำเป็นต้องตั้งสมมติฐานใด ๆ เลย

นั่นเป็นเรื่องเกี่ยวกับต้นไม้แห่งการตัดสินใจ แต่มันก็ใช้กับป่าสุ่ม ความแตกต่างคือสำหรับฟอเรสต์ฟอเรสต์เราใช้ Bootstrap Aggregation มันไม่มีที่อยู่ภายใต้รูปแบบและสมมติฐานที่เดียวที่มันอาศัยคือการสุ่มตัวอย่างเป็นตัวแทน แต่นี่เป็นข้อสันนิษฐานทั่วไป ตัวอย่างเช่นหากคลาสหนึ่งประกอบด้วยสองคอมโพเนนต์และในชุดข้อมูลหนึ่งองค์ประกอบของเราจะถูกแทนด้วย 100 ตัวอย่างและองค์ประกอบอื่นจะถูกแทนด้วย 1 ตัวอย่าง - อาจเป็นต้นไม้ตัดสินใจส่วนบุคคลส่วนใหญ่จะเห็นเพียงองค์ประกอบแรกและสุ่มป่าจะจำแนกประเภทที่สอง . ตัวอย่างขององค์ประกอบที่สองที่อ่อนแอ

หวังว่ามันจะให้ความเข้าใจเพิ่มเติม


10

ในหนึ่ง 2010 กระดาษผู้เขียนเอกสารว่าแบบจำลองป่าสุ่มประเมินความสำคัญของตัวแปรเมื่อ unreliably ตัวแปรเมื่อตัวแปรมีหลายจุดผ่านพื้นที่ทางสถิติหลายมิติ ฉันมักจะตรวจสอบเรื่องนี้ก่อนที่จะใช้โมเดลฟอเรสต์แบบสุ่ม

http://www.esajournals.org/doi/abs/10.1890/08-0879.1


3
คุณเชื่อว่าข้อสรุปของ "การเชื่อมต่อเชิงปริมาณ Bufo ในอุทยานแห่งชาติเยลโลว์สโตนกับภูมิทัศน์พันธุศาสตร์" ในนิเวศวิทยาประพันธ์โดยนักเขียนของรัฐโคโลราโดมากกว่าผู้เขียนเบิร์กลีย์ในการเรียนรู้ของเครื่องในหัวข้อการเรียนรู้ของเครื่อง
Hack-R

8
ฉันไม่คิดว่าพวกเขาจะขัดแย้งกัน Breiman ไม่ได้ตรวจสอบ 'กรณีพิเศษ' นี้ของความหลากหลายทางชีวภาพในพื้นที่หลายมิติ นอกจากนี้ผู้คนในรัฐโคโลราโดก็ฉลาดเช่นกันและพวกเขาก็เป็นเช่นนั้น
มีนา
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.