แรงจูงใจเบื้องหลังขั้นตอนวิธีฟอเรสต์แบบสุ่ม


11

วิธีการที่ฉันคุ้นเคยกับการสร้างฟอเรสต์แบบสุ่มมีดังนี้: (จากhttp://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm )

เพื่อสร้างต้นไม้ในป่าเรา:

  1. บูตตัวอย่างขนาด N ที่ N คือขนาดของชุดการฝึกอบรมของเรา ใช้ตัวอย่าง bootstrapped นี้เป็นชุดการฝึกอบรมสำหรับต้นไม้นี้
  2. ที่แต่ละโหนดของต้นไม้สุ่มเลือก m ของคุณสมบัติ M ของเรา เลือกคุณสมบัติที่ดีที่สุดของ m เหล่านี้เพื่อแยก (โดยที่ m เป็นพารามิเตอร์ของป่าสุ่มของเรา)
  3. ปลูกต้นไม้แต่ละต้นให้มากที่สุดเท่าที่จะทำได้เช่นไม่มีการตัดแต่งกิ่ง

ในขณะที่อัลกอริทึมนี้สมเหตุสมผลในระดับขั้นตอนและให้ผลลัพธ์ที่ดีแน่นอนฉันไม่ชัดเจนว่าแรงจูงใจทางทฤษฎีอยู่เบื้องหลังขั้นตอนที่ 1, 2 และ 3 ใครสามารถอธิบายสิ่งที่กระตุ้นให้คนที่มากับขั้นตอนนี้และทำไมมัน ทำงานได้ดีเหรอ

ตัวอย่างเช่น: ทำไมเราต้องดำเนินการขั้นตอนที่ 1 ดูเหมือนว่าเรากำลังทำ bootstrapping เพื่อจุดประสงค์ในการลดความแปรปรวนตามปกติ

คำตอบ:


9

วิธีการของ Ensemble (เช่นป่าสุ่ม) ต้องการองค์ประกอบของการเปลี่ยนแปลงในชุดข้อมูลที่ตัวแยกประเภทพื้นฐานแต่ละฐานปลูกบน เนื่องจากต้นไม้ตัดสินใจมีความไวสูงต่อการสังเกตในชุดฝึกอบรมการสังเกตที่แตกต่างกัน (โดยใช้ bootstrap) คือฉันคิดว่าเป็นวิธีธรรมชาติในการรับความหลากหลายที่จำเป็น ทางเลือกที่ชัดเจนคือการเปลี่ยนแปลงคุณสมบัติที่ใช้เช่นฝึกต้นไม้แต่ละต้นบนส่วนย่อยของคุณสมบัติดั้งเดิม การใช้ตัวอย่างบูตสแตรปยังช่วยให้เราสามารถประเมินอัตราความผิดพลาดนอกถุง (OOB) และความสำคัญของตัวแปรได้

2 เป็นอีกวิธีหนึ่งในการฉีดแบบสุ่มเข้าไปในป่า นอกจากนี้ยังมีผลกระทบในการลดความสัมพันธ์ระหว่างต้นไม้ (โดยใช้ค่า mtry ต่ำ) ด้วยการแลกเปลี่ยน (อาจ) แย่ลงพลังการทำนาย การใช้ค่าของ mtry มากเกินไปจะทำให้ต้นไม้มีลักษณะคล้ายกันมากขึ้นเรื่อย ๆ (และในที่สุดคุณก็จบลงด้วยการใส่ถุง)

ฉันเชื่อว่าเหตุผลในการไม่ตัดแต่งกิ่งมีมากขึ้นเนื่องจากความจริงที่ว่ามันไม่จำเป็นต้องมีอะไรมากกว่าสิ่งอื่น ด้วยต้นไม้การตัดสินใจเดียวโดยปกติแล้วคุณจะตัดมันเนื่องจากมันมีความอ่อนไหวต่อการบรรจุมากเกินไป อย่างไรก็ตามโดยการใช้ตัวอย่างบู๊ตสแตรปและการปลูกต้นไม้แบบสุ่มหลาย ๆ ผืนป่าสามารถปลูกต้นไม้ที่มีความแข็งแรงเฉพาะตัว แต่ไม่สัมพันธ์กันโดยเฉพาะอย่างยิ่ง โดยพื้นฐานแล้วต้นไม้แต่ละต้นมีความเหมาะสม แต่หากความผิดพลาดไม่สัมพันธ์กันป่าควรมีความแม่นยำอย่างสมเหตุสมผล

เหตุผลที่ใช้งานได้ดีนั้นคล้ายกับทฤษฎีลูกขุนของ Condorcet (และตรรกะที่อยู่เบื้องหลังวิธีการต่าง ๆ เช่นการส่งเสริม) โดยพื้นฐานแล้วคุณมีผู้เรียนที่อ่อนแอจำนวนมากที่ต้องทำงานได้ดีกว่าการคาดเดาแบบสุ่ม หากเป็นจริงคุณสามารถเพิ่มผู้เรียนที่อ่อนแอได้และในจำนวน จำกัด คุณจะได้รับการทำนายที่สมบูรณ์แบบจากวงดนตรีของคุณ เห็นได้ชัดว่าสิ่งนี้ถูก จำกัด เนื่องจากข้อผิดพลาดของผู้เรียนมีความสัมพันธ์ซึ่งทำให้ประสิทธิภาพของวงดนตรีไม่ดีขึ้น


คำตอบที่ดีและการเชื่อมโยงกับทฤษฎีลูกขุนของ Condorcet ก็สมเหตุสมผล อย่างเป็นทางการแม้ว่าเหตุผลที่มันทำงานได้ดีเป็นเพราะความไม่เท่าเทียมของเซ่น!
JEquihua
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.