เริ่มต้นด้วยคำถามที่สองของคุณง่ายกว่าจากนั้นไปที่คำถามแรก
การห่อ
ป่าสุ่มเป็นขั้นตอนวิธีการบรรจุถุง จะช่วยลดความแปรปรวน
บอกว่าคุณมีโมเดลที่ไม่น่าเชื่อถือเช่น Decision Trees (ทำไมไม่น่าเชื่อถือเพราะถ้าคุณเปลี่ยนข้อมูลของคุณเล็กน้อยต้นไม้การตัดสินใจที่สร้างขึ้นอาจแตกต่างกันมาก) ในกรณีเช่นนี้คุณสามารถสร้างแบบจำลองที่มีประสิทธิภาพ (ลดความแปรปรวน) ผ่านการบรรจุถุง โดยการสุ่มข้อมูลของคุณใหม่เพื่อให้แบบจำลองผลลัพธ์มีความแข็งแกร่งยิ่งขึ้น
ป่าสุ่มเป็นสิ่งที่เราเรียกว่าการบรรจุถุงที่นำไปใช้กับต้นไม้ตัดสินใจ แต่มันไม่ต่างจากอัลกอริทึมการบรรจุถุงอื่น ๆ
ทำไมคุณต้องการทำเช่นนี้? มันขึ้นอยู่กับปัญหา แต่โดยปกติแล้วมันเป็นที่ต้องการอย่างมากสำหรับรุ่นที่จะมีเสถียรภาพ
การส่งเสริม
การเพิ่มการลดความแปรปรวนและยังลดอคติ มันช่วยลดความแปรปรวนเนื่องจากคุณใช้หลายรุ่น (บรรจุถุง) มันลดอคติโดยการฝึกอบรมรุ่นต่อ ๆ มาโดยบอกเขาว่าเกิดข้อผิดพลาดอะไรกับรุ่นก่อนหน้านี้ (ส่วนที่สนับสนุน)
มีสองอัลกอริธึมหลัก:
- Adaboost: นี่คืออัลกอริทึมดั้งเดิม คุณบอกรุ่นต่อ ๆ ไปเพื่อลงโทษการสังเกตการณ์ที่ผิดพลาดมากขึ้นจากรุ่นก่อนหน้า
- การไล่ระดับสีแบบค่อยเป็นค่อยไป: คุณฝึกฝนแต่ละโมเดลในภายหลังโดยใช้ส่วนที่เหลือ (ความแตกต่างระหว่างค่าที่ทำนายและค่าจริง)
ในวงดนตรีเหล่านี้ผู้เรียนพื้นฐานของคุณจะต้องอ่อนแอ ถ้ามันเหมาะสมกับข้อมูลจะไม่มีการตกค้างหรือข้อผิดพลาดใด ๆ สำหรับรุ่นถัดไปที่จะสร้าง ทำไมแบบจำลองที่ดีเหล่านี้คืออะไร การแข่งขันส่วนใหญ่ในเว็บไซต์อย่าง Kaggle ได้รับรางวัลโดยใช้ต้นไม้ที่ช่วยไล่ระดับสี วิทยาศาสตร์ข้อมูลเป็นวิทยาศาสตร์เชิงประจักษ์ "เพราะมันใช้ได้" ดีพอ อย่างไรก็ตามโปรดสังเกตว่าการเพิ่มแบบจำลองสามารถทำให้ได้มากเกินไป (แม้ว่าจะไม่ใช่เรื่องทั่วไป)
อีกเหตุผลหนึ่งที่ทำให้การไล่ระดับสีโดยเฉพาะอย่างยิ่งเป็นเรื่องที่ยอดเยี่ยมเช่นกันเพราะมันทำให้การใช้ฟังก์ชั่นการสูญเสียที่แตกต่างกันเป็นเรื่องง่ายแม้ว่าอนุพันธ์จะไม่นูนก็ตาม ตัวอย่างเช่นเมื่อใช้การพยากรณ์ความน่าจะเป็นคุณสามารถใช้สิ่งต่าง ๆ เช่นฟังก์ชันพินบอลเป็นฟังก์ชันการสูญเสียของคุณ สิ่งที่ยากยิ่งขึ้นกับเครือข่ายประสาท (เพราะอนุพันธ์อยู่เสมอคงที่)
[บันทึกประวัติศาสตร์ที่น่าสนใจ: การเพิ่มประสิทธิภาพเดิมเป็นสิ่งประดิษฐ์เชิงทฤษฎีที่ได้รับแรงบันดาลใจจากคำถาม " เราสามารถสร้างแบบจำลองที่แข็งแกร่งขึ้นได้โดยใช้แบบจำลองที่อ่อนแอ "]
หมายเหตุ: บางครั้งผู้คนสับสนป่าสุ่มและต้นไม้ที่ไล่ระดับสีเพียงเพราะทั้งสองใช้ต้นไม้ตัดสินใจ แต่พวกเขาเป็นตระกูลตระการตาสองตระกูลที่แตกต่างกันมาก