ความเหมือนและความแตกต่างระหว่าง 3 วิธีนี้คืออะไร:
- บรรจุถุง,
- ส่งเสริม
- เก็บซ้อน?
อันไหนดีที่สุด? และทำไม?
คุณสามารถยกตัวอย่างให้ฉันได้ไหม
ความเหมือนและความแตกต่างระหว่าง 3 วิธีนี้คืออะไร:
อันไหนดีที่สุด? และทำไม?
คุณสามารถยกตัวอย่างให้ฉันได้ไหม
คำตอบ:
ทั้งสามจึงเรียกว่า "เมตาอัลกอริทึม": วิธีการที่จะรวมเทคนิคการเรียนรู้หลายเครื่องในรูปแบบการทำนายอย่างใดอย่างหนึ่งเพื่อลดความแปรปรวน ( ห่อ ) อคติ ( ส่งเสริม ) หรือการปรับปรุงแรงทำนาย ( ซ้อนนามแฝงชุด )
ทุกอัลกอริทึมประกอบด้วยสองขั้นตอน:
การสร้างการแจกจ่ายโมเดล ML อย่างง่ายบนชุดย่อยของข้อมูลดั้งเดิม
การรวมการแจกแจงเป็นรูปแบบ "สรุปรวม"
นี่คือคำอธิบายสั้น ๆ ของทั้งสามวิธี:
บรรจุถุง (ย่อมาจาก B ootstrap Agg Regatไอเอ็นจี ) เป็นวิธีที่จะลดความแปรปรวนของการทำนายของคุณโดยการสร้างข้อมูลเพิ่มเติมสำหรับการฝึกอบรมจากชุดเดิมของคุณโดยใช้การรวมกันกับการเกิดซ้ำในการผลิตมัลติเดียวกัน cardinality / ขนาดเป็นข้อมูลเดิมของคุณ ด้วยการเพิ่มขนาดของชุดการฝึกอบรมของคุณคุณจะไม่สามารถปรับปรุงกำลังทำนายแบบจำลองได้
การเพิ่มประสิทธิภาพเป็นวิธีการสองขั้นตอนโดยที่หนึ่งใช้ชุดย่อยของข้อมูลดั้งเดิมเพื่อสร้างชุดของโมเดลที่มีประสิทธิภาพโดยเฉลี่ยแล้ว "เพิ่มประสิทธิภาพ" โดยการรวมเข้าด้วยกันโดยใช้ฟังก์ชั่นต้นทุนเฉพาะ (= โหวตเสียงข้างมาก) ในการส่งเสริมการสร้างชุดย่อยนั้นไม่ได้สุ่มและขึ้นอยู่กับประสิทธิภาพของรุ่นก่อนหน้า: ชุดย่อยใหม่ทุกชุดจะมีองค์ประกอบที่น่าจะถูกจำแนกโดยรุ่นก่อนหน้านี้
การเรียงซ้อนคล้ายกับการเพิ่ม: คุณใช้หลายรุ่นกับข้อมูลดั้งเดิมของคุณ อย่างไรก็ตามนี่คือความแตกต่างที่คุณไม่ได้มีเพียงสูตรเชิงประจักษ์สำหรับฟังก์ชั่นน้ำหนักของคุณ แต่คุณแนะนำ meta-level และใช้แบบจำลอง / แนวทางอื่นในการประมาณค่าอินพุตพร้อมกับเอาต์พุตของทุกรุ่นเพื่อประเมินน้ำหนักหรือ ในคำอื่น ๆ เพื่อกำหนดรูปแบบการทำงานที่ดีและสิ่งที่ได้รับข้อมูลอินพุต
นี่คือตารางเปรียบเทียบ:
ดังที่คุณเห็นเหล่านี้ล้วนเป็นวิธีการที่แตกต่างกันในการรวมโมเดลหลาย ๆ แบบเข้ากับแบบที่ดีกว่าและไม่มีผู้ชนะเพียงคนเดียวที่นี่: ทุกอย่างขึ้นอยู่กับโดเมนของคุณและสิ่งที่คุณกำลังจะทำ คุณยังคงสามารถรักษาซ้อนเป็นประเภทของความก้าวหน้ามากขึ้นส่งเสริมแต่ความยากลำบากในการหาวิธีการที่ดีสำหรับระดับเมตาของคุณทำให้มันยากที่จะใช้วิธีการนี้ในทางปฏิบัติ
ตัวอย่างสั้น ๆ ของแต่ละ:
บรรจุถุง :
วงดนตรีขนาน : แต่ละรุ่นสร้างขึ้นอย่างอิสระ
มุ่งหวังที่จะลดความแปรปรวนไม่ใช่อคติ
เหมาะสำหรับรุ่นที่มีความเบี่ยงเบนสูงต่ำ (รุ่นที่ซับซ้อน)
ตัวอย่างของวิธีการตามต้นไม้คือป่าสุ่มซึ่งพัฒนาต้นไม้ที่โตเต็มที่ (โปรดทราบว่า RF จะปรับเปลี่ยนวิธีการปลูกเพื่อลดความสัมพันธ์ระหว่างต้นไม้)
การส่งเสริม :
ชุดข้อมูลตามลำดับ : ลองเพิ่มรุ่นใหม่ที่ทำได้ดีในกรณีที่รุ่นก่อนหน้าขาด
มุ่งหวังที่จะลดอคติไม่ใช่ความแปรปรวน
เหมาะสำหรับรุ่นที่มีความแปรปรวนต่ำ
ตัวอย่างของวิธีการแบบทรีคือการไล่ระดับสีแบบไล่ระดับ
เพื่ออธิบายคำตอบของ Yuqian เพียงเล็กน้อย แนวคิดที่อยู่เบื้องหลังการบรรจุถุงคือเมื่อคุณ OVERFIT ด้วยวิธีการถดถอยแบบ nonparametric (โดยปกติจะเป็นการถดถอยหรือการจัดหมวดหมู่ต้นไม้ แต่อาจเป็นวิธีการแบบ nonparametric ใด ๆ ) คุณมักจะไปที่ความแปรปรวนสูงไม่มีอคติส่วนหนึ่งของอคติ / การแลกเปลี่ยนความแปรปรวน นี่เป็นเพราะโมเดล overfitting นั้นมีความยืดหยุ่นมาก (มีค่าอคติต่ำกว่า resamples จำนวนมากจากประชากรเดียวกันหากมีอยู่) แต่มีความแปรปรวนสูง (ถ้าฉันรวบรวมตัวอย่างและทำให้มันพอดีและคุณรวบรวมตัวอย่างและทำให้มันเหมาะสมเรา ผลลัพธ์จะแตกต่างกันเนื่องจากการถดถอยแบบไม่มีพารามิเตอร์ติดตามเสียงรบกวนในข้อมูล) พวกเราทำอะไรได้บ้าง? เราสามารถนำ resamples มากมาย (จาก bootstrapping) แต่ละ overfitting และเฉลี่ยพวกมันเข้าด้วยกัน สิ่งนี้ควรนำไปสู่อคติเดียวกัน (ต่ำ) แต่ยกเลิกความแปรปรวนบางอย่าง
การไล่ระดับสีที่หัวใจใช้งานได้กับ UNDERFIT nonparametric regressions ซึ่งง่ายเกินไปและไม่ยืดหยุ่นพอที่จะอธิบายความสัมพันธ์ที่แท้จริงในข้อมูล (เช่นเอนเอียง) แต่เนื่องจากพวกมันอยู่ในสภาพที่เหมาะสมมีความแปรปรวนต่ำ เพื่อให้ได้ผลลัพธ์เดียวกันหากคุณรวบรวมชุดข้อมูลใหม่) คุณแก้ไขให้ถูกต้องอย่างไร? โดยพื้นฐานแล้วหากคุณมีความเหมาะสมส่วนที่เหลือของแบบจำลองของคุณยังคงมีโครงสร้างที่มีประโยชน์ (ข้อมูลเกี่ยวกับประชากร) ดังนั้นคุณจึงเพิ่มต้นไม้ที่คุณมี (หรือสิ่งทำนายแบบไม่มีพารามิเตอร์) ด้วยต้นไม้ที่สร้างขึ้นบนส่วนที่เหลือ ควรมีความยืดหยุ่นมากกว่าต้นไม้ต้น คุณสร้างต้นไม้มากขึ้นเรื่อย ๆ แต่ละครั้งที่ขั้นตอน k เติมด้วยต้นไม้ที่มีน้ำหนักตามต้นไม้ที่พอดีกับเศษเหลือจากขั้นตอน k-1 หนึ่งในต้นไม้เหล่านี้ควรเหมาะสมที่สุด ดังนั้นคุณอาจจบลงด้วยการให้น้ำหนักต้นไม้ทั้งหมดเหล่านี้เข้าด้วยกันหรือเลือกต้นไม้ที่เหมาะสมที่สุด ดังนั้นการเพิ่มความลาดชันเป็นวิธีสร้างต้นไม้ที่มีความยืดหยุ่นมากขึ้น
เช่นเดียวกับวิธีการถดถอยแบบไม่ใช้พารามิเตอร์หรือการจำแนกประเภทบางครั้งการบรรจุหีบห่อหรือการส่งเสริมใช้งานได้ดีบางครั้งอย่างใดอย่างหนึ่งอย่างใดอย่างหนึ่งคือวิธีการปานกลางและบางครั้งวิธีการหนึ่งหรือวิธีอื่น ๆ (หรือทั้งสองอย่าง)
ยิ่งไปกว่านั้นเทคนิคทั้งสองนี้สามารถนำไปใช้กับวิธีการถดถอยอื่น ๆ นอกเหนือจากต้นไม้ได้ แต่ส่วนใหญ่มักเกี่ยวข้องกับต้นไม้บางทีอาจเป็นเพราะมันยากที่จะตั้งค่าพารามิเตอร์เพื่อหลีกเลี่ยงภายใต้ข้อต่อ
ในการสรุปสั้น ๆ การห่อและการเร่งกำลังนั้นมักใช้ภายในอัลกอริทึมเดียวในขณะที่การซ้อนจะใช้เพื่อสรุปผลลัพธ์หลายอย่างจากอัลกอริทึมที่แตกต่างกัน
Random Forest
ซึ่งจะช่วยลดความแปรปรวนและไม่มีปัญหาการบรรจุเกินGBM
และXGBoost
ซึ่งกำจัดความแปรปรวน แต่มีปัญหาการ overfittingทั้งการบรรจุและการส่งเสริมใช้ขั้นตอนวิธีการเรียนรู้เดียวสำหรับทุกขั้นตอน แต่พวกเขาใช้วิธีการต่าง ๆ ในการจัดการตัวอย่างการฝึกอบรม ทั้งสองเป็นวิธีการเรียนรู้ทั้งมวลที่รวมการตัดสินใจจากหลายรูปแบบการ
บรรจุถุง :
1 รวบรวมข้อมูลการฝึกอบรมใหม่เพื่อให้ได้ชุดย่อย M (bootstrapping);
2. ฝึกอบรมตัวจําแนก M (อัลกอริทึมเดียวกัน) ตามชุดข้อมูล M (ตัวอย่างที่ต่างกัน);
3. ลักษณนามสุดท้ายรวมเอาท์พุท M โดยการลงคะแนน;
น้ำหนักตัวอย่างอย่างเท่าเทียมกัน;
น้ำหนักลักษณนามเท่า ๆ กัน;
ลดข้อผิดพลาดโดยการลดความแปรปรวน
Boosting : ที่นี่มุ่งเน้นไปที่อัลกอริทึม adaboost
1 เริ่มต้นด้วยน้ำหนักที่เท่ากันสำหรับตัวอย่างทั้งหมดในรอบแรก;
2. ใน M-1 รอบต่อไปนี้เพิ่มน้ำหนักของตัวอย่างที่ผิดประเภทในรอบสุดท้ายลดน้ำหนักของตัวอย่างที่จำแนกอย่างถูกต้องในรอบสุดท้าย
3. ใช้การลงคะแนนแบบถ่วงน้ำหนักตัวแยกประเภทสุดท้ายรวมตัวแยกประเภทหลายตัวจากรอบก่อนหน้า ไปที่ตัวแยกประเภทที่มีการจัดประเภทน้อยกว่า
reweights ตัวอย่างที่ชาญฉลาด น้ำหนักสำหรับแต่ละรอบขึ้นอยู่กับผลลัพธ์จาก
ตัวอย่างน้ำหนักรอบสุดท้าย(การเพิ่ม) แทนการสุ่มใหม่ (การบรรจุถุง)
การใส่ถุงและการส่งเสริมมักใช้โมเดลที่เป็นเนื้อเดียวกันหลายแบบ
การเรียงซ้อนจะรวมผลลัพธ์จากประเภทโมเดลที่แตกต่างกัน
เนื่องจากไม่มีรูปแบบประเภทเดียวจึงเหมาะสมที่สุดในการกระจายทั้งหมดคุณสามารถดูว่าทำไมสิ่งนี้จึงอาจเพิ่มพลังการทำนาย