การกระทบยอดต้นไม้เพิ่มความถดถอย (BRT), รุ่นเพิ่มทั่วไป (GBM), และเครื่องเพิ่มความลาดชัน (GBM)

คำถาม:

อะไรคือความแตกต่างระหว่างต้นไม้ถดถอยที่ได้รับการส่งเสริม (BRT) และรุ่นที่ได้รับการส่งเสริมทั่วไป (GBM)? พวกเขาสามารถใช้แทนกันได้? เป็นรูปแบบเฉพาะของอื่น ๆ ?
ทำไมริดจ์เวย์ใช้วลีที่ว่า "Generalized Boosted Regression Models" (GBM) เพื่ออธิบายสิ่งที่ Friedman เคยเสนอให้เป็น "Gradient Boosting Machine" (GBM) มาก่อน? คำย่อสองตัวนี้เหมือนกันอธิบายสิ่งเดียวกัน แต่มาจากวลีที่แตกต่างกัน

พื้นหลัง:

ฉันมีปัญหาในการพิจารณาว่าข้อกำหนด BRT และ GBM แตกต่างกันอย่างไร จากสิ่งที่ฉันเข้าใจทั้งสองเป็นคำศัพท์เพื่ออธิบายการจัดหมวดหมู่และต้นไม้การถดถอยที่มีการสุ่มรวมอยู่ด้วยการส่งเสริมบางอย่าง (เช่นการบรรจุถุง bootstrapping การตรวจสอบข้าม) นอกจากนี้จากสิ่งที่ฉันรวบรวมคำศัพท์ GBM ได้รับการประกาศเกียรติคุณเป็นครั้งแรกโดย Friedman (2001) ในกระดาษของเขา "การประมาณฟังก์ชั่นโลภ: เครื่องเร่งการไล่ระดับสี" ริดจ์เวย์ได้ดำเนินการตามขั้นตอนที่อธิบายโดยฟรีดแมนในปี 2549 ในแพ็คเกจของเขา "Generalized Boosted Regression Models" (GBM) ในสาขาของฉัน (นิเวศวิทยา) Elith และคณะ (2008) เป็นคนแรกที่แสดงให้เห็นถึงgbmแพ็คเกจของ Ridgeway สำหรับการสร้างแบบจำลองการกระจายสายพันธุ์ อย่างไรก็ตามผู้เขียนใน Elith และคณะ ใช้คำว่า "ต้นไม้ถดถอยเพิ่มขึ้น" (BRT) เพื่ออธิบาย Friedman และ Ridgeway '

ฉันสับสนว่าข้อกำหนดเหล่านี้สามารถใช้แทนกันได้หรือไม่? มันค่อนข้างสับสนว่าผู้เขียนคนหนึ่งจะใช้ตัวย่อเดียวกัน (จากวลีที่แตกต่าง) เพื่ออธิบายทฤษฎีเดียวกันกับที่ผู้เขียนคนก่อนเสนอ นอกจากนี้ยังสับสนว่าผู้เขียนคนที่สามใช้คำที่แตกต่างอย่างสิ้นเชิงเมื่ออธิบายทฤษฎีนี้ในแง่ของนิเวศวิทยา

สิ่งที่ดีที่สุดที่ฉันสามารถทำได้คือ BRT เป็นรูปแบบเฉพาะของ GBM ซึ่งการกระจายนั้นเป็นแบบทวินาม แต่ฉันไม่แน่ใจในสิ่งนี้

Elith และคณะ กำหนดต้นไม้ถดถอยที่ได้รับการส่งเสริมเช่นนี้ ... "ต้นไม้ที่ได้รับการส่งเสริมเพิ่มความแข็งแกร่งของอัลกอริธึมสอง: ต้นไม้ถดถอย (แบบจำลองที่เกี่ยวข้องกับการตอบสนองต่อการพยากรณ์โดย recursive ไบนารีแยก) และการเพิ่ม (วิธีการปรับตัว ) แบบจำลอง BRT สุดท้ายสามารถเข้าใจได้ว่าเป็นแบบจำลองการถดถอยแบบเพิ่มเติมซึ่งคำศัพท์แต่ละคำนั้นเป็นต้นไม้ที่เรียบง่าย

machine-learning boosting gbm

— GNG
แหล่งที่มา

ฉันไม่สามารถเข้ามาในหัวผู้เขียนและบอกคุณได้ แต่ดูเหมือนว่าเป็นไปได้ที่ชื่อพูดทั้งหมด การส่งเสริมเป็นวิธีการที่ใช้ลำดับของผู้เรียนที่อ่อนแอ วิธีที่เป็นแก่นสารคือ 'ต้นไม้เล็ก' เช่นตอไม้ หากคุณเพิ่มรูปแบบต้นไม้การถดถอยคุณจะได้รับต้นไม้ที่เพิ่มขึ้น ก่อนหน้าเราสามารถเพิ่มวิธีการอื่น ๆ รวมถึงวิธีการจัดหมวดหมู่และส่งคืนสิ่งที่เรียกว่าเครื่องเพิ่มระดับความลาดชันซึ่งไม่ได้เป็นต้นไม้การถดถอยที่ได้รับการส่งเสริม

— Meh

ฉันจำรายละเอียดไม่ได้ แต่หนังสือเล่มหนึ่งที่ฉันอ่านชี้ให้เห็นว่าถ้ามีคนใช้ตอต้นไม้ผลที่ออกมาคล้ายกับเกมมาก

— Meh

ดังที่ @aginensky กล่าวไว้ในกระทู้ความคิดเห็นมันเป็นไปไม่ได้ที่จะเข้ามาอยู่ในหัวของผู้เขียน แต่ BRT น่าจะเป็นคำอธิบายที่ชัดเจนยิ่งขึ้นของgbmกระบวนการสร้างแบบจำลองของซึ่งก็คือให้อภัยฉันสำหรับการระบุต้นไม้ และเมื่อคุณถามเกี่ยวกับการส่งเสริมการไล่สีและต้นไม้การถดถอยนี่คือคำอธิบายภาษาอังกฤษธรรมดา ๆ ของคำศัพท์นี้ FYI, CV ไม่ใช่วิธีการเพิ่มประสิทธิภาพ แต่เป็นวิธีการที่ช่วยระบุพารามิเตอร์โมเดลที่เหมาะสมผ่านการสุ่มตัวอย่างซ้ำ ๆ ดูที่นี่สำหรับคำอธิบายที่ดีของกระบวนการ

การส่งเสริมการเป็นชนิดของวิธีทั้งมวล วิธีการทั้งมวลหมายถึงชุดของวิธีการที่การทำนายขั้นสุดท้ายทำโดยการรวมการทำนายจากแบบจำลองแต่ละแบบจำนวนมาก การเพิ่มการบรรจุถุงและการสแต็คเป็นวิธีการที่ใช้กันอย่างแพร่หลาย การเรียงซ้อนเกี่ยวข้องกับการปรับแต่งโมเดลที่แตกต่างกันจำนวนมาก (จากโครงสร้างที่คุณเลือกเอง) แล้วรวมเข้ากับโมเดลเชิงเส้นเส้นเดียว สิ่งนี้ทำได้โดยการปรับการทำนายของแต่ละรุ่นให้เหมาะสมกับตัวแปรตาม LOOCV SSE ปกติแล้วจะใช้ในการกำหนดค่าสัมประสิทธิ์การถดถอยและแต่ละรุ่นจะได้รับการปฏิบัติเป็นฟังก์ชั่นพื้นฐาน (ในใจของฉันนี้เป็นอย่างมากคล้ายกับ GAM) ในทำนองเดียวกันการบรรจุถุงเกี่ยวข้องกับการปรับโมเดลที่มีโครงสร้างคล้ายกันจำนวนมากให้เหมาะสมกับตัวอย่างที่ถูกบีบอัด ที่ความเสี่ยงของการระบุชัดเจนอีกครั้งซ้อนและห่อเป็นวิธีการทั้งมวล

อย่างไรก็ตามการเพิ่มเป็นวิธีต่อเนื่อง Friedman และ Ridgeway ทั้งสองอธิบายกระบวนการอัลกอริทึมในเอกสารของพวกเขาดังนั้นฉันจะไม่แทรกที่นี่เพียงแค่วินาทีนี้ แต่เวอร์ชันภาษาอังกฤษธรรมดา (และค่อนข้างง่าย) คือคุณพอดีกับแบบจำลองหนึ่งหลัง ส่วนที่เหลือที่ถ่วงน้ำหนักโดยข้อผิดพลาดของรุ่นก่อนหน้า (พารามิเตอร์การหดตัวคือน้ำหนักที่จัดสรรให้กับข้อผิดพลาดที่เหลือของการทำนายแต่ละครั้งจากการทำซ้ำก่อนหน้านี้และยิ่งคุณมีขนาดเล็กลงเท่าใด ในแง่นามธรรมคุณสามารถคิดว่าการส่งเสริมเป็นกระบวนการเรียนรู้ที่เหมือนมนุษย์มากซึ่งเราใช้ประสบการณ์ที่ผ่านมากับการทำสิ่งใหม่ที่เราต้องทำ

ตอนนี้ส่วนที่ลาดของสิ่งทั้งหมดมาจากวิธีที่ใช้ในการกำหนดจำนวนที่เหมาะสมของแบบจำลอง (เรียกว่าการวนซ้ำในgbmเอกสารประกอบ) เพื่อใช้ในการทำนายเพื่อหลีกเลี่ยงการ overfitting ฟังก์ชั่นการสูญเสียการฝึกอบรม GBM (สีดำ) และข้อผิดพลาด CV (สีเขียว)

ดังที่คุณเห็นจากภาพด้านบน (นี่คือแอพพลิเคชั่นการจัดหมวดหมู่ แต่สิ่งเดียวกันถือเป็นจริงสำหรับการถดถอย) ข้อผิดพลาด CV ลดลงค่อนข้างสูงในตอนแรกเนื่องจากอัลกอริทึมเลือกรุ่นเหล่านั้นที่จะนำไปสู่ และปีนกลับขึ้นมาอีกครั้งเมื่อวงดนตรีเริ่มมีความคับขัน หมายเลขการวนซ้ำที่เหมาะสมคือตัวเลขที่สอดคล้องกับจุดเปลี่ยนการผิดพลาดของฟังก์ชัน CV error (การไล่ระดับสีฟังก์ชันเท่ากับ 0) ซึ่งสามารถแสดงได้อย่างสะดวกสบายด้วยเส้นประสีฟ้า

gbmการใช้งานของ Ridgeway ใช้การจำแนกและต้นไม้การถดถอยและในขณะที่ฉันไม่สามารถเรียกร้องให้อ่านใจเขาได้ฉันจะจินตนาการได้ว่าความเร็วและความสะดวก (ที่จะไม่พูดถึงความแข็งแกร่งของพวกเขาต่อข้อมูล shenanigans) ที่ต้นไม้สามารถพอดีได้ เทคนิคการเลือกแบบจำลองของเขา ที่ถูกกล่าวว่าในขณะที่ฉันอาจจะผิดฉันไม่สามารถจินตนาการเหตุผลทางทฤษฎีอย่างเคร่งครัดว่าทำไมเทคนิคการสร้างแบบจำลองอื่น ๆ แทบไม่สามารถใช้งานได้ อีกครั้งฉันไม่สามารถเรียกร้องให้รู้ถึงจิตใจของริดจ์เวย์ แต่ฉันนึกภาพส่วนทั่วไปของgbmชื่อหมายถึงแอพพลิเคชั่นที่มีศักยภาพมากมาย แพคเกจสามารถใช้ในการดำเนินการถดถอย (เชิงเส้นปัวซองและควอนไทล์) ทวินาม (ใช้จำนวนฟังก์ชั่นการสูญเสียที่แตกต่างกัน) และการจำแนกประเภทพหุนามและการวิเคราะห์การอยู่รอด (หรือการคำนวณฟังก์ชันอันตรายอย่างน้อย

ดูเหมือนว่ากระดาษของ Elith จะไม่ค่อยคุ้นเคย (ฉันคิดว่าฉันวิ่งเข้าไปในฤดูร้อนปีที่แล้วในขณะที่มองหาวิธีการสร้างภาพข้อมูลที่เป็นมิตรกับ gbm) และหากหน่วยความจำทำหน้าที่ถูกต้องมันเป็นส่วนเสริมของgbmห้องสมุดโดยเน้นการปรับแบบอัตโนมัติสำหรับการถดถอย ไม่ใช่แบบทวินาม) และปรับปรุงการสร้างพล็อต ฉันนึกภาพการตั้งชื่อ RBT อยู่ที่นั่นเพื่อช่วยอธิบายธรรมชาติของเทคนิคการสร้างแบบจำลองในขณะที่ GBM นั้นกว้างกว่า

หวังว่าสิ่งนี้จะช่วยให้ชัดเจนขึ้น

— habu
แหล่งที่มา