วิธีการเลือกจำนวนของต้นไม้ในรูปแบบการถดถอยที่เพิ่มขึ้นทั่วไป?


11

มีกลยุทธ์ในการเลือกจำนวนต้นไม้ใน GBM หรือไม่? โดยเฉพาะntreesการโต้แย้งในRเรื่องgbmฟังก์ชั่น

ฉันไม่เห็นว่าทำไมคุณไม่ควรตั้งค่าntreesที่เหมาะสมที่สุด ฉันสังเกตเห็นว่าต้นไม้จำนวนมากขึ้นลดความแปรปรวนของผลลัพธ์ได้จากหลาย GBM อย่างชัดเจน ฉันไม่คิดว่าต้นไม้จำนวนมากจะนำไปสู่การ overfitting

ความคิดใด ๆ

คำตอบ:


3

นี่คือ GBM:

" ฉันไม่คิดว่า ... " เป็นส่วนแรกที่อันตรายของประโยคมากมาย

ดีพอไม่มีความหมายหากไม่มีการวัดความดีเป็นรูบริก

อะไรคือมาตรการของความดีสำหรับวิธีอื่นใด?

  • ความแตกต่างระหว่างรุ่นและข้อมูล (sse, ... )
  • ความแตกต่างของข้อผิดพลาดในชุดของโฮลด์ (ข้อผิดพลาดในการฝึกอบรมเทียบกับข้อผิดพลาดในการทดสอบ)
  • การนับพารามิเตอร์ต่ออัตราส่วนการนับตัวอย่าง (คนส่วนใหญ่เช่น 5 ตัวอย่างต่อพารามิเตอร์หรือ 30 ตัวอย่างต่อพารามิเตอร์)
  • การตรวจสอบความถูกต้องไขว้ (ทั้งมวลเป็นวิธีการที่แตกต่างกันของการทดสอบข้อผิดพลาด)

เช่นเดียวกับเครือข่ายประสาทหรือเส้นโค้งคุณสามารถทำการประมาณค่าเชิงเส้นเป็นชิ้น ๆ บนข้อมูลและรับแบบจำลองที่ไม่สามารถสรุปได้ คุณต้องเลิก "ข้อผิดพลาดต่ำ" บางส่วนเพื่อแลกกับการบังคับใช้ทั่วไป - การวางนัยทั่วไป

ลิงค์เพิ่มเติม:


2

ฉันพบข้อมูลเชิงลึกเกี่ยวกับปัญหา: http://cran.r-project.org/web/packages/dismo/vignettes/brt.pdf

gbm.stepฟังก์ชั่นที่สามารถใช้ในการกำหนดจำนวนที่เหมาะสมของต้นไม้ ฉันยังไม่แน่ใจว่าอะไรเป็นสาเหตุให้ความเบี่ยงเบนของโมเดลเพิ่มขึ้นหลังจากต้นไม้จำนวนหนึ่งดังนั้นฉันก็ยังยินดีที่จะยอมรับคำตอบที่ตอบคำถามส่วนนี้!


2
การทำให้มากเกินไปทำให้เกิดการเพิ่มขึ้น วิธีการที่ดีที่สุดสร้างชุดของที่เก็บไว้ได้และใช้เพื่อทดสอบแบบจำลอง แต่จะไม่ปรับปรุงแบบจำลอง สิ่งนี้ช่วยให้ตรวจจับการโจมตีของการมีน้ำหนักเกิน
EngrStudent

0

นี่คือแนวทางการทำงานเพื่อเพิ่มต้นไม้การถดถอยจาก Elith และคณะ: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full มีประโยชน์มาก!

อย่างน้อยคุณควรใช้ต้นไม้ 1,000 ต้น เท่าที่ฉันเข้าใจคุณควรใช้การผสมผสานระหว่างอัตราการเรียนรู้ความซับซ้อนของต้นไม้และจำนวนต้นไม้ที่ทำให้เกิดข้อผิดพลาดในการทำนายขั้นต่ำ ค่าที่น้อยลงของอัตราการเรียนรู้นำไปสู่ความเสี่ยงในการฝึกอบรมที่มากขึ้นสำหรับจำนวนการทำซ้ำที่เท่ากันในขณะที่การทำซ้ำแต่ละครั้งจะลดความเสี่ยงในการฝึกอบรม หากจำนวนต้นไม้มีขนาดใหญ่พอความเสี่ยงสามารถทำให้มีขนาดเล็กลงโดยพลการ (ดู: Hastie et al., 2001, "องค์ประกอบของการเรียนรู้ทางสถิติ, การทำเหมืองข้อมูล, การอนุมานและการทำนาย" )


มันเป็นความจริงที่ Elith และคณะ แนะนำเป็นกฎง่ายๆในการใช้ 1,000 ต้น อย่างไรก็ตามนี้ขึ้นอยู่กับการวิเคราะห์รายละเอียดของเสถียรภาพการทำนายสำหรับชุดข้อมูลเฉพาะที่ใช้ในกระดาษ ดูเหมือนว่าไม่น่าเป็นไปได้ว่าจำนวนเดียวกันนี้จะใช้ได้กับชุดข้อมูลใด ๆ ที่เป็นไปได้ บางทีคุณอาจขยายคำตอบของคุณเล็กน้อยโดยให้รายละเอียดเกี่ยวกับการวิเคราะห์ที่ดำเนินการโดยเฉพาะในภาคผนวก S1
DeltaIV

0

ตามปกติในอัลกอริทึมการเรียนรู้ของเครื่องบางอย่างการส่งเสริมจะขึ้นอยู่กับการแลกเปลี่ยนความแปรปรวนของอคติเกี่ยวกับจำนวนต้นไม้ การพูดอย่างหลวม ๆ การแลกเปลี่ยนนี้บอกคุณว่า: (i) โมเดลที่อ่อนแอมีแนวโน้มที่จะมีอคติสูงและความแปรปรวนต่ำ: พวกเขามีความแข็งแกร่งเกินกว่าที่จะตรวจจับความแปรปรวนในชุดข้อมูลการฝึกอบรมดังนั้นจะไม่ทำงานได้ดีในชุดทดสอบ ข้อผิดพลาด) (ii) แบบจำลองที่แข็งแกร่งมากมีแนวโน้มที่จะมีอคติต่ำและความแปรปรวนสูง: พวกมันยืดหยุ่นเกินไปและพวกมันเหมาะกับชุดฝึกซ้อมมากเกินไปดังนั้นในชุดทดสอบ (เนื่องจากชุดข้อมูลแตกต่างจากชุดฝึกอบรม) พวกเขาจะทำงานได้ไม่ดี (ข้อผิดพลาดการทดสอบสูง)

แนวคิดของการส่งเสริมต้นไม้คือการเริ่มต้นด้วยต้นไม้น้ำตื้น (รุ่นที่อ่อนแอ) และเพิ่มต้นไม้ที่ตื้นขึ้นเรื่อย ๆ เพื่อพยายามแก้ไขความอ่อนแอของต้นไม้ก่อนหน้านี้ เมื่อคุณทำกระบวนการนี้ข้อผิดพลาดในการทดสอบมีแนวโน้มที่จะลดลง (เนื่องจากรุ่นโดยรวมมีความยืดหยุ่น / มีประสิทธิภาพมากขึ้น) อย่างไรก็ตามหากคุณเพิ่มต้นไม้เหล่านั้นมากเกินไปคุณจะเริ่มต้นข้อมูลการฝึกให้มากเกินไปและทำให้ข้อผิดพลาดในการทดสอบเพิ่มขึ้น การตรวจสอบข้ามช่วยด้วยการค้นหาจุดหวาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.