จะค้นหาค่าที่ดีที่สุดสำหรับพารามิเตอร์การปรับแต่งในการเพิ่มต้นไม้ได้อย่างไร?


9

ฉันรู้ว่ามีพารามิเตอร์การปรับแต่ง 3 แบบในรูปแบบต้นไม้ที่เพิ่มขึ้นเช่น

  1. จำนวนต้นไม้ (จำนวนการวนซ้ำ)
  2. พารามิเตอร์การหดตัว
  3. จำนวนของการแยก (ขนาดของต้นไม้แต่ละต้น)

คำถามของฉันคือ: สำหรับพารามิเตอร์การปรับแต่ละค่าฉันจะหาค่าที่ดีที่สุดได้อย่างไร และวิธีการอะไร

โปรดทราบว่า: พารามิเตอร์การหดตัวและจำนวนพารามิเตอร์ trees ทำงานร่วมกันเช่นค่าที่น้อยกว่าสำหรับพารามิเตอร์การหดตัวจะนำไปสู่ค่าที่สูงขึ้นสำหรับจำนวนต้นไม้ และเราต้องคำนึงเรื่องนี้ด้วย

ฉันสนใจเป็นพิเศษในวิธีการค้นหาค่าที่เหมาะสมที่สุดสำหรับจำนวนการแบ่ง มันควรจะขึ้นอยู่กับการตรวจสอบข้ามหรือความรู้เกี่ยวกับรูปแบบโดเมนที่อยู่เบื้องหลัง?

และสิ่งเหล่านี้ถูกนำไปใช้ในgbmแพ็คเกจใน R อย่างไร

คำตอบ:


6

รูปหมวกแพคเกจในการวิจัยถูกตัดทำสำหรับเรื่องนี้

ฟังก์ชั่นรถไฟใช้ตารางของค่าพารามิเตอร์และประเมินประสิทธิภาพโดยใช้รสชาติที่หลากหลายของการตรวจสอบข้ามหรือ bootstrap ผู้เขียนแพคเกจได้เขียนหนังสือแบบจำลองการพยากรณ์ประยุกต์ซึ่งแนะนำเป็นอย่างยิ่ง ใช้การตรวจสอบความถูกต้องไขว้ซ้ำ 10 เท่า 5 ตลอดทั้งเล่ม

สำหรับการเลือกความลึกของต้นไม้ฉันจะไปที่หัวข้อความรู้เกี่ยวกับปัญหาเช่นถ้าคุณไม่คาดหวังว่าการโต้ตอบใด ๆ - จำกัด ความลึกเป็น 1 หรือไปหาแบบจำลองพารามิเตอร์ที่ยืดหยุ่น (ซึ่งง่ายต่อการเข้าใจและตีความ) ที่ถูกกล่าวว่าฉันมักจะพบว่าตัวเองปรับความลึกของต้นไม้เนื่องจากความรู้ในเรื่องมักจะ จำกัด มาก

ฉันคิดว่าแพ็คเกจ gbm ปรับแต่งจำนวนต้นไม้สำหรับค่าคงที่ของความลึกของต้นไม้และการหดตัว


หนังสือเล่มนี้มีรหัส R หรือไม่?
user1769197

ฉันหมายถึงตัวอย่างการทำงานที่มีรหัส R เพื่อให้เราเข้าใจว่าโมเดลถูกนำไปใช้ในการคำนวณและนำไปใช้กับชุดข้อมูลได้อย่างไร
user1769197

1
ใช่. ตรวจสอบหน้าเว็บของหนังสือเล่มนี้ที่ใช้predictivemodeling.comสำหรับข้อมูลเพิ่มเติม
ErikL

1

มีสองแหล่งที่ดีสำหรับต้นไม้การถดถอยที่เพิ่มขึ้นและแพคเกจ gbm สำหรับคำอธิบายของ BRT และการเพิ่มประสิทธิภาพของจำนวนต้นไม้ ( nt), อัตราการเรียนรู้ ( lr) และความซับซ้อนของต้นไม้ ( tc) ดูคู่มือการทำงานเพื่อกระตุ้นต้นไม้ถดถอยแม้ว่ามันจะมุ่งเน้นไปที่ระบบนิเวศฉันคิดว่าคุณจะไม่แนะนำ .

สำหรับการนำ BRT ไปใช้ในแพ็คเกจ gbm ให้ดูที่ต้นไม้ที่ได้รับการปรับปรุงเพื่อการสร้างแบบจำลองทางนิเวศวิทยา

กล่าวโดยย่อคือกฎง่ายๆคือการเลือกอัตราการเรียนรู้ที่อนุญาตให้แบบจำลอง BRT พอดีกับต้นไม้อย่างน้อย 1,000 ต้นดังนั้นคุณจะต้องมีอัตราการเรียนรู้ต่ำเพียง 0.001 เพื่อให้บรรลุเป้าหมายนั้น แต่ขึ้นอยู่กับขนาดของข้อมูลของคุณดูรูปที่ 2 และ 3 ใน Working Guide ถึง BRT ฉันคิดว่าวิธีหนึ่งที่เป็นไปได้คือการตั้งค่าแบบจำลองที่แตกต่างกันใน BRT ตามขนาดข้อมูลของคุณตัวอย่างเช่นรวม lr ที่แตกต่างกัน (0.1, 0.01, 0.001), tc (1, 3, 5, 7, 9, 20) กับกระเป๋าที่แตกต่างกัน .fractions (0.5, 0.7, 0.9) และเลือกที่ดีที่สุดตามค่าเบี่ยงเบนต่ำสุดหรือคะแนน ROC สูงสุด อาจช่วยได้


1
สำหรับการอ้างอิงBRT_MODEL$self.statistics$correlation[[1]]คือความสัมพันธ์ของการทดสอบกับข้อมูลการฝึกอบรมซึ่งเป็นตัวชี้วัดการทดสอบที่ดี
dez93_2000

ฟังดูเหมือนการออกแบบการทดลองทางสถิติสำหรับฉัน : P
EngrStudent
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.