เมื่อไม่นานมานี้ฉันได้รับแจ้งว่ากระบวนการที่ฉันติดตาม (องค์ประกอบของวิทยานิพนธ์ MS) อาจถูกมองว่าเหมาะสมเกินไป ฉันกำลังมองหาที่จะได้รับความเข้าใจที่ดีขึ้นนี้และดูว่าคนอื่นเห็นด้วย
วัตถุประสงค์ของบทความนี้คือ
เปรียบเทียบประสิทธิภาพของต้นไม้การถดถอยแบบไล่ระดับสีไล่ระดับกับการสุ่มป่าบนชุดข้อมูล
ดูประสิทธิภาพของรุ่นสุดท้ายที่เลือก (ทั้ง GBM หรือ RF)
gbm
และแพคเกจในการวิจัยที่มีการใช้พร้อมกับrandomForest
caret
กระบวนการตามเป็นดังนี้:
- การประมวลผลข้อมูลเบื้องต้นล่วงหน้า (เช่นการเสียบค่าที่ขาดหายไปของตัวทำนายที่ระบุด้วยหมวดหมู่ที่แตกต่างที่เรียกว่า "หายไป") ตัวแปรเป้าหมายไม่ได้พิจารณาถึงการประมวลผลล่วงหน้าใด ๆ (ซึ่งน้อยมาก)
- สร้างตารางค่าสำหรับเมตา - พารามิเตอร์ของแต่ละอัลกอริทึม (เช่นจำนวนการวนซ้ำสำหรับ GBM)
- สร้างชุดข้อมูลแยก 25 ชุด (การฝึกอบรม 65% และการทดสอบ 35%)
ทำซ้ำ 25 ครั้งต่อไปนี้สำหรับ GBM (แต่ละครั้งใช้หนึ่งในการสุ่มแยกรถไฟ / ทดสอบแต่ละครั้งที่การฝึกอบรมและชุดทดสอบเป็น "การเปลี่ยนแปลงในปัจจุบัน" ของการเปลี่ยนแปลงหลักสูตร
- ใช้การตรวจสอบความถูกต้องไขว้ 5 เท่าเพื่อค้นหาการตั้งค่าพารามิเตอร์ "ดีที่สุด" ของอัลกอริทึมเหนือการค้นหากริด ไม่มีอะไรจากการวิ่งก่อนหน้านี้เลยในการวิ่งปัจจุบัน
- เมื่อพิจารณาแล้วให้พอดีกับรูปแบบของชุดการฝึกอบรม "ปัจจุบัน" เต็มรูปแบบและคาดการณ์ชุดการทดสอบ "ปัจจุบัน" ตั้งค่าการวัดประสิทธิภาพของการทำงานนี้
เมื่อ 25 การวัดประสิทธิภาพ (จริง ๆ แล้วเป็นการวัดเฉพาะโดเมน แต่คิดว่าเป็นความแม่นยำ) ในแบบนี้ให้ทำตามกระบวนการเดียวกันโดยใช้ตัวอย่างรถไฟและการทดสอบอิสระที่เหมือนกันสำหรับ RF (กระบวนการเดียวกันที่แตกต่างกันเท่านั้น ค้นหาตารางแน่นอน)
ตอนนี้ฉันมี 25 วัดประสิทธิภาพจากชุดทดสอบ "ปัจจุบัน" สำหรับ GBM และ RF ฉันเปรียบเทียบพวกเขาโดยใช้แบบทดสอบการจัดอันดับแบบมีลายเซ็นของวิลคอกซันและแบบทดสอบการเปลี่ยนแปลง ฉันพบว่า GBM เหนือกว่า ฉันยังอ้างว่าการกระจายตัวของการวัดประสิทธิภาพจาก 25 การทำงานเหล่านี้สำหรับ GBM นั้นเป็นประสิทธิภาพที่คาดหวังของตัวจําแนก GBM สุดท้าย
สิ่งที่ฉันไม่ได้ทำคือการดึงชุดการทดสอบแบบสุ่มจากจุดเริ่มต้นและวางไว้เพื่อเปรียบเทียบกับรุ่น GBM สุดท้ายที่สร้างจากข้อมูลการฝึกอบรมทั้งหมด ฉันยืนยันว่าสิ่งที่ฉันทำจริง ๆ แล้วดีกว่ามากเพราะฉันทำซ้ำการแยกข้อมูล / ปรับแต่งแบบจำลอง / ทดสอบรอกระบวนการ 25 ครั้งเมื่อเทียบกับเพียงครั้งเดียว
ที่นี่มีความเหมาะสมหรือไม่ เนื่องจากมีการใช้งาน 25 ครั้งเพื่อเลือก GBM และ RF หมายความว่าการวัดประสิทธิภาพที่ได้จากกระบวนการไม่สามารถใช้เป็นการประเมินประสิทธิภาพสำหรับรุ่นเต็มได้หรือไม่
แก้ไข เพื่อตอบสนองต่อความคิดเห็นของ Wayne นี่คือสิ่งที่ทำระหว่างการวิ่ง 25 ครั้ง:
- ข้อมูลตัวอย่างสำหรับชุดฝึกอบรม (i = 1, .. , 25) ถูกแบ่งออกเป็น 5 กลุ่มที่มีขนาดเท่ากัน แบบจำลองนั้นเหมาะสมกับการใช้ 4 จาก 5 กลุ่มการตั้งค่าพารามิเตอร์ GBM (เช่นจำนวนการวนซ้ำ) เท่ากับค่าในตาราง jth (j = 1, .. , 18)
- ประสิทธิภาพของกลุ่มที่ 5 คำนวณโดยใช้แบบจำลองนี้
- ขั้นตอนที่ 1 และ 2 ถูกทำซ้ำอีก 4 ครั้ง (CV แบบพับเก่าปกติพร้อม k = 5) ประสิทธิภาพถูกเฉลี่ยจากการดำเนินการย่อย 5 รายการซึ่งจะรวมถึงประสิทธิภาพที่คาดหวังของ GBM ด้วยชุดของค่าพารามิเตอร์ที่แน่นอน
- ขั้นตอนที่ 1 -3 ถูกทำซ้ำสำหรับ "แถว" 17 รายการอื่นในตาราง
เมื่อเสร็จสิ้นแล้วจะมีการกำหนดค่าพารามิเตอร์ที่ดีที่สุดจากแบบฝึกหัดข้างต้นและ GBM นั้นเหมาะสมกับการใช้ค่าพารามิเตอร์เหล่านี้และชุดฝึกอบรมแบบเต็ม ประสิทธิภาพการทำงานของมันถูกประเมินในชุดทดสอบที่ ith
เมื่อกระบวนการทั้งหมดนี้เสร็จสิ้น 25 ครั้งมีการวัดประสิทธิภาพ 25 แบบสำหรับ GBM จากนั้นพวกเขาก็รวมตัวกันเพื่อ RF ในวิธีเดียวกัน
หลังจากเปรียบเทียบและเลือก GBM ฉันดูที่การวัดประสิทธิภาพ 25 ข้อเหล่านั้นและหาค่าเฉลี่ยและข้อผิดพลาด Stnd เพื่อกำหนดช่วงความมั่นใจสำหรับโมเดล GBM ในข้อมูลนี้