ฉันกำลังฝึกรูปแบบการจัดหมวดหมู่กับ Random Forest เพื่อแยกแยะระหว่าง 6 หมวดหมู่ ข้อมูลธุรกรรมของฉันมีการสังเกตประมาณ 60k + และตัวแปร 35 ตัว นี่คือตัวอย่างของลักษณะโดยประมาณ
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
เมื่อแบบจำลองถูกสร้างขึ้นฉันต้องการให้คะแนนการสังเกตจากสองสามสัปดาห์ที่ผ่านมา เนื่องจากมีการเปลี่ยนแปลงระบบการสังเกตล่าสุดจะคล้ายกับสภาพแวดล้อมของการสังเกตการณ์ปัจจุบันที่ฉันต้องการคาดการณ์มากขึ้น ดังนั้นฉันต้องการสร้างตัวแปรน้ำหนักเพื่อให้ป่าสุ่มให้ความสำคัญกับการสังเกตการณ์ล่าสุด
ไม่มีใครรู้ว่าแพคเกจสุ่มป่าไม้ใน R สามารถจัดการน้ำหนักต่อการสังเกต?
นอกจากนี้คุณสามารถช่วยแนะนำวิธีที่ดีในการสร้างตัวแปรน้ำหนักได้อย่างไร? ตัวอย่างเช่นเนื่องจากข้อมูลของฉันมาจากปี 2013 ฉันคิดว่าฉันสามารถใช้หมายเลขเดือนจากวันที่เป็นน้ำหนักได้ ไม่มีใครเห็นปัญหากับวิธีนี้หรือไม่?
ขอบคุณมากล่วงหน้า!