การกำหนดน้ำหนักให้มากขึ้นเพื่อการสังเกตการณ์ล่าสุดในการถดถอย


9

ฉันจะกำหนดน้ำหนักให้กับการสำรวจล่าสุดใน R มากขึ้นได้อย่างไร

ฉันคิดว่านี่เป็นคำถามหรือความปรารถนาที่ถามบ่อย แต่ฉันมีเวลายากที่จะหาวิธีการใช้งาน ฉันพยายามค้นหาสิ่งนี้มาก แต่ฉันไม่สามารถหาตัวอย่างการปฏิบัติที่ดีได้

ในตัวอย่างของฉันฉันจะมีชุดข้อมูลขนาดใหญ่เมื่อเวลาผ่านไป ฉันต้องการบอกว่าใช้การยกน้ำหนักแบบเอกซ์โปเนนเชียลของแถวของข้อมูลที่ใหม่กว่า ดังนั้นฉันจะมีฟังก์ชันเลขชี้กำลังบางส่วนที่บอกว่าการสังเกตในปี 2558 มีความสำคัญมากกว่า ___ ในการฝึกอบรมแบบจำลองมากกว่าการสังเกตในปี 2012

ตัวแปรชุดข้อมูลของฉันมีการผสมผสานของค่าหมวดหมู่และตัวเลขและเป้าหมายของฉันคือค่าตัวเลข - หากเป็นสิ่งสำคัญ

ฉันต้องการทดสอบ / ลองใช้โมเดลเช่น GBM / Random Forest โดยเฉพาะในแพ็คเกจ CARET

ปรับปรุงคำถาม

ฉันขอขอบคุณคำตอบที่ระบุไว้ด้านล่างเกี่ยวกับวิธีลดน้ำหนักแบบเอ็กซ์โปเนนเชียลตามระยะทางวันที่ระหว่างจุดสองจุด

อย่างไรก็ตามเมื่อพูดถึงการฝึกอบรมรุ่นนี้ด้วยคาเร็ตน้ำหนักตัวประกอบมีอะไรกันแน่? ค่าน้ำหนักในแต่ละแถวการฝึกอบรมคือระยะห่างระหว่างบางจุดในอนาคตและเมื่อจุดนั้นเกิดขึ้นในอดีต

น้ำหนักมีการเล่นเฉพาะในระหว่างการทำนายหรือไม่? เพราะถ้าพวกเขาเข้ามาในระหว่างการฝึกซ้อมนั่นจะไม่ทำให้เกิดปัญหาทุกอย่างเพราะ cross-folds ต่าง ๆ จะมีน้ำหนักต่างกันพยายามที่จะทำนายบางสิ่งที่อาจมีอยู่ก่อนหน้านี้ใช่ไหม?


3
ใกล้ชิดเพราะผู้ถามต้องการชี้แจงประเด็นทางสถิติ ไม่ชัดเจนสำหรับฉันว่า GBN หรือ RF เหมาะสมที่นี่ แนะนำนี้ถูกย้ายไป CV.com
dwin

ตกลง. ฉันจะเพิ่มตัวอย่างเร็ว ๆ นี้ ฉันเพิ่งเห็นคำถามประเภทนี้ทั่วอินเทอร์เน็ต แต่ไม่มีตัวอย่างที่ชัดเจนของวิธีการใช้ / แก้ปัญหา
3788557

คำตอบ:


5

ฉันจะกำหนดน้ำหนักให้กับการสำรวจล่าสุดใน R มากขึ้นได้อย่างไร

ฉันเดาว่าคุณมีการประทับเวลาที่เกี่ยวข้องกับการสังเกตแต่ละครั้ง คุณสามารถคำนวณตัวแปรtimeElapsed = modelingTime - observationTimeได้ ตอนนี้คุณใช้ฟังก์ชันเลขชี้กำลังแบบง่ายW=K*exp(-timeElapsed/T)ซึ่งKเป็นค่าคงที่การปรับและTเป็นค่าคงที่เวลาสำหรับฟังก์ชันการสลายตัว Wทำงานเป็นกรณีน้ำหนัก

เพื่อความรู้ที่ดีที่สุดของฉันฟังก์ชั่นมากมายที่caretอนุญาตให้weightใช้เป็นพารามิเตอร์ซึ่งเป็นคอลัมน์ของน้ำหนักตัวพิมพ์เล็ก - ใหญ่ที่จะให้การสังเกตที่สอดคล้องกัน (ดังนั้นจึงมีความยาวเท่ากับ # แถว)


1
ฟังก์ชั่นในการมีcaret::train weights
timcdlucas

ขอบคุณ Ujjwal - แต่วิธีการในการกำหนด 'K' ในสมการของคุณคืออะไร? แนวทางหรือแนวทางปฏิบัติที่ดีที่สุด นอกจากนี้คุณหมายถึงอะไรโดย 'ช่วงเวลา' สำหรับฟังก์ชั่นการสลายตัว?
3788557

K เป็นเพียงค่าคงที่การปรับขนาดและมันจะไม่ส่งผลกระทบต่อโมเดลผลลัพธ์มากนัก คุณสามารถตั้งค่าเป็นบางค่าเพื่อให้ช่วงของค่าน้ำหนักตัวพิมพ์ใกล้เคียงกับช่วง 0-1 เกี่ยวกับ "ช่วงเวลา" จะเรียกว่าค่าคงที่เวลาสำหรับฟังก์ชันการสลายตัวเลขชี้กำลังของคำสั่งที่ 1 หรือค่าเฉลี่ยอายุการใช้งาน คุณสามารถค้นหาได้จากวิกิพีเดีย
Ujjwal Kumar

โปรดดูการอัปเดตของฉันที่โพสต์ของฉัน สิ่งนี้จะทำงานได้อย่างถูกต้องระหว่างการฝึกหรือไม่? รูปแบบการฝึกอบรมจะมีอคติเนื่องจากสามารถใช้น้ำหนักได้เมื่อใช้กับชุดทดสอบเท่านั้นหรือไม่ เมื่อชุดการฝึกอบรมถูกสับแบบสุ่มมันอาจไม่ดีถ้ามีการใช้น้ำหนักที่สูงขึ้นเพื่อทำนายราคาในอดีตหรือในช่วงเวลาที่ไม่ได้อยู่ใกล้เคียงในเวลา
3788557

การฝึกอบรมแบบจำลองของคุณจะให้ความสำคัญเท่าเทียมกันกับข้อมูลเก่าและใหม่ แต่ด้วยน้ำหนักตัวพิมพ์ที่เสนอมันจะให้ความสำคัญกับข้อมูลที่ใหม่กว่าดังนั้นในแง่นั้นมันมีอคติต่อการสังเกตที่ใหม่กว่า แต่นั่นก็คือ คุณต้องการอะไร. ฉันไม่เข้าใจว่าทำไม "อนุญาตให้น้ำหนักสำหรับกรณีทดสอบ"เท่านั้น นอกจากนี้น้ำหนักที่สูงขึ้นจะถูกใช้สำหรับค่าเก่าเมื่อชุดการฝึกอบรมถูกสับแบบสุ่มหรือไม่ เมื่อการสร้างแบบจำลองเวลาจะถูกเก็บไว้เหมือนกันสำหรับกรณีการฝึกอบรมทั้งหมด น้ำหนักตัวพิมพ์ของ PS ไม่ได้ใช้เมื่อใช้แบบจำลองมันใช้ได้กับช่วงเวลาการฝึกอบรมเท่านั้น
Ujjwal Kumar

0

ข้อมูล (ไม่ใช่นักวิเคราะห์ที่สร้างสมมติฐาน - เดา) มักจะสามารถแนะนำรูปแบบของโครงร่างการชั่งน้ำหนัก สิ่งนี้ทำผ่าน GLS ซึ่งได้น้ำหนักที่เหมาะสมสำหรับตัวแบบกำลังสองน้อยที่สุดที่ได้จากความแตกต่างอย่างมีนัยสำคัญทางสถิติที่พบในความแปรปรวนข้อผิดพลาด ลองดูที่การเปลี่ยนแปลงและการตรวจสอบค่าผิดปกติด้วยวิธี ARIMA (ขั้นตอน Tsay)และนี่http://docplayer.net/12080848-Outliers-level-shifts-and-variance-changes-in-time-series.html หากคุณต้องการโพสต์ข้อมูลโปรดทำที่นี่และฉันจะพยายามช่วยเหลือเพิ่มเติมเนื่องจากฉันมีการเข้าถึงซอฟต์แวร์ที่อาจทำให้คุณไม่เข้าใจ

มีซอฟต์แวร์รุ่น R ที่ฉันใช้อยู่

คุณอาจดูวิธีรวมตัวแปรควบคุมในการวิเคราะห์การแทรกแซงด้วย ARIMA ได้อย่างไร เนื่องจากมีตัวอย่างของวิธีการระบุน้ำหนักและนำมาใช้เพื่อทำให้เกิดความแปรปรวนของข้อผิดพลาดจึงทำให้เชื่อได้อย่างมีประสิทธิภาพ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.