การปรับการคาดการณ์ (การถดถอยเชิงเส้น)


11

การเปิดเผยอย่างเต็มรูปแบบ: ฉันไม่ใช่นักสถิติและฉันไม่ได้อ้างว่าเป็น ฉันเป็นผู้ดูแลระบบไอทีต่ำต้อย กรุณาเล่นอ่อนโยนกับฉัน :)

ฉันมีหน้าที่รับผิดชอบในการรวบรวมและพยากรณ์การใช้ที่เก็บข้อมูลดิสก์สำหรับองค์กรของเรา เรารวบรวมที่เก็บข้อมูลของเราใช้เป็นรายเดือนและใช้การถดถอยเชิงเส้นแบบง่าย ๆ สิบสองเดือนสำหรับการคาดการณ์ เราใช้ข้อมูลนี้สำหรับการจัดสรรและการวางแผนค่าใช้จ่ายทุนเช่น "ตามโมเดลนี้เราจะต้องซื้อจำนวน x หากพื้นที่เก็บข้อมูลในเดือน y เพื่อตอบสนองความต้องการของเรา" ทั้งหมดนี้ทำงานได้ดีพอที่จะตอบสนองความต้องการของเรา

เรามีการเคลื่อนไหวครั้งเดียวจำนวนมากในตัวเลขของเราซึ่งทำให้การคาดการณ์ไม่เป็นไปตามปกติ ตัวอย่างเช่นมีคนพบการสำรองข้อมูลเก่า 500GB ซึ่งไม่จำเป็นอีกต่อไปและลบทิ้ง ดีสำหรับพวกเขาในการเรียกคืนพื้นที่! อย่างไรก็ตามการคาดการณ์ของเราในขณะนี้ลดลงอย่างมากจากการลดลงครั้งใหญ่ในหนึ่งเดือน เรายอมรับเสมอว่าการลดลงเช่นนี้ใช้เวลา 9-10 เดือนในการสร้างแบบจำลอง แต่อาจใช้เวลานานมากหากเราเข้าสู่ฤดูการวางแผนค่าใช้จ่ายทุน

ฉันสงสัยว่ามีวิธีจัดการความแปรปรวนแบบครั้งเดียวเหล่านี้หรือไม่ว่าค่าที่คาดการณ์จะไม่ได้รับผลกระทบมากนัก (เช่นความชันของเส้นไม่เปลี่ยนแปลงอย่างมาก) แต่จะนำมาพิจารณาด้วย (เช่น การเปลี่ยนแปลงครั้งเดียวในค่า y ที่เกี่ยวข้องกับจุดเฉพาะในเวลา) ความพยายามครั้งแรกของเราในการแก้ปัญหานี้ทำให้ได้ผลลัพธ์ที่น่าเกลียด (เช่นเส้นโค้งการเติบโตแบบเลขชี้กำลัง) เราทำการประมวลผลทั้งหมดของเราใน SQL Server หากมีความสำคัญ


คำถามที่ยอดเยี่ยม เพียงชี้แจงอย่างรวดเร็ว คุณต้องการที่จะทำนายเหตุการณ์เหล่านี้หรือเมื่อเกิดขึ้นให้ปรับการทำนายแบบจำลองที่ให้ข้อมูลใหม่ของคุณ
Matthew Drury

1
ใช่มันไม่ชัดเจนหากคุณพยายามที่จะ "ปรับ" เหตุการณ์ที่หายากเหล่านี้เช่นตัวอย่าง 500GB ดังนั้นพวกเขาจะไม่ส่งผลกระทบต่อผลลัพธ์ของคุณมากหรือหากคุณพยายามทำบัญชีให้มากขึ้นเนื่องจากคุณต้องการบันทึกเมื่อมีการเปลี่ยนแปลง ถูกสร้างขึ้นมา? ความแตกต่างนั้นบอบบาง: ในตอนแรกคุณต้องการที่จะเพิกเฉยต่อจุดใหม่ (เหตุการณ์ที่หายาก) แต่ในช่วงที่สองคุณต้องการเน้นจุดนั้น (เหตุการณ์ที่หายาก) หากเป็นกรณีแรกการถดถอยที่มีประสิทธิภาพอาจเป็นวิธีง่าย ๆ สำหรับคุณเนื่องจากคุณใช้การถดถอยเชิงเส้นอยู่แล้ว ดูที่นี่: ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent

นอกจากนี้คุณใช้ซอฟต์แวร์ใด ๆ เพื่อคาดคะเนและใช้ช่วงความมั่นใจหรือไม่
StatsStudent

ฉันสามารถเพิ่มการปรับหลังจากความจริง ในความเป็นจริงเวลาส่วนใหญ่ฉันไม่รู้เกี่ยวกับการเบี่ยงเบนที่สำคัญจนกว่าฉันจะดูตัวเลขของเดือนถัดไปและเห็นการเปลี่ยนแปลงครั้งใหญ่ ฉันไม่ได้ใช้ซอฟต์แวร์ใด ๆ เพื่อคาดคะเน เป็นเพียงขั้นตอนที่เก็บไว้ใน SQL Server เพื่อคำนวณค่าการถดถอยของฉัน
sbrown

ปฏิกิริยาที่รวดเร็ว: (ก) ฉันอาจจะพอดีกับ AR ขั้นพื้นฐานมาก (1) กับการเปลี่ยนแปลงในการใช้งานดิสก์บันทึกหรือไม่? โดยทั่วไปคุณจะประมาณอัตราการเติบโตระยะยาวในการใช้งานดิสก์และอัตราการเติบโตในการใช้งานดิสก์จะย้ายกลับไปที่แนวโน้มดังกล่าวอย่างรวดเร็วหลังจากเกิดความสะเทือนใจ (aa) คุณสามารถใช้ข้อมูลอื่นเช่นกันและใส่ VAR (vector autoregression) (b) การทิ้งข้อมูลทั้งหมด> 12 เดือนอาจไม่เป็นสิ่งที่ดีที่สุดที่จะทำ (c) OLS ปกติช่วยลดผลรวมของกำลังสองน้อยที่สุด คุณสามารถใช้ฟังก์ชันการลงโทษที่แตกต่างกัน (เช่น Huber) ซึ่งแข็งแกร่งกว่าค่าผิดปกติ
Matthew Gunn

คำตอบ:


0

นี่คือคำแนะนำง่ายๆ ฉันไม่รู้ว่ามันเหมาะกับคุณหรือไม่และบางทีฉันควรจะทำเป็นความคิดเห็น แต่ดูเหมือนว่าคุณต้องการสิทธิ์เพิ่มเติมในการแสดงความคิดเห็นมากกว่าที่จะตอบกลับ

หากฉันเข้าใจถูกต้องตัวเลขที่คุณใช้คือจำนวนของที่เก็บข้อมูลที่คุณใช้ในแต่ละเดือน อาจเพิ่มขึ้นปกติเหล่านี้และคุณต้องการที่จะคาดการณ์ว่าจำนวนเงินจะเป็นอย่างไรในอนาคตหากแนวโน้มยังคงดำเนินต่อไป เมื่อคุณทราบว่ามีการเปลี่ยนแปลงครั้งใหญ่เกิดขึ้น (เช่นมีการเปิดตัว 500 GB) คุณสามารถย้อนกลับไปและเปลี่ยนตัวเลขของเดือนก่อนหน้า (เช่นลบ 500 GB จากทั้งหมด) โดยทั่วไปสิ่งที่คุณจะทำคือการปรับตัวเลขเดือนก่อนหน้าเป็นสิ่งที่พวกเขาควรจะได้รับถ้าคุณรู้แล้วสิ่งที่คุณรู้ตอนนี้

แน่นอนฉันไม่แนะนำสิ่งนี้นอกจากคุณจะต้องแน่ใจว่าคุณสามารถกลับไปสู่ร่างเดิมได้ แต่การคาดการณ์ที่คุณต้องการจะฟังดูเหมือนจะสามารถทำได้ใน Excel ซึ่งในกรณีนี้คุณสามารถมีได้หลายรุ่นตามที่คุณต้องการ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.