การเปิดเผยอย่างเต็มรูปแบบ: ฉันไม่ใช่นักสถิติและฉันไม่ได้อ้างว่าเป็น ฉันเป็นผู้ดูแลระบบไอทีต่ำต้อย กรุณาเล่นอ่อนโยนกับฉัน :)
ฉันมีหน้าที่รับผิดชอบในการรวบรวมและพยากรณ์การใช้ที่เก็บข้อมูลดิสก์สำหรับองค์กรของเรา เรารวบรวมที่เก็บข้อมูลของเราใช้เป็นรายเดือนและใช้การถดถอยเชิงเส้นแบบง่าย ๆ สิบสองเดือนสำหรับการคาดการณ์ เราใช้ข้อมูลนี้สำหรับการจัดสรรและการวางแผนค่าใช้จ่ายทุนเช่น "ตามโมเดลนี้เราจะต้องซื้อจำนวน x หากพื้นที่เก็บข้อมูลในเดือน y เพื่อตอบสนองความต้องการของเรา" ทั้งหมดนี้ทำงานได้ดีพอที่จะตอบสนองความต้องการของเรา
เรามีการเคลื่อนไหวครั้งเดียวจำนวนมากในตัวเลขของเราซึ่งทำให้การคาดการณ์ไม่เป็นไปตามปกติ ตัวอย่างเช่นมีคนพบการสำรองข้อมูลเก่า 500GB ซึ่งไม่จำเป็นอีกต่อไปและลบทิ้ง ดีสำหรับพวกเขาในการเรียกคืนพื้นที่! อย่างไรก็ตามการคาดการณ์ของเราในขณะนี้ลดลงอย่างมากจากการลดลงครั้งใหญ่ในหนึ่งเดือน เรายอมรับเสมอว่าการลดลงเช่นนี้ใช้เวลา 9-10 เดือนในการสร้างแบบจำลอง แต่อาจใช้เวลานานมากหากเราเข้าสู่ฤดูการวางแผนค่าใช้จ่ายทุน
ฉันสงสัยว่ามีวิธีจัดการความแปรปรวนแบบครั้งเดียวเหล่านี้หรือไม่ว่าค่าที่คาดการณ์จะไม่ได้รับผลกระทบมากนัก (เช่นความชันของเส้นไม่เปลี่ยนแปลงอย่างมาก) แต่จะนำมาพิจารณาด้วย (เช่น การเปลี่ยนแปลงครั้งเดียวในค่า y ที่เกี่ยวข้องกับจุดเฉพาะในเวลา) ความพยายามครั้งแรกของเราในการแก้ปัญหานี้ทำให้ได้ผลลัพธ์ที่น่าเกลียด (เช่นเส้นโค้งการเติบโตแบบเลขชี้กำลัง) เราทำการประมวลผลทั้งหมดของเราใน SQL Server หากมีความสำคัญ