การจับภาพฤดูกาลในการถดถอยหลายครั้งสำหรับข้อมูลรายวัน


13

ฉันมีข้อมูลยอดขายรายวันสำหรับผลิตภัณฑ์ซึ่งเป็นไปตามฤดูกาล ฉันต้องการบันทึกฤดูกาลตามโมเดลการถดถอย ฉันได้อ่านว่าหากคุณมีข้อมูลรายไตรมาสหรือรายเดือนในกรณีนี้คุณสามารถสร้างตัวแปรจำลอง 3 และ 11 ตัวตามลำดับ - แต่ฉันสามารถจัดการกับข้อมูลรายวันได้หรือไม่

ฉันมีข้อมูลรายวันสามปี ตัวแปรอิสระคือจุดราคาแฟล็กการส่งเสริมการขาย (ใช่ / ไม่ใช่) และอุณหภูมิ ตัวแปรตามคือยอดขายของผลิตภัณฑ์นั้น ฉันไม่ได้กำลังมองหาโมเดลอนุกรมเวลาเนื่องจากฉันใช้โมเดลการถดถอยหลายแบบ


คุณได้รับข้อมูลมากแค่ไหน? กี่ปีที่ผ่านมาคุ้มค่า? คุณมีข้อมูลเกี่ยวกับอุณหภูมิหรือไม่? รุ่นที่เหลือของคุณเป็นอย่างไร DV และ IV ของคุณคืออะไร
Peter Flom - Reinstate Monica

นอกจากสิ่งที่ Peter Flom ถามคุณกำลังสร้างแบบจำลองข้อมูลของคุณเป็นอนุกรมเวลา univariate หรืออนุกรมเวลาหลายตัวแปร? หากเป็นหลายตัวแปรคุณมีตัวแปรอื่น ๆ หรือไม่ ตัวแปรเหล่านั้นแสดงพฤติกรรมตามฤดูกาลหรือไม่? ถ้าเป็นเช่นนั้นการเพิ่มตัวแปรดัมมี่จะไม่จำเป็น คุณสามารถให้ข้อมูลเพิ่มเติมเหล่านี้ได้หรือไม่?
พยากรณ์

ฉันได้แก้ไขคำถามของฉัน คุณช่วยแก้ปัญหาได้ไหม ขอบคุณ
Arushi


ฉันเห็นด้วยอย่างยิ่งกับ @IrishStat เราจะไม่คิดที่จะเพิกเฉยต่อแบบจำลองอนุกรมเวลาซึ่งเป็นแบบจำลองที่ดีซึ่งมีหลายซีซั่นฉันขอแนะนำให้คุณตรวจสอบแบบจำลองพื้นที่รัฐแบบเอกซ์โปเนนเชียลเอกซ์โปเนนเชียล เทรนด์พร้อมกันเฉพาะในอาร์คุณสามารถใช้งานได้ถ้าแพ็คเกจพยากรณ์ ()
Karthi V

คำตอบ:


10

@Irishstat ครอบคลุมถึงสิ่งที่ฉันกำลังจะพูด แต่ฉันจะตอบกลับด้วยประสบการณ์ส่วนตัวของฉันในการสร้างแบบจำลองข้อมูลเหล่านี้ด้วยการถดถอยอนุกรมเวลาและการถดถอย OLS

หากเป็นข้อมูลรายวันฉันจะทำสิ่งต่อไปนี้:

สร้างตัวแปรจำลองสำหรับฤดูกาลต่าง ๆ :

  • หากต้องการจับภาพวันตามฤดูกาลให้สร้างตัวแปรจำลอง 6 ตัว
  • หากต้องการจับภาพวันตามฤดูกาลให้สร้างตัวแปรจำลอง 30 ตัว
  • หากต้องการจับภาพเดือนของปีให้สร้างตัวแปรจำลอง 11 ตัว

สร้างตัวแปรดัมมี่สำหรับตัวแปรเทรนด์:

  • หากอนุกรมเวลาแสดงแนวโน้มเชิงเส้นให้เพิ่มตัวแปรแนวโน้มเวลา

  • หากอนุกรมเวลาแสดงแนวโน้มไม่เชิงเส้นให้เพิ่มตัวแปรแนวโน้มเวลาแบบไม่เชิงเส้นเช่นกำลังสอง / ลูกบาศก์ / บันทึก

เพิ่มตัวแปรอิสระตัวแปร

  • นี่เป็นข้อมูลอนุกรมเวลาดังนั้นควรระมัดระวังเกี่ยวกับผลกระทบของตะกั่วและความล่าช้าของ varibales อิสระ ตัวอย่างเช่นในตัวอย่างของคุณคุณพูดถึงการตั้งค่าสถานะการส่งเสริมการขายจุดราคาพวกเขาอาจไม่มีผลทันทีต่อการตอบสนองของคุณเช่นอาจมีความล่าช้าและผลกระทบที่เกิดจากการเน่า / ถาวร ตัวอย่างเช่นหากดำเนินการส่งเสริมการขายในวันนี้คุณอาจมียอดขายเพิ่มขึ้นในวันนี้ แต่ผลของการส่งเสริมการขายจะลดลงหลังจากไม่กี่วัน ไม่มีวิธีที่ง่ายในการสร้างแบบจำลองนี้โดยใช้การถดถอยแบบหลายครั้งคุณต้องการใช้แบบจำลองฟังก์ชั่นการถ่ายโอนซึ่งเป็น parsimonoius และสามารถจัดการกับชนิดตะกั่วและความล่าช้าได้ ดูตัวอย่างนี้ที่ฉันโพสต์ไว้ก่อนหน้านี้ซึ่งมีการแทรกแซง (ในจุดราคากรณีของคุณ) และมีการเพิ่มขึ้นอย่างฉับพลันตามด้วยผลกระทบเนื้อที่ ต้องบอกว่าถ้าคุณมีความรู้เบื้องต้นเกี่ยวกับผลกระทบของการรอคอยและการล่าช้าสร้างตัวแปรเพิ่มเติมในตัวแปรจำลองกรณีของคุณก่อนและหลังจุดราคาและ (ใช่ / ไม่ใช่) การเปลี่ยนแปลงการส่งเสริม

  • คุณจะต้องเพิ่มตัวแปรตัวบ่งชี้วันหยุดที่เคลื่อนไหวเช่น Irishstat ชี้ให้เห็นว่าคุณต้องการที่จะเพิ่มวันอีสเตอร์ / วันขอบคุณพระเจ้า (ในสหรัฐอเมริกา) ซึ่งกำลังย้ายวันหยุด วันหยุดที่มีวันที่ตายตัวจะได้รับการดูแลโดยอัตโนมัติหากคุณใช้รูปแบบการเข้ารหัสแบบหลอกเพื่อจับภาพฤดูกาล

  • นอกจากนี้คุณจะต้องระบุค่าผิดปกติเช่นสารเติมแต่ง / พัลส์ (เหตุการณ์ครั้งเดียว) หรือการเลื่อนระดับ (การเลื่อนอย่างถาวร) และเพิ่มพวกเขาเป็นผู้ถดถอย การระบุค่าผิดปกติในการถดถอยหลายครั้งสำหรับข้อมูลอนุกรมเวลาแทบเป็นไปไม่ได้ คุณจะต้องใช้วิธีการตรวจหาค่าล่วงเวลาอนุกรมเช่นขั้นตอนของ Tsayหรือขั้นตอนของChen และ Liuซึ่งรวมอยู่ในซอฟต์แวร์เช่น AUTOBOX, SPSS, SAS หรือtsoutlierแพ็คเกจใน R

ปัญหาที่อาจเกิดขึ้น:

ต่อไปนี้เป็นปัญหาที่คุณจะพบถ้าคุณจำลองข้อมูลอนุกรมเวลาโดยใช้ OLS หลายการถดถอย

  • ข้อผิดพลาดอาจเกี่ยวข้องอัตโนมัติ ดูเว็บไซต์ที่ดีและเว็บไซต์นี้อธิบายถึงปัญหานี้ วิธีหนึ่งในการหลีกเลี่ยงปัญหานี้คือการใช้วิธีGeneralized Squares (GLS)หรือARIMAXเทียบกับ OLS หลายการถดถอยซึ่งคุณสามารถแก้ไขความสัมพันธ์อัตโนมัติ
  • แบบจำลอง OLS จะไม่เป็น parsimonoius คุณมีตัวแปรจำลองสำหรับฤดูกาล6+30+11=47
  • ด้วยการใช้ตัวแปรดัมมี่คุณกำลังสมมติว่าฤดูกาลของคุณนั้นถูกกำหนดไว้แล้วนั่นคือมันจะไม่เปลี่ยนแปลงตลอดเวลา เนื่องจากคุณมีข้อมูลเพียง 3 ปีฉันจะไม่กังวลเกี่ยวกับมัน แต่ก็ยังคุ้มค่าที่จะวางแผนซีรีส์และดูว่าฤดูกาลไม่เปลี่ยนแปลงหรือไม่

และมีข้อเสียอีกหลายประการในการใช้การถดถอยหลายครั้ง หากการทำนายมีความสำคัญต่อคุณฉันก็จะเก็บข้อมูลอย่างน้อย 6 เดือนและทดสอบความสามารถในการทำนายของการถดถอยหลายครั้งของคุณ หากเป้าหมายหลักของคุณคือการอธิบายความสัมพันธ์ระหว่างตัวแปรอิสระฉันจะต้องระมัดระวังการใช้การถดถอยหลายครั้งและฉันจะใช้วิธีอนุกรมเวลาเช่น ARIMAX / GLS แทน

หากคุณสนใจคุณสามารถอ้างอิงข้อความที่ยอดเยี่ยมโดยPankratzสำหรับฟังก์ชั่นการถ่ายโอนและการสร้างแบบจำลองการถดถอยแบบไดนามิก สำหรับข้อมูลทั่วไปของการพยากรณ์อนุกรมเวลาโปรดดูที่Makridakis et al, นอกจากนี้ข้อความอ้างอิงที่ดีก็คือDieboldสำหรับการพยากรณ์และการพยากรณ์ตามอนุกรมเวลา


บทสรุปที่ดีมาก แต่ฉันอยากจะเพิ่มว่าคุณไม่สนใจเอฟเฟกต์รายสัปดาห์และรายวันเฉพาะนอกเหนือไปจากเอฟเฟกต์สุดสัปดาห์ที่เป็นไปได้ทั้งหมดที่ฉันพบว่ามีความสำคัญมาก นอกจากนี้เอฟเฟกต์ก่อนเหตุการณ์และหลังเหตุการณ์จะไม่ถูกละเว้น พิจารณากิจกรรมรอบอีสเตอร์และวันหยุดสำคัญอื่น ๆ / กิจกรรมมักจะมีรูปแบบการตอบสนองของแต่ละบุคคลที่ต้องมีการรวมตัวกันของข้อกำหนด LEAD คุณควรทราบว่าพารามิเตอร์สามารถและมักจะเปลี่ยนแปลงตลอดเวลาและจำเป็นต้องตรวจสอบสมมติฐานของความมั่นคงของพารามิเตอร์
IrishStat

ขอบคุณ @Iriishstat คุณพูดถูก ฉันลืมแข่งขันวันหยุดและผลกระทบที่นำไปสู่และความล่าช้าของพวกเขา
พยากรณ์

2

สิ่งที่คุณต้องการคือแบบจำลองที่จะรวมเอฟเฟกต์รายวันเอฟเฟ็กต์รายสัปดาห์เอฟเฟ็กต์รายสัปดาห์เอฟเฟ็กต์รายวันแบบเอฟเฟ็กต์แบบวันต่อเดือน แนวโน้มเวลาท้องถิ่นการเปลี่ยนแปลงของพัลส์ตามฤดูกาลและพัลส์ในขณะที่ผสมผสานโครงสร้าง ARIMA และอาจเกี่ยวข้องกับการเปลี่ยนแปลงของพารามิเตอร์และความแปรปรวนของข้อผิดพลาดเมื่อเวลาผ่านไป สิ่งนี้เรียกว่าฟังก์ชั่นการถ่ายโอนและสามารถเรียกคืนได้อย่างง่ายดาย (แต่ไม่ได้แยกจากกัน) เป็นการถดถอยเชิงเส้นหลายครั้ง

โดยเฉพาะตัวบ่งชี้รายวันจะใช้ตัวทำนาย 6 ตัว โดยทั่วไปคนหนึ่งจะต้องเตรียมการอย่างระมัดระวัง (ระบุ) ชนิดของตัวพยากรณ์ที่จำเป็น หากคุณมีเวลามากในมือคุณสามารถทดลองกับโครงสร้างบางอย่างที่ฉันได้กล่าวถึง หรือคุณอาจต้องการซอฟต์แวร์ / ที่ปรึกษาขั้นสูงเพื่อช่วยคุณแก้ปัญหาในช่วงชีวิตของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.