วิธีใดที่สามารถใช้เพื่อตรวจสอบฤดูกาลในข้อมูล


56

ฉันต้องการตรวจสอบฤดูกาลตามข้อมูลที่ฉันได้รับ มีวิธีการบางอย่างที่ฉันพบเช่นพล็อตย่อยตามฤดูกาลและพล็อตออโต้คอร์เรชั่น แต่สิ่งที่ฉันไม่เข้าใจวิธีการอ่านกราฟทุกคนสามารถช่วยได้หรือไม่ อีกวิธีคือมีวิธีอื่นในการตรวจสอบฤดูกาลที่มีหรือไม่มีผลสุดท้ายในกราฟ?


1
คุณอาจรวมกราฟจริงที่คุณมีปัญหาในการทำความเข้าใจ
Karl

โดยเฉพาะอย่างยิ่งข้อมูลต้นฉบับที่สามารถใช้เพื่อสร้าง ACF "ลำบาก"
IrishStat


1
ดู: journals.ametsoc.org/doi/abs/10.1175/JCLI-D-10-05012.1 Qian, C. , Z Wu, C Fu และ D Wang, 2011: เกี่ยวกับการเปลี่ยน El Niño: มุมมองจากปีที่เปลี่ยนแปลงตามเวลา วงจรความแปรปรวนระหว่างหน่วยและสถานะค่าเฉลี่ย J. Climate, 24 (24), 6486–6500

คำตอบ:


70

วิธีที่ดีจริงๆที่จะหาช่วงในชุดปกติใด ๆ ของข้อมูลคือการตรวจสอบคลื่นไฟฟ้าของมันหลังจากที่ถอดแนวโน้มโดยรวม(สิ่งนี้ให้ผลดีกับการตรวจคัดกรองอัตโนมัติเมื่อกำลังรวมปกติเป็นค่ามาตรฐานเช่นความเป็นเอกภาพ) การกำจัดแนวโน้มเบื้องต้น (และความแตกต่างเพิ่มเติมเพื่อลบความสัมพันธ์แบบอนุกรม) เป็นสิ่งจำเป็นเพื่อหลีกเลี่ยงช่วงเวลาที่สับสนกับพฤติกรรมอื่น ๆ

สเปกตรัมพลังงานคือการแปลงฟูริเยร์แบบไม่ต่อเนื่องของฟังก์ชัน autocovariance ของรุ่นดั้งเดิมที่มีความเรียบเนียนเหมาะสม หากคุณคิดว่าอนุกรมเวลาเป็นการสุ่มตัวอย่างรูปคลื่นทางกายภาพคุณสามารถประเมินได้ว่าจะใช้พลังงานทั้งหมดของคลื่นภายในแต่ละความถี่เท่าใด สเปกตรัมพลังงาน (หรือperiodogram ) แปลงกำลังไฟฟ้ากับความถี่ วงจร (นั่นคือรูปแบบซ้ำหรือตามฤดูกาล) จะปรากฏขึ้นเป็นแหลมขนาดใหญ่ตั้งอยู่ที่ความถี่ของพวกเขา

ยกตัวอย่างเช่นพิจารณาอนุกรมเวลา (จำลอง) ของส่วนที่เหลือจากการวัดรายวันที่ดำเนินการเป็นเวลาหนึ่งปี (ค่า 365)

ชุดของสารตกค้าง

0

นี่คือพล็อตของข้อมูลเดียวกันอีกชุดหนึ่งที่วาดขึ้นมาเพื่อช่วยให้เราเห็นรูปแบบเป็นระยะ

ชุดของสารตกค้างเต็มไปด้วย 0

หากคุณดูยากจริงๆคุณอาจสังเกตเห็นรูปแบบที่มีเสียงดัง แต่ซ้ำ ๆ ที่เกิดขึ้น 11 ถึง 12 ครั้ง ซีเควนซ์ longish ของค่าเหนือศูนย์และต่ำกว่าศูนย์อย่างน้อยแนะนำ autocorrelation บวกแสดงชุดนี้ไม่สุ่มสมบูรณ์

นี่คือ periodogram ที่แสดงสำหรับความถี่สูงถึง 91 (หนึ่งในสี่ของความยาวทั้งหมด) มันถูกสร้างขึ้นด้วยหน้าต่าง Welch และทำให้เป็นมาตรฐานในพื้นที่หน่วย (สำหรับ periodogram ทั้งหมดไม่ใช่เฉพาะส่วนที่แสดงที่นี่)

periodogram

พลังงานดูเหมือน "เสียงสีขาว" (ความผันผวนแบบสุ่มขนาดเล็ก) บวกกับหนามแหลมสองอัน มันยากที่จะพลาดใช่มั้ย ขนาดใหญ่เกิดขึ้นที่ระยะเวลา 12 และขนาดเล็กที่ระยะเวลา 52 วิธีนี้ได้ตรวจพบรอบเดือนและรอบสัปดาห์ในข้อมูลเหล่านี้ นั่นคือทั้งหมดที่มีให้มัน หากต้องการตรวจจับรอบอัตโนมัติ ("ฤดูกาล") เพียงแค่สแกนแผ่นเวลา (ซึ่งเป็นรายการค่า) สำหรับค่าสูงสุดในพื้นที่ที่ค่อนข้างใหญ่

ได้เวลาเปิดเผยวิธีสร้างข้อมูลเหล่านี้

ข้อมูลที่ย่อยสลายเป็นสัญญาณบวกกับเสียงรบกวน

ค่าถูกสร้างขึ้นจากผลรวมของคลื่นไซน์สองอันอันหนึ่งที่มีความถี่ 12 (ของแอมพลิจูดกำลังสอง 3/4) และอีกอันที่มีความถี่ 52 (ของแอมพลิจูดกำลังสอง 1/4) นี่คือสิ่งที่แหลมใน periodogram ตรวจพบ ผลรวมของพวกเขาแสดงเป็นเส้นโค้งสีดำหนา Iid เสียงรบกวนปกติของความแปรปรวน 2 ถูกเพิ่มเข้ามาตามที่แสดงโดยแถบสีเทาอ่อนที่ขยายจากเส้นโค้งสีดำไปยังจุดสีแดง เสียงนี้แนะนำให้ใช้ wiggles ระดับต่ำที่ด้านล่างของ periodogram ซึ่งอาจจะเป็นค่าคงที่ 0 เต็มสองในสามของความแปรปรวนทั้งหมดในค่านั้นไม่เป็นระยะและสุ่มซึ่งมีเสียงดังมาก: นั่นคือเหตุผลที่มัน ยากมากที่จะทำให้เป็นระยะเพียงแค่มองไปที่จุดต่างๆ อย่างไรก็ตาม (ส่วนหนึ่งเป็นเพราะมีข้อมูลมาก) การค้นหาความถี่ด้วย periodogram นั้นง่ายและผลลัพธ์นั้นชัดเจน

คำแนะนำและคำแนะนำที่ดีสำหรับการคำนวณช่วงเวลากราฟปรากฏบนไซต์สูตรตัวเลข : มองหาส่วนที่ "การประมาณสเปกตรัมพลังงานโดยใช้ FFT" Rมีรหัสสำหรับการประมาณ periodogram ภาพประกอบเหล่านี้สร้างขึ้นในMathematica 8; periodogram คำนวณด้วยฟังก์ชัน "ฟูริเยร์"


2
ข้อสมมติฐาน "หลังจากลบแนวโน้มโดยรวม" คือ Achilles Heel เนื่องจากอาจมีหลายครั้งที่เทรนด์หลายระดับเลื่อนทั้งหมดซึ่งไม่รวมอยู่ในตัวอย่างของคุณความคิดที่ว่าซีรีย์อินพุตมีการกำหนดในแมลงวันธรรมชาติเมื่อเผชิญหน้ากับความเป็นไปได้ การปรากฏตัวของโครงสร้าง ARIMA ตามฤดูกาลและปกติ ได้รับการรักษาที่ผิดปกติค่า One-Time จะบิดเบือนโครงการบัตรประจำตัวใด ๆ periodogram ตามเนื่องจากอคติลงไปประมาณการ periodogram ยอมไม่ใช่ significance.If รายสัปดาห์และ / หรือผลกระทบการเปลี่ยนแปลงรายเดือนที่จุดในอดีตที่ผ่านมาบางขั้นตอน periodogram-based จะล้มเหลว
IrishStat

@ ฉันคิดว่าความคิดเห็นของคุณอาจพูดเกินจริงไปบ้าง มันเป็นเรื่องพื้นฐานที่สุดที่จะมองหาและรักษา "ค่าที่ผิดปกติครั้งเดียว" (aka ค่าผิดปกติ) ดังนั้นนี่มีเพียงหมีที่กล่าวถึงการเน้นว่าบางตัวประมาณอนุกรมเวลาอาจมีความอ่อนไหวต่อค่าผิดปกติ "กำหนดขึ้นในธรรมชาติ" แสดงความคิดพื้นฐานผิด ๆ : ไม่มีใครคิดว่ามีระดับ (ดังที่เห็นได้จากเสียงจำนวนมากในการจำลอง) การจำลองรวมสัญญาณระยะแน่นอนเป็นแบบจำลอง -ใกล้เคียงกับความเป็นจริง - เพียงเพื่อแสดงให้เห็นถึงการเชื่อมต่อระหว่าง periodogram และฤดูกาล (ต่อ ... )
whuber

2
ใช่การเปลี่ยนแปลงตามฤดูกาลสามารถปิดบัง periodogram (และ acf เป็นต้น) โดยเฉพาะการเปลี่ยนแปลงความถี่ (ไม่น่าจะเป็น) หรือเฟส (เป็นไปได้) การอ้างอิงในโพสต์ของฉันให้วิธีแก้ปัญหาดังกล่าว: พวกเขาแนะนำให้ใช้หน้าต่างที่กำลังเคลื่อนที่สำหรับการประมาณค่าโมโตแกรม มีศิลปะในเรื่องนี้และเห็นได้ชัดว่ามีข้อผิดพลาดดังนั้นการวิเคราะห์อนุกรมเวลาจะได้รับประโยชน์จากการรักษาโดยผู้เชี่ยวชาญในขณะที่คุณสนับสนุน แต่คำถามถามว่ามี "วิธีการอื่นในการตรวจสอบฤดูกาล" หรือไม่และปฏิเสธไม่ได้ว่า periodogram นั้นเป็นตัวเลือกที่ทรงพลังทางสถิติมีประสิทธิภาพในการคำนวณ
whuber

ในโลกของฉันที่ใช้ไซน์ / โคไซน์เป็น "ผลกระทบที่กำหนดขึ้น" เช่นเดือนของปี การติดตั้งแบบจำลองที่กำหนดไว้ล่วงหน้าใด ๆ จะ จำกัด ค่าการติดตั้งให้อยู่ในรูปแบบที่ผู้ใช้ระบุซึ่งมักจะเป็นมาตรฐานย่อย ข้อมูลควร "รับฟัง" เพื่อช่วยนักวิเคราะห์ / ซอฟต์แวร์คอมพิวเตอร์ขั้นสูงในการแยกแยะระหว่างอินพุตคงที่และสโตแคสติก NB ฉันอ้างถึง ARIMA โครงสร้างล่าช้าในฐานะ "ไดรเวอร์" สุ่มหรือปรับเปลี่ยนตามค่าติดตั้งปรับ / ปรับให้เข้ากับการเปลี่ยนแปลงในประวัติศาสตร์ ของซีรีส์ ในความคิดของฉันการใช้งานของการสร้างแบบจำลองทางสถิติอย่างง่าย oversells "สถิติ"
IrishStat

2
@whuber การทำซ้ำสิ่งเดียวกันอาจไม่มีประโยชน์ อย่างไรก็ตามอาจเป็นการดีที่จะแก้ไขย่อหน้าด้านล่างของ periodogram เพื่อบอกว่าสไปค์ตั้งอยู่ที่ "ความถี่" 12 และ 52 ครั้งต่อปีไม่ใช่ "ระยะเวลา" การแก้ไขพล็อตเกินไปที่จะพูดว่า "ความถี่" แทน "จุด" อาจดีเช่นกันถ้าคุณคิดว่ามันไม่น่ารำคาญเกินไป
Celelibi

19

นี่คือตัวอย่างการใช้ข้อมูลรายเดือนเกี่ยวกับการเรียกร้องการว่างงานจากเมืองในรัฐนิวเจอร์ซีย์ (จาก Stata เพียงเพราะนั่นคือสิ่งที่ฉันวิเคราะห์ข้อมูลเหล่านี้ในตอนแรก) ACF ตามฤดูกาล

ความสูงของเส้นแสดงความสัมพันธ์ระหว่างตัวแปรและความล่าช้าของตัวมันเอง พื้นที่สีเทาให้ความรู้สึกว่าความสัมพันธ์นี้มีนัยสำคัญหรือไม่ (ช่วงนี้เป็นแนวทางเท่านั้นและไม่ใช่วิธีที่เชื่อถือได้ที่สุดในการทดสอบความสำคัญ) หากความสัมพันธ์นี้สูงแสดงว่ามีความสัมพันธ์แบบอนุกรม สังเกต humps ที่เกิดขึ้นในช่วง 12, 24 และ 36 เนื่องจากนี่เป็นข้อมูลรายเดือนสิ่งนี้ชี้ให้เห็นว่าความสัมพันธ์มีความแข็งแกร่งมากขึ้นเมื่อคุณดูช่วงเวลา 1, 2 หรือ 3 ปีก่อน นี่คือหลักฐานของฤดูกาลรายเดือน

คุณสามารถทดสอบความสัมพันธ์เหล่านี้ได้ทางสถิติโดยการถดถอยตัวแปรกับตัวแปรดัมมี่ที่ระบุองค์ประกอบตามฤดูกาล --- ที่นี่, เดือนหุ่น คุณสามารถทดสอบความสำคัญร่วมกันของหุ่นเหล่านั้นเพื่อทดสอบตามฤดูกาล

ขั้นตอนนี้ไม่ถูกต้องเนื่องจากการทดสอบต้องการให้ข้อกำหนดข้อผิดพลาดไม่สัมพันธ์กันอย่างจริงจัง ดังนั้นก่อนการทดสอบหุ่นตามฤดูกาลเหล่านี้เราจำเป็นต้องลบความสัมพันธ์แบบอนุกรมที่เหลืออยู่ (โดยทั่วไปแล้วรวมถึงการล่าช้าของตัวแปร) อาจมีจังหวะหยุดพักและปัญหาอนุกรมเวลาอื่น ๆ ที่คุณต้องแก้ไขให้ถูกต้องเพื่อให้ได้ผลลัพธ์ที่เหมาะสมจากการทดสอบ คุณไม่ได้ถามถึงสิ่งเหล่านั้นดังนั้นฉันจะไม่ลงรายละเอียด (รวมถึงมีคำถาม CV มากมายในหัวข้อเหล่านั้น) (เพื่อป้อนความอยากรู้อยากเห็นของคุณชุดนี้ต้องใช้เดือนหุ่นความล่าช้าของตัวเองเดียวและองค์ประกอบการเปลี่ยนแปลงเพื่อกำจัดความสัมพันธ์แบบอนุกรม)


4

ฤดูกาลและสามารถเปลี่ยนแปลงได้ตลอดเวลาดังนั้นมาตรการสรุปอาจไม่เพียงพอในการตรวจจับโครงสร้าง เราต้องทดสอบความไม่ต่อเนื่องของค่าสัมประสิทธิ์ ARIMA และมักจะเปลี่ยนแปลงใน“ หุ่นจำลองตามฤดูกาล” ตัวอย่างเช่นในช่วง 10 ปีที่ผ่านมาอาจไม่มีผลกระทบในเดือนมิถุนายนสำหรับปีแรก k แต่ปี 10-k สุดท้ายมีหลักฐานของผลมิถุนายน คอมโพสิตเอฟเฟกต์มิถุนายนอาจไม่สำคัญเนื่องจากเอฟเฟกต์ไม่คงที่ตลอดเวลา ในทำนองเดียวกันองค์ประกอบ ARIMA ตามฤดูกาลอาจมีการเปลี่ยนแปลงเช่นกัน ควรใช้ความระมัดระวังเพื่อรวมถึงการเปลี่ยนแปลงระดับท้องถิ่นและหรือแนวโน้มเวลาท้องถิ่นในขณะที่มั่นใจว่าความแปรปรวนของข้อผิดพลาดยังคงอยู่ตลอดเวลา เราไม่ควรประเมินการเปลี่ยนแปลงเช่น GLS / น้ำหนักน้อยที่สุดกำลังสองหรือการแปลงพลังงานเช่นบันทึก / รากที่สองเป็นต้น บนข้อมูลดั้งเดิม แต่เกิดจากข้อผิดพลาดจากแบบจำลองเบื้องต้น สมมติฐานแบบเกาส์ไม่มีอะไรเกี่ยวข้องกับข้อมูลที่สังเกต แต่ทั้งหมดเกี่ยวข้องกับข้อผิดพลาดจากตัวแบบ นี่คือสาเหตุที่ underpinnings ของการทดสอบทางสถิติที่ใช้อัตราส่วนของตัวแปรไคสแควร์ที่ไม่ได้เป็นศูนย์กลางกับตัวแปรไคสแควร์กลาง

หากคุณต้องการโพสต์ชุดตัวอย่างจากโลกของคุณฉันยินดีที่จะให้คุณและรายการการวิเคราะห์อย่างละเอียดที่นำไปสู่การตรวจสอบโครงสร้างตามฤดูกาล


1

คำตอบของ Charlie เป็นสิ่งที่ดีและเป็นจุดเริ่มต้น หากคุณไม่ต้องการใช้กราฟ ACF คุณสามารถสร้างตัวแปรจำลอง k-1 สำหรับช่วงเวลา k ที่มีอยู่ จากนั้นคุณสามารถดูว่าตัวแปรดัมมี่มีความสำคัญในการถดถอยด้วยตัวแปรดัมมี่ (และน่าจะเป็นคำแนวโน้ม)

หากข้อมูลของคุณเป็นรายไตรมาส: dummy Q2 คือ 1 หากนี่คือไตรมาสที่สองหรือ 0 dummy ไตรมาสที่ 3 คือ 1 หากนี่คือไตรมาสที่สามและอีก 0 dummy Q4 คือ 1 หากนี่คือไตรมาสที่สี่และ 0 หมายเหตุไตรมาสที่ 1 คือ กรณีฐาน (ทั้ง 3 ศูนย์หุ่น)

คุณอาจต้องการตรวจสอบ "การแตกสลายอนุกรมเวลา" ใน Minitab - มักเรียกว่า "การสลายตัวแบบคลาสสิก" ในที่สุดคุณอาจต้องการใช้สิ่งที่ทันสมัยกว่านี้ แต่นี่เป็นจุดเริ่มต้นที่เรียบง่าย


0

ฉันต้องการรับข้อเสนอความช่วยเหลือจากผู้ใช้ IrishStat หรือคนอื่น ๆ ในซีรีส์ตัวอย่างในโลกแห่งความจริง ฉันกำลังพยายามจัดทำดัชนีตามฤดูกาลโดยอิงจากราคาล่วงหน้า 5 ปีของน้ำมันดิบ ฉันได้ managaged การผลิตเฉลี่ยที่เรียบง่ายตามฤดูกาลที่สามารถดูได้ที่นี่

อย่างไรก็ตามฉันต้องการสร้างกราฟฤดูกาลใหม่ทุกปี (ฉันเดาว่าการกลิ้งหมายถึงจุดเริ่มต้นและจุดจบสำหรับปีนั้นมีค่าเท่ากัน) และอยู่ในระดับศูนย์ถึง 100 ตามที่แสดงในภาพตะโกน: ป้อนคำอธิบายรูปภาพที่นี่

มีข้อมูลระดับราคา 15 วันในสเปรดชีตซึ่งสามารถดาวน์โหลดได้ ตัวอย่างหรือคำใบ้ใด ๆ เกี่ยวกับวิธีการบรรลุเป้าหมายข้างต้นจะได้รับการชื่นชมอย่างมาก


-1

ฉันเป็นคนใหม่สำหรับตัวฉันเอง แต่ความเข้าใจของฉันเกี่ยวกับฟังก์ชั่น ACF คือถ้าเส้นแนวตั้งอยู่เหนือเส้นประด้านบนหรือด้านล่างของเส้นประด้านล่างจะมีการตอบกลับอัตโนมัติบางส่วน


การติดตั้งไซน์ / โคไซน์ ฯลฯ อาจมีประโยชน์สำหรับอนุกรมเวลาแบบกายภาพ / ไฟฟ้า แต่คุณต้องระวัง MSB แบบจำลองข้อมูลจำเพาะ
IrishStat

1
Autoregression ไม่ได้บ่งบอกถึงฤดูกาล
Jens
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.