การเปรียบเทียบชุดอนุกรมเวลา


10

ฉันมีข้อมูลอนุกรมเวลาสามชุดที่ฉันต้องการเปรียบเทียบ พวกเขาถูกถ่าย 3 ช่วงเวลาแยกกันประมาณ 12 วัน เป็นค่าเฉลี่ยหัวสูงสุดและต่ำสุดของการนับหัวในห้องสมุดวิทยาลัยในช่วงสัปดาห์สุดท้าย ฉันต้องทำค่าเฉลี่ยสูงสุดและต่ำสุดเนื่องจากจำนวนหัวต่อชั่วโมงนั้นไม่ต่อเนื่อง (ดูช่องว่างข้อมูลปกติในอนุกรมเวลา )

ตอนนี้ชุดข้อมูลมีลักษณะเช่นนี้ มีจุดข้อมูลหนึ่งจุด (เฉลี่ยสูงสุดหรือต่ำสุด) ต่อเย็นเป็นเวลา 12 ค่ำ มีข้อมูล 3 ภาคการศึกษาดำเนินการเฉพาะในช่วงเวลา 12 วันของความกังวล ตัวอย่างเช่น Spring 2010, Fall 2010 และ May 2011 แต่ละชุดมี 12 คะแนน นี่คือแผนภูมิตัวอย่าง:

ป้อนคำอธิบายรูปภาพที่นี่

ฉันได้เทอมเทเลเทอร์เพราะฉันต้องการที่จะดูว่ารูปแบบการเปลี่ยนแปลงจากภาคการศึกษาเพื่อภาคการศึกษา อย่างไรก็ตามตามที่ฉันได้รับแจ้งในเธรดที่เชื่อมโยงคุณไม่ควรตบท้ายเทอมหางเนื่องจากไม่มีข้อมูลในระหว่างนั้น

คำถามคือแล้ว: ฉันสามารถใช้เทคนิคทางคณิตศาสตร์อะไรเพื่อเปรียบเทียบรูปแบบการเข้าเรียนสำหรับแต่ละภาคการศึกษา มีสิ่งใดเป็นพิเศษสำหรับซีรี่ส์เวลาที่ฉันต้องทำหรือฉันจะรับความแตกต่างของเปอร์เซ็นต์ได้หรือไม่? เป้าหมายของฉันคือบอกว่าการใช้ห้องสมุดในช่วงนี้กำลังจะขึ้นหรือลง ฉันไม่แน่ใจว่าฉันควรใช้เทคนิคใดในการแสดง

คำตอบ:


8

ผลกระทบคงที่ ANOVA (หรือการถดถอยเชิงเส้นเทียบเท่า) ให้วิธีการที่มีประสิทธิภาพในการวิเคราะห์ข้อมูลเหล่านี้ เพื่อแสดงให้เห็นว่านี่คือชุดข้อมูลที่สอดคล้องกับพล็อตของค่าเฉลี่ย HC ต่อเย็น (หนึ่งพล็อตต่อสี):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

ANOVA ของcountต่อต้านdayและcolorสร้างตารางนี้:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

ค่าmodelp-0.0000 แสดงให้เห็นว่ามีความสำคัญอย่างยิ่ง ค่าdayp ของ 0.0000 ก็มีความสำคัญสูงเช่นกัน: คุณสามารถตรวจจับการเปลี่ยนแปลงแบบวันต่อวัน อย่างไรก็ตามcolorค่า p (ภาคการศึกษา) ที่ 0.2001 ไม่ควรได้รับการพิจารณาอย่างมีนัยสำคัญ: คุณไม่สามารถตรวจพบความแตกต่างอย่างเป็นระบบในสามภาคเรียนแม้ว่าจะควบคุมการเปลี่ยนแปลงในแต่ละวัน

การทดสอบ HSD ของ Tukey ("ความแตกต่างอย่างมีนัยสำคัญทางความซื่อสัตย์") ระบุการเปลี่ยนแปลงที่สำคัญ (ดังต่อไปนี้) ในรูปแบบรายวัน (ไม่คำนึงถึงภาคการศึกษา) ที่ระดับ 0.05:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

เป็นการยืนยันสิ่งที่ตาสามารถมองเห็นได้ในกราฟ

เนื่องจากกราฟกระโดดไปรอบ ๆ เล็กน้อยจึงไม่มีวิธีตรวจสอบความสัมพันธ์แบบวันต่อวัน (ความสัมพันธ์แบบอนุกรม) ซึ่งเป็นการวิเคราะห์อนุกรมเวลาทั้งหมด กล่าวอีกนัยหนึ่งไม่ต้องกังวลกับเทคนิคอนุกรมเวลา: มีข้อมูลไม่เพียงพอที่พวกเขาจะให้ข้อมูลเชิงลึกมากขึ้น

เราควรสงสัยว่าจะเชื่อผลการวิเคราะห์ทางสถิติได้อย่างไร การวินิจฉัยที่หลากหลายสำหรับความแตกต่างที่มีความสำคัญ (เช่นการทดสอบ Breusch-Pagan ) ไม่แสดงอะไรที่ไม่ดี ส่วนที่เหลือดูไม่ปกติมากนัก - พวกมันจับกันเป็นกลุ่มบางกลุ่มดังนั้นค่า p ทั้งหมดต้องถูกนำไปด้วยเม็ดเกลือ อย่างไรก็ตามพวกเขาดูเหมือนจะให้คำแนะนำที่สมเหตุสมผลและช่วยให้ปริมาณความรู้สึกของข้อมูลที่เราได้รับจากการดูกราฟ

คุณสามารถทำการวิเคราะห์แบบขนานบน minima รายวันหรือ maxima รายวัน ตรวจสอบให้แน่ใจว่าเริ่มต้นด้วยพล็อตที่คล้ายกันเป็นแนวทางและตรวจสอบผลลัพธ์ทางสถิติ


+1 สำหรับการสาธิตเทคนิคที่เรียบง่าย แต่ทรงพลัง ฉันอยากรู้มากที่สุดแม้ว่าคุณจะจัดการดึงค่าจากกราฟได้อย่างไร ซอฟต์แวร์บางตัวหรือลงโทษนักเรียนที่ประพฤติตัวไม่ดี? :)
mpiktas

1
@mp ฉันแปลงคะแนนเป็นภาพดิจิทัลที่ด้านบนของสกรีนช็อตของภาพแล้วแยกพิกัดด้วยซอฟต์แวร์ GIS เปลี่ยนพิกัดด้วยสเปรดชีตแล้วนำเข้ามาในแพ็คเกจสถิติ ใช้เวลาเพียงไม่กี่นาที วิธีนี้มีประโยชน์เมื่อข้อมูลเดียวที่คุณมีอยู่ในรูปแบบของแผนภูมิหรือแผนที่
whuber

@whuber นั่นเจ๋ง! ฉันไม่รู้เรื่องนี้
suncoolsu

@whuber ฉันสงสัยว่าผลกระทบของการมีการอ่านอัตโนมัติ 12 ชุดมีความสัมพันธ์กัน 12 ชุดเปรียบเทียบกับการสังเกตการณ์อิสระ 36 ข้อ ฉันคิดว่าเราไม่มีอิสระ 35 องศาในการแยกออก ความน่าจะเป็นที่คุณไตร่ตรองนั้นขึ้นอยู่กับอัตราส่วนของตัวแปรไคสแควร์ที่ไม่ได้อยู่ตรงกลางกับตัวแปรไคสแควร์กลาง มีบางอย่างที่ฉันขาดหายไปที่นี่หรือไม่? เป็นงานที่ดีที่จะดึงตัวเลขออกมาจากโครงเรื่อง มีโปรแกรมเฉพาะที่คุณสามารถอ้างอิงเพื่อช่วยเหลือเราในเรื่องนี้ได้หรือไม่
IrishStat

1
xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0

0

ซาร่าห์นำตัวเลข 36 ของคุณ (12 ค่าต่อรอบ 3 รอบ) และสร้างแบบจำลองการถดถอยพร้อมด้วยตัวชี้วัด 11 ตัวที่สะท้อนถึงผลกระทบของสัปดาห์ต่อภาคเรียนที่เป็นไปได้จากนั้นระบุชุดการแทรกแซงที่จำเป็น (พัลส์ ค่าเฉลี่ยของค่าคงที่ที่จะเป็น 0.0 ทุกแห่งหรืออย่างน้อยก็ไม่แตกต่างกันอย่างมีนัยสำคัญทางสถิติจาก 0.0 ตัวอย่างเช่นหากคุณระบุการเลื่อนระดับ ณ ช่วงเวลาที่ 13 นี่อาจเป็นข้อเสนอแนะที่แตกต่างอย่างมีนัยสำคัญทางสถิติระหว่างค่าเฉลี่ยของภาคการศึกษาแรกคือค่า 12 ค่าแรกเทียบกับค่าเฉลี่ยของสองภาคการศึกษาล่าสุด (24 ค่าล่าสุด) คุณอาจจะสามารถอนุมานหรือทดสอบสมมติฐานที่ไม่มีผลกระทบของภาคเรียน แพ็คเกจอนุกรมเวลาที่ดีอาจเป็นประโยชน์กับคุณในเรื่องนี้ ความล้มเหลวที่คุณอาจต้องพบใครสักคนที่จะให้ความช่วยเหลือในเวทีการวิเคราะห์นี้


1
ฟังดูเหมือนคำอธิบาย ANOVA แบบสองทาง (วันต่อรอบ) ตามด้วยการทดสอบที่วางแผนไว้ 11 คู่ต่อวัน ซอฟต์แวร์สถิติเก่าธรรมดาน่าจะมีความยืดหยุ่นและมีประสิทธิภาพในการใช้งานมากกว่าซอฟต์แวร์อนุกรมเวลาแบบพิเศษ มันจะง่ายขึ้นอย่างแน่นอน BTW ดัชนีเป็นวัน (เข้าสู่ช่วงสอบ) ไม่ใช่สัปดาห์ของภาคการศึกษา
whuber

ฉันสามารถใช้ ANOVA เพื่อเปรียบเทียบค่าสูงสุดและต่ำสุดต่อวันได้หรือไม่ หรือสิ่งนี้ใช้กับวิธีการเท่านั้น?
induvidyul

@Sarah มันอาจจะใช้ได้กับ minima และ maxima อย่างไรก็ตามสถิติเหล่านั้นมีแนวโน้มที่จะแปรผันมากกว่าค่าเฉลี่ยดังนั้นจึงมีโอกาสน้อยกว่าที่คุณจะสามารถตรวจพบการเปลี่ยนแปลงเหล่านั้นในช่วงเวลาหรือระหว่างเทอม กราฟของคุณทำให้ชัดเจนว่าค่าเฉลี่ยนั้นแตกต่างกันอย่างมาก หากทำได้ให้ทำการวิเคราะห์ความแปรปรวนสามทางด้วยการรวมชั่วโมงของวันและใช้การนับรายชั่วโมงดั้งเดิมแทนการใช้รายวัน
whuber

@ โฮเบอร์: ฉันได้รับแจ้งว่าการรวมข้อมูลเข้าด้วยกันเป็นรายชั่วโมงนั้นไม่สามารถใช้งานได้เนื่องจากมีการบันทึกเฉพาะเวลา 12.00 น. ถึง 6.00 น. ดูคำถามของฉันก่อนหน้านี้ปกติช่องว่างในชุดข้อมูลเวลา
induvidyul

@ ซาร่าห์ฉันกำลังพูดถึงสิ่งที่แตกต่าง: แบบจำลองการพึ่งพาในแง่ของสามปัจจัย: ระยะเวลา (3 ของพวกเขา) วันในช่วงเวลา (12 ของพวกเขา) และชั่วโมงของวัน (6 ของพวกเขา) คุณสามารถอธิบายความสัมพันธ์ระหว่างชั่วโมง แต่นั่นอาจไม่จำเป็นสำหรับวัตถุประสงค์ของคุณ ไม่ว่าฉันจะไม่สนับสนุนให้ดูแต่ละช่วงเวลาเป็นซีรีส์ที่ขัดจังหวะด้วยจำนวน 12 * 24 จำนวน: มีข้อมูลที่ขาดหายไปมากเกินไป
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.