สถิติ Ljung-Box สำหรับ ARIMA ที่เหลือใน R: ผลการทดสอบที่สับสน


15

ฉันมีอนุกรมเวลาที่ฉันพยายามคาดการณ์ซึ่งฉันใช้ ARIMA ตามฤดูกาล (0,0,0) (0,1,0) [12] โมเดล (= fit2) มันแตกต่างจากสิ่งที่ R แนะนำกับ auto.arima (R คำนวณ ARIMA (0,1,1) (0,1,0) [12] น่าจะเหมาะกว่าฉันตั้งชื่อมันว่า fit1) อย่างไรก็ตามในช่วง 12 เดือนสุดท้ายของซีรีส์เวลาของฉันโมเดลของฉัน (พอดี 2) ดูเหมือนจะดีกว่าเมื่อปรับแล้ว (มันมีอคติเรื้อรังฉันได้เพิ่มค่าเฉลี่ยที่เหลือ นี่คือตัวอย่างของ 12 เดือนล่าสุดและ MAPE สำหรับ 12 เดือนล่าสุดสำหรับทั้งสองพอดี:

fit1, fit2 และข้อมูลดั้งเดิม

อนุกรมเวลามีลักษณะดังนี้:

อนุกรมเวลาเดิม

จนถึงตอนนี้ดีมาก ฉันทำการวิเคราะห์ที่เหลือสำหรับทั้งสองรุ่นและนี่คือความสับสน

acf (ส่วนที่เหลือ (พอดี 1)) ดูดีมากเสียงดังมาก:

acf ของ fit1

อย่างไรก็ตามการทดสอบ Ljung-Box นั้นดูไม่ดีเช่น 20 lags:

    Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1)

ฉันได้รับผลลัพธ์ต่อไปนี้:

    X-squared = 26.8511, df = 19, p-value = 0.1082

เพื่อความเข้าใจของฉันนี่คือการยืนยันว่าส่วนที่เหลือไม่ได้เป็นอิสระ (ค่า p มีขนาดใหญ่เกินไปที่จะอยู่กับสมมติฐานความเป็นอิสระ)

อย่างไรก็ตามสำหรับความล่าช้า 1 ทุกอย่างยอดเยี่ยม:

    Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1)

ให้ผลลัพธ์:

    X-squared = 0.3512, df = 0, p-value < 2.2e-16

ไม่ว่าฉันจะไม่เข้าใจการทดสอบหรือมันขัดแย้งกับสิ่งที่ฉันเห็นในพล็อต acf เล็กน้อย ความสัมพันธ์อัตโนมัติต่ำอย่างน่าหัวเราะ

จากนั้นฉันตรวจสอบพอดี 2 ฟังก์ชันความสัมพันธ์อัตโนมัติมีลักษณะเช่นนี้:

acf fit2

แม้จะมีความสัมพันธ์อัตโนมัติที่ชัดเจนในการล่าช้าครั้งแรกหลายครั้ง แต่การทดสอบ Ljung-Box นั้นให้ผลลัพธ์ที่ดีกว่าที่ 20 lags มากกว่า fit1:

    Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0)

ผลลัพธ์ใน:

    X-squared = 147.4062, df = 20, p-value < 2.2e-16

ในขณะที่เพียงแค่ตรวจสอบความสัมพันธ์อัตโนมัติที่ lag1 ก็ให้การยืนยันสมมติฐานว่าง!

    Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0)
    X-squared = 30.8958, df = 1, p-value = 2.723e-08 

ฉันเข้าใจการทดสอบอย่างถูกต้องหรือไม่ ค่า p ควรน้อยกว่า 0.05 เพื่อยืนยันสมมติฐานว่างของความเป็นอิสระ พอดีแบบไหนดีกว่าที่จะใช้สำหรับการพยากรณ์ fit1 หรือ fit2

ข้อมูลเพิ่มเติม: ส่วนที่เหลือของ fit1 แสดงการแจกแจงแบบปกติส่วนผู้ที่ fit2 ไม่แสดง


2
คุณไม่เข้าใจค่า p และแปลความหมายผิดไป
Scortchi - Reinstate Monica

ใช่มันอาจเป็นคำถามของความเข้าใจ คุณช่วยขยายได้ไหม ตัวอย่างเช่นถ้า p-value มากกว่า 0.5 หมายความว่าอย่างไร ฉันได้อ่านคำจำกัดความของ p-value (ความน่าจะเป็นในการได้มาซึ่งสถิติอย่างน้อยที่สุดเท่าที่สถิติการทดสอบระบุว่าสมมติฐานว่างถือเป็นโมฆะ) มันใช้กับการทดสอบ Ljung-Box ได้อย่างไร "อย่างน้อยสุดขั้ว" หมายความว่า "ใหญ่กว่า X กำลังสอง" หรือไม่ ฉันขอขอบคุณตัวอย่างจากข้อมูลของฉันเนื่องจากการทดสอบที่สำคัญได้ท้าทายให้ฉันเข้าใจ
zima

6
สถิติการทดสอบ Ljung-Box X-squaredมีขนาดใหญ่ขึ้นเมื่อกลุ่มตัวอย่างอัตโนมัติสัมพันธ์กันของส่วนที่เหลือมีขนาดใหญ่ขึ้น (ดูคำจำกัดความ) และ p-value ของมันคือความน่าจะเป็นที่จะได้ค่าตามที่ใหญ่กว่าหรือใหญ่กว่าค่าที่สังเกตได้ สมมติฐานที่ว่านวัตกรรมที่แท้จริงนั้นเป็นอิสระ ดังนั้น p-value ขนาดเล็กจึงเป็นหลักฐานว่าต่อต้านความเป็นอิสระ
Scortchi - Reinstate Monica

@Scortchi ฉันคิดว่าฉันได้รับมัน แต่นั่นก็ทำให้การทดสอบของฉันที่ lag = 1 สำหรับ fit1 ล้มเหลว สิ่งนี้จะอธิบายได้อย่างไร? ฉันไม่เห็นความสัมพันธ์อัตโนมัติที่ lag = 1 มีการทดสอบแบบสุดขั้วกับความล่าช้าจำนวนเล็กน้อย (ตัวอย่างน้อยมาก) หรือไม่?
zima

3
Box-Ljung เป็นการทดสอบความเป็นอิสระของรถโดยสารทุกช่วงเวลาจนถึงระดับที่คุณระบุ องศาอิสระที่ใช้คือหมายเลข ล่าช้าลบเลข พารามิเตอร์ AR & MA ( fitdf) ดังนั้นคุณทดสอบกับการแจกแจงแบบไคสแควร์ที่มีองศาอิสระ
Scortchi - Reinstate Monica

คำตอบ:


34

คุณตีความการทดสอบผิด หากค่า p มากกว่า 0.05 ดังนั้นค่าคงที่จะเป็นอิสระซึ่งเราต้องการให้แบบจำลองนั้นถูกต้อง หากคุณจำลองอนุกรมเวลาสัญญาณรบกวนสีขาวโดยใช้รหัสด้านล่างและใช้การทดสอบเดียวกันสำหรับมันค่า p จะมากกว่า 0.05

m = c(ar, ma)
w = arima.sim(m, 120)
w = ts(w)
plot(w)
Box.test(w, type="Ljung-Box")

3
คำอธิบายสั้น ๆ และเรียบร้อย +1 สำหรับตัวอย่างรหัส
Dawny33

1
การตีความของคุณไม่ถูกต้องเช่นกัน p-value 0.05 หมายความว่าคุณมีโอกาส 5% ที่จะทำผิดพลาดหากคุณปฏิเสธสมมติฐานว่างที่ไม่มีความสัมพันธ์อัตโนมัติจนกระทั่งลำดับ 1 ในกรณีของคุณ
DJJ

8

การทดสอบทางสถิติจำนวนมากใช้เพื่อพยายามปฏิเสธสมมติฐานว่าง ในกรณีนี้การทดสอบ Ljung-Box พยายามปฏิเสธความเป็นอิสระของค่าบางอย่าง มันหมายความว่าอะไร?

  • ถ้าp-value <0.05 1 : คุณสามารถปฏิเสธสมมติฐานว่างได้โดยสมมติว่ามีโอกาส 5% ที่จะทำผิดพลาด ดังนั้นคุณสามารถสันนิษฐานได้ว่าคุณค่าของคุณแสดงการพึ่งพาซึ่งกันและกัน

  • หากค่า p> 0.05 1 : คุณไม่มีหลักฐานทางสถิติเพียงพอที่จะปฏิเสธสมมติฐานว่าง ดังนั้นคุณไม่สามารถคิดได้ว่าคุณค่าของคุณขึ้นอยู่กับ นี่อาจหมายความว่าค่าของคุณขึ้นอยู่กับหรืออย่างไรก็ตามอาจหมายความว่าค่าของคุณเป็นอิสระ แต่คุณไม่ได้พิสูจน์ความเป็นไปได้ใด ๆ สิ่งที่การทดสอบของคุณพูดจริง ๆ คือคุณไม่สามารถยืนยันการพึ่งพาค่านิยมได้และคุณไม่สามารถยืนยันความเป็นอิสระของค่านิยมนั้นได้

โดยทั่วไปสิ่งสำคัญคือต้องทราบว่า p-value <0.05 ช่วยให้คุณสามารถปฏิเสธสมมติฐานว่างได้ แต่ p-value> 0.05 ไม่อนุญาตให้คุณยืนยันสมมติฐานว่าง

โดยเฉพาะอย่างยิ่งคุณไม่สามารถพิสูจน์ความเป็นอิสระของค่าของอนุกรมเวลาโดยใช้การทดสอบ Ljung-Box คุณสามารถพิสูจน์การพึ่งพา


α=0.05


α=0.05

0

จากกราฟของ ACF เห็นได้ชัดว่าพอดี 1 ดีกว่าเนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์ที่ lag k (k> 1) ลดลงอย่างรวดเร็วและใกล้ถึง 0


0

หากคุณกำลังตัดสินด้วย ACF ข้อ 1 จะเหมาะสมกว่า แทนที่จะสับสนกับการทดสอบ Ljung คุณยังสามารถใช้ correlogram ของส่วนที่เหลือเพื่อยืนยันความพอดีระหว่าง fit1 และ fit2


1
ฉันไม่เข้าใจคำตอบนี้
Michael R. Chernick

เมื่อเราไปที่สถิติกล่อง Ljung เราอาจสนใจในการตรวจสอบวินิจฉัยแบบจำลองเช่นความเพียงพอของแบบจำลอง ..... ถ้าใช้ที่ทำให้คุณสับสนมีวิธีอื่นในการตรวจสอบความเพียงพอของแบบจำลองที่ฉันได้กล่าวไว้ข้างต้น คุณสามารถพล็อต correlogram Ie, ACF และ PACF ของข้อมูลที่เหลือและตรวจสอบขอบเขตของซีรีส์ถ้าเป็นเสียงสีขาว ...... ไม่ต้องใช้การทดสอบกล่อง Ljung
Vincent
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.