วิธีการทดสอบความสัมพันธ์ของข้อมูลส่วนบุคคลอัตโนมัติได้อย่างไร


23

ฉันมีเมทริกซ์ที่มีสองคอลัมน์ที่มีราคามากมาย (750) ในภาพด้านล่างผมพล็อตส่วนที่เหลือของการถดถอยเชิงเส้นดังนี้

lm(prices[,1] ~ prices[,2])

ดูภาพดูเหมือนว่าจะเป็นระบบอัตโนมัติที่สัมพันธ์กันอย่างมากกับส่วนที่เหลือ

อย่างไรก็ตามฉันจะทดสอบได้อย่างไรว่าค่าความสัมพันธ์แบบอัตโนมัติของสารตกค้างเหล่านั้นมีความแข็งแรงหรือไม่? ฉันควรใช้วิธีใด

เศษซากของการถดถอยเชิงเส้น

ขอขอบคุณ!


8
คุณไม่จำเป็นต้องทดสอบความสัมพันธ์ด้วยตนเอง มันอยู่ที่นั่น. เนื้อเรื่องแสดงให้เห็นว่า คุณสามารถดูฟังก์ชั่นออโตคอร์เรชันของส่วนที่เหลือเหล่านี้ (ฟังก์ชั่นacf()) แต่สิ่งนี้จะยืนยันสิ่งที่มองเห็นได้ด้วยตาเปล่าความสัมพันธ์ระหว่างส่วนที่เหลือล้าหลังนั้นสูงมาก
Wolfgang

@ Wolfgang ใช่ถูกต้อง แต่ฉันต้องตรวจสอบโปรแกรม .. ฉันจะดูที่ฟังก์ชั่น acf ขอบคุณ!
Dail

@ Wolfgang ฉันเห็น acf () แต่ฉันไม่เห็น p-value ที่จะเข้าใจว่ามีความสัมพันธ์ที่ดีหรือไม่ จะตีความผลลัพธ์อย่างไร ขอบคุณ
Dail

ด้วย H0: correlation (r) = 0 ดังนั้น r ตามปกติ / t dist ด้วยค่าเฉลี่ย 0 และความแปรปรวนของ sqrt (จำนวนการสังเกต) ดังนั้นคุณจะได้รับช่วงความมั่นใจ 95% โดยใช้ +/-qt(0.75, numberofobs)/sqrt(numberofobs)
Jim

@Jim ความแปรปรวนของสหสัมพันธ์ไม่ได้เป็น . หรือค่าเบี่ยงเบนมาตรฐานคือn . แต่มันมีnอยู่ในนั้น nn
Glen_b -Reinstate Monica

คำตอบ:


17

อาจมีหลายวิธีในการทำเช่นนี้ แต่วิธีแรกที่อยู่ในใจขึ้นอยู่กับการถดถอยเชิงเส้น คุณสามารถถอยหลังส่วนที่เหลือตามลำดับต่อกันและทดสอบความชันที่สำคัญ หากมีความสัมพันธ์อัตโนมัติควรมีความสัมพันธ์เชิงเส้นระหว่างส่วนที่เหลือติดต่อกัน ในการเขียนโค้ดให้เสร็จคุณสามารถทำได้:

mod = lm(prices[,1] ~ prices[,2])
res = mod$res 
n = length(res) 
mod2 = lm(res[-n] ~ res[-1]) 
summary(mod2)

mod2 เป็นเส้นถดถอยของเวลาผิดพลาดε เสื้อกับเวลาที- 1ข้อผิดพลาดε T - 1 ถ้าสัมประสิทธิ์สำหรับ res [-1] มีความสำคัญคุณจะมีหลักฐานของความสัมพันธ์อัตโนมัติในส่วนที่เหลือtεtt1εt1

หมายเหตุ:นี้โดยปริยายสันนิษฐานว่าเหลือที่มีอัตในแง่ที่ว่าเพียงเป็นสิ่งสำคัญเมื่อทำนายε T ในความเป็นจริงอาจมีการพึ่งพาระยะยาว ในกรณีที่ว่าวิธีการนี้ผมได้อธิบายควรจะตีความว่าเป็นที่ล่าช้าประมาณหนึ่งอัตโครงสร้างอัตจริงในεεt1εtε


ขอบคุณมากสำหรับตัวอย่าง ข้อสงสัยเพียงข้อเดียวเท่านั้นฉันจะทดสอบได้อย่างไรว่า res [-1] มีความสำคัญ?
Dail

คุณต้องการทดสอบแบบเดียวกับที่คุณจะใด ๆ ค่าสัมประสิทธิ์การถดถอยอื่น ๆ - ดูที่ -statistic และพี -valuetp
มาโคร

ทำแบบทดสอบอย่างรวดเร็วด้วย: lm (rnorm (1000) ~ jitter (1: 1,000)) ฉันได้รับ: ข้อผิดพลาดมาตรฐานที่เหลือ: 1.006 ที่ 997 องศาอิสระหลาย R-squared: 0.0003463, ปรับ R-squared: -0.0006564 F-statistic : 0.3454 ในวันที่ 1 และ 997 DF ค่า p: 0.5569 ค่า p ไม่สามารถปฏิเสธสมมติฐานว่าง
Dail

มาโครฉันได้ทดสอบส่วนที่เหลือของแผนภูมิที่ฉันวางแผนไว้ด้านบนและผลลัพธ์คือ: ข้อผิดพลาดมาตรฐานส่วนที่เหลือ: 0.04514 กับ 747 องศาอิสระหลาย R-squared: 0.9241, R-squared ที่ปรับแล้ว: 0.924 F-statistic: 9093 บน 1 และ 747 DF, ค่า p: <2.2e-16, มันดูไม่ดีมาก, มันแปลกมากเพราะมีความสัมพันธ์อัตโนมัติที่แข็งแกร่งฉันควรทำอย่างไร
Dail

3
สิ่งนี้เรียกว่าการทดสอบ Breusch-Godfrey สำหรับความสัมพันธ์อัตโนมัติ
Charlie

16

ใช้การทดสอบ Durbin-Watsonนำไปใช้ในแพ็คเกจlmtest

dwtest(prices[,1] ~ prices[,2])

ฉันแปลกมากที่ได้รับ: p-value <2.2e-16, เป็นไปได้อย่างไร? ข้อมูลดูเหมือนว่ามีความสัมพันธ์กันมาก!
Dail

4
ค่า p เป็นค่าคงที่ที่จะมีความสัมพันธ์มากที่สุดเท่าที่สังเกตได้หากไม่มีความสัมพันธ์จริง ดังนั้นถ้า p มีขนาดเล็กมากอย่างที่เป็นอยู่มันบอกว่ามีความสัมพันธ์มากมายในตัวอย่าง
Rob Hyndman

คุณหมายถึงค่า p เช่นนี้แสดงว่าส่วนที่เหลือมีความสัมพันธ์โดยอัตโนมัติหรือไม่?
Dail

อืมแปลก ๆ ลองดูที่: imageshack.us/f/59/17671620.pngเป็นไปได้อย่างไรที่ภาพที่ถูกต้องไม่เกี่ยวข้องกันโดยอัตโนมัติ?
Dail

: dail มันจะปรากฏว่าภาพด้านซ้ายมีการเปลี่ยนแปลงโครงสร้างในความแปรปรวน (ดูบทความของ Ruey Tsay "Outliers, Level Shifts และการเปลี่ยนแปลงความแปรปรวนในอนุกรมเวลา", วารสารการพยากรณ์, VOl 7, 1-20 (1988) สำหรับรายละเอียด) ซึ่งในกรณีนี้ไม่ได้ "สับสน" DW อาจเนื่องจากความจริงการกระจายทั้งหมดยังคงเป็นปกติในขณะที่ภาพด้านขวามีความผิดปกติบางอย่างที่เห็นได้ชัด (และประจักษ์ชัดเจน) ความผิดปกติ (กะพริบ) สร้างที่ไม่ปกติ (leptokurtotic ดู wikopedia กับ kurtosis ส่วนเกินที่เป็นบวกเรียกว่าการกระจายโรคเลปโตคูเทอริก) ซึ่งทำให้เกิดความเสียหายกับ DW
IrishStat

11

การทดสอบ DW หรือการทดสอบการถดถอยเชิงเส้นนั้นไม่ได้ทนทานต่อความผิดปกติของข้อมูล หากคุณมีพัลส์, พัลส์ตามฤดูกาล, การเลื่อนระดับหรือแนวโน้มเวลาท้องถิ่นการทดสอบเหล่านี้จะไร้ประโยชน์เนื่องจากส่วนประกอบที่ไม่ได้รับการรักษาเหล่านี้จะขยายความแปรปรวนของข้อผิดพลาดทำให้การให้น้ำหนักการทดสอบต่ำลง อัตโนมัติสัมพันธ์ ก่อนการทดสอบทั้งสองครั้งนี้หรือการทดสอบพาราเมตริกอื่น ๆ ที่ฉันรู้ว่าสามารถใช้ได้ต้อง "พิสูจน์" ว่าค่าเฉลี่ยของค่าคงที่ไม่แตกต่างอย่างมีนัยสำคัญทางสถิติจาก 0.0 ทุกที่ไม่เช่นนั้นสมมติฐานพื้นฐานจะไม่ถูกต้อง เป็นที่ทราบกันดีว่าหนึ่งในข้อ จำกัด ของการทดสอบ DW คือการสันนิษฐานว่าข้อผิดพลาดในการถดถอยนั้นมักจะกระจายออกไป หมายเหตุการกระจายปกติหมายถึงสิ่งอื่น ๆ : ไม่มีความผิดปกติ (ดูhttp://homepage.newschool.edu/~canjels/permdw12.pdf ) นอกจากนี้การทดสอบ DW จะทดสอบเฉพาะสำหรับความสัมพันธ์อัตโนมัติของความล่าช้า 1 ข้อมูลของคุณอาจมีผลกระทบรายสัปดาห์ / ตามฤดูกาลซึ่งจะเป็นการยกเลิกการวินิจฉัยและยิ่งกว่านั้นไม่ได้รับการรักษาจะทำให้การทดสอบ DW ต่ำลง


การทดสอบเพื่อทดสอบว่าส่วนที่เหลือแตกต่างจากศูนย์อย่างมีนัยสำคัญอย่างไร หากการถดถอยรวมถึงการสกัดกั้นค่าเฉลี่ยที่เหลือคือพีชคณิตเป็นศูนย์ดังนั้นฉันอยากรู้ว่าจะหลีกเลี่ยงปัญหานี้ได้อย่างไร
mpiktas

: mpkitas ดังที่คุณกล่าวเมื่อคุณรวมค่าคงที่ค่าเฉลี่ยของข้อผิดพลาดจะรับประกันได้ว่าเป็น 0.0 แต่ไม่รับประกันว่าค่าเฉลี่ยของข้อผิดพลาดจะเป็นศูนย์ทุกที่ ตัวอย่างเช่นหากซีรีส์มีการเปลี่ยนแปลงในค่าเฉลี่ยค่าเฉลี่ยโดยรวมจะเป็นค่าคงที่ แต่จะให้ผลตอบแทน tw0 "กลุ่ม" ของส่วนที่เหลือแต่ละคนมีค่าเฉลี่ยที่แตกต่างกัน คุณสามารถติดตามบทความของ Ruey Tsay "ผู้เปลี่ยนระดับการเปลี่ยนแปลงและการเปลี่ยนแปลงผลต่างในอนุกรมเวลา", วารสารการพยากรณ์ VOL 7, 1-20 (1988) สำหรับรายละเอียด หรือFaculty.chicagobooth.edu/ruey.tsay/teaching/uts/lec10-08.pdfหรือ Google "การตรวจจับการแทรกแซงอัตโนมัติ"
IrishStat

1
นี่เป็นเพียงสมมติฐาน "ไม่มีตัวแปรที่ละเว้น" ซึ่งเป็นมาตรฐานในการวิเคราะห์การถดถอยทั้งหมด
Charlie
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.