วิธีการใช้เพียร์สันสหสัมพันธ์อย่างถูกต้องกับอนุกรมเวลา


47

ฉันมี 2 ซีรีย์ (ราบรื่นทั้งคู่) ที่ฉันอยากจะครอสสัมพันธ์เพื่อดูว่าพวกมันมีความสัมพันธ์กันอย่างไร

ฉันตั้งใจจะใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน สิ่งนี้เหมาะสมหรือไม่

คำถามที่สองของฉันคือฉันสามารถเลือกตัวอย่าง 2 ซีรี่ส์ได้ตามต้องการ เช่นฉันสามารถเลือกจำนวนข้อมูลที่ฉันต้องการเรา สิ่งนี้จะส่งผลต่อสัมประสิทธิ์สหสัมพันธ์ที่ส่งออกหรือไม่ ฉันจำเป็นต้องพิจารณาเรื่องนี้หรือไม่?

เพื่อประกอบการอธิบาย

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]  

1
ลักษณะของอนุกรมเวลาคืออะไร พวกเขาเดินสุ่มหรือเปล่า เครื่องเขียน? ชุดเศรษฐกิจ
Aksakal

คำตอบ:


72

ความสัมพันธ์เพียร์สันจะใช้ในการมองไปที่ความสัมพันธ์ระหว่างชุด ... แต่เป็นอนุกรมเวลาความสัมพันธ์จะมองข้ามล่าช้าที่แตกต่างกัน - The ฟังก์ชั่นข้ามความสัมพันธ์

ความสัมพันธ์ข้ามได้รับผลกระทบจากการพึ่งพาภายในซีรีย์ดังนั้นในหลายกรณีการพึ่งพาภายในซีรีย์ควรถูกลบออกก่อน ดังนั้นในการใช้ความสัมพันธ์นี้แทนที่จะทำให้ชุดนี้ราบเรียบเป็นเรื่องธรรมดามากขึ้น (เพราะมีความหมาย) เพื่อดูการพึ่งพาระหว่างส่วนที่เหลือ - ส่วนที่ขรุขระที่เหลืออยู่หลังจากพบแบบจำลองที่เหมาะสมสำหรับตัวแปร

คุณอาจต้องการเริ่มต้นด้วยแหล่งข้อมูลพื้นฐานบางอย่างเกี่ยวกับตัวแบบอนุกรมเวลาก่อนที่จะพิจารณาความพยายามที่จะเข้าใจว่าความสัมพันธ์ของเพียร์สันในชุดที่ไม่ใช่แบบคงที่และเรียบนั้นสามารถตีความได้หรือไม่

โดยเฉพาะอย่างยิ่งคุณอาจจะต้องการที่จะดูเป็นปรากฏการณ์ที่นี่ [ในอนุกรมเวลาบางครั้งเรียกว่าความสัมพันธ์แบบลวงตาแม้ว่าบทความวิกิพีเดียเกี่ยวกับความสัมพันธ์แบบลวงตาจะใช้มุมมองที่แคบเกี่ยวกับการใช้คำศัพท์ในลักษณะที่ดูเหมือนจะไม่รวมการใช้คำนี้ คุณอาจพบเพิ่มเติมเกี่ยวกับปัญหาที่กล่าวถึงที่นี่โดยค้นหาการถดถอยจริง ๆแทน]

[แก้ไข - ภูมิทัศน์ของ Wikipedia เปลี่ยนแปลงตลอดเวลา พาราด้านบน ควรได้รับการแก้ไขเพื่อให้สะท้อนถึงสิ่งที่อยู่ในตอนนี้]

เช่นดูการสนทนา

  1. http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (คำกล่าวเปิดของ Yule ในบทความที่นำเสนอในปี 1925 แต่ตีพิมพ์ในปีต่อไปสรุปปัญหาค่อนข้างดี)

  2. Christos Agiakloglou และ Apostolos Tsimpanos, ความสัมพันธ์ปลอมสำหรับเครื่องเขียน AR (1) กระบวนการ http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (นี่แสดงว่าคุณสามารถรับ ปัญหาระหว่างซีรีส์นิ่งดังนั้นจึงมีแนวโน้มที่จะ prewhiten)

  3. การอ้างอิงแบบคลาสสิกของเทศกาลคริสต์มาส (1926) [1] ที่กล่าวถึงข้างต้น

คุณอาจพบว่าการสนทนาที่นี่มีประโยชน์เช่นเดียวกับการสนทนาที่นี่

-

การใช้สหสัมพันธ์แบบเพียร์สันอย่างมีความหมายระหว่างอนุกรมเวลานั้นยากและบางครั้งก็น่าประหลาดใจ


ฉันค้นหาความสัมพันธ์ที่น่าเกรงขาม แต่ฉันไม่สนว่า A series ของฉันจะเป็นสาเหตุของซีรีย์ B ของฉันหรือในทางกลับกัน ฉันแค่อยากรู้ว่าคุณสามารถเรียนรู้บางสิ่งบางอย่างเกี่ยวกับซีรีย์ A โดยดูว่าซีรี่ย์ B กำลังทำอะไรอยู่ (หรือกลับกัน) ในคำอื่น ๆ - พวกเขามีความสัมพันธ์

จดบันทึกความคิดเห็นก่อนหน้าของฉันเกี่ยวกับการใช้คำที่เกี่ยวข้องกันอย่างเกรี้ยวกราดในบทความ Wikipedia

ประเด็นเกี่ยวกับความสัมพันธ์ปลอมคือว่าชุดสามารถปรากฏมีลักษณะร่วมกัน แต่ความสัมพันธ์ของตัวเองไม่ได้มีความหมาย ลองพิจารณาคนสองคนโยนเหรียญสองหัวที่แตกต่างกันนับจำนวนหัวจนถึงจำนวนลบก้อยจนถึงมูลค่าของซีรี่ส์ของพวกเขา

HTHH ...1,0,1,2,...

เห็นได้ชัดว่าไม่มีการเชื่อมต่อใด ๆ ระหว่างสองซีรีส์ ชัดเจนไม่สามารถบอกคุณสิ่งแรกเกี่ยวกับอื่น ๆ

แต่ดูประเภทของสหสัมพันธ์ที่คุณได้รับระหว่างคู่ของเหรียญ:

ป้อนคำอธิบายรูปภาพที่นี่

ถ้าฉันไม่ได้บอกคุณว่าพวกเขาเป็นใครและคุณจับคู่ชุดเหล่านั้นด้วยตัวเองพวกนั้นคงจะเป็นสหสัมพันธ์ที่น่าประทับใจหรือไม่?

แต่พวกเขากำลังทั้งหมดที่มีความหมาย ปลอมอย่างเต็มที่ ไม่มีสามคู่ใด ๆ ที่มีความสัมพันธ์ทางบวกหรือทางลบต่อกันมากกว่าคู่อื่น ๆ - เสียงที่เพิ่งสะสมมา ความเป็นลวงไม่เพียงเกี่ยวกับการทำนายความคิดทั้งหมดของการพิจารณาความสัมพันธ์ระหว่างซีรีย์โดยไม่คำนึงถึงการพึ่งพาภายในซีรีย์นั้นหายไป

สิ่งที่คุณมีที่นี่คือการพึ่งพาภายในซีรีส์ ไม่มีความสัมพันธ์ระหว่างซีรี่ส์

เมื่อคุณจัดการอย่างถูกต้องกับปัญหาที่ทำให้ซีรีส์เหล่านี้ขึ้นอยู่กับพวกเขาโดยอัตโนมัติ - พวกเขาทั้งหมดเข้าด้วยกัน ( Bernoulli สุ่มเดิน ) ดังนั้นคุณต้องสร้างความแตกต่างพวกเขา - สมาคม "ชัดเจน" หายไป คือ 0.048)

สิ่งที่บอกคุณคือความจริง - ความสัมพันธ์ที่ชัดเจนเป็นเพียงภาพลวงตาที่เกิดจากการพึ่งพาในซีรีส์

คำถามของคุณถามว่า "วิธีใช้เพียร์สันสัมพันธ์อย่างถูกต้องกับอนุกรมเวลา" - ดังนั้นโปรดเข้าใจ: หากมีการพึ่งพาภายในชุดและคุณไม่ได้จัดการกับมันก่อนคุณจะไม่ได้ใช้อย่างถูกต้อง

นอกจากนี้การปรับให้เรียบจะไม่ลดปัญหาการพึ่งพาอนุกรม ค่อนข้างตรงกันข้าม - มันทำให้แย่ลงกว่าเดิม! ต่อไปนี้คือความสัมพันธ์หลังจากการปรับให้เรียบ (ค่าเริ่มต้นเรียบ - ของชุดเทียบกับดัชนี - ดำเนินการใน R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

พวกเขาทั้งหมดได้เพิ่มขึ้นจาก 0 พวกเขาทั้งหมดยังคงไม่มีอะไรเลยนอกจากเสียงที่ไร้ความหมายถึงตอนนี้มันจะราบรื่นและมีเสียงที่สะสม (โดยการทำให้เรียบเราจะลดความแปรปรวนในซีรีส์ที่เราใส่ลงในการคำนวณสหสัมพันธ์ดังนั้นนั่นอาจเป็นสาเหตุที่ความสัมพันธ์เพิ่มขึ้น)

[1]: Yule, GU (1926) "ทำไมบางครั้งเราถึงได้รับความสัมพันธ์ระหว่างเรื่องไร้สาระ?" J.Roy.Stat.Soc , 89 , 1 , pp. 1-63


ขอบคุณสำหรับคำตอบที่ดี ฉันค้นหาความสัมพันธ์ที่น่าเกรงขาม แต่ฉันไม่สนว่า A series ของฉันจะเป็นสาเหตุของซีรีย์ B ของฉันหรือในทางกลับกัน ฉันแค่อยากรู้ว่าคุณสามารถเรียนรู้บางสิ่งบางอย่างเกี่ยวกับซีรีย์ A โดยดูว่าซีรี่ย์ B กำลังทำอะไรอยู่ (หรือกลับกัน) ในคำอื่น ๆ - พวกเขามีความสัมพันธ์
user1551817

โปรดดูคำตอบที่อัปเดตของฉัน
Glen_b

2
".. ดังนั้นคุณต้องสร้างความแตกต่างให้พวกเขา .. " มันหมายความว่าอะไรกันแน่? บางทีอาจสร้างความแตกต่างได้บ้าง ..
Georgios Pligoropoulos

1
differencing - วิกิพีเดียดูที่นี่หรือส่วนนี้ของหนังสือพยากรณ์หลักการและการปฏิบัติ ในคำถามที่ตามมาของคุณส่วนที่เหลือของย่อหน้าที่คุณพูดค่อนข้างจะพูดอย่างชัดเจน (มันไม่ใช่ความเป็นไปได้เพียงอย่างเดียว แต่เพียงอธิบายสิ่งหนึ่งที่พบได้ทั่วไปพอสมควร)
Glen_b

1
ฉันได้พบสิ่งที่ดูเหมือนจะเป็นกระดาษรุ่นอื่นและเพิ่มชื่อและผู้แต่ง
Glen_b

6

(Sเสื้อ)1เสื้อTXเสื้อ=Sเสื้อ-Sเสื้อ-1) ซึ่งเป็น (ในกรณีของการเดินสุ่ม) เป็นอิสระและกระจายเหมือนกัน ฉันแนะนำให้คุณใช้สหพันธ์สเปียร์แมนหรือเคนดัลล์เพราะมันมีความแข็งแกร่งมากกว่าสัมประสิทธิ์เพียร์สัน เพียร์สันวัดการพึ่งพาเชิงเส้นในขณะที่การวัดแบบ Spearman และ Kendall นั้นไม่แปรเปลี่ยนโดยการแปลงความจำเจของตัวแปรของคุณ

นอกจากนี้ลองจินตนาการว่าอนุกรมเวลาสองช่วงนั้นขึ้นอยู่กับว่าพูดขยับเข้าหากันแล้วลงไปด้วยกัน แต่บางครั้งความแปรปรวนที่รุนแรงและอีกอันที่มีความแปรผันที่ไม่รุนแรงเสมอกันความสัมพันธ์แบบเพียร์สันของคุณจะค่อนข้างต่ำ เป็นการประมาณการที่ดีกว่าสำหรับการอ้างอิงระหว่างอนุกรมเวลาของคุณ)

สำหรับการรักษาอย่างละเอียดเกี่ยวกับเรื่องนี้และเข้าใจของการพึ่งพาคุณสามารถดูทฤษฎีเชื่อมและสำหรับการใช้งานกับชุดเวลา


4

ข้อมูลอนุกรมเวลามักขึ้นอยู่กับเวลา อย่างไรก็ตามความสัมพันธ์ของ Pearson นั้นเหมาะสมสำหรับข้อมูลที่เป็นอิสระ ปัญหานี้คล้ายกับการถดถอยที่เรียกว่า ค่าสัมประสิทธิ์มีแนวโน้มที่จะมีความสำคัญสูง แต่มาจากแนวโน้มเวลาของข้อมูลที่มีผลต่อทั้งสองชุดเท่านั้น ฉันแนะนำให้ทำแบบจำลองข้อมูลแล้วลองดูว่าการสร้างแบบจำลองสร้างผลลัพธ์ที่คล้ายคลึงกันสำหรับทั้งสองซีรี่ส์หรือไม่ อย่างไรก็ตามการใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันมักจะให้ผลลัพธ์ที่ทำให้เข้าใจผิดสำหรับการตีความโครงสร้างการพึ่งพา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.