การเชื่อมโยงชุดเวลาของปริมาณ


12

พิจารณากราฟต่อไปนี้:

twitter และปริมาณการซื้อขาย

เส้นสีแดง (แกนซ้าย) อธิบายปริมาณการซื้อขายของหุ้นหนึ่ง ๆ เส้นสีฟ้า (แกนขวา) อธิบายปริมาณข้อความทวิตเตอร์สำหรับหุ้นนั้น ตัวอย่างเช่นในวันที่ 9 พฤษภาคม (05-09) มีการซื้อขายประมาณ 1.100 ล้านครั้งและทวีต 4.000 รายการ

ฉันต้องการคำนวณว่ามีความสัมพันธ์กันระหว่างไทม์ซีรี่ส์หรือไม่ในวันเดียวกันหรือมีความล่าช้าตัวอย่างเช่นปริมาณทวีตสัมพันธ์กับปริมาณการซื้อขายในอีกหนึ่งวันต่อมา ฉันกำลังอ่านบทความมากมายที่ได้ทำการวิเคราะห์เช่นCorrelating Financial Time Series กับ Micro-Blogging Activityแต่พวกเขาไม่ได้อธิบายว่าการวิเคราะห์ดังกล่าวเกิดขึ้นได้อย่างไรในแง่ของการปฏิบัติ ต่อไปนี้ระบุไว้ในบทความ:

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามฉันมีประสบการณ์น้อยมากเกี่ยวกับการวิเคราะห์ทางสถิติและไม่ทราบวิธีการดำเนินการนี้ในซีรี่ส์ที่ฉันมี ฉันใช้ SPSS (หรือที่รู้จักกันว่า PASW) และคำถามของฉันคือ: ขั้นตอนในการวิเคราะห์เช่นนี้คืออะไรจากจุดที่ฉันมี datafile ที่อ้างอิงภาพข้างบน การทดสอบดังกล่าวเป็นคุณสมบัติเริ่มต้น (และเรียกว่าอะไร) และ / หรือฉันจะใช้งานได้อย่างไร?

ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมอย่างมาก :-)


1
คุณสามารถคำนวณได้ ... คุณไม่สามารถเปรียบเทียบกับค่าวิกฤตได้ยกเว้นว่าทั้งสองซีรีส์จะมีค่าความ
แปรปรวน

ฉันได้วางข้อมูลดิบที่นี่แล้ว: pastebin.com/tZajRae9มีวิธีที่จะบอกหรือไม่ว่าซีรีย์นั้นมีความแปรปรวนปกติหรือไม่? ฉันขอขอบคุณสำหรับความคิดเห็นของคุณ
Pr0no

หลังจากตรวจจับค่าผิดปกติ / ระดับกะในซีรีส์แต่ละชุดซีรีย์ผลลัพธ์ที่ได้จะแสดงแบบจำลอง AR (1) หลังจากผสมผสานไม่เพียง แต่การปรับค่าการเปลี่ยนแปลงระดับ / ระดับและ AR (1) ที่ระบุเชิงประจักษ์ทั้งสองชุดเสียงไม่มีความสัมพันธ์อัตโนมัติ (ภายในโครงสร้าง) cross-correlation ของซีรีย์ตัวแทนสองชุดนี้ชี้ให้เห็นว่าไม่มีความสัมพันธ์ข้ามที่สำคัญ (ในโครงสร้าง) ดังนั้นจำนวนทวีตจึงไม่ปรากฏขึ้นเพื่อช่วยในการทำนายปริมาณ
IrishStat

คำตอบ:


6

การตรวจสอบสองมาตรฐานสำหรับการตรวจสอบความแปรปรวนแบบสองขั้วในสามสิ่ง:

  1. ตรวจสอบว่าชุดแรกของการสังเกตเป็นเรื่องปกติเล็กน้อย
  2. ตรวจสอบว่าชุดการสังเกตที่สองเป็นเรื่องปกติเล็กน้อยหรือไม่
  3. ถอยหลังให้อีกคนหนึ่งและตรวจสอบว่าส่วนที่เหลือเป็นเรื่องปกติ

ในการตรวจสอบภาวะปกติในแต่ละขั้นตอนเหล่านี้ให้ใช้แผนการแปลง qq ปกติหรือคุณสามารถใช้การทดสอบสมมติฐานทั่วไป

หรืออีกวิธีหนึ่งคุณสามารถตรวจสอบว่าชุดค่าผสมเชิงเส้นที่เป็นไปได้ (ค่าสัมประสิทธิ์จริง) ของทั้งสองชุดเป็นปกติเล็กน้อย ซึ่งอาจเป็นเรื่องยาก

แก้ไข: (6 ปีต่อมา) ฉันจะเก็บข้างต้นสำหรับลูกหลาน แต่ทราบผมมีคำตอบที่ผ่านมามากขึ้นในคำถามที่คล้ายกันที่นี่


ฉันได้ดำเนินการตามขั้นตอนที่ 1 และ 2 แล้วมาพร้อมกับ boxplots ต่อไปนี้: i.imgur.com/SDOTE.pngยกเว้นการสังเกตการณ์ 3 ถึง 5 ครั้งพวกเขาดูปกติเล็กน้อย อย่างไรก็ตามซิก ค่าสำหรับการทดสอบ Shapiro-Wilk คือ 0.000 ซึ่งจะบ่งบอกถึงการเบี่ยงเบนอย่างมีนัยสำคัญจากปกติ เมื่อลบค่าออก Shapiro Wilk Sig คือ 0.201 สำหรับทวีตและ 0.004 สำหรับการซื้อขาย สิ่งนี้บ่งบอกว่าไม่มีความสัมพันธ์กันหรือไม่ นอกจากนี้ยังเป็นชุดเวลาด้วย - การลบค่าผิดปกติหมายถึงการลบจำนวนวันในกรอบเวลาที่วิจัย นี่เป็นวิธีปฏิบัติที่ยอมรับหรือไม่?
Pr0no

ฉันยังทำพล็อต PP สำหรับขั้นตอนที่ 3 หรืออย่างน้อยในการตีความของฉันนี่คือสิ่งที่ฉันต้องการ (ถดถอยเชิงเส้นที่มีพล็อตน่าจะเป็นปกติ): i.imgur.com/EZ3Ic.pngความคิดเห็นใด?
Pr0no

การแจกแจงร่อแร่ไม่ได้ดูปกติ มีส่วนเล็ก ๆ ในการอนุมานในหน้าวิกิพีเดียคือการเชื่อมโยง การลบค่าผิดปกตินั้นไม่ใช่ความคิดที่ดี อาจเริ่มช่วงความมั่นใจ
เทย์เลอร์

1
คำถามเกี่ยวกับสหสัมพันธ์ - แต่คำตอบนั้นเกี่ยวกับภาวะปกติ คำตอบคือ upvoted หลายครั้งและยอมรับ สิ่งที่ฉันหายไปจากที่นี่ ..
Richard Hardy

การแจกแจงแบบปกติ bivariate เป็นแบบจำลองที่ง่ายที่สุดที่กระตุ้น / ให้เหตุผลโดยใช้ความสัมพันธ์แบบเพียร์สัน
เทย์เลอร์

11

สัมประสิทธิ์สหสัมพันธ์ระหว่างอนุกรมเวลานั้นไร้ประโยชน์ ดูค่าสัมประสิทธิ์สหสัมพันธ์ - ค่าที่สำคัญสำหรับการทดสอบความสำคัญ สิ่งนี้ชี้ให้เห็นเป็นครั้งแรกโดย U. Yule ในปี 1926 Yule, GU, 1926, "ทำไมบางครั้งเราถึงมีความสัมพันธ์แบบไร้สาระระหว่างอนุกรมเวลา? การศึกษาในการสุ่มตัวอย่างและธรรมชาติของอนุกรมเวลา", วารสารสมาคมสถิติ 89, 1 -64 คุณอาจต้องการ google "เพราะเหตุใดเราจึงมีความสัมพันธ์ที่ไร้สาระ" มากขึ้น

เหตุผลของเรื่องนี้คือการทดสอบความสัมพันธ์ต้องการบรรทัดฐานร่วมกัน ความปกติของข้อต่อจำเป็นต้องใช้ในแต่ละชุดให้เป็นปกติ ความสามัญต้องการความเป็นอิสระ เพื่อตรวจสอบความสัมพันธ์ระหว่างอนุกรมเวลาโปรดตรวจสอบบัตรประจำตัวฟังก์ชั่นการถ่ายโอนในหนังสือชุดเวลาที่ดีใด ๆ เช่นการวิเคราะห์อนุกรมเวลา: Univariate และวิธีการหลายตัวแปรโดยวิลเลียม WS เหว่ย, เดวิดพีเรลลี

คำตอบท้าทาย

ในแง่ของคำตอบสำหรับความท้าทายของคุณ เป็นที่รู้จักกันดีโดยไม่กี่ ( Yule, GU, 1926 ) ที่มีความสัมพันธ์แบบอนุกรมสองเวลาสามารถมีข้อบกพร่องโดยเฉพาะอย่างยิ่งถ้าทั้งสองชุดได้รับผลกระทบจากพัลส์ / ระดับกะ / ฤดูกาลพัลส์และ / หรือแนวโน้มเวลาท้องถิ่น เป็นกรณีที่ฉันจะใช้แต่ละซีรีส์แยกส่วนและระบุโครงสร้าง ARIMA และพัลส์ / เลเวลกะ / พัลส์ตามฤดูกาลและ / หรือแนวโน้มเวลาท้องถิ่นที่อาจนำไปใช้และสร้างกระบวนการข้อผิดพลาด

ด้วยกระบวนการข้อผิดพลาดที่สะอาดสองกระบวนการสำหรับหนึ่งในสองชุดต้นฉบับฉันจะคำนวณ cross correlation ซึ่งสามารถใช้เพื่อวัดระดับการเชื่อมโยงข้างต้นและเกินกว่าโครงสร้างความสัมพันธ์อัตโนมัติภายในแต่ละชุด วิธีการแก้ปัญหานี้เรียกว่าการเตรียมผิวก่อนการฟอกสีฟันอย่างเหมาะสม

ดู:


ขอบคุณสำหรับการตอบกลับของคุณ. แต่คุณกำลังบอกว่าตามคำนิยาม ao กระดาษที่ฉันอ้างถึงไม่มีค่า? ประการที่สองนี่หมายถึงว่าโดยนิยามสองชุดไม่สามารถมีความสัมพันธ์กันได้ซึ่งความสัมพันธ์ cthe มีความหมาย?
Pr0no

3
ความสัมพันธ์สามารถคำนวณได้ว่าเป็นเลขคณิตอย่างง่าย สิ่งที่ไม่สามารถคำนวณได้ง่ายคือความน่าจะเป็นที่สหสัมพันธ์มีนัยสำคัญทางสถิติ นึกย้อนกลับไปในครั้งแรกที่คุณได้รู้จักกับสัมประสิทธิ์สหสัมพันธ์ มันอยู่ในบริบทของตัวอย่างอิสระ N ซึ่งมีการคำนวณคุณสมบัติ / ค่าสองตัวอย่างสำหรับตัวอย่างอิสระ N แต่ละชนิดและความหนาแน่นของรอยต่อร่วมกันเป็นค่าปกติ
IrishStat

1
ทำไมมันถึงต้องมีมาตรฐานร่วมกันและไม่ใช่แค่การกระจายตัวแบบสมมาตร? นั่นคือความสม่ำเสมอของข้อต่อจะไม่ทำงานเช่นกัน?
naught101

1
@ NAUGHT101 ค่าวิกฤตสำหรับสัมประสิทธิ์สหสัมพันธ์นั้นมีอยู่ภายใต้ข้อสันนิษฐานของความร่วมมือร่วมกันและไม่ได้กำหนดอย่างอื่นอย่างชาญฉลาด
IrishStat

@IrishStat ขอบคุณสำหรับคำตอบที่คุณแก้ไข มันเป็นที่นิยม สำหรับการทดสอบตามปกติโปรดดูi.imgur.com/SDOTE.pngสำหรับแปลง qq ของตัวแปรแยก หลังจากลบค่าผิดปกติแล้วพล็อตหน้ากระดาษ pp ​​จากสิ่งที่ฉันเข้าใจว่ามาตรการร่วมกันเป็นไปตามมาตรฐานดูเหมือนว่าi.imgur.com/EZ3Ic.pngความคิดเห็นใด ๆ
Pr0no
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.