ทำไมการเดินแบบสุ่มมีความสัมพันธ์กัน?


27

ฉันสังเกตว่าโดยเฉลี่ยแล้วค่าสัมประสิทธิ์สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันนั้นใกล้เคียงกับการเดินสุ่มคู่ใด ๆ โดยไม่คำนึงถึงความยาวการเดิน0.560.42

มีคนอธิบายปรากฏการณ์นี้ได้ไหม

ฉันคาดว่าความสัมพันธ์จะเล็กลงเมื่อความยาวเดินเพิ่มขึ้นเช่นเดียวกับการสุ่มลำดับ

สำหรับการทดลองของฉันฉันใช้การสุ่ม gaussian walk พร้อม step เฉลี่ย 0 และเบี่ยงเบนมาตรฐาน step 1

UPDATE:

ฉันลืมไปยังศูนย์ข้อมูลที่ว่าทำไมมันเป็นแทน0.560.42

นี่คือสคริปต์ Python เพื่อคำนวณสหสัมพันธ์:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))

ความคิดแรกของฉันคือเมื่อเดินนานขึ้นเป็นไปได้ที่จะได้รับค่าที่มีขนาดใหญ่ขึ้นและความสัมพันธ์ก็เพิ่มขึ้นตามนั้น
John Paul

แต่นี่จะใช้ได้กับการสุ่มลำดับถ้าฉันเข้าใจคุณถูกต้อง แต่การเดินสุ่มมีความสัมพันธ์ที่คงที่
อดัม

4
นี่ไม่ใช่แค่ "ลำดับสุ่ม" ใด ๆ : สหสัมพันธ์นั้นสูงมากเพราะแต่ละคำนั้นอยู่ห่างออกไปหนึ่งก้าวจากที่หนึ่งก่อนหน้านี้ โปรดทราบด้วยว่าสัมประสิทธิ์สหสัมพันธ์ที่คุณกำลังคำนวณนั้นไม่ใช่ของตัวแปรสุ่มที่เกี่ยวข้อง: มันเป็นสัมประสิทธิ์สหสัมพันธ์สำหรับลำดับ (คิดว่าเป็นข้อมูลที่จับคู่ง่ายๆ) ซึ่งมีจำนวนสูตรใหญ่ ๆ ที่เกี่ยวข้องกับสี่เหลี่ยมจตุรัสและความแตกต่างของ เงื่อนไขในลำดับ
whuber

10
คุณกำลังพูดถึงความสัมพันธ์ระหว่างการเดินสุ่ม (ในซีรีย์ที่ไม่อยู่ในซีรีย์เดียว) หรือไม่? ถ้าเป็นเช่นนั้นก็เพราะการเดินสุ่มแบบอิสระของคุณนั้นถูกรวมเข้าด้วยกัน แต่ไม่ได้แยกจากกันซึ่งเป็นสถานการณ์ที่เป็นที่รู้จักกันดี
Chris Haug

8
หากคุณใช้ความแตกต่างครั้งแรกคุณจะไม่พบความสัมพันธ์ใด ๆ การขาดความคงที่เป็นกุญแจสำคัญที่นี่
Paul

คำตอบ:


24

กระบวนการอิสระของคุณไม่สัมพันธ์กัน! หากและY tเป็นการเดินแบบสุ่มอิสระ:XtYt

  • ไม่มีค่าสัมประสิทธิ์สหสัมพันธ์ตรงเวลา (อย่าพูดถึง )Corr(X,Y)
  • เมื่อใดก็ตามที่ , Corr ( X t , Y t )ย่อมเป็น 0tCorr(Xt,Yt)
  • แต่สถิติตัวอย่างที่อ้างอิงจากค่าเฉลี่ยอนุกรมเวลาจะไม่มารวมกันเพื่ออะไร! สัมประสิทธิ์สหสัมพันธ์ตัวอย่างที่คุณคำนวณตามค่าเฉลี่ยการสังเกตหลายครั้งในช่วงเวลาหนึ่งนั้นไม่มีความหมาย

โดยสังหรณ์ใจคุณอาจเดา (ผิด) ว่า:

  1. ความเป็นอิสระระหว่างสองกระบวนการและ{ Y t }บอกเป็นนัยว่าพวกเขาไม่มีความสัมพันธ์กัน (สำหรับการเดินสุ่มสองครั้งCorr ( X , Y )ไม่มีอยู่){Xt}{Yt}Corr(X,Y)
  2. ชุดเวลาความสัมพันธ์ตัวอย่างρ X Y (เช่นค่าสัมประสิทธิ์สหสัมพันธ์คำนวณโดยใช้เวลาชุดสถิติตัวอย่างเช่น^ μ X = 1ρ^XY) จะมาบรรจบกันในค่าสัมประสิทธิ์สหสัมพันธ์ของประชากรρXYเป็นT→การμX^=1TΣτ=1TXτρXYT

ปัญหาคือว่าข้อความเหล่านี้ไม่เป็นความจริงสำหรับการเดินสุ่ม! (สิ่งเหล่านี้เป็นจริงสำหรับกระบวนการที่มีพฤติกรรมดีขึ้น)

สำหรับกระบวนการที่ไม่อยู่นิ่ง:

  • คุณสามารถพูดคุยเกี่ยวกับความสัมพันธ์ระหว่างกระบวนการและ{ Y t }ที่จุดใดช่วงเวลาหนึ่ง (เช่น. Corr ( X 2 , Y 3 )เป็นคำพูดที่สมเหตุสมผลอย่างสมบูรณ์){Xเสื้อ}{Yเสื้อ}Corr(X2,Y3)
  • แต่มันก็ไม่มีเหตุผลที่จะพูดถึงความสัมพันธ์ระหว่างสองซีรีย์ตรงเวลาอย่างไม่มีเงื่อนไข! ไม่มีความหมายที่ชัดเจนCorr(X,Y)

ปัญหาในกรณีของการเดินสุ่ม?

  1. สำหรับการเดินสุ่มช่วงเวลาที่ไม่มีเงื่อนไขของประชากร (เช่นซึ่งไม่ได้ขึ้นอยู่กับเวลา ) เช่นE [ X ]ไม่มีอยู่ (ในบางแง่มุมพวกมันไม่มีที่สิ้นสุด) ในทำนองเดียวกันสัมประสิทธิ์สหสัมพันธ์แบบไม่มีเงื่อนไขρ X Yระหว่างการเดินสุ่มแบบอิสระสองครั้งไม่เป็นศูนย์ มันไม่มีอยู่จริง!เสื้อE[X]ρXY
  2. สมมติฐานของทฤษฎีบทเออร์โกดิคไม่ได้ใช้และค่าเฉลี่ยอนุกรมเวลาต่างๆ (เช่น)ไม่ได้มาบรรจบกันที่มีต่อสิ่งที่เป็นT→การ1TΣτXτT
    • สำหรับลำดับที่หยุดนิ่งค่าเฉลี่ยของอนุกรมเวลาจะมาบรรจบกับค่าเฉลี่ยที่ไม่มีเงื่อนไขตรงเวลา แต่สำหรับลำดับที่ไม่หยุดนิ่งไม่มีความหมายที่ไม่มีเวลาตรงเวลา!

หากคุณมีข้อสังเกตต่าง ๆ เกี่ยวกับการเดินสุ่มแบบอิสระสองครั้งในช่วงเวลาหนึ่ง (เช่น , X 2 , ฯลฯ ... และY 1 , Y 2 , .... ) และคุณคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่างคุณจะได้ตัวเลข ระหว่าง- 1และ1 แต่จะไม่เป็นการประมาณค่าสัมประสิทธิ์สหสัมพันธ์ของประชากร (ซึ่งไม่มีอยู่)X1X2Y1Y2-11

ρ X Y ( T ) (คำนวณโดยใช้ค่าเฉลี่ยอนุกรมเวลาจากT = 1ไปT = T ) เป็นไปโดยทั่วไปจะเป็นตัวแปรสุ่ม (สละค่าใน[ - 1 , 1 ] ) ซึ่งสะท้อนให้เห็นถึงสองเส้นทางโดยเฉพาะอย่างยิ่ง การสุ่มเดินโดยบังเอิญ (เช่นเส้นทางที่กำหนดโดยการดึงωจากพื้นที่ตัวอย่างΩ .) การพูดอย่างอิสระมาก (และไม่แน่นอน):ρ^XY(T)เสื้อ=1เสื้อ=T[1,1]ωΩ

  • หากทั้งสองและY ทีเกิดขึ้นกับเดินออกไปในทิศทางเดียวกันคุณจะตรวจสอบความสัมพันธ์ทางบวกปลอมXtYt
  • หากและY tเดินไปในทิศทางที่ต่างกันคุณจะตรวจพบความสัมพันธ์เชิงลบที่ปลอมXtYt
  • ถ้าและY tเกิดขึ้นข้ามกันมากพอคุณจะพบความสัมพันธ์ที่ใกล้เคียงศูนย์XtYt

คุณสามารถ Google spurious regression random walkเพิ่มเติมเกี่ยวกับเรื่องนี้ด้วยคำว่า

สุ่มเดินไม่นิ่งและการเฉลี่ยในช่วงเวลาจะได้มาบรรจบกันกับสิ่งที่คุณจะได้รับโดยการดึง IID ωจากในพื้นที่ตัวอย่างΩ ดังที่ได้กล่าวไว้ในความคิดเห็นด้านบนคุณสามารถรับความแตกต่างแรกได้Δ x t = x t - x t - 1และสำหรับการเดินแบบสุ่มกระบวนการนั้น{ Δ x t }นั้นหยุดนิ่งtωΩΔxt=xtxt1{Δxt}

ความคิดภาพใหญ่:

การสังเกตหลายครั้งเมื่อเวลาผ่านไปไม่เหมือนกับการดึงหลายครั้งจากพื้นที่ตัวอย่าง!

จำได้ว่าเป็นเวลาต่อเนื่องกระบวนการสุ่ม เป็นหน้าที่ของทั้งเวลา (เป็นเสื้อN ) และพื้นที่ตัวอย่างΩ{Xt}tNΩ

สำหรับค่าเฉลี่ยในช่วงเวลาจะมาบรรจบกันที่มีต่อความคาดหวังมากกว่าพื้นที่ตัวอย่างΩคุณต้องstationarityและergodicity นี่เป็นปัญหาหลักในการวิเคราะห์อนุกรมเวลา และการสุ่มเดินไม่ใช่กระบวนการที่นิ่งtΩ

การเชื่อมต่อกับคำตอบของ WHuber:

หากคุณสามารถหาค่าเฉลี่ยจากหลาย ๆ สถานการณ์จำลอง (เช่นดึงหลาย ๆ ค่าจาก ) แทนที่จะถูกบังคับให้ใช้ค่าเฉลี่ยตลอดเวลาtปัญหาของคุณจำนวนหนึ่งจะหายไปΩt

แน่นอนคุณสามารถกำหนดρ X Y ( T )เป็นค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่างการคำนวณในX 1 ... X TและY 1 ... Y เสื้อและนี้ยังจะเป็นกระบวนการที่สุ่มρ^XY(t)X1XtY1Yt

คุณสามารถกำหนดตัวแปรสุ่มเป็น:Zt

Zt=|ρ^XY(t)|

สำหรับสองเดินสุ่มเริ่มต้นที่กับN ( 0 , 1 )การเพิ่มขึ้นจึงเป็นเรื่องง่ายที่จะหาE [ Z 10000 ]โดยจำลอง (เช่นการดึงออกมาจากหลายΩ .)0N(0,1)E[Z10000]Ω

ด้านล่างฉันใช้แบบจำลองการคำนวณ 10,000 ตัวอย่างสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน ทุกครั้งที่ฉัน:

  • จำลองการเดินแบบสุ่มสองความยาวสอง 10,000 ครั้ง (โดยปกติจะมีการเพิ่มการจับรางวัลจาก )N(0,1)
  • คำนวณสัมประสิทธิ์สหสัมพันธ์ตัวอย่างระหว่างพวกเขา

ด้านล่างนี้คือฮิสโตแกรมที่แสดงการกระจายเชิงประจักษ์ในค่าสัมประสิทธิ์สหสัมพันธ์ที่คำนวณได้ 10,000 ค่า

enter image description here

คุณชัดเจนสามารถสังเกตเห็นว่าตัวแปรสุ่มρ X Y ( 10000 )สามารถทั่วทุกสถานที่ในช่วง[ - 1 , 1 ] สำหรับสองเส้นทางที่คงที่ของXและYสัมประสิทธิ์สหสัมพันธ์ตัวอย่างจะไม่รวมกันเป็นอะไรก็ได้เมื่อความยาวของอนุกรมเวลาเพิ่มขึ้นρ^XY(10000)[1,1]XY

ในบางครั้ง (เช่น ) ค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่างเป็นตัวแปรสุ่มที่มีค่าเฉลี่ยแน่นอน ฯลฯ ... ถ้าฉันใช้ค่าสัมบูรณ์และคำนวณค่าเฉลี่ยของการจำลองทั้งหมด ฉันคำนวณประมาณ. 42 ฉันไม่แน่ใจว่าทำไมคุณถึงต้องการทำเช่นนี้หรือทำไมจึงมีความหมายทั้งหมด แต่แน่นอนคุณทำได้t=10,000

รหัส:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))

เนื่องจากขนาดตัวอย่างที่เห็นได้ชัดไม่แน่นอนการยืนยันของคุณเกี่ยวกับปริมาณที่หลากหลายที่ไม่มีอยู่นั้นทำให้งง เป็นการยากที่จะดูว่าสัญลักษณ์ของคุณใช้กับสถานการณ์ที่อธิบายโดย OP อย่างไร
whuber

ขนาดตัวอย่างของคุณไม่เคยไปไม่มีที่สิ้นสุด! ไม่นานตราบใดที่คุณวาดภาพตัวอย่างด้วยคอมพิวเตอร์ ( เฉพาะในคณิตศาสตร์ที่บริสุทธิ์คุณอาจตั้งสมมติฐานได้ ) และนั่นหมายความว่า: เพราะคุณมีหลายจุดที่มันไม่รวมกัน? คุณอ่านมาจากที่ไหน
Mayou36

@whuber หวังว่ารุ่นนี้จะชัดเจนขึ้นเล็กน้อย ฉันคิดว่า OP จะถามว่าทำไมค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่าง (ตามค่าเฉลี่ยอนุกรมเวลา) ระหว่างสองกลุ่มที่ จำกัด ของการเดินแบบสุ่มนั้นไม่ได้เป็นศูนย์แม้แต่ช่วงเวลาที่มีความยาวอันยิ่งใหญ่ ปัญหาพื้นฐานคือสำหรับการเดินแบบสุ่มช่วงเวลาต่าง ๆ ของประชากรไม่มีอยู่และค่าเฉลี่ยอนุกรมเวลาไม่รวมกันเป็นอะไรเลย
แมทธิวกันน์

อย่างไรก็ตามสำหรับทุกอย่างคงที่แน่นอน ยิ่งกว่านั้นความคาดหวังของสัมประสิทธิ์สหสัมพันธ์สัมบูรณ์จะมาบรรจบกันเมื่อnเพิ่มขึ้น! โปรดสังเกตด้วยว่าคำถามนั้นเกี่ยวข้องกับค่าสัมบูรณ์ของสัมประสิทธิ์นั้น ความคาดหวัง (ชัด) คือศูนย์ nn
whuber

1
@whuber คุณหมายถึงการกำหนดเวลาความยาวซีรีย์ทุกอย่าง จำกัด หรือไม่ (ใช่ฉันเห็นด้วยกับนั้น) ความคาดหวังของความสัมพันธ์ตัวอย่างคือศูนย์ (ใช่ฉันเห็นด้วยกับสิ่งนั้น) เมื่อtเพิ่มขึ้นความสัมพันธ์ตัวอย่างแม้ว่าจะไม่มาบรรจบกันในจุดเดียว สำหรับการเดินสุ่มสองส่วนที่มีความยาวตามอำเภอใจค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่างนั้นไม่ไกลจากการสุ่มจับจากการกระจายแบบสม่ำเสมอใน [0, 1] (ดูฮิสโตแกรม) tt
Matthew Gunn

15

คณิตศาสตร์ที่จำเป็นเพื่อให้ได้ผลที่แน่นอนจะยุ่ง แต่เราสามารถได้รับค่าที่แน่นอนสำหรับการคาดหวังSquaredค่าสัมประสิทธิ์สหสัมพันธ์ค่อนข้างลำบาก มันจะช่วยอธิบายว่าทำไมค่าใกล้พร้อมแสดงขึ้นและทำไมการเพิ่มความยาวnของสุ่มเดินจะไม่เปลี่ยนแปลงสิ่งต่างๆ1/2n

มีความเป็นไปได้ที่จะเกิดความสับสนเกี่ยวกับคำศัพท์มาตรฐาน ความสัมพันธ์แบบสัมบูรณ์ที่อ้างถึงในคำถามพร้อมกับสถิติที่สร้างขึ้นมา - ความแปรปรวนและความแปรปรวนร่วม - เป็นสูตรที่เราสามารถนำไปใช้กับคู่ของการรับรู้แบบสุ่มใด ๆ คำถามเกี่ยวข้องกับสิ่งที่เกิดขึ้นเมื่อเราดูการรับรู้ที่เป็นอิสระมากมาย เพื่อที่เราจะต้องใช้ความคาดหวังมากกว่ากระบวนการสุ่มเดิน


(แก้ไข)

ก่อนที่เราจะดำเนินการต่อฉันต้องการแบ่งปันข้อมูลเชิงลึกเกี่ยวกับกราฟิกกับคุณ คู่ของการสุ่มแบบอิสระเป็นการสุ่มแบบสองมิติ เราสามารถวางแผนเส้นทางที่ขั้นตอนจากกัน( X T , Y T )เพื่อX T + 1 , Y T + 1 หากเส้นทางนี้มีแนวโน้มลดลง (จากซ้ายไปขวาพล็อตบนแกน XY ปกติ) จากนั้นเพื่อศึกษาค่าสัมบูรณ์ของสหสัมพันธ์เราจะลบล้างค่าYทั้งหมด วางแผนเดินบนแกนขนาดเพื่อให้Xและ(X,Y)(Xเสื้อ,Yเสื้อ)Xเสื้อ+1,Yเสื้อ+1YXค่าเท่ากับค่าเบี่ยงเบนมาตรฐานและเติมอย่างน้อยสี่เหลี่ยมพอดีของ YไปX ความชันของเส้นเหล่านี้จะเป็นค่าสัมบูรณ์ของสัมประสิทธิ์สหสัมพันธ์ซึ่งอยู่ระหว่าง 0ถึง 1เสมอYYX01

รูปนี้แสดงการเดินครั้งแต่ละความยาว960 (พร้อมความแตกต่างปกติมาตรฐาน) วงกลมเล็ก ๆ ที่เปิดอยู่ทำเครื่องหมายจุดเริ่มต้นของพวกเขา วงกลมสีเข้มทำเครื่องหมายตำแหน่งสุดท้ายของพวกเขา15960

Figure

ลาดเหล่านี้มีแนวโน้มที่จะค่อนข้างใหญ่ Scatterplots แบบสุ่มที่สมบูรณ์แบบในหลาย ๆ จุดนี้จะมีความลาดชันใกล้กับศูนย์เสมอ หากเราต้องอธิบายรูปแบบที่เกิดขึ้นที่นี่เราอาจพูดได้ว่าการเดินแบบสุ่ม 2D ส่วนใหญ่ค่อย ๆ โยกย้ายจากที่หนึ่งไปอีกที่หนึ่ง (สถานที่เหล่านี้ไม่จำเป็นต้องเป็นจุดเริ่มต้นและจุดสิ้นสุดของพวกเขา!) ประมาณครึ่งเวลาจากนั้นการโยกย้ายนั้นเกิดขึ้นในทิศทางทแยงมุม - และความลาดชันนั้นสูงมาก

ส่วนที่เหลือของโพสต์นี้แสดงการวิเคราะห์สถานการณ์นี้


สุ่มเดินเป็นลำดับของผลรวมบางส่วนของ( W 1 , W 2 , , W n )โดยที่W ฉันเป็นอิสระตัวแปรตัวแปรศูนย์หมายถึงการกระจายตัวเหมือนกัน ให้ความแปรปรวนร่วมกันของพวกเขาจะσ 2(Xผม)(W1,W2,...,Wn)Wผมσ2

ในการก่อให้เกิดของการเดินเช่นนั้น "ความแปรปรวน" จะถูกคำนวณราวกับว่านี่เป็นชุดข้อมูลใด ๆ :x=(x1,...,xn)

V(x)=1n(xix¯)2.

วิธีที่ดีในการคำนวณค่านี้คือการหาค่าเฉลี่ยครึ่งหนึ่งของความแตกต่างยกกำลังสองทั้งหมด:

V(x)=1n(n1)j>i(xjxi)2.

เมื่อถูกมองว่าเป็นผลลัพธ์ของการเดินแบบสุ่มXของnขั้นตอนความคาดหวังของสิ่งนี้คือxXn

E(V(X))=1n(n1)j>iE(XjXi)2.

ความแตกต่างคือผลรวมของตัวแปร iid

XjXi=Wi+1+Wi+2++Wj.

ขยายจัตุรัสและรับความคาดหวัง เนื่องจากเป็นอิสระและมีค่าเฉลี่ยเป็นศูนย์ความคาดหวังของคำศัพท์ข้ามทั้งหมดจึงเป็นศูนย์ ที่ใบเพียงคำเช่นW kซึ่งคาดหวังσ 2 ดังนั้นWkWkσ2

E((Wi+1+Wi+2++Wj2))=(ji)σ2.

มันง่ายต่อการติดตาม

E(V(X))=1n(n1)j>i(ji)σ2=n+16σ2.

ความแปรปรวนร่วมระหว่างสองการรับรู้อิสระและy --again ในแง่ของชุดข้อมูลไม่ใช่ตัวแปรสุ่ม - สามารถคำนวณได้ด้วยเทคนิคเดียวกัน (แต่ต้องใช้พีชคณิตมากขึ้น ผลลัพธ์คือสี่เหลี่ยมจัตุรัสที่คาดหวังความแปรปรวนร่วมคือxy

E(C(X,Y)2)=3n62n53n2+2n480n2(n1)2σ4.

XYn

ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n32n2+3n2n3n.

9/400.47ρ(n)


ฉันแน่ใจว่าฉันได้ทำข้อผิดพลาดในการคำนวณ แต่การจำลองมีความแม่นยำที่แม่นยำ ในผลลัพธ์ต่อไปนี้แสดงฮิสโตแกรมของρ2(n) สำหรับ 1000การจำลองแต่ละเส้นเส้นสีแดงแนวตั้งแสดงค่าเฉลี่ยในขณะที่เส้นสีน้ำเงินประแสดงค่าของสูตร เห็นได้ชัดว่ามันไม่ถูกต้อง แต่ไม่มีอาการ เห็นได้ชัดว่าการกระจายทั้งหมดของρ2(n) ใกล้จะถึงขีด จำกัด แล้ว nเพิ่มขึ้น ในทำนองเดียวกันการกระจายของ|ρ(n)| (ซึ่งเป็นปริมาณความสนใจ) จะเข้าใกล้ขีด จำกัด

Figure

นี่คือRรหัสในการผลิตรูป

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}

การจำลอง Monte-Carlo ของฉันเป็นไปตามการประมาณ E[ρ2] สำหรับ T=100ประมาณ. 24 (ซึ่งดูเหมือนจะเห็นด้วยกับผลลัพธ์ของคุณ) ฉันเห็นด้วยกับการวิเคราะห์ของคุณที่นี่ คุณอาจเข้าใจว่า OP มาถึงหมายเลขของเขาได้อย่างไร (แม้ว่าฉันจะคำนวณประมาณ. 42 ไม่ใช่. 56)
แมทธิวกันน์

หากคุณสามารถดึงซ้ำจาก Ωไม่มีอะไรพิเศษเป็นพิเศษเกี่ยวกับการวิเคราะห์อนุกรมเวลา ปัญหา (เช่นการยศาสตร์, ความคงที่ ฯลฯ ) พัฒนาเมื่อคุณสามารถสังเกตเห็นค่าใหม่ของX โดยเวลาที่ก้าวหน้า เสื้อซึ่งฉันคิดว่าเป็นสิ่งที่ OP พยายามที่จะได้ที่ ... (แต่อาจจะไม่)
แมทธิวกันน์

1
+1 แต่สิ่งที่เป็นสัญชาตญาณว่าทำไมจึงมีค่าเชิงบวกนี้ 9/40, whereas naively one would expect that if one takes two very long random walks they should have near-zero correlation, i.e. naively one would expect the distribution of correlations to shrink to zero as n grows?
amoeba says Reinstate Monica

@amoeba First, I don't fully believe the value of 9/40, but I know it's close to correct. For the intuition, consider that two independent walks Xt and Yt are a random walk (Xt,Yt)ในสองมิติ รับใด ๆ scatterplot สุ่มในแบบ 2D และวัดความผิดปกติของมันอย่างใด มันจะหายากสำหรับมันที่จะเป็นวงกลมอย่างสมบูรณ์แบบ ดังนั้นเราคาดหวังว่าค่าเฉลี่ยเยื้องศูนย์จะเป็นค่าบวก ว่ามีการ จำกัด การกระจายสำหรับการเดินแบบสุ่มเพียงสะท้อนให้เห็นถึงลักษณะ "เศษส่วน" ที่คล้ายกันในตัวเองของการเดินแบบ 2D นี้
whuber

2
การวิเคราะห์เชิงประเด็นที่กล่าวถึงที่นี่อาจพบได้ในฟิลลิป (1986), ทฤษฎีบท 1e
Christoph Hanck
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.