สูตรสำหรับสร้างตัวแปรสุ่มที่สัมพันธ์กันทำงานอย่างไร


19

หากเรามีตัวแปรสุ่มแบบธรรมดา 2 ตัวตัวแปรที่ไม่เกี่ยวข้องX1,X2เราสามารถสร้างตัวแปรสุ่มที่สัมพันธ์กัน 2 สูตร

Y=ρX1+1ρ2X2

แล้วจะมีความสัมพันธ์ρกับX 1YρX1

บางคนสามารถอธิบายได้ว่าสูตรนี้มาจากไหน


1
การอภิปรายอย่างกว้างขวางของปัญหานี้และที่เกี่ยวข้องปรากฏในคำตอบของฉันที่stats.stackexchange.com/a/71303 เหนือสิ่งอื่นใดมันทำให้เป็นธรรมดาว่า (1) ข้อสันนิษฐานทั่วไปนั้นไม่เกี่ยวข้องและ (2) คุณจำเป็นต้องตั้งสมมติฐานเพิ่มเติม: ความแปรปรวนของและX 2จะต้องเท่ากันเพื่อให้ความสัมพันธ์ของYกับX 1เท่ากับρ X1X2YX1ρ
whuber

ลิงค์ที่น่าสนใจมาก ฉันไม่แน่ใจว่าฉันเข้าใจสิ่งที่คุณหมายถึงโดยปกติจะไม่เกี่ยวข้อง ถ้าหรือX 2ไม่ปกติและมันยากที่จะควบคุมความหนาแน่นของYผ่านอัลกอริทึม Kaiser-Dickman นี่คือเหตุผลทั้งหมดสำหรับอัลกอริทึมเฉพาะในการสร้างข้อมูลที่สัมพันธ์กันแบบไม่ปกติ (เช่น Headrick, 2002; Ruscio & Kaczetow, 2008; Vale & Maurelli, 1983) ตัวอย่างเช่นจินตนาการว่าเป้าหมายของคุณคือสร้างX ~ Normal, Y ~ uniform ด้วยρ = .5 ใช้X 2ผล ~ เครื่องแบบในYที่ไม่สม่ำเสมอ ( Yสิ้นสุดขึ้นเป็นเชิงเส้นของการรวมกันปกติและสม่ำเสมอ)X1X2YXYρX2YY
Anthony

@ แอนโธนีคำถามจะถามเฉพาะเกี่ยวกับสหสัมพันธ์ซึ่งเป็นหน้าที่ของช่วงเวลาที่หนึ่งและสองเท่านั้น คำตอบไม่ได้ขึ้นอยู่กับคุณสมบัติอื่นใดของการแจกแจง สิ่งที่คุณกำลังถกกันนั้นเป็นวิชาที่ต่างออกไปโดยสิ้นเชิง
whuber

คำตอบ:


17

สมมติว่าคุณต้องการหาชุดค่าผสมเชิงเส้นของและX 2เช่นนั้นX1X2

corr(αX1+βX2,X1)=ρ

โปรดสังเกตว่าถ้าคุณคูณทั้งและβด้วยค่าคงที่ (ไม่เป็นศูนย์) เดียวกันความสัมพันธ์จะไม่เปลี่ยนแปลง ดังนั้นเราจะเพิ่มเงื่อนไขเพื่อรักษาความแปรปรวน: var ( α X 1 + β X 2 ) = var ( X 1 )αβvar(αX1+βX2)=var(X1)

สิ่งนี้เทียบเท่า

ρ=cov(αX1+βX2,X1)var(αX1+βX2)var(X1)=αcov(X1,X1)=var(X1)+βCOV(X2,X1)=0var(αX1+βX2)var(X1)=αvar(X1)α2var(X1)+β2var(X2)

สมมติว่าตัวแปรสุ่มทั้งสองมีความแปรปรวนเหมือนกัน (นี่เป็นข้อสมมติฐานที่สำคัญ!) ( ) เราจะได้รับvar(X1)=var(X2)

ρα2+β2=α

มีคำตอบมากมายสำหรับสมการนี้ดังนั้นถึงเวลาที่ต้องระลึกถึงเงื่อนไขการรักษาความแปรปรวน:

var(X1)=var(αX1+βX2)=α2var(X1)+β2var(X2)α2+β2=1

และสิ่งนี้ทำให้เรา

α=ρβ=±1ρ2

UPD เกี่ยวกับคำถามที่สอง: ใช่นี้เป็นที่รู้จักกันเป็นไวท์เทนนิ่ง


9

สมการเป็นรูปแบบที่สองตัวแปรที่เรียบง่ายของการสลายตัว Cholesky สมการที่ง่ายนี้บางครั้งเรียกว่าอัลกอริทึม Kaiser-Dickman (Kaiser & Dickman, 1962)

โปรดทราบว่าและX 2ต้องมีความแปรปรวนเดียวกันสำหรับอัลกอริทึมนี้เพื่อให้ทำงานได้อย่างถูกต้อง นอกจากนี้อัลกอริทึมมักจะใช้กับตัวแปรปกติ ถ้าX 1หรือX 2มีความไม่ปกติYอาจจะไม่ได้มีรูปแบบการกระจายเดียวกับX 2X1X2X1X2YX2

อ้างอิง:

Kaiser, HF, & Dickman, K. (1962) เมทริกซ์คะแนนตัวอย่างและประชากรและเมทริกซ์สหสัมพันธ์ตัวอย่างจากเมทริกซ์สหสัมพันธ์ประชากรโดยอำเภอใจ Psychometrika, 27 (2), 179-182


2
ฉันคิดว่าคุณไม่ต้องการตัวแปรปกติที่ได้มาตรฐานเพียงแค่การแปรปรวนเท่ากันควรจะเพียงพอ
Artem Sobolev

2
ไม่มีการกระจายของคือไม่ส่วนผสมกระจายในขณะที่คุณเรียกร้อง Y
Dilip Sarwate

ณ จุดที่ @Dilip Sarwate หากหรือX 2นั้นไม่ใช่แบบปกติแล้วYจะกลายเป็นชุดเส้นตรงของตัวแปรสองตัวที่อาจไม่ส่งผลให้เกิดการกระจายตัวที่ต้องการ นี่คือเหตุผลสำหรับอัลกอริธึมพิเศษ (แทนที่จะเป็น Kaiser-Dickman) สำหรับข้อมูลที่มีความสัมพันธ์ที่ไม่ปกติ X1X2Y
Anthony

3

ค่าสัมประสิทธิ์สหสัมพันธ์เป็นระหว่างสองชุดถ้าพวกเขาจะถือว่าเป็นพาหะ (กับn ทีเอชจุดข้อมูลที่ถูกn ทีเอชมิติของเวกเตอร์) สูตรข้างต้นสร้างการสลายตัวของเวกเตอร์ลงในส่วนประกอบcos θ , s i n θ (เทียบกับX 1 , X 2 ) ถ้าρ = c o s θดังนั้นcosnthnthcosθsinθX1,X2
ρ=cosθθ1ρ2=±sinθ

X1,X2


2
TEX
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.