ความสัมพันธ์ระหว่างตัวแปรสองตัวที่มีขนาดไม่เท่ากัน


9

ในปัญหาที่ฉันกำลังทำงานอยู่ฉันมีตัวแปรสุ่มสองตัวคือ X และ Y ฉันต้องหาว่าพวกเขาสองคนมีความสัมพันธ์กันอย่างไร แต่พวกมันมีมิติที่แตกต่างกัน อันดับของพื้นที่แถวของ X คือ 4350 และอันดับของพื้นที่แถวของ Y นั้นใหญ่ขึ้นอย่างมากในหลักหมื่น ทั้ง X และ Y มีจำนวนคอลัมน์เท่ากัน

ฉันต้องการตัวชี้วัดความสัมพันธ์ระหว่างตัวแปรทั้งสองและ r ของ Pearson ต้องการ X และ Y เพื่อให้มีมิติที่เท่ากัน (อย่างน้อย R ต้องให้ rv สองตัวเป็น)

ฉันมีความหวังในการสร้างความสัมพันธ์ระหว่างสองสิ่งนี้หรือไม่หรือฉันควรหาวิธีตัดการสังเกตจาก Y หรือไม่?

 EDIT

การเพิ่มข้อมูลจากความคิดเห็นซึ่งควรอยู่ในคำถาม

ฉันคิดว่าฉันลืมที่จะพูดถึงเรื่องนี้ X และ Y คือราคาหุ้น บริษัท X เปิดตัวต่อสาธารณชนในช่วงเวลาที่สั้นกว่า Y ฉันอยากจะบอกว่าราคาของ X และ Y นั้นมีความสัมพันธ์กันอย่างไร ฉันจะได้รับความสัมพันธ์อย่างแน่นอนในช่วงเวลาที่ X และ Y ทั้งสองมีอยู่ ฉันอยากรู้ว่าการรู้ราคาหุ้นเป็นเวลาหลายปีของ Y ที่ X ไม่มีอยู่ทำให้ฉันมีข้อมูลเพิ่มเติมหรือไม่


2
สิ่งนี้ไม่ได้ดูเหมือนว่าคุณมีการสังเกต (หรือ "คดี") ที่คุณสังเกตเห็นทั้งการรับรู้ X และ Y คุณจะรู้ได้อย่างไรว่า X ตัวใดที่เชื่อมโยงกับ Y
Stephan Kolassa

1
ฉันคิดว่าฉันลืมที่จะพูดถึงเรื่องนี้ X และ Y คือราคาหุ้น บริษัท X เปิดตัวต่อสาธารณชนในช่วงเวลาที่สั้นกว่า Y ฉันอยากจะบอกว่าราคาของ X และ Y นั้นมีความสัมพันธ์กันอย่างไร ฉันจะได้รับความสัมพันธ์อย่างแน่นอนในช่วงเวลาที่ X และ Y ทั้งสองมีอยู่ ฉันอยากรู้ว่าการรู้ราคาหุ้นเป็นเวลาหลายปีของ Y ที่ X ไม่มีอยู่ทำให้ฉันมีข้อมูลเพิ่มเติมหรือไม่
Christopher Aden

2
@Christopher ฉันขอแนะนำให้คุณอัปเดตคำถามของคุณเพื่อสะท้อนความคิดเห็นข้างต้นของคุณ นอกจากนี้เพื่อให้สหสัมพันธ์มีความหมายจำเป็นต้องมีมิติที่เท่ากันมากกว่า; การวัดจริงต้องมาจากกรณีเดียวกันซึ่งในกรณีของคุณน่าจะเป็นจุดเวลาเดียวกัน
Jeromy Anglim

2
ความคิดเห็นที่สองผม Jeromy ในการปรับปรุงคำถาม ...
สเตฟาน Kolassa

คำถามอื่น: คุณพูดถึงว่า X และ Y มีจำนวนคอลัมน์เท่ากัน นั่นจะเป็นหนึ่งหรือไม่ หรือคุณมีหลายซีรี่ส์สำหรับทั้ง X และ Y (ราคาในตลาดหุ้นที่ต่างกันหรือบางอย่าง)
Stephan Kolassa

คำตอบ:


10

ไม่มีการใส่ความ, การวิเคราะห์อนุกรมเวลา, แบบจำลอง GARCH, การประมาณค่า, การประมาณค่าหรืออัลกอริทึมแฟนซีอื่น ๆ จะทำทุกอย่างเพื่อสร้างข้อมูลที่ไม่มีอยู่ (แม้ว่าพวกเขาสามารถสร้างภาพลวงตานั้น ;-) ประวัติความเป็นมาของราคาของ Y ก่อน X ออกสู่สาธารณะไม่มีประโยชน์สำหรับการประเมินความสัมพันธ์ที่ตามมาของพวกเขา

บางครั้ง (มักเป็นการเตรียมการสำหรับ IPO) นักวิเคราะห์ใช้ข้อมูลการบัญชีภายใน (หรือบันทึกของการทำธุรกรรมหุ้นส่วนตัว) เพื่อสร้างราคาสมมุติสำหรับหุ้นของ X ก่อนหน้านี้ในที่สาธารณะ เป็นไปได้ว่าข้อมูลดังกล่าวสามารถนำมาใช้เพื่อปรับปรุงการประมาณค่าสหสัมพันธ์ แต่ด้วยลักษณะที่ไม่แน่นอนอย่างยิ่งของ backcasts ดังกล่าวฉันสงสัยว่าความพยายามจะช่วยได้ยกเว้นในตอนแรกเมื่อมีราคา X เพียงไม่กี่วันหรือสัปดาห์


การชี้แจง: ฉันไม่ได้พูดถึง GARCH เพื่อจัดการกับปัญหาข้อมูลที่หายไป (ซึ่งแน่นอนว่าไม่สมเหตุสมผล) - แต่เพื่อปรับปรุงการคำนวณความสัมพันธ์อย่างง่ายระหว่างอนุกรมเวลาในเวลาที่ทั้งสองมีอยู่
Stephan Kolassa

@Stephan: ตกลง ฉันพูดถึงมันเป็นหลักเพื่อแสดงว่าฉันไม่ได้สนใจคุณ!
whuber

1
ขอบคุณมาก นี่คือสิ่งที่ฉันกำลังมองหา ฉันไม่คิดว่าการ backcasting นั้นจะมีประโยชน์อย่างมาก (หรือความเป็นไปได้) ในการเพิ่ม X พิเศษสองสามสัปดาห์เมื่อกรอบเวลาร่วมกันระหว่าง X และ Y นั้นประมาณ 16 ปีแล้ว
Christopher Aden

2
@Christopher: !! ด้วย 16 ปี (ของการปิดทุกวัน?) คุณมีข้อมูลเพียงพอไม่เพียง แต่จะพบความสัมพันธ์ แต่ยังเพื่อสำรวจว่ามันมีการเปลี่ยนแปลงตลอดเวลา (นี่ฉันเชื่อว่าเป็นจิตวิญญาณของการตอบกลับของ @Stephan Kolassa)
whuber

ฉันเห็นด้วย. การใช้เทคนิคเพื่อหาว่าค่าใดที่ X จะนำไปก่อนการเสนอขายหุ้นของตนดูเหมือนว่าจะเกิดข้อผิดพลาด ฉันอาจถามถึงความเกี่ยวข้องของข้อมูลที่มีอายุ 16 ปีเพื่อทำนายแนวโน้มที่ทันสมัย
Christopher Aden

10

ดังนั้นปัญหาคือหนึ่งในข้อมูลที่ขาดหายไป (ไม่ใช่ว่า Y ทั้งหมดมี X ที่สอดคล้องกันโดยที่การติดต่อนั้นดำเนินการผ่านจุดเวลา) ฉันไม่คิดว่าจะต้องทำอะไรที่นี่มากไปกว่าการทิ้ง Y คุณไม่มี X สำหรับและคำนวณความสัมพันธ์กับคู่เต็ม

คุณอาจต้องการอ่านเกี่ยวกับอนุกรมเวลาทางการเงินแม้ว่าฉันจะไม่มีการอ้างอิงที่ดีมีประโยชน์ ณ จุดนี้ (ความคิดทุกคน?) ราคาหุ้นมักจะแสดงความผันผวนเวลาที่แตกต่างกันซึ่งสามารถจำลองเช่นโดยGARCH เป็นไปได้ว่าซีรี่ส์อนุกรม X และ Y สองช่วงเวลาของคุณมีความสัมพันธ์เชิงบวกในช่วงที่ความผันผวนต่ำ (เมื่อเศรษฐกิจเติบโตราคาหุ้นทั้งหมดมีแนวโน้มที่จะเพิ่มขึ้น) แต่ความสัมพันธ์เชิงลบเมื่อความผันผวนโดยรวมสูง (วันที่ 9/11) เงินหลบหนีการลงทุนที่ปลอดภัย) ดังนั้นการคำนวณความสัมพันธ์โดยรวมอาจขึ้นอยู่กับกรอบเวลาสังเกตของคุณ

UPDATE: ฉันคิดว่าคุณอาจต้องการที่จะมองไปที่VAR (เวกเตอร์อัต)รุ่น


สำหรับขั้นพื้นฐานอ้างอิงอนุกรมเวลาทางการเงินที่คุณสามารถดูคำตอบของฉันที่นี่: stats.stackexchange.com/questions/328/... ข้อความ Tsay เป็นหนึ่งในความนิยมมากที่สุด
เชน

2

@Jeromy Anglim ระบุอย่างถูกต้อง การมีข้อมูลเพิ่มเติมเมื่อมีอนุกรมเวลาเพียงชุดเดียวจะไม่มีค่าใด ๆ ที่นี่ และโดยหลักการแล้วข้อมูลควรถูกสุ่มตัวอย่างในเวลาเดียวกันเพื่อให้มีความหมายโดยใช้มาตรการสหสัมพันธ์แบบดั้งเดิม

จากปัญหาทั่วไปฉันจะเพิ่มเติมว่ามีเทคนิคในการจัดการกับข้อมูลอนุกรมเวลาที่มีระยะห่างไม่สม่ำเสมอ คุณสามารถค้นหา "สหสัมพันธ์อนุกรมเวลาที่มีระยะห่างไม่สม่ำเสมอ" ผลงานล่าสุดบางส่วนเกิดขึ้นใน"ความแปรปรวนและความสัมพันธ์ที่เกิดขึ้นจริง" (Andersen, Bollerslev, Diebold และ Labys 1999) โดยใช้ข้อมูลความถี่สูง


1

ให้ข้อมูลเพิ่มเติมในความคิดเห็นของคุณฉันขอแนะนำให้ดูที่สองสหสัมพันธ์ ครั้งแรกจะเป็นช่วงเวลาทั่วไปที่ บริษัท ทั้งสองรอบ ดังนั้นหากมีประมาณ 2 ปีก่อนหน้านี้คุณเพียงแค่วางข้อมูลนั้นและดูที่เหลือ ครั้งที่สองจะเป็นช่วงเวลาที่สัมพันธ์กัน ในส่วนที่สองคุณไม่ได้สัมพันธ์กับเวลาจริง แต่วัดเวลาตั้งแต่ บริษัท เข้าสู่สาธารณะ

อดีตจะได้รับอิทธิพลอย่างมากจากกองกำลังทางเศรษฐกิจทั่วไปที่ใช้ร่วมกันภายในช่วงเวลาเดียวกัน หลังจะได้รับอิทธิพลจากคุณสมบัติที่ใช้ร่วมกันโดย บริษัท เมื่อพวกเขาเปลี่ยนหลังจากการเสนอขายหุ้น


0

อีกวิธีหนึ่งในการแก้ปัญหาดังกล่าวคือการใส่ข้อมูลที่หายไปสำหรับซีรี่ส์ที่สั้นกว่าโดยใช้โมเดลอนุกรมเวลาซึ่งอาจหรืออาจไม่สมเหตุสมผลในบริบทเฉพาะ

ในบริบทของคุณการกำหนดราคาหุ้นในอดีตจะหมายความว่าคุณกำลังถามคำถามเชิงข้อเท็จจริงต่อไปนี้: ราคาหุ้นของ บริษัท X จะเป็นอย่างไรในปีที่ผ่านมาในที่สาธารณะแทนที่จะเป็นสาธารณะจริง ๆ การใส่ข้อมูลดังกล่าวสามารถทำได้โดยคำนึงถึงราคาหุ้นของ บริษัท ที่เกี่ยวข้องแนวโน้มตลาดทั่วไปเป็นต้น แต่การวิเคราะห์ดังกล่าวอาจไม่สมเหตุสมผลหรืออาจไม่จำเป็นเนื่องจากเป้าหมายของโครงการของคุณ


0

มากขึ้นอยู่กับสมมติฐานที่คุณทำ หากคุณคิดว่าข้อมูลนั้นอยู่กับที่นิ่งข้อมูลเพิ่มเติมสำหรับซีรีส์หนึ่งจะทำให้คุณประเมินความผันผวนของข้อมูลได้เร็วขึ้น การประมาณนี้สามารถใช้เพื่อปรับปรุงการประมาณค่าสหสัมพันธ์ ดังนั้นรูปปั้น follwoing ไม่ถูกต้อง:

"ประวัติราคาของ Y ก่อนที่ X จะเผยแพร่สู่สาธารณะนั้นไม่มีประโยชน์ในการประเมินความสัมพันธ์ที่ตามมาของพวกเขา"


ฉันคิดเกี่ยวกับเรื่องนี้ ในทางทฤษฎีอาจใช้งานได้ แต่จะไม่นิ่งเงียบมากดังนั้นควรหลีกเลี่ยง
kjetil b halvorsen

-1

ดูเหมือนว่าปัญหาสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง ดังนั้นฉันจะพยายามหาชุดของคุณสมบัติที่อธิบายแง่มุมบางอย่างของเทรนด์และฝึกฝนเกี่ยวกับเรื่องนั้น ทฤษฎีการเรียนรู้ของเครื่องทั้งหมดนั้นค่อนข้างซับซ้อนสำหรับกล่องคำตอบนี้ แต่มันจะมีประโยชน์สำหรับคุณที่จะอ่าน

แต่จริงๆแล้วฉันคิดว่ามันมีอยู่แล้ว ในกรณีที่สามารถทำเงินได้คนจะต้องคำนึงถึงมัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.