ทำไมปริมาณความแปรปรวนอธิบายโดยคอมพิวเตอร์เครื่องที่ 1 ของฉันจึงใกล้เคียงกับค่าสหสัมพันธ์แบบคู่เฉลี่ย?


9

อะไรคือความสัมพันธ์ระหว่างองค์ประกอบหลักแรกและความสัมพันธ์เฉลี่ยในเมทริกซ์ความสัมพันธ์

ตัวอย่างเช่นในแอปพลิเคชันเชิงประจักษ์ฉันสังเกตว่าความสัมพันธ์โดยเฉลี่ยเกือบจะเหมือนกับอัตราส่วนของความแปรปรวนขององค์ประกอบหลักตัวแรก (ค่าเริ่มต้นแรก) ต่อความแปรปรวนทั้งหมด (ผลรวมของค่าลักษณะเฉพาะทั้งหมด)

มีความสัมพันธ์ทางคณิตศาสตร์หรือไม่?

ด้านล่างคือแผนภูมิของผลลัพธ์เชิงประจักษ์ โดยที่ correlation คือค่าสหสัมพันธ์โดยเฉลี่ยระหว่างองค์ประกอบดัชนีหุ้น DAX ที่คำนวณได้จากการคำนวณในช่วงเวลา 15 วันและความแปรปรวนที่อธิบายคือส่วนแบ่งความแปรปรวนที่อธิบายโดยองค์ประกอบหลักตัวแรกที่คำนวณด้วยหน้าต่างกลิ้ง 15 วัน

สิ่งนี้สามารถอธิบายได้ด้วยตัวแบบปัจจัยความเสี่ยงทั่วไปเช่น CAPM หรือไม่?

ป้อนคำอธิบายรูปภาพที่นี่


1
คุณคิดว่าเกิดอะไรขึ้นเมื่อมีความสัมพันธ์หลายอย่างเป็นลบหรือใกล้ศูนย์ ตัวอย่างเช่นสร้างข้อมูลปกติแบบแบ่งครึ่งโดยมีค่าสหสัมพันธ์เป็นศูนย์ ทำไมคุณคาดหวังว่าจะมีความสัมพันธ์ระหว่างอัตราส่วนความแปรปรวนของคุณกับความสัมพันธ์แบบศูนย์
whuber

คำตอบ:


6

ฉันเชื่อว่าความสัมพันธ์ระหว่างค่าเฉลี่ยสหสัมพันธ์กับค่าลักษณะเฉพาะของพีซีเครื่องที่ 1 มีอยู่จริง แต่ไม่ซ้ำกัน ฉันไม่ใช่นักคณิตศาสตร์ที่สามารถอนุมานได้ แต่อย่างน้อยฉันก็สามารถแสดงจุดเริ่มต้นที่สัญชาตญาณหรือความคิดของคน ๆ นั้นอาจเติบโต

หากคุณวาดตัวแปรที่ได้มาตรฐานเป็นเวกเตอร์ในปริภูมิแบบยุคลิดที่ตั้งอยู่ (และนี่คือพื้นที่ที่ลดลงซึ่งการสังเกตของแกน) ความสัมพันธ์คือโคไซน์ระหว่างเวกเตอร์สองตัว

ป้อนคำอธิบายรูปภาพที่นี่

และเนื่องจากเวกเตอร์นั้นมีความยาวหน่วยทั้งหมด (เนื่องจากมาตรฐาน) ค่าโคไซน์คือการประมาณค่าของเวกเตอร์ซึ่งกันและกัน (เช่นที่แสดงในภาพด้านซ้ายที่มีตัวแปรสามตัว) พีซีที่ 1 เป็นสายดังกล่าวในพื้นที่นี้ที่เพิ่มประมาณการผลรวมของกำลังสองบนมัน's เรียกว่าแรง; และผลรวมนี้เป็นค่าเริ่มต้นที่ 1

ดังนั้นเมื่อคุณสร้างความสัมพันธ์ระหว่างค่าเฉลี่ยของการฉายทั้งสามทางด้านซ้ายด้วยผลรวม (หรือค่าเฉลี่ย) ของการคาดการณ์กำลังสองสามตัวทางด้านขวาคุณจะตอบคำถามของคุณเกี่ยวกับความสัมพันธ์ระหว่างค่าเฉลี่ยสหสัมพันธ์และค่าลักษณะเฉพาะ


6

สิ่งที่ฉันคิดว่าเกิดขึ้นที่นี่คือตัวแปรทั้งหมดมีความสัมพันธ์เชิงบวกกับแต่ละอื่น ๆ ในกรณีนี้พีซีเครื่องที่ 1 ค่อนข้างบ่อยจะใกล้เคียงกับค่าเฉลี่ยของตัวแปรทั้งหมด หากตัวแปรทั้งหมดมีความสัมพันธ์เชิงบวกกับตรงเดียวกันค่าสัมประสิทธิ์สหสัมพันธ์ , จากนั้น PC ที่ 1 คือว่าสัดส่วนกับค่าเฉลี่ยของตัวแปรทั้งหมดที่ผมอธิบายที่นี่: Can เฉลี่ยตัวแปรทั้งหมดจะเห็นเป็นรูปแบบดิบของ PCA?c

ในกรณีง่าย ๆ นี้ใคร ๆ ก็สามารถได้รับความสัมพันธ์ที่คุณถามเกี่ยวกับคณิตศาสตร์ พิจารณาเมทริกซ์สหสัมพันธ์ของขนาดที่มีลักษณะดังนี้:eigenvector แรกมีค่าเท่ากับซึ่งสอดคล้องกับค่าเฉลี่ย [ปรับสัดส่วน] ของตัวแปรทั้งหมด ค่าเฉพาะของมันคือค ผลรวมของค่าลักษณะเฉพาะของทุกคนถ้าได้รับการเรียนการสอนโดยรวมขององค์ประกอบในแนวทแยงทั้งหมดคือ nดังนั้นสัดส่วนของความแปรปรวนที่อธิบายโดยพีซีเครื่องแรกมีค่าเท่ากับn×n

(1111).
(1,1,1,1)/nλ1=1+(n-1)Σλผม=n
R2=1n+n-1n.

ดังนั้นในกรณีที่ง่ายที่สุดนี้สัดส่วนของความแปรปรวนที่อธิบายโดยพีซีเครื่องแรกนั้นมีความสัมพันธ์ 100% กับความสัมพันธ์เฉลี่ยและสำหรับมีขนาดใหญ่มีค่าประมาณเท่ากับ ซึ่งเป็นสิ่งที่เราเห็นในแผนของคุณอย่างแม่นยำn

ฉันคาดหวังว่าสำหรับเมทริกซ์ขนาดใหญ่ผลลัพธ์นี้จะอยู่ที่ประมาณแม้ว่าความสัมพันธ์จะไม่เหมือนกันทั้งหมด


ปรับปรุง โดยใช้รูปที่โพสต์ในคำถามหนึ่งยังสามารถลองประเมินโดยสังเกตเห็นว่า2-C) ถ้าเราใช้เวลาและแล้วเราได้รับnOP กล่าวว่าข้อมูลนี้เป็น "ดัชนีหุ้น DAX" googling มันเราจะเห็นว่ามันเห็นได้ชัดว่าประกอบด้วยตัวแปร ไม่ใช่คู่ที่ไม่ดีnn=(1-)/(R2-)=0.5R2-=0.02n=2530

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.