การวิเคราะห์องค์ประกอบหลักสามารถนำมาใช้กับราคาหุ้น / ข้อมูลที่ไม่คงที่ได้หรือไม่?


10

ฉันอ่านตัวอย่างที่กำหนดในหนังสือเครื่องเรียนรู้สำหรับแฮกเกอร์ ฉันจะทำอย่างละเอียดในตัวอย่างก่อนแล้วพูดคุยเกี่ยวกับคำถามของฉัน

ตัวอย่าง :

ใช้ชุดข้อมูลเป็นเวลา 10 ปีของราคาหุ้น 25 ใช้ PCA ในราคาหุ้น 25 เปรียบเทียบองค์ประกอบหลักกับดัชนี Dow Jones สังเกตความคล้ายคลึงกันที่แข็งแกร่งระหว่าง PC และ DJI!

จากสิ่งที่ฉันเข้าใจตัวอย่างเป็นเหมือนของเล่นที่ช่วยให้มือใหม่อย่างฉันเข้าใจว่าเครื่องมือ PCA นั้นมีประสิทธิภาพเพียงใด!

อย่างไรก็ตามการอ่านจากแหล่งข้อมูลอื่นฉันเห็นว่าราคาหุ้นไม่คงที่และใช้ PCA ในราคาหุ้นนั้นเป็นเรื่องไร้สาระ แหล่งที่มาจากที่ฉันอ่านเยาะเย้ยความคิดทั้งหมดของการคำนวณความแปรปรวนร่วมและ PCA สำหรับราคาหุ้น

คำถาม :

  1. ตัวอย่างทำงานได้ดีอย่างไร PCA ของราคาหุ้นและ DJI นั้นใกล้กันมาก และข้อมูลนั้นเป็นข้อมูลจริงจากราคาหุ้น 2545-2554

  2. ใครบางคนสามารถบอกให้ฉันทราบถึงแหล่งข้อมูลที่ดีสำหรับการอ่านข้อมูลที่อยู่กับที่ / ไม่อยู่นิ่ง ฉันเป็นโปรแกรมเมอร์ ฉันมีพื้นฐานคณิตศาสตร์ที่ดี แต่ฉันไม่ได้ทำคณิตศาสตร์อย่างจริงจังเป็นเวลา 3 ปี ฉันเริ่มอ่านอีกครั้งเกี่ยวกับสิ่งต่าง ๆ เช่นการเดินแบบสุ่ม ฯลฯ

คำตอบ:


10

บทความนี้ทำหน้าที่ตอบคำถามต้นฉบับบางส่วนและบางคำถามที่แสดงความคิดเห็นต่อคำตอบของ @ JonEgil

ผลตอบแทนทางการเงิน (ลอการิทึม) * อยู่ที่ประมาณ (แม้ว่ามักจะมีความแตกต่าง heteroskedasticity ตามเงื่อนไข) - ในขณะที่ราคาอยู่ที่ประมาณเดินสุ่ม ภายใต้สมมติฐานของการสังเกตการวิเคราะห์องค์ประกอบหลักจะสรุปจากตัวอย่างต่อประชากรโดยตรง (เช่นตัวอย่างองค์ประกอบหลักจะประเมินส่วนประกอบหลักของประชากร) แต่สิ่งนี้อาจไม่อยู่ภายใต้การสังเกตที่ไม่ใช่ของ - ดูหัวข้อนี้ นี่คือเหตุผลที่ทำให้การเปิดใช้งาน PCA บน (ลอการิทึม) ส่งคืนแทนที่จะเป็นราคาi.i.d.i.i.d.i.i.d.

Ruey S. Tsay แย้งกับการใช้งาน PCA กับส่วนที่เหลือจากแบบจำลองเศรษฐมิติของอนุกรมเวลาทางการเงินเนื่องจากส่วนที่เหลือมักจะสันนิษฐานว่าเป็นฉันคิดว่าแนวคิดนี้อาจรวมอยู่ใน"การวิเคราะห์อนุกรมเวลาหลายตัวแปรของเขากับ R และแอปพลิเคชันทางการเงิน"หนังสือเรียน (เขาอธิบายความคิดกับฉันด้วยตนเองดังนั้นฉันไม่แน่ใจว่าจะเขียนไว้ตรงไหน)i.i.d.

* ผลตอบแทนลอการิทึมราคาถูกกำหนดเป็น1}} ผลตอบแทนลอการิทึมถูกนำมาใช้เพื่ออำนวยความสะดวกในสถานที่ของผลตอบแทนร้อยละ{t-1}} คุณลักษณะที่สะดวกของการส่งคืนลอการิทึมคือคุณอาจสรุปผลตอบแทนลอการิทึมแต่ละเพื่อรับผลตอบแทนลอการิทึมทั้งหมดในช่วงขณะนี้ไม่ถือผลตอบแทนเป็นเปอร์เซ็นต์ สำหรับผลตอบแทนที่ค่อนข้างเล็ก (ซึ่งเป็นเรื่องปกติทางการเงิน) ลอการิทึมจะส่งกลับผลตอบแทนที่เท่ากันโดยประมาณเป็นเปอร์เซ็นต์เนื่องจากลอการิทึมนั้นมีหน่วยความชันโดยประมาณประมาณหนึ่งPtr:=log(Pt)log(Pt1)=logPtPt1r:=PtPt1Pt1hh


1
+1 นี่น่าสนใจ คุณสามารถขยายอีกเล็กน้อยว่า "คืน" คืออะไรจริงหรือ ความรู้ด้านเศรษฐศาสตร์ของฉันเป็นศูนย์ ฉัน googled และพบว่าถ้าราคาจะได้รับจากอนุกรมเวลาแล้วผลตอบแทนจะถูกกำหนดเป็น(t_i)} ถูกต้องหรือไม่ ถ้าเป็นเช่นนั้นแล้วทำไมลอการิทึม ฉันจะเข้าใจข้อโต้แย้งของคุณเกี่ยวกับความสัมพันธ์ระหว่างผลตอบแทน iid และราคาเดินสุ่มหากผลตอบแทนนั้นถูกกำหนดเป็นความแตกต่าง นอกเหนือจากนั้น DJ เป็นราคาเฉลี่ยดังนั้นฉันจึงยังไม่เข้าใจว่าทำไม PC1 ของผลตอบแทนควรตรงกับที่ดีกว่า PC1 ของราคาแม้ว่าคุณจะพิจารณาถึง iid ก็ตาม บันทึกf ( t i + 1 )f(ti)logf(ti+1)f(ti)
อะมีบา

1
@ amoeba ฉันเพิ่มคำอธิบายสั้น ๆ และต้องออกแล้ว ฉันหวังว่าฉันจะไม่ทำผิดพลาดมากเกินไป ฉันจะกลับมาอีกในวันพรุ่งนี้หากมีปัญหาเพิ่มเติม
Richard Hardy

1
ขอบคุณ ตอนนี้ฉันเห็นแล้วว่าผลตอบแทน (ลอการิทึมส่งคืน) เป็นหลักอนุพันธ์ (ความแตกต่างแรก) ของลอการิทึมของราคา ดังนั้นถ้าการเรียกร้องคือผลตอบแทนคือ iid และราคาล็อกเป็นแบบสุ่มดังนั้นมันสมเหตุสมผลดี อย่างไรก็ตามฉันยังคงประหลาดใจกับตัวอย่างของ Dow Jones และขอขอบคุณที่ชี้แจงเพิ่มเติม
อะมีบา

6

ฉันใช้การวิเคราะห์ประเภทนี้อย่างมืออาชีพและสามารถยืนยันได้ว่ามีประโยชน์จริง ๆ แต่โปรดตรวจสอบให้แน่ใจว่าคุณวิเคราะห์ผลตอบแทนไม่ใช่ราคา นี่คือการวิจารณ์โดยเน้นใน Slender หมายถึง:

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

usecase ทั่วไปในการวิเคราะห์ของเราคือการหาปริมาณความเสี่ยงอย่างเป็นระบบในตลาด การเคลื่อนไหวร่วมกันมากขึ้นในตลาดยิ่งคุณมีความหลากหลายน้อยลงในแฟ้มสะสมผลงานของคุณ ยกตัวอย่างเช่นสิ่งนี้สามารถวัดปริมาณด้วยจำนวนความแปรปรวนที่อธิบายโดยองค์ประกอบหลักตัวแรก ซึ่งเหมือนกับค่าของค่าลักษณะเฉพาะแรก

สำหรับข้อมูลทางการเงินมักจะตรวจสอบหน้าต่างที่เคลื่อนไหวตลอดเวลา รูปแบบของปัจจัยการสลายตัวบางประการที่ทำให้การสังเกตการณ์ที่มีน้ำหนักเกินเป็นประโยชน์ สำหรับข้อมูลรายวันอะไรก็ได้จาก 20-60 วันสำหรับข้อมูลรายสัปดาห์อาจ 1-2 ปีขึ้นอยู่กับความต้องการของคุณ

โปรดทราบว่าสำหรับตลาดการเงินทั่วโลกที่มีการเปลี่ยนแปลงของราคาสินทรัพย์อย่างต่อเนื่องนับหมื่นหรือแสนคนอย่างต่อเนื่องประเภทหนึ่งไม่สามารถเรียกใช้เมทริกซ์ความแปรปรวนร่วม 100K เทียบกับ 100K โดยทั่วไป usecase จะทำการวิเคราะห์ต่อประเทศต่อภาคหรือกลุ่มที่มีความหมายมากกว่า อีกทางเลือกหนึ่งแบ่งผลตอบแทนโดยชุดของปัจจัยพื้นฐาน (ค่าขนาดคุณภาพเครดิต .... ) และทำการวิเคราะห์ PCA / ความแปรปรวนร่วมของเหล่านี้

บางบทความที่ดีรวมถึงการสนทนาของ Attilio Meucci เกี่ยวกับจำนวนการเดิมพันที่มีประสิทธิภาพ: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

และ Ledoit และ Wolf's Honey I หดตัวอย่างเมทริกซ์ความแปรปรวนร่วม http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

สำหรับการแนะนำเชิงการเงินเบื้องต้นเกี่ยวกับความคงที่ทางการเงินทำไมไม่เริ่มต้นกับ Investopedia มันไม่เข้มงวด แต่บ่งบอกถึงความคิดหลัก

โชคดี!

แก้ไข: นี่คือตัวอย่าง 3 หุ้นที่แสดง Apple, Google และ Dow Jones ที่มีผลตอบแทนรายวันถึงปี 2015 สามเหลี่ยมด้านบนแสดงความสัมพันธ์ของผลตอบแทน, สามเหลี่ยมล่างแสดงความสัมพันธ์ของราคา

ความสัมพันธ์ของผลตอบแทนรูปสามเหลี่ยมบน, ความสัมพันธ์ของราคารูปสามเหลี่ยมที่ต่ำกว่า

ดังที่เห็นได้ว่า Apple มีความสัมพันธ์ทางด้านราคากับ Dow (ล่างซ้าย 0.76) สูงกว่าความสัมพันธ์กลับ (ด้านบนขวา 0.66) เราเรียนรู้อะไรได้บ้าง ไม่มาก. Google มีความสัมพันธ์เชิงลบกับทั้ง Apple (-0.28) และ Dow (-0.27) อีกไม่มากที่จะเรียนรู้จากที่ อย่างไรก็ตามสหสัมพันธ์กลับบอกเราว่า Apple และ Google ทั้งสองมีความสัมพันธ์ค่อนข้างสูงกับ Dow (0.66 และ 0.53 ตามลำดับ) นั่นบอกเราบางอย่างเกี่ยวกับการเคลื่อนไหวร่วม (การเปลี่ยนแปลงราคา) ของสินทรัพย์ในพอร์ต นั่นคือข้อมูลที่เป็นประโยชน์

ประเด็นหลักคือถึงแม้ว่าความสัมพันธ์ของราคาสามารถคำนวณได้อย่างง่ายดาย แต่ก็ไม่น่าสนใจ ทำไม? เพราะราคาของหุ้นไม่น่าสนใจในตัวเอง อย่างไรก็ตามการเปลี่ยนแปลงราคานั้นน่าสนใจมาก


คุณช่วยขยายเพิ่มเติมในส่วนหลักของคำถามที่เกี่ยวกับความแตกต่างระหว่างการใช้ราคากับผลตอบแทนได้หรือไม่? ฉันเข้าใจว่าเมื่อใช้ราคาเมทริกซ์สหสัมพันธ์จะได้รับอิทธิพลจากการไม่อยู่นิ่ง เช่นถ้าราคาทั้งหมดเติบโตเป็นเส้นตรงความสัมพันธ์ทั้งหมดจะเป็นบวกอย่างมาก ก่อนทำไมมันไม่ดี? โดยเฉพาะอย่างยิ่งเนื่องจาก Dow Jones นั้นเป็นราคาเฉลี่ยและจะเติบโตเช่นกัน (ตามที่ PC1 ต้องการ) ประการที่สองการใช้ผลตอบแทนควรช่วยได้อย่างไร AFAIK "return" เป็นอัตราส่วนการบันทึกของจุดที่อยู่ใกล้เคียง ทำไมมันมีความหมายและเกี่ยวข้องกับ Dow Jones อย่างไร
อะมีบา

ขอบคุณสำหรับการตอบกลับที่ให้ข้อมูลของคุณ แต่มันไม่ตอบคำถามของฉัน ฉันต้องการเข้าใจว่าทำไมการวิเคราะห์ราคาจึงทำงานได้ดีสำหรับชุดข้อมูลในหนังสือ และอะมีบาได้ตั้งคำถามที่ถูกต้องจำนวนมาก
claudius

1
@ คลอเดีย: ความจริงที่ว่า PCA เกี่ยวกับราคานั้นมีบางอย่างที่คล้ายกับ Dow Jones ซึ่งเป็นราคาเฉลี่ยที่ไม่น่าแปลกใจเลย ฉันค่อนข้างจะสงสัยว่าทำไม PCA กับผลตอบแทนจึงเหมาะสมมากกว่า บางทีจอนจะสามารถชี้แจงได้
อะมีบา

1
ฉันไม่ได้ดูรหัสจริงที่ทำงานใน ML สำหรับแฮกเกอร์ แต่เมื่อใดก็ตามที่มีคนบอกว่าพวกเขาวิเคราะห์ราคา 99 ครั้งจาก 100 สิ่งที่พวกเขาวิเคราะห์คือการส่งคืนบันทึก ตัวอย่างเช่นวันนี้ดาวโจนส์ลดลง 162 คะแนนขณะที่ Apple ลดลง 0.88 ดอลลาร์ ไม่เพียง แต่ตัวเลขที่แตกต่างกันอย่างมากมายพวกเขายังอยู่ในระดับที่แตกต่างกันคะแนนดัชนีเทียบกับเงิน แต่ในแง่เปอร์เซ็นต์ 0.91% และ 0.75% สามารถเปรียบเทียบได้และตัวเลขที่คุณต้องการใช้งาน สำหรับการวิเคราะห์บางคนสามารถลดแนวโน้มข้อมูลโดยการลบค่าเฉลี่ย ในช่วงเวลาทางการเงินระยะสั้นสิ่งนี้มักถูกมองข้ามโดยไม่มีแนวโน้ม
Jon Egil

1
@ amoeba, เพื่อ (บางส่วน) ตอบคำถามที่เพิ่มขึ้นในความคิดเห็นผลตอบแทนอยู่ที่ประมาณ iid ในขณะที่ราคาอยู่ที่ประมาณเดินสุ่ม องค์ประกอบหลักมีคุณสมบัติที่ดีของพวกเขาภายใต้สมมติฐานของการสังเกต iid นี่คือเหตุผลที่ทำให้การเรียกใช้ PCA บนผลตอบแทนไม่ใช่ราคา Ruey S. Tsay แย้งกับการเรียกใช้ PCA จากแบบจำลองทางเศรษฐมิติของอนุกรมเวลาทางการเงินเนื่องจากส่วนที่เหลือจะถือว่าเป็นปกติฉันคิดว่าอาจรวมอยู่ในหนังสือ "Multivariate การวิเคราะห์อนุกรมเวลาด้วย R และแอปพลิเคชันทางการเงิน"
Richard Hardy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.