PCA สามารถใช้กับข้อมูลอนุกรมเวลาได้หรือไม่


22

ฉันเข้าใจว่าการวิเคราะห์องค์ประกอบหลัก (PCA) สามารถนำไปใช้โดยทั่วไปสำหรับข้อมูลหน้าตัด PCA สามารถใช้สำหรับข้อมูลอนุกรมเวลาได้อย่างมีประสิทธิภาพโดยการระบุปีเป็นตัวแปรอนุกรมเวลาและใช้ PCA ตามปกติหรือไม่ ฉันพบว่าไดนามิก PCA ทำงานกับข้อมูลพาเนลและการเข้ารหัสใน Stata ได้รับการออกแบบสำหรับข้อมูลพาเนลไม่ใช่อนุกรมเวลา PCA ประเภทใดที่ใช้งานกับข้อมูลอนุกรมเวลาได้หรือไม่

ปรับปรุง ให้ฉันอธิบายอย่างละเอียด

ปัจจุบันฉันกำลังสร้างดัชนีสำหรับโครงสร้างพื้นฐานในอินเดียด้วยตัวแปรเช่นความยาวถนนความยาวเส้นทางรถไฟความจุการผลิตไฟฟ้าจำนวนผู้ใช้โทรศัพท์ ฯลฯ ฉันมี 12 ตัวแปรตลอด 22 ปีสำหรับ 1 ประเทศ แม้ว่าฉันจะตรวจสอบเอกสารที่ใช้ PCA ในอนุกรมเวลาและแม้แต่ข้อมูลพาเนล PCA ถูกออกแบบมาสำหรับข้อมูลแบบตัดขวางซึ่งถือว่าสมมติฐานของ iid ข้อมูลพาเนลและข้อมูลส่วนตัดละเมิดและ PCA ไม่คำนึงถึงมิติของอนุกรมเวลาในนั้น ฉันเห็นว่ามีการใช้ PCA แบบไดนามิกบนข้อมูลแผงเท่านั้น ฉันต้องการที่จะรู้ว่ามี PCA เฉพาะที่ใช้กับอนุกรมเวลาหรือใช้สแตติก PCA กับปีที่กำหนดเป็นตัวแปรอนุกรมเวลาจะทำงานหรือไม่


2
การวิเคราะห์สเปกตรัมเดี่ยว (SSA) มักถูกเรียกว่า PCA สำหรับอนุกรมเวลา en.wikipedia.org/wiki/Singular_spectrum_analysis
Vladislavs Dovgalecs

1
โปรดตรวจสอบโพสต์บางส่วนในแถบด้านข้างทางด้านขวา (->) ที่อ้างถึงทั้งชุด PCA และอนุกรมเวลา หากมีคำตอบให้กับคำถามของคุณโปรดลิงก์ไปที่ความคิดเห็นที่นี่ แต่ถ้าไม่มีคุณอาจอธิบายวิธีการเฉพาะที่ปัญหาของคุณแตกต่างจากสิ่งเหล่านั้น
Glen_b -Reinstate Monica

ไม่มีใครตอบคำถามของ pca ในซีรีย์เวลา ข้อความค้นหาเฉพาะในหัวข้อเกี่ยวข้องกับวิทยาศาสตร์หรือไม่ได้รับการตอบ
Nisha Simon

5
PCA ในฐานะการแปลงข้อมูลการลดขนาดการสำรวจและเครื่องมือสร้างภาพไม่ได้ตั้งสมมติฐานใด ๆ คุณสามารถเรียกใช้ข้อมูลใด ๆ รวมถึงข้อมูลอนุกรมเวลา ในความเป็นจริง PCA มักใช้กับข้อมูลอนุกรมเวลา (บางครั้งเรียกว่า "functional PCA" ซึ่งบางครั้งก็ไม่ใช่) ฉันไม่รู้ด้วยซ้ำว่า "dynamic PCA" และ "static PCA" ควรหมายถึงอะไร ไม่ต้องกังวลและใช้ PCA มาตรฐาน
อะมีบาพูดว่า Reinstate Monica

คุณอาจต้องการลองใช้ Functional PCA ซึ่งออกแบบมาเป็นพิเศษสำหรับอนุกรมเวลา แพคเกจ FDA ใน R ใช้ fPCA คุณจะสามารถหา fPCA หลายตัวแปร
Anne

คำตอบ:


8

วิธีการหนึ่งอาจใช้ความแตกต่างของตัวแปร 12 ตัวแรกของคุณเป็นครั้งแรกเพื่อความมั่นใจ แล้วคำนวณเมทริกซ์ความแปรปรวนและดำเนินการ PCA กับมัน นี่จะเป็น PCA โดยเฉลี่ยตลอดช่วงเวลาหนึ่งและจะไม่พูดอะไรเลยเกี่ยวกับความแตกต่างของ Timelags ที่มีผลต่อกันและกัน แต่มันอาจเป็นจุดเริ่มต้นที่ดี12×12

หากคุณมีความสนใจในการแยกโดเมนเวลาเช่นกันฉันจะตรวจสอบSSAตามที่แนะนำในความคิดเห็น

เมื่อซีรีส์ของคุณอยู่นิ่งสันนิษฐานว่าเมทริกซ์ความแปรปรวนร่วมเดียวมีความหมาย หากข้อมูลของคุณถูกรวมเข้ากับลำดับที่ 1 หรือสูงกว่าอย่างที่ฉันสงสัยว่าอาจเป็นไปได้การประมาณค่าเมทริกซ์ความแปรปรวนร่วมเดียวจะไม่ให้ผลลัพธ์ที่สอดคล้องกัน การสุ่มเดินเป็นตัวอย่างของการรวมลำดับ 1 และความแปรปรวนร่วมโดยประมาณของการเดินสุ่มสองครั้งไม่ได้พูดอะไรเกี่ยวกับการเคลื่อนไหวร่วมของพวกเขาจำเป็นต้องมีการวิเคราะห์ร่วมแบบรวม

ตามที่แนะนำในข้อคิดเห็น PCA ในตัวเองไม่สนใจเกี่ยวกับ stationarity ดังนั้นคุณสามารถป้อน PCA เมทริกซ์กึ่งบวกแน่นอนใด ๆ และการสลาย PC จะดีในความรู้สึก PCA

แต่ถ้าเมทริกซ์ความแปรปรวนร่วมโดยประมาณของคุณไม่ได้แสดงอะไรที่มีความหมายเกี่ยวกับข้อมูล PCA ก็จะแน่นอน


1
+1 คุณหมายถึงอะไรโดย "ครั้งแรกที่แตกต่าง"?
อะมีบาพูดว่า Reinstate Monica

ฉันหมายถึงความแตกต่างแรกดังนั้นสำหรับแต่ละสิบสองของฉันจะทำ x_t - x_t-1
Duffau

ดังนั้นคุณแนะนำให้ทำ PCA กับอนุพันธ์เวลาของแต่ละอนุกรมเวลาซึ่งต่างจากอนุกรมเวลาเอง นั่นดูน่าสนใจ; ทำไมนี่เป็นคำแนะนำแรกของคุณ
อะมีบาพูดว่า Reinstate Monica

ด้วยเหตุผลสองประการ: 1) เพื่อให้การประมาณค่าความแปรปรวนร่วมมีความสอดคล้องกันสมมุติฐานตัดขวางแบบปกติคือตัวแปรสุ่มสองตัวที่มีความเป็นอิสระและกระจายตัวแบบเดียวกัน (iid) สิ่งนี้ช่วยให้แน่ใจว่าการลู่เข้าของตัวอย่างหมายถึงค่าที่คาดไว้ซึ่งเรียกว่ากฎของจำนวนมาก (LLN) ในการวิเคราะห์อนุกรมเวลาสมมติฐานของกระบวนการสุ่มสองค่าที่ถูก iid คือการ จำกัด ดังนั้นมันจึงถูกแทนที่ด้วยความคิดเกี่ยวกับความคงที่ (หลายชนิด) สำหรับ LLN ที่จะถือครองและการประมาณค่าความแปรปรวนร่วมเพื่อให้สอดคล้องกันทั้งสองซีรีส์จำเป็นต้องมีการแจกแจงแบบคงที่ร่วมกัน
Duffau

หากกระบวนการสุ่มแต่ละอันนั้นเป็นแบบสุ่ม (ฉันเป็นบวกที่สุด) ว่าพวกเขาอยู่ร่วมกันอย่างนิ่งดังนั้นการประมาณค่าความแปรปรวนร่วมจึงสมเหตุสมผล ความแตกต่างแรกคือเทคนิคมาตรฐานในเศรษฐมิติในการสร้างอนุกรมเวลา และจากที่นี่การประมาณและ PCA ตรงไปตรงมา ดังนั้นในระยะสั้นเพราะมันเป็นเรื่องง่ายที่ :-) .... ok ไม่มีเหตุผลที่สอง ..
Duffau

2

ใช่ PCA ตรงเวลาจะดำเนินการตลอดเวลาในด้านวิศวกรรมการเงิน (การเงินเชิงปริมาณ) และประสาทวิทยา

Xt×ptprt=log(Pt)log(Pt1)=log(Pt/Pt1)มีการใช้เนื่องจากราคารายวันมีการกระจายแบบล็อกปกติเช่นเบ้กับหางขวา เนื่องจากมีการซื้อขาย 250 วัน / ปีจึงเหมาะที่จะดึงข้อมูล 1000 วันซึ่งหมายถึงการซื้อขาย 4 ปี เนื่องจากโดยปกติจะใช้หน่วยเดียวกัน (เช่น USD) สำหรับการส่งคืนราคาบันทึกรายวันp×pXt×tเมทริกซ์ความแปรปรวนร่วมเป็นเวลาหลายวันที่มีสินทรัพย์เรียงกันเป็นแถวเพื่อที่จะยุบวันที่สัมพันธ์กันในพีซีเครื่องเดียวเนื่องจากแนวคิดทั่วไปคือวันนั้นสามารถซ้ำซ้อน - และเมื่อป้อนข้อมูลเข้าสู่เครือข่ายประสาทคุณไม่ต้องการ แถวข้อมูลที่จะซ้ำซ้อนหรือคุณสมบัติที่จะมีความสัมพันธ์ (คุณต้องการให้พวกเขาเป็นมุมฉาก) เนื่องจากตาข่ายประสาทจะเสียเวลาในการเรียนรู้ความสัมพันธ์ อย่างไรก็ตามวิธีนี้ไม่ได้มุ่งเน้นไปที่

γ=t/nXλ+Y=FnβX^=YY^Y=f1β

ในประสาทวิทยา PCA ทำงานตามลำดับเวลาสำหรับศักย์การกระทำในช่วงความยาวคลื่นต่าง ๆ ที่ได้จาก EEG การแปลงศักย์การกระทำเป็น orthogonal (uncorrelated) คะแนน PC ของเวกเตอร์และการป้อนพีซีเข้าสู่การวิเคราะห์อื่น ๆ เป็นวิธีการหลักที่พลังงานทางสถิติเพิ่มขึ้นในการสร้างแบบจำลองทางพันธุกรรมทางสถิติของลักษณะที่ซับซ้อนสำหรับพันธุศาสตร์พฤติกรรม (ตั้งแต่ฟีโนไทป์สำหรับ การค้นหา, schizotypal, schozephrenia มักจะทับซ้อนกัน) การศึกษาทางพันธุกรรมของออสเตรเลียคู่ใหญ่มีประโยชน์ในการแยกแยะลักษณะที่ทับซ้อนกันเหล่านี้ในพันธุศาสตร์พฤติกรรมเพราะหากมีความแตกต่างของโรคในฝาแฝดเหมือนกันที่เลี้ยงกัน (เติบโตในครัวเรือนเดียวกัน) การอนุมานเชิงสาเหตุอาจชี้ไปที่สภาพแวดล้อมต่าง ๆ พวกเขามีอายุมากกว่าแทนที่จะเป็นพันธุศาสตร์ที่เหมือนกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.