PCA กำลังทำอะไรกับข้อมูลที่เกี่ยวข้องอัตโนมัติ?


9

เพียงเพราะผู้สื่อข่าวบางคนตั้งคำถามที่น่าสนใจเกี่ยวกับวิธีการคำนวณความสัมพันธ์ฉันจึงเริ่มเล่นกับมันเกือบจะไม่มีความรู้เกี่ยวกับอนุกรมเวลาและความสัมพันธ์อัตโนมัติ

ผู้สื่อข่าวจัดเรียงข้อมูลของเขา (จุดข้อมูลของอนุกรมเวลา) เลื่อนหนึ่งครั้งล่าช้าแต่ละครั้งนอกจากนี้เพื่อให้เขามีเมทริกซ์ของข้อมูล (เท่าที่ฉันเข้าใจเขา) ซึ่งแถวแรกเป็นข้อมูลต้นฉบับแถวที่สอง ข้อมูลเปลี่ยนเป็นหน่วยเวลาครั้งแถวถัดไปเป็นอีกหน่วยหนึ่งและอื่น ๆ ฉันรู้เรื่องนี้เพิ่มเติมโดยทากาวที่ปลายหางเพื่อสร้างชุดข้อมูล "วงกลม"3232×321

จากนั้นเพียงเพื่อดูว่าอะไรจะออกมาฉันก็คำนวณเมทริกซ์สหสัมพันธ์และจากส่วนประกอบหลักนี้ น่าประหลาดใจที่ฉันได้ภาพของการสลายตัวของความถี่และ (อีกครั้งกับข้อมูลอื่น ๆ ) หนึ่งความถี่บอกว่าด้วยระยะเวลาหนึ่งในข้อมูลอยู่ในองค์ประกอบหลักแรกและที่มีสี่จุดอยู่ในพีซีเครื่องที่สองและอื่น ๆ (ฉันได้พีซี "ที่เกี่ยวข้อง" ที่มีค่าลักษณะเฉพาะ326>1) ครั้งแรกที่ฉันคิดว่าสิ่งนี้ขึ้นอยู่กับข้อมูลอินพุต แต่ตอนนี้ฉันคิดว่ามันเป็นระบบด้วยวิธีนี้โดยการสร้างชุดข้อมูลแบบพิเศษด้วยการเลื่อนแบบวงกลม (หรือที่เรียกว่าเมทริกซ์ "Toeplitz") การหมุนของ PC-solution เพื่อ varimax หรือเกณฑ์การหมุนอื่น ๆ นั้นให้ผลลัพธ์ที่แตกต่างกันเล็กน้อยและน่าสนใจ แต่โดยทั่วไปดูเหมือนจะให้การสลายตัวของความถี่

นี่คือลิงค์ไปยังรูปภาพที่ฉันทำจากชุดข้อมูลจุด; เส้นโค้งนั้นทำจากการโหลดของ factormatrix: หนึ่งโค้งการโหลดบนปัจจัยเดียว เส้นโค้งของ PC1 เครื่องแรกควรแสดงแอมพลิจูดสูงสุด (ประมาณเพราะมันมีผลรวมของการโหลดสูงสุด)32

คำถาม:

  • Q1: นี่เป็นคุณลักษณะจากการออกแบบหรือไม่ (ของ PCA ด้วยชุดข้อมูลประเภทนี้)
  • Q2: วิธีนี้เป็นวิธีที่ใช้สำหรับการวิเคราะห์ความถี่ / ความยาวคลื่นอย่างจริงจังหรือไม่?

[update] นี่คือชุดข้อมูล (หวังว่ามันจะออกมาคัดลอกให้คุณ)

-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3

ขอบคุณ @amoeba และสำหรับการแก้ไขมากมาย ฉันเพิ่งเห็นข้อผิดพลาดสองข้อที่ฉันต้องการแก้ไขในภายหลังคำถามนี้ดูดีกว่ามากตอนนี้!
หมวกกันน็อกกอทฟริด

คำตอบ:


4

ให้ฉันแปลงความคิดเห็นก่อนหน้าของฉันเป็นคำตอบ

คุณนึกแถวของเมทริกซ์ข้อมูลเป็นตัวแปรหรือตัวอย่างหรือไม่? ฉันจะสมมติว่าพวกเขาเป็นตัวอย่าง: เช่นคุณมีอนุกรมเวลาที่แตกต่างกัน (ตัวอย่าง)n=32

จากนั้นถ้าแถวเหมือนกันทั้งหมด แต่เลื่อนเป็นวงกลมโดยตำแหน่งเท่านั้นดังนั้นเมทริกซ์กรัมของข้อมูลของคุณซึ่งประกอบด้วยผลิตภัณฑ์ dot ระหว่างแถวของคู่ทั้งหมดจะมีโครงสร้าง Toeplitz: ค่าสูงใกล้กับ เส้นทแยงมุมและค่อยๆลดลงเป็นศูนย์ค่าห่างจากมัน Toeplitz เมทริกซ์มีโหมดฟูริเยร์ติดต่อกันในฐานะ eigenvectors (และ eigenvectors ของเมทริกซ์แกรมเป็นองค์ประกอบหลักจนถึงการปรับสเกล) ดังนั้นใช่สำหรับไตรมาสที่ 1 ของคุณ: ไม่แปลกใจเลยที่คุณจะได้รับคลื่นไซน์จากการเพิ่มความถี่เป็นพีซีn=321n×n

ไม่มีความคิดว่ามันจะมีประโยชน์ (Q2) จากประสบการณ์ของฉันมันดูเหมือนว่าจะเป็นสิ่งประดิษฐ์ที่น่ารำคาญ คนคือมีข้อมูลบางอย่างรับบางสิ่งที่คล้ายกับโหมดฟูริเยร์จาก PCA และเริ่มสงสัยว่าพวกเขาอาจหมายถึงอะไร


ดีมากขอบคุณมาก! ใช่ฉันคิดว่าข้อมูลตามแถว Q2 มาด้วยเพราะฉันไม่เคยเข้าใจจนถึงทุกวันนี้ว่าการวิเคราะห์ฟูริเยร์ทำงานอย่างไรและโดยบังเอิญนี่เป็นขั้นตอนเดียวที่จะได้รับสัญชาติญาณ (แต่ความหวังที่คลุมเครือนี้ดูเหมือนจะไร้ผลจริงที่นี่ ... )
Gottfried Helms

คุณคิดจะแบ่งปันซีรีส์ 32-time ที่มีค่าของคุณหรือไม่? ฉันต้องการแทรกรูปที่แสดงเมทริกซ์แกรมและฉันสามารถทำมันกับข้อมูลของคุณได้โดยตรง
อะมีบา

คุณเห็นลิงก์ในคำถามของฉันหรือไม่ มันเปลี่ยนเส้นทางไปยังหน้าเว็บที่ฉันทำโดยใช้ exce.l มีหน้าย่อย 4 หรือ 5 หน้าซึ่งสามารถเลือกได้โดย "firefox" ในการติดตั้งของฉันโดย clik บนแถบแท็บที่ด้านล่างของหน้าจอ หน้าย่อยแรกจะแสดงรายการข้อมูล อย่างไรก็ตามในแนวตั้ง: ควรใช้มันเป็นแถวแรกในตารางใหม่และเพิ่ม 31 แถวในขณะที่ขี่ไปทางขวา หากไม่สะดวกที่ฉันยังสามารถเพิ่มข้อมูลลงในคำถามของฉัน ...
Gottfried หมวก

โอ้ว้าวฉันไม่ได้ตระหนักว่ามันเป็นสเปรดชีตออนไลน์ทั้งหมดและไม่ใช่แค่ภาพหน้าจอ! ขอบคุณ
อะมีบา
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.