จะตีความ PCA บนข้อมูลอนุกรมเวลาได้อย่างไร


19

ฉันกำลังพยายามที่จะเข้าใจการใช้ PCA ในบทความวารสารล่าสุดเรื่อง "การทำแผนที่สมองในระดับที่มีการประมวลผลแบบกลุ่ม" Freeman et al., 2014 (pdf ฟรีมีให้บริการบนเว็บไซต์แล็บ ) พวกเขาใช้ข้อมูลอนุกรมเวลา PCA และใช้น้ำหนัก PCA เพื่อสร้างแผนที่ของสมอง

ข้อมูลนี้เป็นข้อมูลการถ่ายภาพแบบทดลองโดยเฉลี่ยเก็บไว้เป็นเมทริกซ์ (เรียกว่าในกระดาษ) โดยมี voxels (หรือตำแหน่งถ่ายภาพในสมอง)เวลาชี้ (ความยาวของเดี่ยว กระตุ้นให้สมอง) n× TY^n×t^

พวกเขาใช้ SVD ส่งผลให้ (บ่งชี้ว่าการเคลื่อนย้ายของเมทริกซ์ )VV

Y^=USV
VV

ผู้เขียนกล่าวว่า

องค์ประกอบหลัก (คอลัมน์ของ ) เป็นเวกเตอร์ของความยาวและคะแนน (คอลัมน์ของ ) เป็นเวกเตอร์ของความยาว (จำนวน voxels) อธิบายการฉายภาพของแต่ละ voxel ในทิศทาง ที่ได้รับจากองค์ประกอบที่สอดคล้องกันสร้างประมาณการบนปริมาณคือแผนที่ทั้งสมองT U nVt^Un

ดังนั้นเครื่องคอมพิวเตอร์ที่มีพาหะของความยาวหมวกเสื้อ ฉันจะตีความได้อย่างไรว่า "องค์ประกอบหลักตัวแรกอธิบายความแปรปรวนมากที่สุด" ตามที่แสดงในบทช่วยสอนของ PCA เราเริ่มต้นด้วยเมทริกซ์ของอนุกรมเวลาที่มีความสัมพันธ์สูงหลายชุดอนุกรมเวลาของพีซีเดี่ยวอธิบายความแปรปรวนของเมทริกซ์ดั้งเดิมอย่างไร ฉันเข้าใจการหมุนของจุดแบบเกาส์ไปยังแกนที่หลากหลายมากที่สุดทั้งหมด แต่ก็ไม่แน่ใจว่าสิ่งนี้เกี่ยวข้องกับอนุกรมเวลาได้อย่างไร ผู้แต่งหมายถึงอะไรตามทิศทางเมื่อพวกเขาระบุว่า: "คะแนน (คอลัมน์ของ ) เป็นเวกเตอร์ของความยาวt^ nUn (จำนวน voxels) อธิบายการฉายภาพของแต่ละ voxel ตามทิศทางที่กำหนดโดยองค์ประกอบที่สอดคล้องกัน "? เวลาขององค์ประกอบหลักจะมีทิศทางได้อย่างไร?

หากต้องการดูตัวอย่างของอนุกรมเวลาที่เกิดขึ้นจากการรวมกันเชิงเส้นของส่วนประกอบหลัก 1 และ 2 และแผนที่สมองที่เกี่ยวข้องไปที่ลิงค์และเมาส์ต่อไปนี้บนจุดในพล็อต XY

ฟรีแมนและคณะ

คำถามที่สองของฉันเกี่ยวข้องกับวิถี (พื้นที่ของรัฐ) ที่พวกเขาสร้างขึ้นโดยใช้คะแนนองค์ประกอบหลัก

สิ่งเหล่านี้ถูกสร้างขึ้นโดยรับ 2 คะแนนแรก (ในกรณีของตัวอย่าง "optomotor" ที่ฉันได้อธิบายไว้ข้างต้น) และคาดการณ์การทดลองแต่ละครั้ง (ใช้เพื่อสร้างเมทริกซ์เฉลี่ยที่อธิบายไว้ข้างต้น) ลงในพื้นที่ย่อยหลักโดยสมการ:

J=UY.

อย่างที่คุณเห็นจากภาพยนตร์ที่เชื่อมโยงร่องรอยแต่ละอันในพื้นที่รัฐแสดงถึงกิจกรรมของสมองโดยรวม

ใครสามารถให้สัญชาตญาณสำหรับสิ่งที่ "เฟรม" ของภาพยนตร์อวกาศหมายถึงแต่ละเมื่อเทียบกับตัวเลขที่เชื่อมโยงกับพล็อต XY ของคะแนนของพีซี 2 เครื่องแรก ที่ "เฟรม" ที่กำหนดสำหรับการทดลอง 1 ครั้งของการทดลองให้อยู่ใน 1 ตำแหน่งในพื้นที่รัฐ XY และการทดลองอีกครั้งจะอยู่ในตำแหน่งอื่นได้อย่างไร ตำแหน่งพล็อต XY ในภาพยนตร์เกี่ยวข้องกับองค์ประกอบหลักอย่างไรในรูปที่ลิงก์ที่กล่าวถึงในส่วนแรกของคำถามของฉัน

ฟรีแมนและคณะ


1
+1 ฉันแก้ไขคำถามของคุณดูว่ามีใครสามารถจัดรูปแบบสมการของ tex ได้ที่นี่ นอกจากนั้นฉันรู้ว่ากระดาษค่อนข้างดีดังนั้นจะตอบกลับในภายหลัง
อะมีบาพูดว่า Reinstate Monica

1
นี่ไม่ใช่สิ่งที่ OP ต้องการ แต่อาจกลายเป็นประโยชน์ในการตีความองค์ประกอบหลักเมื่อนำมาจากข้อมูลอนุกรมเวลาเนื่องจากฉันทำสิ่งนี้ตลอดเวลา ฉันมักจะต้องการตีความ PCA เป็นส่วนขยายของ Karhunen-Loève: แสดงชุดเวลาที่กำหนด (ชุดเวลาที่แตกต่างกันที่คุณใช้ PCA กับ) เป็นการรวมกันเชิงเส้นของอนุกรมเวลาที่ไม่เกี่ยวข้อง (เช่นองค์ประกอบหลัก) น้ำหนักของอนุกรมเวลาแต่ละชุดในกรณีนี้ได้รับจาก eigenvector ที่ได้จากเมทริกซ์ความแปรปรวนร่วม Xt
Néstor

1
(ดูสิ่งนี้สำหรับการอธิบายเชิงลึกเพิ่มเติมเกี่ยวกับประเด็นของฉัน: astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf )
Néstor

1
ฉันเพิ่มคำถามของคุณลงในสกรีนช็อตที่คุณอ้างถึงแล้ว
อะมีบาพูดว่า Reinstate Monica

คุณเพิ่มรูปภาพอย่างไร
statHacker

คำตอบ:


16

Q1: การเชื่อมต่อระหว่างอนุกรมเวลาของพีซีและ "ความแปรปรวนสูงสุด" คืออะไร

ข้อมูลที่ว่าพวกเขาจะมีการวิเคราะห์จุดข้อมูลสำหรับแต่ละเซลล์ประสาทดังนั้นหนึ่งสามารถคิดเกี่ยวกับว่าจุดข้อมูลในพื้นที่มิติ n มันคือ "คลาวด์ของคะแนน" ดังนั้นแสดงจำนวน PCA เพื่อค้นหาทิศทางของความแปรปรวนสูงสุดตามที่คุณทราบดี ฉันชอบที่จะเรียกทิศทางเหล่านี้ (ซึ่งเป็น eigenvectors ของเมทริกซ์ความแปรปรวนร่วม) "แกนหลัก" และประมาณการของข้อมูลไปยังทิศทางเหล่านี้ "องค์ประกอบหลัก" n T nRnt^nt^nRn

เมื่อวิเคราะห์อนุกรมเวลาสิ่งเดียวที่เพิ่มเติมในรูปภาพนี้คือจุดที่มีความหมายสั่งหรือลำดับเลข (จากถึง ) เมื่อเทียบกับการรวบรวมคะแนนที่ไม่มีการเรียงลำดับ ซึ่งหมายความว่าถ้าเราใช้อัตราการยิงของหนึ่งเซลล์ประสาทเดียว (ซึ่งเป็นหนึ่งในพิกัดใน ) ดังนั้นค่าของมันจะถูกพล็อตเป็นฟังก์ชันของเวลา ในทำนองเดียวกันถ้าเราใช้พีซีหนึ่งเครื่อง (ซึ่งเป็นเส้นโครงจากในบางบรรทัด) มันก็มีค่าและสามารถพล็อตเป็นฟังก์ชันของเวลาได้ ดังนั้นหากคุณสมบัติดั้งเดิมคืออนุกรมเวลาเครื่องพีซีก็จะเป็นอนุกรมเวลาด้วยT R n R n T1t^RnRnt^

ฉันเห็นด้วยกับการตีความของ @ Nestor ด้านบน: คุณลักษณะดั้งเดิมแต่ละอย่างนั้นสามารถมองเห็นได้ว่าเป็นการรวมกันเชิงเส้นของพีซีและเนื่องจากพีซีไม่ได้มีความเกี่ยวข้องกัน มันค่อนข้างเหมือนกับการวิเคราะห์ฟูริเยร์ แต่แทนที่จะพิจารณาพื้นฐานของไซน์และโคไซน์เรากำลังหาพื้นฐาน "ที่เหมาะสมที่สุด" สำหรับชุดข้อมูลนี้โดยเฉพาะในแง่ที่ว่าบัญชีพีซีเครื่องแรกสำหรับความแปรปรวนส่วนใหญ่ ฯลฯ

"การบัญชีสำหรับความแปรปรวนส่วนใหญ่" ที่นี่หมายความว่าหากคุณใช้ฟังก์ชั่นพื้นฐานอย่างเดียวเท่านั้น (อนุกรมเวลา) และพยายามที่จะประมาณคุณสมบัติทั้งหมดของคุณด้วยมันคอมพิวเตอร์เครื่องแรกจะทำงานได้ดีที่สุด ดังนั้นสัญชาตญาณพื้นฐานที่นี่ก็คือพีซีเครื่องแรกเป็นอนุกรมเวลาของฟังก์ชั่นพื้นฐานที่เหมาะกับอนุกรมเวลาทั้งหมดที่ดีที่สุด ฯลฯ


เหตุใดข้อความนี้ในฟรีแมนและคณะ สับสนงั้นเหรอ?

ฟรีแมนและคณะ วิเคราะห์ data matrixด้วยตัวแปร (เช่นเซลล์ประสาท) ในแถว (!) ไม่ใช่ในคอลัมน์ โปรดทราบว่าพวกเขาลบแถวหมายความว่าซึ่งทำให้รู้สึกเป็นตัวแปรมักจะเป็นศูนย์กลางก่อนที่ PCA จากนั้นพวกเขาจะทำการแสดง SVD:การใช้คำศัพท์ที่ฉันสนับสนุนด้านบนคอลัมน์ของเป็นแกนหลัก (ทิศทางใน ) และคอลัมน์ของเป็นองค์ประกอบหลัก (อนุกรมเวลาของความยาว ) Y =USV URnSวีทีY^

Y^=USV.
URnSVt^

ประโยคที่คุณยกมาจากฟรีแมนและคณะ ค่อนข้างสับสนจริง ๆ :

องค์ประกอบหลัก (คอลัมน์ของ ) เป็นเวกเตอร์ของความยาวและคะแนน (คอลัมน์ของ ) เป็นเวกเตอร์ของความยาว (จำนวน voxels) อธิบายการฉายภาพของแต่ละ voxel ในทิศทาง ที่ได้รับจากองค์ประกอบที่สอดคล้องกันสร้างประมาณการบนปริมาณคือแผนที่ทั้งสมองT U nVt^Un

ก่อนอื่นคอลัมน์ของไม่ใช่พีซี แต่พีซีปรับขนาดเป็นหน่วยมาตรฐาน ประการที่สองคอลัมน์ของไม่ได้คะแนนเพราะ "คะแนน" มักจะหมายถึงพีซี ประการที่สาม "ทิศทางที่กำหนดโดยองค์ประกอบที่สอดคล้องกัน" เป็นแนวคิดที่คลุมเครือ ฉันคิดว่าพวกเขาพลิกภาพที่นี่และแนะนำให้คิดเกี่ยวกับจุดใน -dimensional space ดังนั้นตอนนี้แต่ละเซลล์ประสาทเป็นจุดข้อมูล (ไม่ใช่ตัวแปร) แนวคิดดูเหมือนจะเป็นการเปลี่ยนแปลงครั้งใหญ่ แต่ในทางคณิตศาสตร์มันแทบจะไม่แตกต่างอะไรเลยเมื่อมีการเปลี่ยนแปลงเพียงอย่างเดียวนั่นคือแกนหลักและส่วนประกอบหลัก [ยูนิต - นอร์ม] เปลี่ยนสถานที่ ในกรณีนี้พีซีของฉันจากด้านบน ( long time series) จะกลายเป็นแกนหลักเช่นU n T T UVUnt^t^คำแนะนำและสามารถคิดได้ว่าเป็นการคาดการณ์แบบปกติบนเส้นทางเหล่านี้ (คะแนนปกติ?)U

ฉันพบว่ามันสับสนมากและฉันแนะนำให้เพิกเฉยต่อการเลือกคำ แต่ดูที่สูตรเท่านั้น จากจุดนี้ไปเรื่อย ๆ ฉันจะใช้คำศัพท์อย่างที่ฉันชอบพวกเขาไม่ใช่ Freeman และคณะ ใช้มัน.


Q2: วิถีพื้นที่ของรัฐคืออะไร?

พวกเขาใช้ข้อมูลการทดลองเดี่ยวและฉายมันลงบนสองแกนหลักแรกนั่นคือสองคอลัมน์แรกของ ) หากคุณทำกับ dataต้นฉบับคุณจะได้รับส่วนประกอบหลักสองชิ้นแรกกลับมา อีกครั้งการฉายภาพบนแกนหลักหนึ่งแกนคือองค์ประกอบหลักหนึ่งชุดคือ long timeY เสื้อUY^t^

หากคุณทำกับ dataแบบทดลองครั้งเดียวคุณจะได้อนุกรม long อีกสองชุด ในภาพยนตร์แต่ละบรรทัดจะสอดคล้องกับเส้นโครงดังกล่าว: พิกัด x จะวิวัฒนาการตาม PC1 และพิกัด y ตาม PC2 นี่คือสิ่งที่เรียกว่า "พื้นที่ของรัฐ": PC1 ทำแผนที่กับ PC2 เวลาผ่านไปเมื่อจุดเคลื่อนที่ไปรอบ ๆเสื้อYt^

บรรทัดในหนังเรื่องนี้แต่ละคนจะได้รับกับการพิจารณาคดีเดียวที่แตกต่างกันYY


ฉันถามคำถามนี้เป็นความคิดเห็นด้านล่าง แต่ @amoeba อาจช่วยได้ไหม ส่วนประกอบหลักน้ำหนักแรกเป็นเวกเตอร์เพียงแค่อนุกรมเวลาเฉลี่ยยุบลงใน voxels ทั้งหมดหรือไม่ หากเป็นค่าเฉลี่ยมันจะส่งผลให้คะแนนที่เล็กที่สุดสอดคล้องกับการติดตามข้อมูลของแต่ละบุคคล -
statHacker

1
คำตอบสั้น ๆ คือไม่ปกติแล้วมันไม่ใช่ซีรีย์เวลาเฉลี่ยแม้ว่าในหลาย ๆ กรณีมันจะค่อนข้างใกล้เคียง ยกตัวอย่างเช่นลองนึกถึงชุดเวลาที่เป็นเส้นตรงที่มีความลาดชันต่างกัน (ทั้งบวกและลบ) ทั้งหมดจะผ่านศูนย์ จากนั้นอนุกรมเวลาเฉลี่ยรอบศูนย์คงที่ แต่พีซีเครื่องแรกจะเป็นเส้นตรงที่แรง BTW ฉันคิดว่านี่เป็นคำถามที่ยอดเยี่ยมและหากคุณต้องการรายละเอียดเพิ่มเติมและ / หรือตัวเลขโปรดถาม (อีกครั้ง) เป็นคำถามแยกต่างหาก อย่าลืมทำซ้ำส่วนใด ๆ ของคำถามนี้เกี่ยวกับฟรีแมนและคณะ; แยกพวกมันออก
อะมีบาพูดว่า Reinstate Monica

(หรือใครก็ตามที่สนใจคำตอบ) - สำหรับไตรมาสที่ 2 คุณหมายถึง "โครงการ [แต่ละการทดลอง] ไปยัง [พีซีสองเครื่องแรก" ในทางคณิตศาสตร์เป็นที่ชัดเจนว่า U เป็นเวกเตอร์ของความยาว n voxels และเมื่อเมทริกซ์คูณด้วยความยาว n เมทริกซ์ Y เราจะสามารถลดขนาดของพีซีที่ 2 คุณสามารถให้สัญชาตญาณเกี่ยวกับ U เป็นเมทริกซ์ของคะแนน (เช่นระยะทางของแต่ละ voxel จากพีซี 2 เครื่องแรก) ฉันคิดว่าแต่ละ timepoint ของ J เป็นค่าเฉลี่ย 2 d ของการฉายตำแหน่ง voxels แต่ละตำแหน่งในพล็อต 2 มิติของภาพที่ 1 ด้านบนได้หรือไม่
statHacker

คุณพูดถูกฉันอธิบายได้ไม่ดี ฉันแก้ไขคำถามของฉันขยายไปหลายส่วน โปรดอ่านอีกครั้งตั้งแต่ต้น (หรือดูสิ่งที่ฉันเปลี่ยน) เพื่อให้แน่ใจว่าคุณทำตาม อย่าคิดว่าเป็น "คะแนน" !! คือแกนหลักทิศทางในอวกาศของเซลล์ประสาท พวกเขาทำการทดลองเดี่ยวและฉายภาพบนแกนหลักสองแกนแรก สิ่งที่พวกเขาได้รับ (จากการทดลองหนึ่งครั้ง) คืออนุกรมสองเวลา พวกเขาสามารถพล็อตทั้งสองเป็นฟังก์ชั่นของเวลา แต่แทนที่จะพล็อตมันกับอีกอันหนึ่ง: PC1 กับ PC2 นี่คือ "พื้นที่รัฐ" แต่ละบรรทัดสอดคล้องกับการทดลองเดี่ยวที่แตกต่างกัน! ดังนั้นสำหรับคำถามสุดท้ายของคุณ: ไม่! UUU
อะมีบาพูดว่า Reinstate Monica

“ ” เป็นคำที่พิมพ์ผิดด้านบนใช่หรือไม่: "การใช้คำศัพท์ที่ฉันสนับสนุนด้านบนคอลัมน์ของ U คือแกนหลัก (ทิศทางใน Rn) และคอลัมน์ของ SV เป็นองค์ประกอบหลัก (อนุกรมเวลาของความยาว t ^)" SV
statHacker

1

ด้วยความเคารพต่อคำถามแรก พิจารณาอนุกรมเวลาทั้งหมดผ่าน voxel ที่เฉพาะเจาะจงเพื่อดึงจากการกระจายหลายตัวแปร ตอนนี้เราสามารถคิดได้ว่านี่เป็นเวกเตอร์หลายตัวแปรเหมือนกับที่เราอาจใช้ PCA กับ คอลัมน์แรกของคือ eigen-timecourses ซึ่งเมื่อรวมกันเป็นเส้นตรงจะให้ค่าประมาณที่ดีที่สุดสำหรับเส้นทางเวลาผ่าน voxel ที่เจาะจงสำหรับช่วงเวลาของสิ่งเร้าวีทีpVt^

ดังนั้นเป็นเมทริกซ์และดังนั้นจึงเป็นในขณะที่คือหมวกเสื้อ n× T Un×nVเสื้อ × TY^n×t^Un×nVt^×t^

ด้วยความเคารพต่อคำถามที่สอง สมการที่ได้รับคือ

J=UTY

เราได้รับเป็นเมทริกซ์2 หรือ 3(สิ่งนี้เกี่ยวข้องกับมือเล็ก ๆ น้อย ๆ ในการวางแถว / คอลัมน์) สองหรือสามถูกเลือกเป็นมิติเช่นนี้เป็นสิ่งที่สามารถลงจุดในรูปที่ 6 ของกระดาษ× tJ×t

อย่างไรก็ตาม ดังนั้นฉันจึงคาดว่าจะมีการแยกร่องรอย (เส้นในรูปที่ 6) โดยการสับลงในส่วนต่างๆที่สอดคล้องกับการนำเสนอของสิ่งเร้า แต่ละบล็อกเหล่านี้สามารถลงจุดในพื้นที่ 2 หรือ 3 มิติโดยพิจารณาแต่ละคอลัมน์เป็นจุดในพื้นที่นั้นแล้ววาดเส้นระหว่างจุดที่กำหนดโดยคอลัมน์ที่อยู่ติดกันที่ให้วิถีเจtt^J

จากต่อไปนี้จากวิดีโอด้านบน 8 ปรากฏขึ้นสำหรับแต่ละบล็อกเพื่อเพิ่มแต่ละจุด (คอลัมน์ -) ตามลำดับเข้าร่วมกับจุดสุดท้ายและแสดงลำดับความยาวเป็นวิดีโอt^

ฉันไม่เคยจัดการกับวิธีการระบายสีมาก่อนและจะใช้เวลาสักครู่ก่อนที่ฉันจะมั่นใจในการแสดงความคิดเห็นในด้านนั้น ฉันพบความคิดเห็นเกี่ยวกับความคล้ายคลึงกับรูปที่ 4c ทำให้เกิดความสับสนขณะที่สีได้มาจากการถดถอยแบบต่อเนื่อง โดยที่ในรูปที่ 6 การติดตามแต่ละครั้งนั้นเป็นสิ่งประดิษฐ์ทั้งภาพ ถ้าฉันพูดไม่ออกฉันคิดว่ามันเป็นทิศทางของการกระตุ้นเศรษฐกิจในช่วงเวลานั้นตามความคิดเห็นในรูป


ตัวเลขแรกข้างต้นหมายถึงการทดลองที่มีการกระตุ้นด้วยภาพเหมือนกันทุกครั้ง มีตัวเลขและภาพยนตร์ต่างกันสำหรับข้อมูลเหล่านั้น รูปที่สองข้างต้นหมายถึงการทดลองที่แตกต่างกันซึ่งสิ่งเร้านั้นเป็นสิ่งเร้าทางสายตาที่มีทิศทางที่แตกต่างกันร่องรอยในรูปที่ 2 ด้านบนมีสีเพื่อให้สอดคล้องกับทิศทางของสิ่งเร้าทางสายตาที่แตกต่างกัน
statHacker

นอกจากนี้คุณถูกต้องแล้วที่เวกเตอร์ดั้งเดิมถูกสับได้สูงสุดT \ nYT^ \n
statHacker

คุณทำให้ฉันสับสนโดยคุยและในสมการ คุณหมายถึงคอลัมน์ 2 หรือ 3 คอลัมน์แรกของหรือไม่ S J = U Y ยูVS
J=UY.
U
statHacker

ฉันจัดสิ่งใหม่ ขอโทษเป็นซ้ายก่อนที่ฉันจะแยกออกอย่างอื่น
คาดเดา

ขอบคุณสำหรับความช่วยเหลือของคุณ ส่วนประกอบหลักน้ำหนักแรกเป็นเวกเตอร์เพียงแค่อนุกรมเวลาเฉลี่ยยุบลงใน voxels ทั้งหมดหรือไม่ หากเป็นค่าเฉลี่ยมันจะส่งผลให้คะแนนที่เล็กที่สุดสอดคล้องกับการติดตามข้อมูลของแต่ละบุคคล
statHacker
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.