ฟังก์ชั่นการวิเคราะห์องค์ประกอบหลัก (FPCA): มันเกี่ยวกับอะไร?


21

ฟังก์ชั่นการวิเคราะห์องค์ประกอบหลัก (FPCA) เป็นสิ่งที่ฉันสะดุดและไม่เคยเข้าใจ มันเกี่ยวกับอะไร?

ดูที่"การสำรวจการวิเคราะห์องค์ประกอบหลักของการทำงาน" โดย Shang, 2011และฉันอ้างถึง:

PCA ประสบปัญหาร้ายแรงในการวิเคราะห์ข้อมูลการใช้งานเพราะ“ คำสาปของมิติ” (Bellman 1961) "การสาปแช่งของมิติ" มาจากข้อมูล sparsity ในพื้นที่มิติสูง แม้ว่าคุณสมบัติทางเรขาคณิตของ PCA จะยังคงใช้งานได้และแม้ว่าเทคนิคเชิงตัวเลขจะให้ผลลัพธ์ที่คงที่ แต่เมทริกซ์ความแปรปรวนร่วมตัวอย่างก็เป็นค่าประมาณที่ไม่ดีของเมทริกซ์ความแปรปรวนร่วมของประชากร เพื่อที่จะเอาชนะความยากลำบากนี้ FPCA ได้เตรียมวิธีที่ให้ข้อมูลในการตรวจสอบโครงสร้างความแปรปรวนร่วมตัวอย่างมากกว่า PCA [... ]

ฉันแค่ไม่เข้าใจ บทความนี้อธิบายถึงข้อเสียเปรียบอะไร PCA ไม่ควรจะเป็นวิธีที่ดีที่สุดในการจัดการสถานการณ์เช่น "คำสาปแห่งมิติ"?

คำตอบ:


7

ตรงตามที่คุณระบุไว้ในคำถามและตามที่ @tdc ระบุไว้ในคำตอบของเขาในกรณีที่มีมิติที่สูงมากแม้ว่าคุณสมบัติทางเรขาคณิตของ PCA ยังคงมีผลบังคับใช้เมทริกซ์ความแปรปรวนร่วมจะไม่เป็นการประมาณค่าความแปรปรวนประชากรที่แท้จริง


มีกระดาษที่น่าสนใจอย่างมากคือ"การวิเคราะห์ส่วนประกอบหลักของหน้าที่การทำงานของข้อมูล fMRI" ( pdf ) ที่พวกเขาใช้ PCA เชิงหน้าที่เพื่อดูความแปรปรวน:

... เช่นเดียวกับเทคนิคการสำรวจอื่น ๆ วัตถุประสงค์คือการให้การประเมินเบื้องต้นที่จะให้โอกาสข้อมูล "พูดด้วยตนเอง" ก่อนที่จะเลือกรูปแบบที่เหมาะสม [ ... ]

ในกระดาษพวกเขาอธิบายว่าพวกเขาทำมันอย่างไรและยังให้เหตุผลเชิงทฤษฎี:

ข้อได้เปรียบที่สำคัญของวิธีนี้ประกอบด้วยความเป็นไปได้ในการระบุชุดของสมมติฐานในการเลือกชุดฟังก์ชั่นพื้นฐานและในฟังก์ชั่นข้อผิดพลาดที่ย่อเล็กสุดโดยเหมาะสม สมมติฐานเหล่านี้จะอ่อนแอกว่าการคาดการณ์ของฟังก์ชั่นการไหลเวียนโลหิตที่กำหนดไว้ล่วงหน้าและชุดของเหตุการณ์หรือเงื่อนไขเช่นเดียวกับใน F-masking ดังนั้นการรักษาลักษณะการสำรวจของกระบวนการ; อย่างไรก็ตามสมมติฐานอาจยังเข้มงวดเพียงพอที่จะเอาชนะความแตกต่างของ PCA ทั่วไป


ฉันกำลังพยายามเข้าใจตรรกะที่อยู่เบื้องหลัง FPCA ฉันดูกระดาษที่คุณอ้างถึง แต่ก็ยังสับสนอยู่ การตั้งค่าคือเมทริกซ์ข้อมูลเป็นของขนาดที่มีnอนุกรมเวลาที่สังเกตของความยาวเสื้อ» n ด้วย PCA เราสามารถหาeigenvector t- long ตัวแรกของเมทริกซ์ความแปรปรวนร่วมได้ การเรียกร้องคือมันจะมีเสียงดังมาก วิธีการแก้ปัญหา FPCA เป็นที่ใกล้เคียงกับแต่ละชุดเวลากับkฟังก์ชั่นพื้นฐาน ( k « T ) และจากนั้นทำการ PCA ในพื้นที่ฟังก์ชั่นพื้นฐาน แก้ไข? ถ้าเป็นเช่นนั้นแล้วมันจะแตกต่างจากการปรับให้เรียบแต่ละครั้งในแบบอนุกรมแล้วใช้ PCA มาตรฐานอย่างไร ทำไมชื่อพิเศษ n×เสื้อnเสื้อ»nเสื้อkk«เสื้อ
อะมีบาพูดว่า Reinstate Monica

หลังจากอ่านเพิ่มเติมเล็กน้อยฉันตัดสินใจโพสต์คำตอบของฉันเอง บางทีคุณอาจจะสนใจ แน่นอนฉันจะขอบคุณความเข้าใจที่ลึกซึ้งยิ่งขึ้น
อะมีบาพูดว่า Reinstate Monica

24

ฉันพบว่า "functional PCA" เป็นแนวคิดที่สร้างความสับสนโดยไม่จำเป็น มันไม่ได้แยกจากกันเลยมันเป็น PCA มาตรฐานที่ใช้กับอนุกรมเวลา

nเสื้อn×เสื้อเสื้อ»n201000เสื้อ

หนึ่งสามารถใช้ PCA มาตรฐานได้ที่นี่ เห็นได้ชัดว่าในคำพูดของคุณผู้เขียนมีความกังวลว่าชุดเวลาไอเก็นที่เกิดขึ้นจะมีเสียงดังเกินไป สิ่งนี้สามารถเกิดขึ้นได้แน่นอน! สองวิธีที่ชัดเจนในการจัดการกับสิ่งนั้นคือ (a) ทำให้ eigen-time-series ที่เกิดขึ้นราบรื่นหลังจาก PCA หรือ (b) เพื่อทำให้อนุกรมเวลาดั้งเดิมราบรื่นขึ้นก่อนที่จะทำ PCA

kเสื้อk

บทเรียนเกี่ยวกับ FPCA มักจะมีการพูดคุยกันอย่างยาวนานเกี่ยวกับวิธีการทั่วไป PCA ไปยังช่องว่างการทำงานของมิติที่ไม่มีที่สิ้นสุด แต่ความเกี่ยวข้องในทางปฏิบัติของมันนั้นเกินกว่าฉันทั้งหมดในทางปฏิบัติข้อมูลการทำงานมักจะไม่สนใจ

นี่คือภาพที่นำมาจาก Ramsay และ Silverman "ฟังก์ชั่นการวิเคราะห์ข้อมูล" ตำราซึ่งดูเหมือนว่าจะเอกสารที่ชัดเจนเกี่ยวกับ "การวิเคราะห์ข้อมูลการทำงาน" รวมทั้ง FPCA:

Ramsay และ Silverman, FPCA

จะเห็นได้ว่าการทำ PCA บน "discretized data" (points) ให้ผลเช่นเดียวกับการทำ FPCA ในฟังก์ชั่นที่เกี่ยวข้องใน Fourier (บรรทัด) แน่นอนว่าคนแรกสามารถแยก PCA ออกได้ก่อนแล้วจึงใส่ฟังก์ชั่นในแบบฟูเรียร์เดียวกัน มันจะให้ผลมากหรือน้อยเหมือนกัน

เสื้อ=12n>เสื้อ


2
ในกรณีที่ลูกทีมเบาบางตัวอย่างสม่ำเสมอ (เช่น. ข้อมูลระยะยาว) เดอะ FPCA คือมีส่วนร่วมมากขึ้นกว่า " interpolating แล้วเรียบที่เกิด Eigen เวลาชุด " ตัวอย่างเช่นแม้ว่าจะมีใครบางคนได้รับ eigencomponents การคำนวณคะแนนการฉายของข้อมูลที่กระจัดกระจายไม่ได้กำหนดไว้อย่างดี; ดูตัวอย่าง: Yao et al JASA 2005 ได้รับสิทธิ์สำหรับกระบวนการตัวอย่างที่หนาแน่นเป็นประจำ FPCA เป็น PCA ที่มีประสิทธิภาพพร้อมกับบทลงโทษที่ราบรื่นด้านบน
usεr11852พูดว่า Reinstate Monic

ขอบคุณ @ usεr11852 (+1) ฉันต้องการค้นหาเวลาเพื่อค้นหามันอีกครั้ง ฉันจะพยายามค้นหากระดาษที่คุณอ้างอิงและกลับไปที่คำตอบนี้
อะมีบาพูดว่า Reinstate Monica

@ amoeba, ทั้งหมดนี้ฟังดูเกือบจะเกี่ยวข้องกับการแปลงฟูริเยร์แบบไม่ต่อเนื่อง, ที่ซึ่งคุณสามารถกู้คืนองค์ประกอบคลื่นของคอมเพล็กซ์คลื่น / อนุกรมเวลา?
รัสเซลริชชี่

9

ฉันทำงานเป็นเวลาหลายปีกับ Jim Ramsay เกี่ยวกับ FDA ดังนั้นฉันอาจจะเพิ่มคำอธิบายบางอย่างลงในคำตอบของ @ amoeba ฉันคิดว่าในระดับที่ใช้ได้จริง @amoeba นั้นถูกต้องแล้ว อย่างน้อยนั่นคือข้อสรุปสุดท้ายฉันก็มาถึงหลังจากศึกษา FDA อย่างไรก็ตามกรอบการทำงานขององค์การอาหารและยาให้ข้อมูลเชิงลึกทางทฤษฎีที่น่าสนใจว่าทำไมการปรับให้เรียบของ eigenvector เป็นมากกว่าเพียงแค่กากตะกอน ปรากฎว่า optmization ในพื้นที่ฟังก์ชั่นภายใต้ผลิตภัณฑ์ภายในที่มีการลงโทษที่ราบรื่นให้วิธีการแก้ปัญหามิติ จำกัด ของเส้นโค้งพื้นฐาน องค์การอาหารและยาใช้พื้นที่ฟังก์ชั่นมิติที่ไม่มีที่สิ้นสุด แต่การวิเคราะห์ไม่จำเป็นต้องมีจำนวนมิติ มันเหมือนกับเคล็ดลับเคอร์เนลในกระบวนการ Gaussian หรือ SVM มันเหมือนกับกลลวงเคอร์เนลจริง ๆ แล้ว

งานดั้งเดิมของ Ramsay จัดการกับสถานการณ์ที่เรื่องราวหลักในข้อมูลชัดเจน: ฟังก์ชั่นมีเส้นตรงมากขึ้นหรือน้อยลงหรือเป็นระยะมากขึ้นหรือน้อยลง eigenvectors ที่โดดเด่นของ PCA มาตรฐานจะสะท้อนให้เห็นถึงระดับโดยรวมของฟังก์ชั่นและแนวโน้มเชิงเส้น (หรือฟังก์ชันไซน์) โดยทั่วไปบอกสิ่งที่เรารู้แล้ว คุณสมบัติที่น่าสนใจอยู่ในส่วนที่เหลือซึ่งตอนนี้มีผู้สอนวิชาไอเก็นหลายคนจากด้านบนของรายการ และเนื่องจากไอเก็นเวกเตอร์แต่ละอันจะต้องเป็นฉากฉากกับฉากก่อนหน้าโครงสร้างเหล่านี้จึงขึ้นอยู่กับสิ่งประดิษฐ์ของการวิเคราะห์มากขึ้นและน้อยลงในคุณสมบัติที่เกี่ยวข้องของข้อมูล ในการวิเคราะห์ปัจจัยการหมุนของปัจจัยเอียงมีจุดมุ่งหมายเพื่อแก้ไขปัญหานี้ ความคิดของ Ramsay ไม่ได้เป็นการหมุนส่วนประกอบ แต่ต้องการเปลี่ยนนิยามของ orthogonality ในแบบที่จะสะท้อนความต้องการของการวิเคราะห์ได้ดีขึ้น ซึ่งหมายความว่าหากคุณกังวลเกี่ยวกับองค์ประกอบตามกำหนดเวลาคุณจะราบรื่นบนพื้นฐานของD3-DD2

หนึ่งอาจคัดค้านว่าการลบแนวโน้มด้วย OLS นั้นง่ายกว่าและตรวจสอบยอดคงเหลือของการดำเนินการนั้น ฉันไม่เคยเชื่อเลยว่าการเพิ่มมูลค่าของ FDA มีค่ากับความซับซ้อนของวิธีการนี้ แต่จากมุมมองทางทฤษฎีมันก็คุ้มค่าที่จะพิจารณาประเด็นที่เกี่ยวข้อง ทุกสิ่งที่เราทำกับข้อมูลทำให้เกิดความยุ่งเหยิง ส่วนที่เหลือของ OLS นั้นสัมพันธ์กันแม้ว่าข้อมูลต้นฉบับจะเป็นอิสระ การปรับให้เรียบชุดเวลาเป็นการแนะนำ autocorrelations ที่ไม่ได้อยู่ในชุดข้อมูลดิบ แนวคิดขององค์การอาหารและยาคือเพื่อให้แน่ใจว่าสิ่งที่เหลืออยู่ที่เราได้รับจากการทำลายล้างครั้งแรกนั้นเหมาะสมกับการวิเคราะห์ความสนใจ

คุณต้องจำไว้ว่าองค์การอาหารและยามีต้นกำเนิดมาในช่วงต้นทศวรรษที่ 80 เมื่อมีการทำหน้าที่ spline ภายใต้การศึกษาที่กระตือรือร้น - ให้คิดถึงเกรซวาห์บ้าและทีมของเธอ มีวิธีการมากมายสำหรับข้อมูลหลายตัวแปรที่เกิดขึ้นตั้งแต่นั้นมาเช่น SEM การวิเคราะห์กราฟการเติบโตกระบวนการแบบเกาส์เซชั่นการพัฒนาเพิ่มเติมในทฤษฎีกระบวนการสโทคาสติกและอื่น ๆ อีกมากมาย ฉันไม่แน่ใจว่าองค์การอาหารและยายังคงเป็นแนวทางที่ดีที่สุดสำหรับคำถามที่อยู่ ในทางกลับกันเมื่อฉันเห็นการใช้งานของสิ่งที่อ้างว่าเป็น FDA ฉันมักจะสงสัยว่าผู้เขียนเข้าใจจริงๆหรือไม่ว่า FDA กำลังพยายามทำอะไร


+1 อุ๊ปส์ฉันสังเกตเห็นคำตอบของคุณแล้วตอนนี้และโดยบังเอิญเท่านั้น (มีคนอื่นฝากความคิดเห็นไว้ใต้คำตอบของฉันที่นี่และฉันเลื่อนลงมา) ขอบคุณมากสำหรับการมีส่วนร่วม! ฉันคิดว่าฉันต้องหาเวลาในการอ่านเพิ่มเติมและคิดเกี่ยวกับสิ่งที่คุณพูดเกี่ยวกับความคล้ายคลึงกับเคอร์เนลเคล็ดลับ มันฟังดูสมเหตุสมผล
อะมีบาพูดว่า Reinstate Monica

5

ผมไม่แน่ใจว่าเกี่ยวกับ FPCA แต่สิ่งหนึ่งที่ต้องจำไว้คือว่าในมากขนาดสูงมีมากขึ้น "พื้นที่" และจุดภายในพื้นที่เริ่มต้นที่จะมีลักษณะการกระจายอย่างสม่ำเสมอ (คือทุกสิ่งที่อยู่ไกลจากทุกอย่างอื่น) เมื่อมาถึงจุดนี้เมทริกซ์ความแปรปรวนร่วมจะเริ่มมีลักษณะเหมือนกันและจะมีความไวสูงต่อเสียงรบกวน มันจึงกลายเป็นประมาณการที่ไม่ดีของความแปรปรวนร่วม "ที่แท้จริง" บางที FPCA อาจถูกปัดเศษ แต่ก็ไม่แน่ใจ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.