คุณสมบัติของ PCA สำหรับการสังเกต


23

เรามักจะใช้ PCA เป็นเทคนิคการลดขนาดสำหรับข้อมูลที่กรณีจะถือว่าเป็น iid

คำถาม:อะไรคือความแตกต่างทั่วไปในการใช้ PCA สำหรับข้อมูลที่ขึ้นกับข้อมูลที่ไม่ใช่ของ iid คุณสมบัติที่ดี / มีประโยชน์ของ PCA ที่เก็บไว้สำหรับข้อมูล iid นั้นถูกบุกรุก (หรือสูญหายทั้งหมด)?

ตัวอย่างเช่นข้อมูลอาจเป็นอนุกรมเวลาหลายตัวแปรในกรณีที่ autocorrelation หรือ autorgressive heteroskedasticity ตามเงื่อนไข (ARCH) สามารถคาดหวังได้

มีคำถามที่เกี่ยวข้องหลายประการเกี่ยวกับการใช้ PCA กับข้อมูลอนุกรมเวลาซึ่งเคยมีการถามมาก่อนเช่น1 , 2 , 3 , 4แต่ฉันกำลังมองหาคำตอบทั่วไปและครอบคลุมมากขึ้น

แก้ไข:ตามที่บันทึกไว้โดย @ttnphns ตัว PCA เองไม่ใช่การวิเคราะห์เชิงอนุมาน อย่างไรก็ตามหนึ่งอาจสนใจในการวางนัยทั่วไปของ PCA คือการเน้นไปที่ประชากรของ PCA ตัวอย่าง เช่นเขียนในNadler (2008) :

สมมติว่าข้อมูลที่ได้รับเป็นตัวอย่าง จำกัด และสุ่มจากการแจกแจง (โดยทั่วไปไม่ทราบ) คำถามเชิงทฤษฎีและการปฏิบัติที่น่าสนใจคือความสัมพันธ์ระหว่างตัวอย่างผลลัพธ์ PCA ที่คำนวณจากข้อมูล จำกัด และแบบจำลองประชากรพื้นฐาน

อ้างอิง:


14
เพียงเพื่อทราบ PCA นั้นไม่ใช่การวิเคราะห์เชิงอนุมาน มันเป็นการเปลี่ยนแปลงของชุดข้อมูลหลายตัวแปรของตัวเลข แกนกลางของมันเป็นเพียง svd หรือ eigendecomposition ดังนั้นจึงไม่ได้ทำให้สมมติฐานการสังเกตเป็นอิสระ ข้อสันนิษฐานเกิดขึ้นเมื่อเราใช้ PCA เป็นเครื่องมือทางสถิติในการวิเคราะห์ตัวอย่างจากประชากร แต่พวกเขาไม่ใช่สมมติฐานของ PCA ตัวอย่างเช่นการทดสอบความกลมเพื่อตัดสินใจว่า PCA นั้นมีเหตุผลในการลดข้อมูลไม่จำเป็นต้องมีอิสระและการทดสอบอาจดูเหมือนว่าการทดสอบสมมติฐาน "ภายใน PCA" แต่จริงๆแล้วมันเป็นการทดสอบ "นอก"
ttnphns

@ttnphns จุดดีมากขอบคุณ หากคุณเห็นวิธีที่เป็นระเบียบในการแก้ไขโพสต์ของฉัน ฉันจะคิดถึงมันเองเช่นกัน
Richard Hardy

1
Richard คำถามของคุณดีและสำคัญ (+1) บางทีฉันอาจจะบอกอีกครั้งในลักษณะเช่น "เรามักจะใช้ PCA เพื่อลดมิติข้อมูลสำหรับกรณีที่ iid สันนิษฐานว่า ... ความแตกต่างทั่วไปในการใช้ PCA สำหรับข้อมูลอนุกรมเวลาคือกรณีใด (เวลา คะแนน) การพึ่งพาซึ่งกันและกันเป็นความล่าช้า ... ? "
ttnphns

1
@ amoeba ใช่ไหม แต่เราแทบจะไม่หยุดเพียงแค่รับโหลดของพีซี ในขั้นตอนที่มักทำตาม PCA เราควรตระหนักถึงสิ่งใดภายใต้การไม่อยู่ในขอบเขต ฉันหวังว่าคำตอบอาจดีกว่าคำถาม (ในสูตรปัจจุบัน) หากคุณมองอย่างหลวม ๆ / สร้างสรรค์คุณอาจได้คะแนนที่ดี
Richard Hardy

2
PCA จะเคารพเฉพาะการเชื่อมโยง "แนวนอน" เท่านั้น (เช่นระหว่างคอลัมน์) และละเว้น "แนวตั้ง" (ระหว่างเคส): เมทริกซ์ความแปรปรวนร่วมของคอลัมน์จะเท่ากันถ้าคุณสลับลำดับของกรณี ไม่ว่าสิ่งนี้จะถูกเรียกว่า "ไม่มีข้อสันนิษฐานสำหรับกรณีความสัมพันธ์ต่อเนื่อง" หรือ "การสันนิษฐานสำหรับกรณีอิสระ" เป็นเรื่องของรสนิยม การสันนิษฐานของ iid นั้นเป็นค่าเริ่มต้นในการวิเคราะห์ข้อมูลและวิธีการต่าง ๆ ที่ไม่ได้ให้ความสนใจเป็นพิเศษกับคำสั่งของเคสเช่น PCA อาจถูกกล่าวถึง "การสนับสนุนแบบเงียบ" สำหรับการสันนิษฐานของ iid
ttnphns

คำตอบ:


1

สมมุติว่าคุณสามารถเพิ่มองค์ประกอบเวลาเป็นคุณสมบัติเพิ่มเติมในจุดตัวอย่างของคุณและตอนนี้มันเป็น iid โดยทั่วไปจุดข้อมูลดั้งเดิมมีเงื่อนไขตรงเวลา:

พี(xผม|เสื้อผม)พี(xผม)

แต่ถ้าเรานิยามเราก็จะได้:xผม'={xผม,เสื้อผม}

พี(xผม'|เสื้อผม)=พี(xผม')

... และตัวอย่างข้อมูลเป็นอิสระต่อกัน

ในทางปฏิบัติโดยการรวมเวลาเป็นคุณลักษณะในแต่ละจุดข้อมูล PCA อาจมีผลลัพธ์ที่ส่วนประกอบหนึ่งเพียงชี้ไปตามแกนคุณลักษณะเวลา แต่ถ้าคุณลักษณะใดมีความสัมพันธ์กับคุณลักษณะเวลาส่วนประกอบอาจประกอบด้วยคุณลักษณะเหล่านี้อย่างน้อยหนึ่งอย่างรวมถึงคุณลักษณะเวลา


1
ขอบคุณสำหรับคำตอบ. นั่นจะเป็นกรณีพิเศษมากที่เวลาเข้าสู่เชิงเส้น ปรากฏการณ์ที่แพร่หลายมากขึ้นก็คือความสัมพันธ์อัตโนมัติที่เวลาไม่ได้มีบทบาทเป็นคุณลักษณะ
Richard Hardy

โอเคฉันเข้าใจแล้ว ดังนั้นคุณหมายความว่าเช่นตัวอย่างไม่ได้เป็นเพียงการทำงานของพารามิเตอร์บางθแต่ยังขึ้นอยู่บนx T - 1 ? ดังนั้นx tคือ Markov, รับx txเสื้อθxเสื้อ-1xเสื้อxเสื้อ-1θxเสื้อ-1

xเสื้อ-1
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.