PCA ของข้อมูลที่ไม่ใช่แบบเกาส์


20

ฉันมีคำถามสองสามข้อเกี่ยวกับ PCA:

  • PCA คิดว่าชุดข้อมูลเป็น Gaussian หรือไม่
  • จะเกิดอะไรขึ้นเมื่อฉันใช้ PCA กับข้อมูลที่ไม่ใช่เชิงเส้นโดยเนื้อแท้

ให้ชุดข้อมูลกระบวนการคือการทำให้ค่าเฉลี่ย - ปกติแรกตั้งค่าความแปรปรวนเป็น 1 รับ SVD ลดอันดับและสุดท้ายแมปชุดข้อมูลลงในพื้นที่ลดอันดับใหม่ ในพื้นที่ใหม่แต่ละมิติสอดคล้องกับ "ทิศทาง" ของความแปรปรวนสูงสุด

  • แต่ความสัมพันธ์ของชุดข้อมูลนั้นในพื้นที่ใหม่เป็นศูนย์เสมอหรือเป็นจริงสำหรับข้อมูลที่เป็นแบบเกาส์โดยเนื้อแท้

สมมติว่าฉันมีชุดข้อมูลสองชุดคือ "A" และ "B" โดยที่ "A" ตรงกับจุดสุ่มตัวอย่างที่นำมาจาก Gaussian ในขณะที่ "B" ตรงกับจุดสุ่มตัวอย่างจากการแจกแจงแบบอื่น (พูดปัวซอง)

  • PCA (A) เปรียบเทียบกับ PCA (B) อย่างไร
  • โดยการดูที่จุดในพื้นที่ใหม่ฉันจะพิจารณาได้อย่างไรว่า PCA (A) ตรงกับจุดที่สุ่มตัวอย่างจาก Gaussian ในขณะที่ PCA (B) ตรงกับจุดที่สุ่มตัวอย่างจาก Poisson
  • ความสัมพันธ์ของคะแนนใน "A" เป็น 0 หรือไม่?
  • ความสัมพันธ์ของคะแนนใน "B" เป็น 0 ด้วยหรือไม่
  • ที่สำคัญกว่านั้นฉันกำลังถามคำถาม "ถูกต้อง" หรือไม่?
  • ฉันควรดูความสัมพันธ์หรือมีเมตริกอื่นที่ฉันควรพิจารณาหรือไม่

2
ดูภาคผนวกเกี่ยวกับสมมติฐานของ PCA ในเอกสารนี้
สันนิษฐานว่าปกติ

คำตอบ:


17

คุณมีคำตอบที่ดีอยู่แล้วที่นี่ (+1 ทั้ง @ Cam.Davidson.Pilon & @MichaelChernick) ให้ฉันโยนประเด็นสองสามข้อที่ช่วยให้ฉันคิดเกี่ยวกับปัญหานี้

อย่างแรก PCA ดำเนินการผ่านเมทริกซ์สหสัมพันธ์ ดังนั้นคำถามที่สำคัญสำหรับฉันคือการใช้เมทริกซ์สหสัมพันธ์เพื่อช่วยให้คุณคิดถึงข้อมูลของคุณหรือไม่ ตัวอย่างเช่นความสัมพันธ์ระหว่างโมเมนต์ของเพียร์สันประเมินความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว หากตัวแปรของคุณมีความสัมพันธ์กัน แต่ไม่ใช่เชิงเส้นตรงความสัมพันธ์ไม่ใช่ตัวชี้วัดในอุดมคติที่จะจัดทำดัชนีความแข็งแกร่งของความสัมพันธ์ ( นี่คือการสนทนาที่ดีเกี่ยวกับประวัติย่อเกี่ยวกับความสัมพันธ์และข้อมูลที่ไม่ปกติ)

ประการที่สองฉันคิดว่าวิธีที่ง่ายที่สุดในการเข้าใจสิ่งที่เกิดขึ้นกับ PCA คือคุณแค่หมุนแกนของคุณ คุณสามารถทำสิ่งอื่น ๆ ของหลักสูตรและโชคร้ายที่ได้รับ PCA สับสนกับการวิเคราะห์ปัจจัย (ซึ่งแน่นอนจะมีมากขึ้นไปใน) อย่างไรก็ตาม PCA เก่าธรรมดาที่ไม่มีระฆังและนกหวีดสามารถคิดดังนี้:

  • คุณมีจุดบางจุดในสองมิติบนแผ่นกระดาษกราฟ;
  • คุณมีความโปร่งใสโดยใช้แกนฉากตั้งฉากกับมันและรูเข็มที่จุดกำเนิด
  • คุณกำหนดจุดกำเนิดของความโปร่งใส (เช่นรูเข็ม) ไว้เหนือและวางปลายดินสอของคุณผ่านรูเข็มเพื่อยึดไว้ (x¯,Y¯)
  • จากนั้นคุณหมุนความโปร่งใสจนกระทั่งจุด (เมื่อจัดทำดัชนีตามแกนของความโปร่งใสแทนที่จะเป็นจุดดั้งเดิม) จะไม่เกี่ยวข้องกัน

นี่ไม่ใช่คำอุปมาที่สมบูรณ์แบบสำหรับ PCA (เช่นเราไม่ได้ลดความแปรปรวนเป็น 1) แต่ให้ความคิดพื้นฐานแก่ผู้คน ประเด็นก็คือตอนนี้ใช้ภาพนั้นเพื่อพิจารณาว่าผลลัพธ์ดูเหมือนว่าข้อมูลนั้นไม่ใช่ Gaussian ที่เริ่มต้นด้วย ที่จะช่วยให้คุณตัดสินใจได้ว่ากระบวนการนี้คุ้มค่าหรือไม่ หวังว่าจะช่วย


2
+1 (นานมาแล้ว) ฉันคิดว่านี่เป็นคำตอบที่ดีที่สุดในกระทู้นี้หวังว่ามันจะรวบรวม upvote อีกหนึ่งตัวเพื่อเป็น upvote ที่มากที่สุดเช่นกัน ฉันชอบวิธีของคุณในการอธิบาย PCA ด้วยความโปร่งใสนั่นเป็นเรื่องดี
อะมีบาพูดว่า Reinstate Monica

โดยวิธีการที่คำตอบของคุณนี้เป็นแรงบันดาลใจคำตอบล่าสุดของฉันในคนธรรมดาหัวข้อ PCA ขนาดใหญ่ของฉัน: ฉันทำ gif เคลื่อนไหวเหล่านั้นมีความโปร่งใสในใจของคุณในใจ
อะมีบาพูดว่า Reinstate Monica

นั่นเป็นคำตอบที่ยอดเยี่ยม @amoeba มันดีกว่านี้มาก
gung - Reinstate Monica

13

ฉันสามารถให้ทางออกบางส่วนและแสดงคำตอบให้คุณ วรรคสองคำถามที่สามเกี่ยวข้องกับว่าข้อมูลใหม่มีความสัมพันธ์หรือไม่ คำตอบสั้น ๆ คือไม่ข้อมูลในพื้นที่ใหม่นั้นไม่มีความสัมพันธ์กัน หากต้องการดูให้พิจารณาและw 2เป็นองค์ประกอบหลักการเฉพาะสองรายการ จากนั้นX W 1และX W 2เป็นแบบสองมิติในพื้นที่ใหม่ของข้อมูล XW1W2XW1XW2X

โอโวลต์(XW1,XW2)=E[(XW1)T(XW2)]-E[XW1]TE[XW2]
WผมX
W1TE[XTX]W2=VaR(X)W1TW2=0
WผมVaR(X)

XXWXXW

α


7

ไม่มีความเป็นเส้นตรงหรือเกณฑ์ปกติใน PCA แนวคิดนี้เป็นเพียงการแยกส่วนการเปลี่ยนแปลงในชุดข้อมูล p-มิติออกเป็นส่วนประกอบมุมฉากที่เรียงลำดับตามปริมาณความแปรปรวนที่อธิบายไว้


2
จริง แต่"การย่อยสลายความแตกต่างในชุดข้อมูล p-มิติเป็นส่วนประกอบมุมฉาก"ไม่ได้มีประโยชน์มากเมื่อมีการอ้างอิงแบบไม่เชิงเส้นระหว่างตัวแปรเนื่องจากการตั้งค่าแบบ orthogonalization มักจะทำเพื่อให้คุณสามารถยืนยันได้ว่ามิตินั้นไม่เกี่ยวข้องกัน ยังเกี่ยวข้องกับส่วนของคำถามแบบเกาส์) เมื่อคุณทำ PCA และวางแผนที่จะตีความผลลัพธ์ในแบบปกติมีข้อสันนิษฐานพื้นฐานว่าข้อมูลอยู่ในสเปซเชิงเส้นมิติที่ต่ำกว่า
มาโคร

2
@Macro ไม่แน่ ฉันจะบอกว่าสมมติฐานพื้นฐานคืออย่างน้อยที่สุดของความแปรปรวนและรูปแบบของข้อมูลจึงกระจุกตัวอยู่ในพื้นที่มิติที่ต่ำกว่า ฉันสามารถดูพาราโบลาได้ดีมากในพื้นที่ 2 มิติพร้อมองค์ประกอบมุมฉาก ฉันคิดว่ารูปร่างที่ไม่เชิงเส้นสามารถดูได้ในสองหรือสามมิติ หากข้อมูลมาจากการกระจายความแปรปรวนแบบเกาส์หลายตัวแปรในพื้นที่ย่อยบางจุดควรมีลักษณะเหมือนเมฆรูปวงรี การกระจายไม่จำเป็นต้องดูเหมือนรูปวงรีสำหรับมุมมองในพื้นที่ย่อยของพีซีระดับสูงที่น่าสนใจ
Michael R. Chernick

4
ฉันจะมีคุณสมบัตินี้เล็กน้อย ไม่มีสมมติฐานเชิงบรรทัดฐานใน PCA แบบดั้งเดิมหรือ PCA โดย SVD อย่างไรก็ตามอัลกอริทึม EM ในการคำนวณ PCA กับข้อมูลที่หายไปจะถือว่าเป็นเรื่องปกติ
John

ในขณะที่ถนนแบบคลาสสิคสู่ PCA ไม่จำเป็นต้องมีข้อสันนิษฐานใด ๆ แต่มีอีกหนทางหนึ่งในการแก้ปัญหาซึ่งก็คือ: ความน่าจะเป็น PCA ที่มีเสียงรบกวนการวัด 0
bayerj

3

อ่านหน้า 7 ที่นี่:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

พวกเขาทราบว่า PCA สันนิษฐานว่าการกระจายตัวของสิ่งที่เรากำลังอธิบายสามารถอธิบายได้ด้วยค่าเฉลี่ย (ของศูนย์) และความแปรปรวนเพียงอย่างเดียวซึ่งพวกเขาบอกว่าสามารถกระจายตัวแบบปกติเท่านั้น

(โดยทั่วไปนอกเหนือจากคำตอบของ Cam แต่ฉันไม่มีชื่อเสียงพอที่จะแสดงความคิดเห็น:)


1
ลิงค์ที่คุณให้ไว้กับบทช่วยสอนของ Shlens คือรุ่นที่ 1 ของบทช่วยสอน แต่ตอนนี้มีรุ่น 3.02 (รุ่นสุดท้ายหรือไม่) และจุดที่ระบุนี้ถูกลบ นอกจากนี้คำถามนี้ถามเกี่ยวกับที่
Oren Milman

0

เท่าที่ฉันรู้ PCA ไม่ได้ถือว่าเป็นเรื่องปกติของข้อมูล แต่ถ้ามันถูกกระจายตามปกติ (โดยทั่วไปแล้วมีการกระจายแบบสมมาตร) ผลลัพธ์ก็จะแข็งแกร่งกว่า อย่างที่คนอื่น ๆ พูดกันว่ากุญแจสำคัญคือ PCA นั้นใช้เมทริกซ์สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันซึ่งการประมาณค่านั้นได้รับผลกระทบจากค่าผิดปกติและการแจกแจงแบบเบ้ ดังนั้นในการวิเคราะห์บางอย่างที่เกี่ยวข้องเช่นการทดสอบทางสถิติหรือค่า p คุณควรให้ความสำคัญกับความพอใจของคุณ แต่ในแอปพลิเคชันอื่น ๆ เช่นการวิเคราะห์เชิงสำรวจคุณสามารถใช้งานได้ แต่จะต้องระมัดระวังเมื่อทำการตีความ


-1

เห็นด้วยกับคนอื่น ๆ ที่กล่าวว่าข้อมูลควรจะ "กระจาย" ตามปกติ การกระจายใด ๆ จะทับซ้อนกับการแจกแจงปกติหากคุณแปลง หากการกระจายของคุณไม่ปกติผลลัพธ์ที่คุณจะได้รับจะด้อยกว่าเมื่อเทียบกับกรณีที่เป็นเรื่องปกติตามที่ระบุไว้ที่นี่ ...

  • คุณสามารถเปลี่ยนการกระจายของคุณหากคุณต้องการ
  • คุณสามารถเลือก PCA และใช้การวิเคราะห์ส่วนประกอบอิสระ (ICA) แทน

หากคุณอ่านข้อมูลอ้างอิงในคำตอบแรกในส่วนภาคผนวกจะระบุว่าข้อสันนิษฐานนั้นคือการแจกแจงแบบปกติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.