ความสัมพันธ์ระหว่างการวิเคราะห์องค์ประกอบอิสระและการวิเคราะห์ปัจจัยคืออะไร?


67

ฉันยังใหม่กับการวิเคราะห์ส่วนประกอบอิสระ (ICA) และมีเพียงความเข้าใจพื้นฐานของวิธีการ สำหรับฉันดูเหมือนว่า ICA จะคล้ายกับการวิเคราะห์ปัจจัย (FA) โดยมีข้อยกเว้นอย่างหนึ่ง: ICA ถือว่าตัวแปรสุ่มที่สังเกตนั้นเป็นการรวมกันของส่วนประกอบ / ปัจจัยอิสระที่ไม่ใช่แบบเกาส์ในขณะที่แบบจำลอง FA ดั้งเดิมสันนิษฐานว่าตัวแปรสุ่มสังเกต เป็นการรวมกันเชิงเส้นขององค์ประกอบ / ปัจจัยที่มีความสัมพันธ์แบบเกาส์เซียน

ถูกต้องหรือไม่


1
คำตอบสำหรับคำถามอื่น ( PCA ค้นหาทิศทางของความแปรปรวนที่มากที่สุด แต่วิธีการค้นหาพื้นที่ย่อยทั้งหมดที่มีความแปรปรวนมากที่สุด ) เป็นสิ่งที่ควรพิจารณา
Piotr Migdal

คำตอบ:


72

ป้อนคำอธิบายรูปภาพที่นี่

FA, PCA และ ICA ต่างก็ 'เกี่ยวข้อง' ทั้งหมดเท่าที่พวกเขาทั้งสามแสวงหาเวกเตอร์พื้นฐานที่ข้อมูลถูกคาดการณ์ไว้เช่นที่คุณเพิ่มเกณฑ์การแทรกสูงสุดที่นี่ คิดว่าเวกเตอร์พื้นฐานเป็นเพียงการรวมชุดเชิงเส้นเข้าด้วยกัน

ยกตัวอย่างเช่นช่วยบอกข้อมูลของเมทริกซ์เป็น xเมทริกซ์, ที่อยู่, คุณมีสองตัวแปรสุ่มและข้อสังเกตของพวกเขาในแต่ละ แล้วช่วยบอกคุณพบเวกเตอร์พื้นฐานของ{bmatrix} เมื่อคุณแยกสัญญาณ (ตัวแรก) (เรียกมันว่า vector ) มันจะทำดังนี้:Z2NNw=[0.14]y

y=wTZ

นี่หมายถึง "คูณ 0.1 ด้วยแถวแรกของข้อมูลของคุณและลบ 4 เท่าของแถวที่สองของข้อมูล" จากนั้นนี่จะให้ซึ่งแน่นอนว่าเป็นเวกเตอร์ขนาด xที่มีคุณสมบัติที่คุณเพิ่มการแทรกเกณฑ์ที่นี่ให้มากที่สุดy1N

ดังนั้นเกณฑ์เหล่านั้นคืออะไร?

เกณฑ์การสั่งซื้อครั้งที่สอง:

ใน PCA คุณกำลังค้นหาเวกเตอร์พื้นฐานที่ 'อธิบาย' ความแปรปรวนของข้อมูลได้ดีที่สุด เวกเตอร์พื้นฐานอันดับแรก (คืออันดับสูงสุด) จะเป็นอันที่เหมาะกับความแปรปรวนทั้งหมดจากข้อมูลของคุณ คนที่สองก็มีเกณฑ์นี้ แต่จะต้องตั้งฉากกับคนแรกและต่อ ๆ ไปเรื่อย ๆ (กลายเป็นเวกเตอร์พื้นฐานเหล่านั้นสำหรับ PCA ไม่ใช่เรื่องอื่นนอกจาก eigenvectors เมทริกซ์ความแปรปรวนร่วมของข้อมูลของคุณ)

ใน FA นั้นมีความแตกต่างระหว่างมันกับ PCA เนื่องจาก FA นั้นเป็นแบบกำเนิดในขณะที่ PCA ไม่ใช่ ฉันเห็นว่า FA ถูกอธิบายว่า 'PCA พร้อมเสียง' โดยที่ 'เสียง' เรียกว่า 'ปัจจัยเฉพาะ' สิ่งเดียวกันทั้งหมดสรุปโดยรวมคือ PCA และ FA ขึ้นอยู่กับสถิติอันดับสอง (ความแปรปรวนร่วม) และไม่มีอะไรข้างต้น

เกณฑ์การสั่งซื้อที่สูงขึ้น:

ใน ICA คุณจะพบเวกเตอร์พื้นฐานอีกครั้ง แต่คราวนี้คุณต้องการเวกเตอร์พื้นฐานที่ให้ผลลัพธ์เช่นว่าเวกเตอร์ที่ได้นี้เป็นหนึ่งในองค์ประกอบอิสระของข้อมูลต้นฉบับ คุณสามารถทำได้โดยการเพิ่มค่าสัมบูรณ์ของ kurtosis ปกติ - สถิติลำดับที่ 4 นั่นคือคุณฉายข้อมูลของคุณบนเวคเตอร์พื้นฐานและวัดความโด่งของผลลัพธ์ คุณเปลี่ยนเวคเตอร์พื้นฐานของคุณเพียงเล็กน้อย (โดยปกติจะผ่านการไล่ระดับสีแบบลาดชัน) และจากนั้นวัดความโด่งอีกครั้งในที่สุดคุณจะเกิดขึ้นกับเวกเตอร์พื้นฐานที่ให้ผลลัพธ์ที่มีความเป็นไปได้สูงสุดและนี่คืออิสระของคุณ ส่วนประกอบ

แผนภาพด้านบนด้านบนสามารถช่วยให้คุณเห็นภาพได้ คุณสามารถเห็นได้อย่างชัดเจนว่าเวกเตอร์ ICA นั้นสอดคล้องกับแกนของข้อมูลอย่างไร (เป็นอิสระจากกัน) ในขณะที่เวกเตอร์ PCA พยายามค้นหาเส้นทางที่ความแปรปรวนขยายใหญ่สุด (ค่อนข้างเหมือนผลลัพธ์)

ถ้าในแผนภาพด้านบนเวกเตอร์ PCA ดูเหมือนว่าพวกมันเกือบจะตรงกับเวกเตอร์ ICA นั่นเป็นเรื่องบังเอิญ นี่เป็นอีกตัวอย่างหนึ่งของข้อมูลที่แตกต่างกันและการผสมเมทริกซ์ที่แตกต่างกันมาก ;-)

ป้อนคำอธิบายรูปภาพที่นี่


2
เห็นว่าคุณคุ้นเคยกับทั้งสองวิธี ในฐานะบุคคลที่มีความสามารถคุณสามารถตอบได้ไหมถ้าวิธีการเหล่านั้นบอกเป็นนัยว่าเวกเตอร์พื้นฐานเป็นมุมฉาก? เราจะค้นพบส่วนประกอบหลักหรืออิสระที่มีการฉายภาพที่ไม่เป็นศูนย์ซึ่งกันและกันได้อย่างไรเช่นเมฆสองจุดที่มุ่งไปที่มุม 45 องศาซึ่งกันและกัน
mbaitoff

2
@mbaitoff ICA จะกู้คืนชุดมุมฉากของเวกเตอร์ใช่ ประการที่สองเมื่อคุณมีตามที่คุณถามสัญญาณสองตัวที่มีการฉายที่ไม่เป็นศูนย์ซึ่งกันและกันเป็นสิ่งที่ ICA พยายามที่จะยกเลิก นั่นคือเหตุผลที่เวกเตอร์พื้นฐานสุดท้ายที่พบโดย ICA เป็นมุมฉากซึ่งกันและกัน จากนั้นเมื่อคุณฉายข้อมูลของคุณบนเวกเตอร์ใหม่สองตัวนั้นพวกมันจะเป็นมุมฉากซึ่งกันและกัน
Spacey

1
@Tarantula ฉันได้ถามคำถามเกี่ยวกับสิ่งที่ผมพูดนี้: stats.stackexchange.com/questions/6575/...คุณสามารถดูภาพประกอบ, i.stack.imgur.com/U6fWb.png ฉันไม่เข้าใจว่าพื้นฐานมุมฉากจะอธิบายเมฆทั้งสองนั้นอย่างไร เห็นได้ชัดสำหรับฉันว่าเวกเตอร์สองตัวที่อธิบายทิศทางการแกว่งหลักไม่ใช่มุมฉาก
mbaitoff

@mbaitoff คุณใช้ข้อมูลของคุณจากเซ็นเซอร์สองตัวและคุณวางแผนพวกมันต่อกันและคุณเห็นสองโหมดเหล่านั้นเพื่อให้คุณรู้ว่าอย่างน้อยมีความสัมพันธ์กัน ถ้าอย่างนั้นคำถามก็จะกลายเป็นว่าคุณจะฉายจุดทั้งหมดที่คุณมีได้อย่างไร (เช่นบนพื้นฐานมุมฉากเหมือนกับสิ่งที่ ICA พบ) นั่นคือสิ่งที่ ICA ค้นหาให้คุณ ฉันไม่เข้าใจสิ่งที่คุณหมายถึงเมื่อคุณพูดว่า "ฉันไม่สามารถเข้าใจได้ว่าพื้นฐานมุมฉากจะอธิบายเมฆทั้งสองนั้นได้อย่างไร" ทำไมจะไม่ล่ะ?
Spacey

@ ทารันทูล่าโอ้ตอนนี้ฉันเห็นความหมายแล้ว! ฉันคิดว่ามันเหมือน 'การหาเวกเตอร์มุมฉากสองตัวบนพล็อตดั้งเดิม' ในขณะที่มันหมายถึง 'การหาเวกเตอร์สองตัวบนพล็อตดั้งเดิมซึ่งจะทำให้พวกมันเป็นมุมฉาก (อิสระ)'
mbaitoff

31

ไม่มาก การวิเคราะห์ปัจจัยดำเนินการในช่วงเวลาที่สองและหวังเป็นอย่างยิ่งว่าข้อมูลจะเป็นแบบเกาส์เพื่อให้อัตราส่วนความน่าจะเป็นและสิ่งต่าง ๆ ที่ไม่ได้รับผลกระทบจากการไม่ได้มาตรฐาน ในทางกลับกัน ICA ได้รับแรงบันดาลใจจากแนวคิดที่ว่าเมื่อคุณเพิ่มสิ่งต่าง ๆ คุณจะได้รับบางสิ่งบางอย่างที่ปกติเนื่องจาก CLT และหวังว่าข้อมูลนั้นจะไม่ปกติดังนั้นส่วนประกอบที่ไม่ปกติจะถูกดึงออกมาจาก พวกเขา ในการใช้ประโยชน์จากการไม่ได้มาตรฐาน ICA พยายามเพิ่มช่วงเวลาที่สี่ของการรวมเชิงเส้นของอินพุต:

maxa:a=11ni[a(xix¯)]4

หากมีสิ่งใดควรเปรียบเทียบ ICA กับ PCA ซึ่งเพิ่มช่วงเวลาที่สอง (ความแปรปรวน) ของการรวมกันที่เป็นมาตรฐานของอินพุต


คำตอบที่ดีและกรอบ
Subhash C. Davar

อะไรคือช่วงเวลาที่ 4 ที่นี่? PL.EXPLAIN
Subhash C. Davar

@ subhashc.davar ช่วงเวลาที่ 4 คือ kurtosis - นั่นคือระดับที่ข้อมูลมีน้ำหนักที่หนักกว่าหรือเบากว่าการกระจายแบบปกติ en.wikipedia.org/wiki/Kurtosis
javadba
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.