PCA ไม่เสถียรภายใต้ความหลากสีหรือไม่


25

ฉันรู้ว่าในสถานการณ์การถดถอยหากคุณมีชุดของตัวแปรที่มีความสัมพันธ์สูงซึ่งมักจะเป็น "ไม่ดี" เนื่องจากความไม่แน่นอนของค่าสัมประสิทธิ์โดยประมาณ

คำถามของฉันคือว่า "ความเลวร้าย" นี้ยังคงอยู่ในสถานการณ์ PCA หรือไม่ ค่าสัมประสิทธิ์ / การโหลด / น้ำหนัก / eigenvectors สำหรับพีซีใด ๆ โดยเฉพาะกลายเป็นไม่เสถียร / โดยพลการ / ไม่ซ้ำกันเป็นเมทริกซ์ความแปรปรวนร่วมกลายเป็นเอกพจน์? ฉันสนใจเป็นพิเศษในกรณีที่มีเพียงส่วนประกอบหลักแรกเท่านั้นที่ถูกเก็บไว้และอื่น ๆ ทั้งหมดจะถูกไล่ออกเป็น "เสียงรบกวน" หรือ "อย่างอื่น" หรือ "ไม่สำคัญ"

ฉันไม่คิดว่ามันจะเป็นเช่นนั้นเพราะคุณจะเหลือองค์ประกอบหลักเพียงไม่กี่ตัวที่มีค่าศูนย์หรือใกล้เคียงกับค่าความแปรปรวนเป็นศูนย์

ดูง่ายกรณีนี้ไม่ได้เป็นในกรณีที่ง่ายมากที่มี 2 ตัวแปร - สมมติว่าพวกเขามีความสัมพันธ์อย่างสมบูรณ์ จากนั้นพีซีเครื่องแรกจะมีความสัมพันธ์เชิงเส้นตรงและพีซีเครื่องที่สองจะตั้งฉากกับพีซีเครื่องแรกโดยมีค่าพีซีทั้งหมดเท่ากับศูนย์สำหรับการสังเกตทั้งหมด (เช่นศูนย์แปรปรวน) สงสัยว่าถ้ามันทั่วไปมากขึ้น


8
เหตุผลของคุณดี ที่จริงแล้วเราคาดว่าจะเกิดความไม่แน่นอนเมื่อค่าลักษณะเฉพาะสองค่าหรือมากกว่านั้นเกือบจะตรงกันกันแล้วแม้ว่าค่าลักษณะเฉพาะนั้นจะถูกกำหนดค่าแล้ว แต่ค่า eigenvector ก็ไม่ใช่ สำหรับเหตุผลที่เป็นตัวเลขนอกจากนี้ยังมีความไม่แน่นอนในค่าลักษณะเฉพาะ (และค่าลักษณะเฉพาะ) ที่มีขนาดเล็กมากเมื่อเทียบกับค่าลักษณะเฉพาะสูงสุด
whuber

ความคิดเห็นของ @whuber ตอบคำถามของคุณ แต่ฉันต้องการที่จะทราบว่าในกรณีที่มีตัวแปรที่มีความสัมพันธ์อย่างสมบูรณ์ 2 ตัว PCA ไม่ควรมีปัญหา เมทริกซ์ความแปรปรวนร่วมจะอยู่ในอันดับที่ 1 ดังนั้นจะมีค่าลักษณะเฉพาะที่ไม่เป็นศูนย์เพียง 1 ตัวดังนั้นพีซีเพียง 1 เครื่อง ตัวแปรดั้งเดิมจะเป็นทวีคูณของพีซีนี้ ปัญหาเดียวอาจเป็นความมั่นคงเชิงตัวเลข
mpiktas

ที่จริงแล้วฉันคิดว่าคุณจะแย่ลงถ้าคุณมีตัวแปรที่มีความสัมพันธ์ระดับปานกลางมากกว่าเมื่อคุณมีตัวแปรที่มีความสัมพันธ์สูงมาก ควรใช้ตัวเลขถ้าคุณใช้อัลกอริทึมอย่าง NIPALS ที่ลบพีซีตามลำดับ
JMS

สิ่งหนึ่ง - "มีความสัมพันธ์สูง" และ "colinear" นั้นไม่เหมือนกัน หากมีตัวแปรที่เกี่ยวข้องมากกว่า 2 ตัวแปรความสัมพันธ์แบบ Colinearity ไม่ได้หมายความถึงความสัมพันธ์
Peter Flom - Reinstate Monica

คำตอบ:


11

คำตอบอาจได้รับในแง่ที่ง่ายขึ้น: การถดถอยหลายครั้งมีขั้นตอนมากกว่า pca หากเห็นในแง่ของพีชคณิตเชิงเส้นและจากขั้นตอนที่สองความไม่แน่นอนเข้ามาอยู่

RLLเสื้อ

L
L


นี่คือสิ่งที่ฉันกำลังมองหา ในความเป็นจริงการอ่านคำตอบของคุณทำให้ฉันคิดถึงคำอธิบายอื่น: การหมุนมีความเสถียรเชิงตัวเลขโดยไม่คำนึงถึงปัจจัยความแปรปรวนร่วม / เมทริกซ์สหสัมพันธ์ และเนื่องจาก PCA สามารถกำหนดกรอบเป็นการค้นหาการหมุนที่ดีที่สุดของแกนพิกัดได้ดังนั้นจึงมีความเสถียรเชิงตัวเลข
ความน่าจะเป็นทางการ

ใช่ตัวอย่างเช่นใน "รากฐานของการวิเคราะห์ปัจจัย" ของสแตน Mulaik ความเสถียรของการหมุนของพีซี (วิธีจาโคบี) ได้รับการกล่าวถึงอย่างชัดแจ้ง ในการดำเนินการวิเคราะห์ปัจจัยของตัวเองฉันทำทุกอย่างหลังจาก cholesky โดยการหมุน: PCA, Varimax, แม้แต่ "แกนแกนแฟคตอริ่งระหว่าง" (PAF ใน SPSS) สามารถสร้างใหม่บนพื้นฐานของการหมุน หากการถดถอยแบบหลายค่าขึ้นอยู่กับ cholesky factor L และส่วนของ L ซึ่งมีตัวแปรอิสระอยู่ในตำแหน่งพีซีการควบคุมความหลากสีสามารถควบคุมได้ดียิ่งขึ้น
หมวกกันน็อกกอทฟริด

3

PCA มักจะหมายถึงการสิ้นสุด; นำไปสู่อินพุตทั้งการถดถอยหลายครั้งหรือเพื่อใช้ในการวิเคราะห์คลัสเตอร์ ฉันคิดว่าในกรณีของคุณคุณกำลังพูดถึงการใช้ผลลัพธ์ของ PCA เพื่อทำการถดถอย

ในกรณีดังกล่าววัตถุประสงค์ของการแสดง PCA คือการกำจัด mulitcollinearity และรับอินพุตมุมฉากเพื่อการถดถอยหลายครั้งซึ่งไม่น่าแปลกใจที่นี่เรียกว่า ที่นี่หากอินพุตดั้งเดิมของคุณทั้งหมดเป็นฉากตั้งฉากการทำ PCA จะให้อินพุตอีกฉากหนึ่งให้คุณ ดังนั้น; หากคุณกำลังทำ PCA คุณจะคิดว่าอินพุตของคุณมีความหลากหลายทางชีวภาพ

λผม^ผมเสื้อชั่วโมงλผม^พี

อ้างอิง

Johnson & Wichern (2001) การวิเคราะห์ทางสถิติหลายตัวแปรประยุกต์ (รุ่นที่ 6) ศิษย์ฮอลล์.


6
ฉันไม่แน่ใจว่า OP อยู่หลัง PCR PCA ยังเป็นวิธีที่ดีในการสรุปชุดข้อมูลหลายตัวแปร (ไม่จำเป็นต้องดำเนินการลดข้อมูลเพื่อใช้ในกรอบการสร้างแบบจำลองต่อไป) ซึ่งประมาณเมทริกซ์ VC กับลำดับที่ต่ำกว่าในขณะที่เก็บข้อมูลส่วนใหญ่ไว้ คำถามดูเหมือนจะเป็น: ฉันถูกต้องเมื่อตีความค่าลักษณะเฉพาะสองสามค่าแรกและพีซี (เป็นชุดค่าผสมเชิงเส้นของตัวแปรดั้งเดิม) แม้ว่าจะมีผล collinearity บ้างไหม? ดูเหมือนว่าคำตอบของคุณจะไม่ตอบคำถามของ OP โดยตรง
chl

2
คำตอบที่ดีเกี่ยวกับ PCA ทั่วไป แต่สิ่งที่เกี่ยวกับเมื่อ PCA เป็นผลิตภัณฑ์สุดท้าย ? นั่นคือเป้าหมายคือการส่งออกพีซีเดียว @Chl ถูกต้องกับเงินด้วยการตีความคำถามของเขา
ความน่าจะ

@chl คุณตอบคำถามอะไร: "ฉันถูกต้องหรือไม่เมื่อตีความค่าลักษณะเฉพาะและพีซีสองสามอย่างแรกแม้ว่าจะมีผลกระทบเชิงซ้อนกันบ้างไหม" ฉันถามเพราะฉันพยายามที่จะคิดออกเมื่อไหร่มันเป็นความคิดที่ดีที่จะรักษาตัวแปรที่มีความสัมพันธ์สูงเมื่อทำการลดขนาด บางครั้งเมื่อเรารู้จากทฤษฎีว่าตัวแปรสองตัวถูกขับเคลื่อนด้วยตัวแปรแฝงเดียวกันคุณควรลบตัวแปรตัวใดตัวหนึ่งเพื่อไม่นับผลกระทบของตัวแปรแฝงสองครั้ง ฉันพยายามที่จะคิดเมื่อมันตกลงเพื่อรักษาตัวแปรที่มีความสัมพันธ์
Amatya
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.