ฉันพยายามที่จะได้รับความเข้าใจที่ง่ายของการวิเคราะห์องค์ประกอบวิธีการหลัก (PCA) ทำงานในเรื่อง (คู่) พื้นที่
พิจารณาชุดข้อมูล 2D ที่มีตัวแปรสองตัวคือและและจุดข้อมูล (เมทริกซ์ข้อมูลคือคูณและถือว่าอยู่กึ่งกลาง) การนำเสนอตามปกติของ PCA คือเราพิจารณาคะแนนในเขียนเมทริกซ์ความแปรปรวนร่วมและหาค่าลักษณะเฉพาะของมัน สอดคล้องเครื่องแรกกับทิศทางของความแปรปรวนสูงสุด ฯลฯ นี่คือตัวอย่างที่มีความแปรปรวนเดอะเมทริกซ์ขวา) เส้นสีแดงแสดงค่าไอเกนผู้ประเมินโดยสแควร์รูทของค่าลักษณะเฉพาะนั้น ๆx 2 n X n × 2 n R 2 2 × 2 C = ( 4 2 2 2 )
ตอนนี้ให้พิจารณาสิ่งที่เกิดขึ้นในพื้นที่หัวเรื่อง (ฉันเรียนรู้คำศัพท์นี้จาก @ttnphns) หรือที่เรียกว่าช่องว่างคู่ (คำที่ใช้ในการเรียนรู้ของเครื่อง) นี่คือพื้นที่มิติที่ตัวอย่างของสองตัวแปรของเรา (สองคอลัมน์ของ ) รูปแบบสองเวกเตอร์และx_2 ความยาวกำลังสองของเวกเตอร์ตัวแปรแต่ละตัวเท่ากับความแปรปรวน, โคไซน์ของมุมระหว่างเวกเตอร์สองตัวนั้นเท่ากับความสัมพันธ์ระหว่างพวกมัน การเป็นตัวแทนนี้เป็นวิธีที่มีมาตรฐานมากในการบำบัดรักษาการถดถอยหลายครั้ง ในตัวอย่างของฉันพื้นที่หัวเรื่องดูเหมือนว่า (ฉันจะแสดงระนาบ 2D ที่ถูกเวกเตอร์แปรผันสองตัวเท่านั้น):X x 1 x 2
ส่วนประกอบหลักซึ่งเป็นการรวมกันเชิงเส้นของตัวแปรทั้งสองจะรวมกันเป็นสองเวกเตอร์และในระนาบเดียวกัน คำถามของฉันคือสิ่งที่เป็นความเข้าใจเรขาคณิต / สัญชาตญาณของวิธีการรูปแบบหลักเวกเตอร์องค์ประกอบตัวแปรโดยใช้พาหะตัวแปรเดิมในพล็อตดังกล่าวหรือไม่ ได้รับและสิ่งที่ขั้นตอนเรขาคณิตจะให้ผลผลิต ?p 2 x 1 x 2 p 1
ด้านล่างนี้เป็นความเข้าใจบางส่วนของฉันในปัจจุบัน
ก่อนอื่นฉันสามารถคำนวณส่วนประกอบ / แกนหลักผ่านวิธีมาตรฐานและพล็อตพวกมันในรูปแบบเดียวกัน:
ยิ่งไปกว่านั้นเราสามารถสังเกตได้ว่านั้นถูกเลือกเช่นว่าผลรวมของระยะทางระหว่าง (เวกเตอร์สีน้ำเงิน) และการคาดการณ์ของพวกเขาในนั้นน้อยมาก ระยะทางเหล่านั้นเป็นข้อผิดพลาดในการสร้างใหม่และแสดงด้วยเส้นประสีดำ เท่าเพิ่มผลรวมของความยาวของทั้งสองยกกำลังสองประมาณการ สิ่งนี้ระบุอย่างสมบูรณ์และแน่นอนคล้ายกับคำอธิบายที่คล้ายกันในพื้นที่หลัก (ดูภาพเคลื่อนไหวในคำตอบของฉันในการทำความเข้าใจการวิเคราะห์องค์ประกอบหลัก eigenvectors & ค่าลักษณะเฉพาะ ) ดูส่วนแรกของ@ttnphns'es ที่นี่ด้วยxฉันp 1 p 1 p 1
อย่างไรก็ตามนี่ไม่เพียงพอสำหรับเรขาคณิต! มันไม่ได้บอกวิธีการหาและไม่ได้ระบุความยาว
ฉันเดาว่า , ,และทั้งหมดอยู่ในวงรีหนึ่งที่ศูนย์ที่โดยที่และเป็นแกนหลัก นี่เป็นตัวอย่างของฉัน:x 2 p 1 p 2 0 p 1 p 2
Q1: จะพิสูจน์ได้อย่างไร? การสาธิตพีชคณิตโดยตรงดูเหมือนจะน่าเบื่อมาก วิธีดูว่ากรณีนี้จะต้อง?
แต่มีจุดไข่ปลาที่แตกต่างกันมากมายที่กึ่งกลางที่และผ่านและ :x 1 x 2
Q2: วงรี "ถูกต้อง" ระบุอะไร? การเดาครั้งแรกของฉันคือวงรีที่มีแกนหลักที่ยาวที่สุดที่เป็นไปได้ แต่ดูเหมือนว่าจะผิด (มีรูปไข่กับแกนหลักของความยาวใด ๆ )
หากมีคำตอบสำหรับไตรมาสที่ 1 และไตรมาสที่ 2 ฉันก็อยากจะรู้ด้วยว่าพวกเขาพูดถึงกรณีของตัวแปรมากกว่าสองตัวหรือไม่
variable space (I borrowed this term from ttnphns)
- @amoeba คุณต้องเข้าใจผิด ตัวแปรที่เป็นเวกเตอร์ในพื้นที่ n- มิติเรียกว่าพื้นที่ว่าง (วัตถุที่ n เป็นแกน "กำหนด" พื้นที่ในขณะที่ตัวแปร p "ขยาย" มัน) ในทางกลับกันพื้นที่แปรผันคือตรงกันข้าม - นั่นคือ scatterplot ปกติ นี่คือวิธีสร้างคำศัพท์ในสถิติหลายตัวแปร (ถ้าในการเรียนรู้ด้วยเครื่องจักรมันแตกต่างกัน - ฉันไม่รู้ - มันแย่กว่านั้นสำหรับผู้เรียน)
My guess is that x1, x2, p1, p2 all lie on one ellipse
อะไรคือความช่วยเหลือจากการแก้ปัญหาวงรีที่นี่? ฉันสงสัยมัน.