วางตำแหน่งลูกศรบน PCA biplot


18

ฉันต้องการใช้ biplot สำหรับการวิเคราะห์องค์ประกอบหลัก (PCA) ใน JavaScript คำถามของฉันคือฉันจะกำหนดพิกัดของลูกศรจากเอาต์พุตของการแยกสลายเวกเตอร์เอกพจน์ (SVD) ของเมทริกซ์ข้อมูลได้อย่างไรU,V,D

นี่คือตัวอย่าง biplot ที่ผลิตโดย R:

biplot(prcomp(iris[,1:4]))

Biplot of the ชุดข้อมูล Iris

ฉันลองค้นหามันในบทความ Wikipedia บน biplotแต่มันไม่มีประโยชน์มาก หรือถูกต้อง ไม่แน่ใจว่าอันไหน


3
Biplot เป็น scatterplot แบบโอเวอร์เลย์ที่แสดงทั้งค่า U และค่า V หรือ UD และ V. หรือ U และ VD ' หรือ UD และ VD ' ในแง่ของ PCA นั้น UD จะเรียกว่าคะแนนส่วนประกอบหลักและ VD 'เรียกว่าการโหลดองค์ประกอบของตัวแปร
ttnphns

2
โปรดทราบว่าขนาดของพิกัดขึ้นอยู่กับว่าคุณเริ่มทำให้ข้อมูลเป็นปกติ ใน PCA เช่นหนึ่ง normaly หารข้อมูลด้วย sqrt (r) หรือ sqrt (r-1) [r คือจำนวนแถว] แต่ในความเป็นจริง "biplot" ในความหมายแคบของคำหนึ่งโดยปกติจะแบ่งข้อมูลด้วย sqrt (rc) [c คือจำนวนคอลัมน์] จากนั้นยกเลิกการทำให้ค่า U และ V. ที่ได้รับเป็นปกติ
ttnphns

ทำไมข้อมูลที่ไม่ต้องมีการปรับขนาดโดย ? 1n1
ktdrv

1
@ttnphns: ทำตามความคิดเห็นของคุณด้านบนฉันเขียนคำตอบสำหรับคำถามนี้โดยมีวัตถุประสงค์เพื่อให้ภาพรวมของการปรับมาตรฐาน PCA biplot อย่างไรก็ตามความรู้ของฉันในหัวข้อนี้เป็นทฤษฎีอย่างหมดจดและฉันเชื่อว่าคุณมีประสบการณ์ภาคปฏิบัติกับ biplots มากกว่าฉัน ดังนั้นฉันจะขอบคุณสำหรับความคิดเห็นใด ๆ
อะมีบาพูดว่า Reinstate Monica

1
เหตุผลหนึ่งที่ต้องนำสิ่งต่างๆไปใช้ @Aleksandr คือการรู้ว่ากำลังทำอะไรอยู่ biplot()ในขณะที่คุณสามารถดูจะไม่ใช่เรื่องง่ายที่จะคิดออกว่าสิ่งที่เกิดขึ้นเมื่อหนึ่งวิ่ง นอกจากนี้ทำไมต้องกังวลกับการรวม R-JS สำหรับสิ่งที่ต้องใช้โค้ดสองสามบรรทัด
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


40

มีหลายวิธีในการสร้าง PCA biplot และไม่มีคำตอบสำหรับคำถามของคุณ นี่คือภาพรวมสั้น ๆ

เราคิดว่าเมทริกซ์ข้อมูลมีจุดข้อมูลnจุดในแถวและอยู่กึ่งกลาง (เช่นคอลัมน์หมายความว่าเป็นศูนย์ทั้งหมด) สำหรับตอนนี้เราไม่คิดว่ามันเป็นมาตรฐานเช่นเราพิจารณา PCA ในเมทริกซ์ความแปรปรวนร่วม (ไม่ใช่เมทริกซ์สหสัมพันธ์) PCA จำนวนเงินที่มีมูลค่าการสลายตัวเอกพจน์X = U S V ,คุณสามารถดูคำตอบของฉันที่นี่เพื่อดูรายละเอียด: ความสัมพันธ์ระหว่าง SVD และ PCA วิธีการใช้ SVD เพื่อทำ PCAXn

X=USV,

ใน PCA biplot ส่วนประกอบหลักสองตัวแรกจะถูกพล็อตเป็นพล็อตการกระจายนั่นคือคอลัมน์แรกของจะถูกพล็อตกับคอลัมน์ที่สอง แต่การปรับสภาพอาจแตกต่างกัน เช่นหนึ่งสามารถใช้:U

  1. คอลัมน์ของ : สิ่งเหล่านี้เป็นองค์ประกอบหลักที่ถูกปรับอัตราส่วนเป็นผลรวมของหน่วยของกำลังสองU
  2. คอลัมน์ของ: สิ่งเหล่านี้เป็นส่วนประกอบหลักมาตรฐาน (ความแปรปรวนของหน่วย);n1U
  3. คอลัมน์ของ : สิ่งเหล่านี้เป็นองค์ประกอบหลัก "ดิบ" (การคาดการณ์ในทิศทางหลัก)US

นอกจากนี้ตัวแปรดั้งเดิมจะถูกพล็อตเป็นลูกศร คือพิกัดของฉัน -th ลูกศรปลายทางจะได้รับโดยฉันค่า -th ในคอลัมน์แรกและครั้งที่สองของV แต่อีกครั้งหนึ่งสามารถเลือกการทำให้เป็นมาตรฐานที่แตกต่างกันเช่น:(x,y)iiV

  1. คอลัมน์ของ : ฉันไม่รู้ว่าการตีความที่นี่เป็นอย่างไรVS
  2. คอลัมน์ของ : สิ่งเหล่านี้เป็นภาระVS/n1
  3. คอลัมน์ของ : เหล่านี้เป็นแกนหลักV

นี่คือลักษณะทั้งหมดของชุดข้อมูล Fisher Iris:

ฟิชเชอร์ไอริส biplots, PCA กับความแปรปรวนร่วม

9XUSαβVS(1α)/β9 คือ "biplots ที่เหมาะสม": คือการรวมกันของแผนย่อยใด ๆ จากด้านบนกับด้านล่างโดยตรง

[ไม่ว่าจะใช้ชุดค่าผสมใดก็ตามอาจจำเป็นต้องปรับขนาดลูกศรด้วยปัจจัยคงที่ตามอำเภอใจบางประการเพื่อให้ทั้งลูกศรและจุดข้อมูลปรากฏขึ้นในระดับเดียวกัน]

VS/n1Un1

[ตัวเลือกเฉพาะ] นี้มีแนวโน้มที่จะให้ความช่วยเหลือด้านกราฟิกที่มีประโยชน์มากที่สุดในการตีความเมทริกซ์หลายตัวแปรของการสังเกตซึ่งแน่นอนว่าสิ่งเหล่านี้สามารถประมาณได้อย่างเพียงพอที่อันดับสอง

USV

US

biplotUVSbiplot0.8biplotn/(n1)1ดูการสอบสวนโดยละเอียดนี้โดย @AntoniParellada:

PCA บนเมทริกซ์สหสัมพันธ์

X1

ฟิชเชอร์ไอริส biplots, PCA ในความสัมพันธ์

1R=1


อ่านเพิ่มเติม:


1
+6 สิ่งนี้สมควรได้รับมากกว่า 3 upvotes
gung - Reinstate Monica

3
เพิ่งสังเกตเห็นว่า? ca :: plot.ca มีภาพรวมที่ดีของภาวะปกติที่เป็นไปได้ที่แตกต่างกัน: พวกเขาแยกแยะความแตกต่างของตัวการแถว (รูปแบบ biplot = แถวในตัวเชื่อมต่อหลักตัวหลัก cols ในตัวประสานมาตรฐาน) หลักตัวหลัก ใน coords มาตรฐาน) biplot สมมาตร (แถวและคอลัมน์ที่ปรับสัดส่วนให้มีความแปรปรวนเท่ากับค่าเอกพจน์ (รากที่สองของค่าลักษณะเฉพาะ)) rowgab และ colgab (แถวใน coords หลักและ cols ใน coords มาตรฐานคูณด้วยมวลของจุดที่สอดคล้องกันหรือ ในทางกลับกัน) และ rowgreen และ colgreen (เป็น rowgab และ colgab แต่มี sqrt (มวลชน))
Tom Wenseleers

2
คนสุดท้ายเหล่านี้จะถูกเรียกว่า "บริจาค biplots"; หนังสือโดย M. Greenacre "Biplots in practice" ยังให้ภาพรวมที่ดีของสิ่งเหล่านี้ วิธีการปรับขนาดเหล่านี้ใช้กับวิธีการทั้งหมดตาม SVD (เช่น CA biplots, PCA biplots, LDA biplots เป็นต้น); สำหรับตัวอย่างของวิธีการทำงานดูซอร์สโค้ด CA ::: plot.ca และ "แผนที่" อาร์กิวเมนต์
ทอม Wenseleers

1
n1

1
@AntoniParellada ฉันแก้ไขแล้วใส่ลิงค์สองสามข้อ
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.