การตีความแปลงการวิเคราะห์ความสอดคล้อง 2D


19

ฉันค้นหาอินเทอร์เน็ตไปทั่ว ... ฉันยังไม่พบภาพรวมที่ดีจริง ๆ ของวิธีการตีความแผนการวิเคราะห์การโต้ตอบสองมิติ มีใครให้คำแนะนำในการตีความระยะทางระหว่างคะแนนหรือไม่

บางทีตัวอย่างอาจช่วยได้นี่คือพล็อตที่พบในเว็บไซต์หลายแห่งที่ฉันเคยเห็นว่าวิเคราะห์การโต้ตอบจดหมาย สามเหลี่ยมสีแดงแสดงสีตาและจุดสีดำแสดงสีผม

ข้อความแสดงแทน

ดูกราฟข้างต้นคุณช่วยทำงบสองสามข้อเกี่ยวกับสิ่งที่คุณเห็นในข้อมูลเหล่านี้ จุดที่น่าสนใจเกี่ยวกับมิติและความสัมพันธ์ที่แตกต่างกันระหว่างสามเหลี่ยมและจุด?

คำอธิบายจุดแถวของข้อคอลัมน์และการใช้คำว่า "โปรไฟล์" ที่มีความสำคัญเป็นพิเศษในตัวอย่างจะเป็นเครื่องมือ


1
นอกเหนือจากบัญชีที่ยอดเยี่ยมของ @ chl ด้านล่างให้พิจารณาบัญชีนี้ด้วยการพิจารณา CA และ PCA แบบง่าย ๆ เป็นเพียงรูปแบบของ "การวิเคราะห์ biplot"
ttnphns

คำตอบ:


24

ขั้นแรกมีวิธีการสร้างbiplots ที่เรียกว่าในกรณีของการวิเคราะห์การติดต่อทางจดหมาย ในทุกกรณีแนวคิดพื้นฐานคือการหาวิธีแสดงการประมาณ 2D ที่ดีที่สุดของ "ระยะทาง" ระหว่างเซลล์แถวและเซลล์คอลัมน์ กล่าวอีกนัยหนึ่งเราต้องการลำดับชั้น (เราพูดถึง "อุปสมบท") ของความสัมพันธ์ระหว่างแถวและคอลัมน์ของตารางฉุกเฉิน

ในเวลาสั้น ๆ CA จะสลายตัวสถิติไค - สแควร์ที่เกี่ยวข้องกับตารางแบบสองทางเป็นปัจจัยมุมฉากที่เพิ่มการแยกระหว่างคะแนนแถวและคอลัมน์ (เช่นความถี่ที่คำนวณจากตารางโปรไฟล์) ที่นี่คุณจะเห็นว่ามีการเชื่อมต่อกับ PCA บ้าง แต่การวัดความแปรปรวน (หรือตัวชี้วัด) ที่เก็บไว้ใน CA คือซึ่งขึ้นอยู่กับโปรไฟล์คอลัมน์เท่านั้น (เนื่องจากมีแนวโน้มที่จะให้ความสำคัญกับรังสีที่มีค่าขอบขนาดใหญ่ เรายังสามารถให้น้ำหนักข้อมูลเริ่มต้นอีกครั้ง แต่นี่เป็นอีกเรื่องหนึ่ง)χ2

นี่คือคำตอบที่ละเอียดยิ่งขึ้น การใช้งานที่เสนอในcorresp()ฟังก์ชั่น (ในMASS) ดังต่อไปนี้จากมุมมองของ CA เป็นการสลายตัว SVD ของเมทริกซ์การเข้ารหัสหลอกตาที่เป็นตัวแทนของแถวและคอลัมน์ (เช่นกับ Nกลุ่มตัวอย่างทั้งหมด) นี่คือแสงสว่างด้วยการวิเคราะห์สหสัมพันธ์ที่ยอมรับ ในทางตรงกันข้ามโรงเรียนการวิเคราะห์ข้อมูลของฝรั่งเศสถือว่า CA เป็นตัวแปรของ PCA ซึ่งคุณจะค้นหาทิศทางที่เพิ่ม "ความเฉื่อย" ในคลาวด์ข้อมูลให้ได้มากที่สุด สิ่งนี้ทำได้โดยการตัดเมทริกซ์ความเฉื่อยในแนวทแยงที่คำนวณจากตารางสองทางที่กึ่งกลางและปรับขนาด (ตามความถี่ของระยะขอบ) และการแสดงโปรไฟล์แถวและคอลัมน์ในระบบพิกัดใหม่นี้RtC=NN

หากคุณพิจารณาตารางที่มีแถวและj = 1 , ,คอลัมน์Jแต่ละแถวจะถ่วงน้ำหนักด้วยผลรวมของขอบที่สอดคล้องกันซึ่งให้ชุดความถี่ตามเงื่อนไขที่เกี่ยวข้องกับแต่ละแถว: f j | ฉัน = n ฉันJ / n ฉัน คอลัมน์ส่วนเพิ่มเรียกว่าโปรไฟล์เฉลี่ย (สำหรับแถว) สิ่งนี้ทำให้เรามีเวกเตอร์ของพิกัดซึ่งเรียกว่าโปรไฟล์ (โดยแถว) สำหรับคอลัมน์เรามีi=1,,Ij=1,,Jfj|i=nij/niเจ ในทั้งสองกรณีเราจะพิจารณาโปรไฟล์แถว I (ที่เกี่ยวข้องกับน้ำหนักของพวกเขา f i ) เป็นรายบุคคลในพื้นที่คอลัมน์และโปรไฟล์คอลัมน์ J (เกี่ยวข้องกับน้ำหนักของพวกเขา f j ) เป็นรายบุคคลในพื้นที่แถว ตัวชี้วัดที่ใช้ในการคำนวณความใกล้ชิดระหว่างบุคคลสองคนคือระยะทาง χ 2 ยกตัวอย่างเช่นระหว่างสองแถวฉันและฉัน'เรามีfi|j=nij/njIfiJfjχ2ii

dχ22(i,i)=j=1Jnnj(nijninijni)2

χ2H0ni×nj/n(i,j)

χ2cos2ijχ2chisq.test(tab)$expected-chisq.test(tab)$observed

χ2nϕ2

จริงๆแล้วมีหลายแพ็คเกจที่อาจให้ CA ที่ได้รับการปรับปรุงเมื่อเทียบกับฟังก์ชั่นที่มีในMASSแพ็คเกจ: ade4 , FactoMineR , anacorและแคลิฟอร์เนีย

ล่าสุดเป็นหนึ่งที่ถูกนำมาใช้เพื่อประกอบการอธิบายโดยเฉพาะอย่างยิ่งของคุณและกระดาษที่ถูกตีพิมพ์ในวารสารของสถิติซอฟต์แวร์ที่อธิบายถึงมากที่สุดของ functionnalities ของ: การวิเคราะห์ความสอดคล้องใน R กับสองและสามมิติกราฟิก: แคลิฟอร์เนียแพคเกจ

ดังนั้นตัวอย่างของคุณเกี่ยวกับสีตา / ผมสามารถทำซ้ำได้หลายวิธี:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

ในทุกกรณีสิ่งที่เราอ่านใน biplot ที่เกิดนั้นเป็นพื้น (ฉัน จำกัด การตีความของฉันไปที่แกนที่ 1 ซึ่งอธิบายความเฉื่อยส่วนใหญ่):

  • แกนแรกเน้นความขัดแย้งที่ชัดเจนระหว่างสีผมอ่อนและสีเข้มและระหว่างดวงตาสีฟ้าและสีน้ำตาล
  • คนที่มีผมสีบลอนด์มักจะมีตาสีฟ้าและคนที่มีผมสีดำมักจะมีตาสีน้ำตาล

มีทรัพยากรเพิ่มเติมมากมายในการวิเคราะห์ข้อมูลในห้องปฏิบัติการด้านชีวสารสนเทศจากลียงในฝรั่งเศส นี่เป็นภาษาฝรั่งเศสเป็นส่วนใหญ่ แต่ฉันคิดว่ามันจะไม่เป็นปัญหาสำหรับคุณมากนัก เอกสารประกอบคำบรรยายทั้งสองต่อไปนี้ควรน่าสนใจตั้งแต่เริ่มต้นครั้งแรก:

k


1
@ Brandon แกนที่ 1 เป็นแกนของ "dominance" (light -> dark) สำหรับ modalities ทั้งสอง แต่เราสามารถเห็นได้ว่าแกนที่ 1 ตัดกับดวงตาสีฟ้าและสีเขียวต่อตาสีน้ำตาลและสีน้ำตาลแดง (พิกัดของพวกมันเป็นเครื่องหมายตรงกันข้าม) และผมสีแดง / ตาสีเขียว - ซึ่งค่อนข้างแปลก - ส่วนใหญ่สนับสนุนแกนที่ 2 เนื่องจากแกนนี้อธิบายเพียง 9.5% ของความเฉื่อยทั้งหมดมันค่อนข้างยากที่จะสรุปข้อสรุปได้อย่างมั่นคง (โดยเฉพาะสมมุติฐานทางพันธุกรรม)
chl

1
@Brandon สองแหล่งอ้างอิงเพิ่มเติม (เป็นภาษาอังกฤษในเวลานี้): หลักสูตร PBIL ( j.mp/cHZT7X ) และทรัพยากรของ Michael Friendly ( j.mp/cYHyVn + vcdและvcdExtraแพ็คเกจ R ซึ่งรวมถึงบทความสั้น ๆ )
chl

2
@Brandon ใช่หนึ่ง modality = หนึ่งหมวดหมู่สำหรับตัวแปรของคุณ สำหรับคำถามcorที่สองของคุณคือความสัมพันธ์กำลังสองกับแกนและctrเป็นผลงาน (จะต้องมีการหารด้วย 10 เพื่อให้อ่านได้เป็น%) ดังนั้น "ผมสีแดง" ก่อให้เกิดความเฉื่อยของแกนที่ 2 55.1% ในแง่หนึ่งฉันพบว่าเอาต์พุต FactoMineR "ใช้งานง่าย" มากขึ้น ( CA(tab, graph=FALSE)$row$contribให้% โดยตรงกับคุณ)
chl

1
@chl: ว้าวสำหรับคนที่ไม่รู้อะไรเกี่ยวกับ CCA หรือ "ทางฝรั่งเศส" นี่เป็นการอ่านที่ยอดเยี่ยม! ขอบคุณมาก. ฉันพบสิ่งนี้ด้วย googling ที่อาจเป็นที่สนใจ: www-stat.stanford.edu/~susan/papers/dfc.pdf
ars

1
@ars (+1) ขอบคุณสำหรับลิงค์ (ไม่ทราบเกี่ยวกับเอกสารนี้มันดูน่าสนใจ) คำแนะนำที่ดีที่สุดของฉันสำหรับการพัฒนาล่าสุดคือเอกสารทั้งหมดจาก Jan de Leeuw และหนังสือสองเล่มนี้: การวิเคราะห์สารบรรณหลายรายการและวิธีการที่เกี่ยวข้องจาก Greenacre และการวิเคราะห์ข้อมูลทางเรขาคณิต: จากการวิเคราะห์สารบรรณถึงการวิเคราะห์ข้อมูลเชิงโครงสร้างจาก Le Roux & Rouanet .
chl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.