อะไรคือความแตกต่างที่สำคัญระหว่างการวิเคราะห์องค์ประกอบหลัก (PCA) ในเมทริกซ์สหสัมพันธ์และเมทริกซ์ความแปรปรวนร่วม? พวกเขาให้ผลลัพธ์เดียวกันหรือไม่
อะไรคือความแตกต่างที่สำคัญระหว่างการวิเคราะห์องค์ประกอบหลัก (PCA) ในเมทริกซ์สหสัมพันธ์และเมทริกซ์ความแปรปรวนร่วม? พวกเขาให้ผลลัพธ์เดียวกันหรือไม่
คำตอบ:
คุณมักจะใช้เมทริกซ์ความแปรปรวนร่วมเมื่อสเกลตัวแปรมีความคล้ายคลึงกันและเมทริกซ์สหสัมพันธ์เมื่อตัวแปรอยู่ในสเกลที่แตกต่างกัน
การใช้เมทริกซ์สหสัมพันธ์จะเทียบเท่ามาตรฐานของแต่ละตัวแปร (หมายถึง 0 และค่าเบี่ยงเบนมาตรฐาน 1) โดยทั่วไป PCA ที่มีและไม่มีมาตรฐานจะให้ผลลัพธ์ที่ต่างกัน โดยเฉพาะเมื่อตาชั่งต่างกัน
เป็นตัวอย่างให้ดูที่heptathlon
ชุดข้อมูลR นี้ ตัวแปรบางตัวมีค่าเฉลี่ยประมาณ 1.8 (กระโดดสูง) ในขณะที่ตัวแปรอื่น ๆ (วิ่ง 800 ม.) อยู่ที่ประมาณ 120
library(HSAUR)
heptathlon[,-8] # look at heptathlon data (excluding 'score' variable)
ผลลัพธ์นี้:
hurdles highjump shot run200m longjump javelin run800m
Joyner-Kersee (USA) 12.69 1.86 15.80 22.56 7.27 45.66 128.51
John (GDR) 12.85 1.80 16.23 23.65 6.71 42.56 126.12
Behmer (GDR) 13.20 1.83 14.20 23.10 6.68 44.54 124.20
Sablovskaite (URS) 13.61 1.80 15.23 23.92 6.25 42.78 132.24
Choubenkova (URS) 13.51 1.74 14.76 23.93 6.32 47.46 127.90
...
ตอนนี้เรามาทำ PCA กับความแปรปรวนร่วมและสหสัมพันธ์:
# scale=T bases the PCA on the correlation matrix
hep.PC.cor = prcomp(heptathlon[,-8], scale=TRUE)
hep.PC.cov = prcomp(heptathlon[,-8], scale=FALSE)
biplot(hep.PC.cov)
biplot(hep.PC.cor)
ขอให้สังเกตว่า PCA เกี่ยวกับความแปรปรวนร่วมถูกครอบงำโดยrun800m
และjavelin
: PC1 เกือบเท่ากับrun800m
(และอธิบายความแปรปรวน ) และ PC2 เกือบเท่ากับ(อธิบายร่วมกัน ) PCA ในความสัมพันธ์มีข้อมูลมากขึ้นและเปิดเผยโครงสร้างบางอย่างในข้อมูลและความสัมพันธ์ระหว่างตัวแปร (แต่โปรดทราบว่าผลต่างที่อธิบายลดลงถึงและ )97 % 64 % 71 %javelin
โปรดสังเกตว่าบุคคลภายนอก (ในชุดข้อมูลนี้ ) เป็นผู้ผิดโดยไม่คำนึงว่าจะใช้เมทริกซ์ความแปรปรวนร่วมหรือเมทริกซ์สหสัมพันธ์
Bernard Flury ในหนังสือที่ยอดเยี่ยมของเขาแนะนำการวิเคราะห์หลายตัวแปรอธิบายว่านี่เป็นการต่อต้านคุณสมบัติของส่วนประกอบหลัก มันแย่กว่าการเลือกระหว่างสหสัมพันธ์หรือความแปรปรวนร่วม หากคุณเปลี่ยนหน่วย (เช่นแกลลอนสไตล์อเมริกานิ้ว ฯลฯ และลิตรสไตล์สหภาพยุโรปเซนติเมตร) คุณจะได้รับข้อมูลที่แตกต่างกันอย่างมาก
การโต้เถียงโดยอัตโนมัติโดยใช้เมทริกซ์สหสัมพันธ์นั้นเป็นวิธีที่ค่อนข้างโหดร้ายในการทำให้ข้อมูลของคุณเป็นมาตรฐาน ปัญหาของการใช้เมทริกซ์ความแปรปรวนร่วมโดยอัตโนมัติซึ่งชัดเจนมากกับข้อมูล heptathalon นั่นคือตัวแปรที่มีความแปรปรวนสูงสุดจะครององค์ประกอบหลักตัวแรก (คุณสมบัติความแปรปรวนสูงสุด)
ดังนั้นวิธีที่ "ดีที่สุด" ในการใช้จึงขึ้นอยู่กับทางเลือกส่วนตัวความคิดที่รอบคอบและประสบการณ์บางอย่าง
ข้อมูล UNTRANSFORMED (RAW):หากคุณมีตัวแปรที่มีสเกลที่แตกต่างกันอย่างกว้างขวางสำหรับข้อมูลดิบที่ไม่ได้ทำการแปลนั่นคือปริมาณแคลอรี่ต่อวันการแสดงออกของยีน ELISA / Luminex ในหน่วยของ ug / dl, ng / dl ขนาดของการแสดงออกของโปรตีนจากนั้นใช้สหสัมพันธ์เป็นอินพุตไปยัง PCA อย่างไรก็ตามหากข้อมูลทั้งหมดของคุณอยู่บนพื้นฐานของเช่นการแสดงออกของยีนจากแพลตฟอร์มเดียวกันที่มีช่วงและขนาดใกล้เคียงกันหรือคุณกำลังทำงานกับผลตอบแทนสินทรัพย์บันทึกการใช้ความสัมพันธ์จะทำให้ข้อมูลจำนวนมหาศาล
คุณไม่จำเป็นต้องคิดเกี่ยวกับความแตกต่างของการใช้เมทริกซ์สหสัมพันธ์หรือเมทริกซ์ความแปรปรวนร่วมเป็นอินพุตของ PCA แต่ให้ดูที่ค่าในแนวทแยงของและ{R} คุณอาจจะสังเกตเห็นความแปรปรวนของตัวแปรหนึ่งและอีก - ซึ่งอยู่บนเส้นทแยงมุมของ{C} แต่เมื่อดูที่ความสัมพันธ์เส้นทแยงมุมจะมีค่าทั้งหมดดังนั้นความแปรปรวนของแต่ละตัวแปรจึงเปลี่ยนเป็นตามที่คุณใช้เมทริกซ์
TRANSFORMED DATA:หากข้อมูลได้รับการแปลงผ่านการทำให้เป็นมาตรฐาน, เปอร์เซ็นไทล์, หรือค่าเฉลี่ยศูนย์ - มาตรฐาน (เช่น, คะแนน ), ดังนั้นช่วงและสเกลของตัวแปรต่อเนื่องทั้งหมดจะเท่ากัน, คุณสามารถใช้เมทริกซ์ Covarianceโดยไม่มีปัญหาใด ๆ (สหสัมพันธ์จะทำให้ตัวแปรมาตรฐานมีค่าเฉลี่ยเป็นศูนย์) จำได้อย่างไรว่าการเปลี่ยนแปลงเหล่านี้จะไม่ลบเบ้ (เช่นทางซ้ายหรือขวาหางใน histograms) ในตัวแปรของคุณก่อนที่จะเรียก PCA การวิเคราะห์ PCA ทั่วไปไม่เกี่ยวข้องกับการกำจัดความเบ้ อย่างไรก็ตามผู้อ่านบางคนอาจจำเป็นต้องลบความเบ้เพื่อให้ได้ข้อ จำกัด ด้านกฎเกณฑ์ที่เข้มงวด
โดยสรุปให้ใช้เมทริกซ์สหสัมพันธ์เมื่ออยู่ในช่วงตัวแปรและมาตราส่วนแตกต่างกันอย่างกว้างขวางและใช้เมทริกซ์ความแปรปรวนร่วมเพื่อรักษาความแปรปรวนหากช่วงและขนาดของตัวแปรมีความคล้ายคลึงหรืออยู่ในหน่วยเดียวกันของ วัด.
ตัวแปรที่เอียง:หากตัวแปรใดมีการเอียงด้วยหางซ้ายหรือขวาในฮิสโทแกรมของพวกเขานั่นคือการทดสอบภาวะปกติของ Shapiro-Wilk หรือ Lilliefors มีความสำคัญอาจมีปัญหาบางอย่างหากคุณจำเป็นต้องใช้กฎเกณฑ์ การสันนิษฐาน ในกรณีนี้ใช้คะแนน van der Waerden (แปลง) ที่กำหนดจากตัวแปรแต่ละตัว คะแนน van der Waerden (VDW) สำหรับการสังเกตเพียงครั้งเดียวเป็นเพียงการทำแผนที่ปกติแบบผกผันสะสม (มาตรฐาน) ของค่าเปอร์เซ็นต์ไทล์ของการสังเกต ตัวอย่างเช่นสมมติว่าคุณมีการสังเกตสำหรับตัวแปรต่อเนื่องคุณสามารถกำหนดคะแนน VDW ได้โดยใช้:
ตัวอย่างเช่นถ้าคุณเสียบในมูลค่า 0.025, คุณจะได้รับ(0.025) กันไปสำหรับค่าปลั๊กอินของ , คุณจะได้รับ(0.975)
การใช้คะแนน VDW เป็นที่นิยมมากในพันธุศาสตร์ซึ่งตัวแปรหลายตัวถูกเปลี่ยนเป็นคะแนน VDW จากนั้นป้อนข้อมูลเข้าสู่การวิเคราะห์ ข้อได้เปรียบของการใช้คะแนน VDW คือความเบ้และผลกระทบภายนอกถูกลบออกจากข้อมูลและสามารถนำมาใช้หากเป้าหมายคือการทำการวิเคราะห์ภายใต้ข้อ จำกัด ของกฎเกณฑ์ - และตัวแปรทุกตัวต้องเป็นมาตรฐานปกติหมดจดโดยไม่มีความเบ้ หรือค่าผิดปกติ
คำตอบทั่วไปคือแนะนำว่าความแปรปรวนร่วมจะใช้เมื่อตัวแปรอยู่ในระดับเดียวกันและสหสัมพันธ์เมื่อตาชั่งแตกต่างกัน อย่างไรก็ตามสิ่งนี้เป็นจริงเฉพาะเมื่อสเกลของตัวแปรไม่ใช่ปัจจัย มิฉะนั้นแล้วทำไมทุกคนจะเคยแปรปรวน PCA? มันจะปลอดภัยกว่าในการแสดง PCA ที่สัมพันธ์กันเสมอ
ลองนึกภาพว่าตัวแปรของคุณมีหน่วยวัดแตกต่างกันเช่นเมตรและกิโลกรัม ไม่สำคัญว่าคุณจะใช้เมตรหรือเซนติเมตรในกรณีนี้หรือไม่ดังนั้นคุณสามารถยืนยันได้ว่าควรใช้เมทริกซ์สหสัมพันธ์
พิจารณาถึงจำนวนประชากรของผู้คนในรัฐต่างๆ หน่วยวัดเหมือนกัน - นับ (จำนวน) คน ตอนนี้เครื่องชั่งอาจแตกต่างกัน: DC มี 600K และ CA - 38 ล้านคน เราควรใช้เมทริกซ์สหสัมพันธ์ที่นี่ไหม? มันขึ้นอยู่กับ. ในบางแอปพลิเคชันเราต้องการปรับขนาดของรัฐ การใช้เมทริกซ์ความแปรปรวนร่วมเป็นวิธีหนึ่งในการสร้างปัจจัยที่คำนึงถึงขนาดของรัฐ
ดังนั้นคำตอบของฉันคือใช้เมทริกซ์ความแปรปรวนร่วมเมื่อความแปรปรวนของตัวแปรดั้งเดิมมีความสำคัญและใช้สหสัมพันธ์เมื่อไม่ได้
ฉันพบว่ามันมีค่ามากที่จะพูดถึงตัวเลือกเหล่านี้ตามโมเดลการวิเคราะห์องค์ประกอบหลักที่มีโอกาสสูงสุด (MLPCA) [1,2] ใน MLPCA จะใช้การปรับขนาด (หรือแม้แต่การหมุน) เพื่อให้ข้อผิดพลาดในการวัดในตัวแปรที่วัดนั้นมีความเป็นอิสระและกระจายตามการแจกแจงแบบปกติมาตรฐาน การปรับขนาดนี้เรียกอีกอย่างว่าการปรับความน่าจะเป็นสูงสุด (MALS) [3] ในบางกรณีโมเดล PCA และพารามิเตอร์ที่กำหนดสเกล / การหมุน MALS สามารถประมาณร่วมกันได้ [4]
ในการตีความ PCA แบบสหสัมพันธ์และความแปรปรวนร่วมเราสามารถโต้แย้งได้ว่า:
ทางเลือกที่ดีที่สุดขึ้นอยู่กับสมมติฐานที่คุณทำ นอกจากนี้ยูทิลิตี้ของแบบจำลองใด ๆ ขึ้นอยู่กับบริบทและวัตถุประสงค์ของการวิเคราะห์ของคุณ หากต้องการอ้างอิง George EP Box: "ทุกรุ่นผิด แต่บางรุ่นก็มีประโยชน์"
[1] Wentzell, PD, Andrews, DT, Hamilton, DC, Faber, K. , & Kowalski, BR (1997) การวิเคราะห์องค์ประกอบหลักโอกาสสูงสุด วารสารเคมี, 11 (4), 339-366
[2] Wentzell, PD และ Lohnes, MT (1999) การวิเคราะห์องค์ประกอบหลักโอกาสสูงสุดที่มีข้อผิดพลาดในการวัดค่าสหสัมพันธ์: การพิจารณาเชิงทฤษฎีและปฏิบัติ เคมีและระบบห้องปฏิบัติการอัจฉริยะ, 45 (1-2), 65-85
[3] Hoefsloot, HC, Verouden, MP, Westerhuis, JA, & Smilde, AK (2006) การปรับโอกาสสูงสุด (MALS) วารสารเคมี, 20 (3‐4), 120-127
[4] Narasimhan, S. , & Shah, SL (2008) การระบุโมเดลและการประมาณค่าความแปรปรวนร่วมเมทริกซ์ความผิดพลาดจากข้อมูลที่มีเสียงดังโดยใช้ PCA การปฏิบัติงานวิศวกรรมควบคุม, 16 (1), 146-155
[5] การให้ทิป, ME, & บิชอป, CM (1999) การวิเคราะห์องค์ประกอบหลักความน่าจะเป็น วารสารสมาคมสถิติ: ชุด B (ระเบียบวิธีสถิติ), 61 (3), 611-622
ง่ายและตรงไปตรงมา: หากเครื่องชั่งมีลักษณะคล้ายกันใช้ cov-PCA ถ้าไม่ให้ใช้ corr-PCA มิฉะนั้นคุณควรมีการป้องกันที่ดีกว่า หากมีข้อสงสัยให้ใช้การทดสอบ F เพื่อความเท่าเทียมกันของความแปรปรวน (ANOVA) หากการทดสอบ F ล้มเหลวให้ใช้ corr; มิฉะนั้นใช้ cov
อาร์กิวเมนต์ที่อิงตามมาตราส่วน (สำหรับตัวแปรที่แสดงในหน่วยทางกายภาพเดียวกัน) นั้นค่อนข้างอ่อนแอ ลองนึกภาพชุดของตัวแปร (ไร้มิติ) ซึ่งค่าเบี่ยงเบนมาตรฐานแตกต่างกันระหว่าง 0.001 และ 0.1 เมื่อเทียบกับค่ามาตรฐานที่เป็น 1 ทั้งสองดูเหมือนจะเป็น 'เล็ก' และระดับความผันผวนที่เปรียบเทียบได้ อย่างไรก็ตามเมื่อคุณแสดงเป็นเดซิเบลค่านี้จะให้ช่วง -60 dB เทียบกับ -10 และ 0 dB ตามลำดับ จากนั้นสิ่งนี้น่าจะถูกจัดเป็น 'ช่วงกว้าง' - โดยเฉพาะถ้าคุณจะรวมค่าเบี่ยงเบนมาตรฐานใกล้กับ 0 นั่นคือลบอนันต์ dB
ข้อเสนอแนะของฉันจะทำทั้ง PCA ที่มีความสัมพันธ์และความแปรปรวนร่วม หากทั้งสองให้พีซีที่เหมือนกัน (หรือคล้ายกันมากไม่ว่ามันจะหมายถึงอะไร) คุณสามารถมั่นใจได้ว่าคุณได้รับคำตอบที่มีความหมาย หากพวกเขาให้พีซีที่แตกต่างกันอย่างกว้างขวางไม่ได้ใช้ PCA เพราะสองคำตอบที่แตกต่างกันสำหรับปัญหาเดียวไม่ใช่วิธีที่สมเหตุสมผลในการแก้ปัญหา