PCA เกี่ยวกับสหสัมพันธ์หรือความแปรปรวนร่วม?


153

อะไรคือความแตกต่างที่สำคัญระหว่างการวิเคราะห์องค์ประกอบหลัก (PCA) ในเมทริกซ์สหสัมพันธ์และเมทริกซ์ความแปรปรวนร่วม? พวกเขาให้ผลลัพธ์เดียวกันหรือไม่


2
ตอบกลับล่าช้า แต่คุณอาจพบว่ามีประโยชน์มากในการวิเคราะห์ข้อมูลหลายตัวแปร "à la française" ในแผนกชีวสารสนเทศศาสตร์ของลียง สิ่งเหล่านี้มาจากผู้แต่งแพ็คเกจR ade4 มันเป็นภาษาฝรั่งเศสแม้ว่า
chl

3
สำหรับการอภิปรายเพิ่มเติมกรุณาเยี่ยมชมstats.stackexchange.com/questions/62677/...
whuber

2
คำถามที่เกี่ยวข้องกับคำตอบที่เกี่ยวข้อง: การวิเคราะห์ปัจจัยทั่วไปเคยดำเนินการโดยใช้เมทริกซ์ความแปรปรวนร่วมหรือไม่? และไม่ normalizing ข้อมูลก่อน PCA ช่วยให้อัตราส่วนความแปรปรวนที่ดีกว่าอธิบาย
อะมีบา

คำตอบ:


130

คุณมักจะใช้เมทริกซ์ความแปรปรวนร่วมเมื่อสเกลตัวแปรมีความคล้ายคลึงกันและเมทริกซ์สหสัมพันธ์เมื่อตัวแปรอยู่ในสเกลที่แตกต่างกัน

การใช้เมทริกซ์สหสัมพันธ์จะเทียบเท่ามาตรฐานของแต่ละตัวแปร (หมายถึง 0 และค่าเบี่ยงเบนมาตรฐาน 1) โดยทั่วไป PCA ที่มีและไม่มีมาตรฐานจะให้ผลลัพธ์ที่ต่างกัน โดยเฉพาะเมื่อตาชั่งต่างกัน

เป็นตัวอย่างให้ดูที่heptathlonชุดข้อมูลR นี้ ตัวแปรบางตัวมีค่าเฉลี่ยประมาณ 1.8 (กระโดดสูง) ในขณะที่ตัวแปรอื่น ๆ (วิ่ง 800 ม.) อยู่ที่ประมาณ 120

library(HSAUR)
heptathlon[,-8]      # look at heptathlon data (excluding 'score' variable)

ผลลัพธ์นี้:

                   hurdles highjump  shot run200m longjump javelin run800m
Joyner-Kersee (USA)   12.69     1.86 15.80   22.56     7.27   45.66  128.51
John (GDR)            12.85     1.80 16.23   23.65     6.71   42.56  126.12
Behmer (GDR)          13.20     1.83 14.20   23.10     6.68   44.54  124.20
Sablovskaite (URS)    13.61     1.80 15.23   23.92     6.25   42.78  132.24
Choubenkova (URS)     13.51     1.74 14.76   23.93     6.32   47.46  127.90
...

ตอนนี้เรามาทำ PCA กับความแปรปรวนร่วมและสหสัมพันธ์:

# scale=T bases the PCA on the correlation matrix
hep.PC.cor = prcomp(heptathlon[,-8], scale=TRUE)
hep.PC.cov = prcomp(heptathlon[,-8], scale=FALSE)

biplot(hep.PC.cov)
biplot(hep.PC.cor)  

PCA เกี่ยวกับสหสัมพันธ์หรือความแปรปรวนร่วม

ขอให้สังเกตว่า PCA เกี่ยวกับความแปรปรวนร่วมถูกครอบงำโดยrun800mและjavelin: PC1 เกือบเท่ากับrun800m(และอธิบายความแปรปรวน ) และ PC2 เกือบเท่ากับ(อธิบายร่วมกัน ) PCA ในความสัมพันธ์มีข้อมูลมากขึ้นและเปิดเผยโครงสร้างบางอย่างในข้อมูลและความสัมพันธ์ระหว่างตัวแปร (แต่โปรดทราบว่าผลต่างที่อธิบายลดลงถึงและ )82%97 % 64 % 71 %javelin97%64%71%

โปรดสังเกตว่าบุคคลภายนอก (ในชุดข้อมูลนี้ ) เป็นผู้ผิดโดยไม่คำนึงว่าจะใช้เมทริกซ์ความแปรปรวนร่วมหรือเมทริกซ์สหสัมพันธ์


สถานการณ์คืออะไรถ้าฉันแปลงตัวแปรเป็นคะแนน z ก่อน?
Jirka-x1

9
@ Jirka-x1 เมทริกซ์ความแปรปรวนร่วมของตัวแปรมาตรฐาน (เช่นคะแนนz ) เท่ากับเมทริกซ์สหสัมพันธ์
Alexis

@Alexis ดังนั้นสามารถอนุมานได้ว่าเมทริกซ์ความแปรปรวนร่วมของตัวแปรมาตรฐานเท่ากับเมทริกซ์สหสัมพันธ์ของตัวแปรมาตรฐานหรือไม่
jb

1
@JamieBullock (เมทริกซ์ความแปรปรวนร่วม) สำหรับข้อมูลที่ได้มาตรฐาน = (เมทริกซ์สหสัมพันธ์) หรือไม่ว่าข้อมูลที่ได้มาตรฐาน (ความสัมพันธ์เป็นความรู้สึกที่แปลงเชิงเส้นของข้อมูล. ดังนั้นสำหรับตัวอย่างเช่นถ้าคุณมีและและพวกเขามีความสัมพันธ์กับแล้ว ถ้าและและสัมพันธ์กับด้วยเช่นกัน R R = R X Y R X Y X = a X + b Y = a Y + b X Y r X YΣRR=RXYrXYX=aX+bY=aY+b XYrXY
Alexis

ประกาศสำคัญประการหนึ่ง: เมื่อใช้ความแปรปรวนร่วมใน PCA ของคุณพีซีของคุณจะไม่สัมพันธ์กันซึ่งไม่ถือเป็นจริงสำหรับ PCA ที่มีความสัมพันธ์กัน สิ่งนี้มีความสำคัญอย่างยิ่งเมื่อมีความตั้งใจที่จะดำเนินการ PCA ก่อนการถดถอยในชุดตัวแปรอธิบายจำนวนหลายชุด อย่างไรก็ตามทฤษฎีที่อยู่เบื้องหลังเรื่องนี้ยังไม่ชัดเจน มีใครบ้างไหมที่ให้ความกระจ่างเกี่ยวกับความแตกต่างนี้?
ouranos

54

Bernard Flury ในหนังสือที่ยอดเยี่ยมของเขาแนะนำการวิเคราะห์หลายตัวแปรอธิบายว่านี่เป็นการต่อต้านคุณสมบัติของส่วนประกอบหลัก มันแย่กว่าการเลือกระหว่างสหสัมพันธ์หรือความแปรปรวนร่วม หากคุณเปลี่ยนหน่วย (เช่นแกลลอนสไตล์อเมริกานิ้ว ฯลฯ และลิตรสไตล์สหภาพยุโรปเซนติเมตร) คุณจะได้รับข้อมูลที่แตกต่างกันอย่างมาก

การโต้เถียงโดยอัตโนมัติโดยใช้เมทริกซ์สหสัมพันธ์นั้นเป็นวิธีที่ค่อนข้างโหดร้ายในการทำให้ข้อมูลของคุณเป็นมาตรฐาน ปัญหาของการใช้เมทริกซ์ความแปรปรวนร่วมโดยอัตโนมัติซึ่งชัดเจนมากกับข้อมูล heptathalon นั่นคือตัวแปรที่มีความแปรปรวนสูงสุดจะครององค์ประกอบหลักตัวแรก (คุณสมบัติความแปรปรวนสูงสุด)

ดังนั้นวิธีที่ "ดีที่สุด" ในการใช้จึงขึ้นอยู่กับทางเลือกส่วนตัวความคิดที่รอบคอบและประสบการณ์บางอย่าง


46

ข้อมูล UNTRANSFORMED (RAW):หากคุณมีตัวแปรที่มีสเกลที่แตกต่างกันอย่างกว้างขวางสำหรับข้อมูลดิบที่ไม่ได้ทำการแปลนั่นคือปริมาณแคลอรี่ต่อวันการแสดงออกของยีน ELISA / Luminex ในหน่วยของ ug / dl, ng / dl ขนาดของการแสดงออกของโปรตีนจากนั้นใช้สหสัมพันธ์เป็นอินพุตไปยัง PCA อย่างไรก็ตามหากข้อมูลทั้งหมดของคุณอยู่บนพื้นฐานของเช่นการแสดงออกของยีนจากแพลตฟอร์มเดียวกันที่มีช่วงและขนาดใกล้เคียงกันหรือคุณกำลังทำงานกับผลตอบแทนสินทรัพย์บันทึกการใช้ความสัมพันธ์จะทำให้ข้อมูลจำนวนมหาศาล

คุณไม่จำเป็นต้องคิดเกี่ยวกับความแตกต่างของการใช้เมทริกซ์สหสัมพันธ์หรือเมทริกซ์ความแปรปรวนร่วมเป็นอินพุตของ PCA แต่ให้ดูที่ค่าในแนวทแยงของและ{R} คุณอาจจะสังเกตเห็นความแปรปรวนของตัวแปรหนึ่งและอีก - ซึ่งอยู่บนเส้นทแยงมุมของ{C} แต่เมื่อดูที่ความสัมพันธ์เส้นทแยงมุมจะมีค่าทั้งหมดดังนั้นความแปรปรวนของแต่ละตัวแปรจึงเปลี่ยนเป็นตามที่คุณใช้เมทริกซ์RCCR10010C1R

TRANSFORMED DATA:หากข้อมูลได้รับการแปลงผ่านการทำให้เป็นมาตรฐาน, เปอร์เซ็นไทล์, หรือค่าเฉลี่ยศูนย์ - มาตรฐาน (เช่น, คะแนน ), ดังนั้นช่วงและสเกลของตัวแปรต่อเนื่องทั้งหมดจะเท่ากัน, คุณสามารถใช้เมทริกซ์ Covarianceโดยไม่มีปัญหาใด ๆ (สหสัมพันธ์จะทำให้ตัวแปรมาตรฐานมีค่าเฉลี่ยเป็นศูนย์) จำได้อย่างไรว่าการเปลี่ยนแปลงเหล่านี้จะไม่ลบเบ้ (เช่นทางซ้ายหรือขวาหางใน histograms) ในตัวแปรของคุณก่อนที่จะเรียก PCA การวิเคราะห์ PCA ทั่วไปไม่เกี่ยวข้องกับการกำจัดความเบ้ อย่างไรก็ตามผู้อ่านบางคนอาจจำเป็นต้องลบความเบ้เพื่อให้ได้ข้อ จำกัด ด้านกฎเกณฑ์ที่เข้มงวดZC

โดยสรุปให้ใช้เมทริกซ์สหสัมพันธ์เมื่ออยู่ในช่วงตัวแปรและมาตราส่วนแตกต่างกันอย่างกว้างขวางและใช้เมทริกซ์ความแปรปรวนร่วมเพื่อรักษาความแปรปรวนหากช่วงและขนาดของตัวแปรมีความคล้ายคลึงหรืออยู่ในหน่วยเดียวกันของ วัด.RC

ตัวแปรที่เอียง:หากตัวแปรใดมีการเอียงด้วยหางซ้ายหรือขวาในฮิสโทแกรมของพวกเขานั่นคือการทดสอบภาวะปกติของ Shapiro-Wilk หรือ Lilliefors มีความสำคัญอาจมีปัญหาบางอย่างหากคุณจำเป็นต้องใช้กฎเกณฑ์ การสันนิษฐาน ในกรณีนี้ใช้คะแนน van der Waerden (แปลง) ที่กำหนดจากตัวแปรแต่ละตัว คะแนน van der Waerden (VDW) สำหรับการสังเกตเพียงครั้งเดียวเป็นเพียงการทำแผนที่ปกติแบบผกผันสะสม (มาตรฐาน) ของค่าเปอร์เซ็นต์ไทล์ของการสังเกต ตัวอย่างเช่นสมมติว่าคุณมีการสังเกตสำหรับตัวแปรต่อเนื่องคุณสามารถกำหนดคะแนน VDW ได้โดยใช้:(P<0.05)n=100

  1. อันดับแรกเรียงลำดับตามลำดับจากน้อยไปมากจากนั้นกำหนดอันดับเพื่อให้คุณได้อันดับRi=1,2,,100.
  2. ถัดไปตรวจสอบเปอร์เซ็นต์สำหรับแต่ละข้อสังเกตเป็น1) pcti=Ri/(n+1)
  3. เมื่อได้รับค่าเปอร์เซ็นต์ไทล์แล้วให้ใส่เข้าไปในฟังก์ชั่นการแม็พผกผันสำหรับ CDF ของการแจกแจงปกติมาตรฐานเช่นเพื่อรับ -score สำหรับแต่ละคนโดยใช้(pct_i) N(0,1)ZZi=Φ1(pcti)

ตัวอย่างเช่นถ้าคุณเสียบในมูลค่า 0.025, คุณจะได้รับ(0.025) กันไปสำหรับค่าปลั๊กอินของ , คุณจะได้รับ(0.975) pcti1.96=Φ1(0.025)pcti=0.9751.96=Φ1(0.975)

การใช้คะแนน VDW เป็นที่นิยมมากในพันธุศาสตร์ซึ่งตัวแปรหลายตัวถูกเปลี่ยนเป็นคะแนน VDW จากนั้นป้อนข้อมูลเข้าสู่การวิเคราะห์ ข้อได้เปรียบของการใช้คะแนน VDW คือความเบ้และผลกระทบภายนอกถูกลบออกจากข้อมูลและสามารถนำมาใช้หากเป้าหมายคือการทำการวิเคราะห์ภายใต้ข้อ จำกัด ของกฎเกณฑ์ - และตัวแปรทุกตัวต้องเป็นมาตรฐานปกติหมดจดโดยไม่มีความเบ้ หรือค่าผิดปกติ


7
นี่คือคำตอบที่สมเหตุสมผลที่สุดในที่นี้เพราะมันให้มุมมองที่เหมาะสมว่าความแปรปรวนร่วมชนะเมื่อเหมาะสม คำตอบมากเกินไปที่นี่และที่อื่น ๆ พูดถึงปกติ "มันขึ้นอยู่กับ" ไม่จริงให้เป็นประจำอย่างหนักว่าทำไมหนึ่งควรต้องการแปรปรวนถ้าเป็นไปได้ lep ที่นี่ทำ: ความแปรปรวนร่วมไม่ได้ชักข้อมูลใด ๆ ที่สัมพันธ์กัน ตัวอย่างข้อมูลสต็อกเป็นสิ่งที่ดีอย่างหนึ่ง: หุ้นที่มีเบต้าสูงจะมีการโหลดสูงขึ้น แต่พวกเขาน่าจะควรเช่นเดียวกับการวิเคราะห์ใด ๆ ที่มีความผันผวนมากกว่ามักจะน่าสนใจกว่า (ภายในเหตุผล)
โทมัสบราวน์

3
แน่นอนว่าปัญหาในมือต้องได้รับการวิเคราะห์ว่าความแปรปรวนที่สูงขึ้นนั้นเป็นประเด็นที่น่าสนใจของการวิเคราะห์หรือไม่ หากไม่เป็นเช่นนั้นแน่นอนว่า correl นั้นดีกว่าและแน่นอนว่าถ้าหน่วยต่างกัน
โทมัสบราวน์

คำตอบที่ดี +1 ฉันเดาอีกตัวอย่างหนึ่งอาจใช้ PCA กับการวิเคราะห์โครงสร้างคำเกี่ยวกับผลตอบแทนพันธบัตรในการเงิน ความแปรปรวนของผลตอบแทนต่อระยะเวลาครบกําหนดที่แตกต่างกันไปนั้นแตกต่างกันไป แต่เนื่องจากเป็นผลตอบแทนทั้งหมด อันที่จริงความผันผวนของผลตอบแทนที่ครบกำหนดมากขึ้น / น้อยลงนั้นให้ข้อมูลที่หลากหลาย
นิโคลัส

11

คำตอบทั่วไปคือแนะนำว่าความแปรปรวนร่วมจะใช้เมื่อตัวแปรอยู่ในระดับเดียวกันและสหสัมพันธ์เมื่อตาชั่งแตกต่างกัน อย่างไรก็ตามสิ่งนี้เป็นจริงเฉพาะเมื่อสเกลของตัวแปรไม่ใช่ปัจจัย มิฉะนั้นแล้วทำไมทุกคนจะเคยแปรปรวน PCA? มันจะปลอดภัยกว่าในการแสดง PCA ที่สัมพันธ์กันเสมอ

ลองนึกภาพว่าตัวแปรของคุณมีหน่วยวัดแตกต่างกันเช่นเมตรและกิโลกรัม ไม่สำคัญว่าคุณจะใช้เมตรหรือเซนติเมตรในกรณีนี้หรือไม่ดังนั้นคุณสามารถยืนยันได้ว่าควรใช้เมทริกซ์สหสัมพันธ์

พิจารณาถึงจำนวนประชากรของผู้คนในรัฐต่างๆ หน่วยวัดเหมือนกัน - นับ (จำนวน) คน ตอนนี้เครื่องชั่งอาจแตกต่างกัน: DC มี 600K และ CA - 38 ล้านคน เราควรใช้เมทริกซ์สหสัมพันธ์ที่นี่ไหม? มันขึ้นอยู่กับ. ในบางแอปพลิเคชันเราต้องการปรับขนาดของรัฐ การใช้เมทริกซ์ความแปรปรวนร่วมเป็นวิธีหนึ่งในการสร้างปัจจัยที่คำนึงถึงขนาดของรัฐ

ดังนั้นคำตอบของฉันคือใช้เมทริกซ์ความแปรปรวนร่วมเมื่อความแปรปรวนของตัวแปรดั้งเดิมมีความสำคัญและใช้สหสัมพันธ์เมื่อไม่ได้


2

ฉันพบว่ามันมีค่ามากที่จะพูดถึงตัวเลือกเหล่านี้ตามโมเดลการวิเคราะห์องค์ประกอบหลักที่มีโอกาสสูงสุด (MLPCA) [1,2] ใน MLPCA จะใช้การปรับขนาด (หรือแม้แต่การหมุน) เพื่อให้ข้อผิดพลาดในการวัดในตัวแปรที่วัดนั้นมีความเป็นอิสระและกระจายตามการแจกแจงแบบปกติมาตรฐาน การปรับขนาดนี้เรียกอีกอย่างว่าการปรับความน่าจะเป็นสูงสุด (MALS) [3] ในบางกรณีโมเดล PCA และพารามิเตอร์ที่กำหนดสเกล / การหมุน MALS สามารถประมาณร่วมกันได้ [4]

ในการตีความ PCA แบบสหสัมพันธ์และความแปรปรวนร่วมเราสามารถโต้แย้งได้ว่า:

  1. PCA ที่ใช้ความแปรปรวนร่วมเท่ากับ MLPCA เมื่อใดก็ตามที่เมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมของความคลาดเคลื่อนในการวัดถือว่าเป็นเส้นทแยงมุมที่มีองค์ประกอบเท่ากันบนเส้นทแยงมุม พารามิเตอร์ความแปรปรวนของข้อผิดพลาดการวัดนั้นสามารถประเมินได้โดยใช้โมเดลการวิเคราะห์องค์ประกอบที่น่าจะเป็น (PPCA) [5] ฉันพบว่าสมมติฐานนี้สมเหตุสมผลในหลายกรณีที่ฉันได้ศึกษาโดยเฉพาะเมื่อการวัดทั้งหมดเป็นตัวแปรประเภทเดียวกัน (เช่นการไหลทั้งหมดอุณหภูมิทั้งหมดความเข้มข้นทั้งหมดหรือการวัดการดูดกลืนแสงทั้งหมด) ที่จริงแล้วมันอาจจะปลอดภัยที่จะสมมติว่าข้อผิดพลาดในการวัดสำหรับตัวแปรดังกล่าวมีการกระจายอย่างอิสระ
  2. PCA ที่ใช้สหสัมพันธ์จะเทียบเท่ากับ MLPCA เมื่อใดก็ตามที่เมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมของความคลาดเคลื่อนในการวัดจะถือว่าเป็นเส้นทแยงมุมกับแต่ละองค์ประกอบบนเส้นทแยงมุมสัดส่วนกับความแปรปรวนโดยรวมของตัวแปรที่วัดได้ ในขณะที่วิธีนี้เป็นวิธีที่นิยม แต่โดยส่วนตัวแล้วฉันพบว่าข้อสมมติฐานเกี่ยวกับสัดส่วนที่ไม่สมเหตุสมผลในกรณีส่วนใหญ่ที่ฉันศึกษา ด้วยเหตุนี้สิ่งนี้หมายความว่าฉันไม่สามารถตีความ PCA แบบอิงความสัมพันธ์เป็นแบบจำลอง MLPCA ในกรณีที่ (1) สมมติฐานโดยนัยของ PCA ที่ใช้ความแปรปรวนร่วมไม่ได้ใช้และ (2) การตีความ MLPCA มีค่าฉันขอแนะนำให้ใช้หนึ่งในวิธีการ MLPCA แทน [1-4]
  3. PCA ที่ใช้ค่าสหสัมพันธ์และความแปรปรวนร่วมจะสร้างผลลัพธ์ที่เหมือนกันแน่นอน - ส่วนเริ่มต้นจากตัวคูณสเกลาร์ - เมื่อความแปรปรวนของแต่ละตัวแปรแต่ละตัวมีค่าเท่ากันทั้งหมด เมื่อความแตกต่างระหว่างบุคคลเหล่านี้คล้ายกัน แต่ไม่เหมือนกันทั้งสองวิธีจะให้ผลลัพธ์ที่คล้ายคลึงกัน

ทางเลือกที่ดีที่สุดขึ้นอยู่กับสมมติฐานที่คุณทำ นอกจากนี้ยูทิลิตี้ของแบบจำลองใด ๆ ขึ้นอยู่กับบริบทและวัตถุประสงค์ของการวิเคราะห์ของคุณ หากต้องการอ้างอิง George EP Box: "ทุกรุ่นผิด แต่บางรุ่นก็มีประโยชน์"

[1] Wentzell, PD, Andrews, DT, Hamilton, DC, Faber, K. , & Kowalski, BR (1997) การวิเคราะห์องค์ประกอบหลักโอกาสสูงสุด วารสารเคมี, 11 (4), 339-366

[2] Wentzell, PD และ Lohnes, MT (1999) การวิเคราะห์องค์ประกอบหลักโอกาสสูงสุดที่มีข้อผิดพลาดในการวัดค่าสหสัมพันธ์: การพิจารณาเชิงทฤษฎีและปฏิบัติ เคมีและระบบห้องปฏิบัติการอัจฉริยะ, 45 (1-2), 65-85

[3] Hoefsloot, HC, Verouden, MP, Westerhuis, JA, & Smilde, AK (2006) การปรับโอกาสสูงสุด (MALS) วารสารเคมี, 20 (3‐4), 120-127

[4] Narasimhan, S. , & Shah, SL (2008) การระบุโมเดลและการประมาณค่าความแปรปรวนร่วมเมทริกซ์ความผิดพลาดจากข้อมูลที่มีเสียงดังโดยใช้ PCA การปฏิบัติงานวิศวกรรมควบคุม, 16 (1), 146-155

[5] การให้ทิป, ME, & บิชอป, CM (1999) การวิเคราะห์องค์ประกอบหลักความน่าจะเป็น วารสารสมาคมสถิติ: ชุด B (ระเบียบวิธีสถิติ), 61 (3), 611-622


-1

ง่ายและตรงไปตรงมา: หากเครื่องชั่งมีลักษณะคล้ายกันใช้ cov-PCA ถ้าไม่ให้ใช้ corr-PCA มิฉะนั้นคุณควรมีการป้องกันที่ดีกว่า หากมีข้อสงสัยให้ใช้การทดสอบ F เพื่อความเท่าเทียมกันของความแปรปรวน (ANOVA) หากการทดสอบ F ล้มเหลวให้ใช้ corr; มิฉะนั้นใช้ cov


2
-1 ฉันไม่เห็นสาเหตุที่ใช้การทดสอบ F อาจเกี่ยวข้องกันที่นี่ PCA เป็นวิธีการสำรวจไม่ใช่วิธีการยืนยัน (ตามการทดสอบทางสถิติ)
อะมีบา

-5

อาร์กิวเมนต์ที่อิงตามมาตราส่วน (สำหรับตัวแปรที่แสดงในหน่วยทางกายภาพเดียวกัน) นั้นค่อนข้างอ่อนแอ ลองนึกภาพชุดของตัวแปร (ไร้มิติ) ซึ่งค่าเบี่ยงเบนมาตรฐานแตกต่างกันระหว่าง 0.001 และ 0.1 เมื่อเทียบกับค่ามาตรฐานที่เป็น 1 ทั้งสองดูเหมือนจะเป็น 'เล็ก' และระดับความผันผวนที่เปรียบเทียบได้ อย่างไรก็ตามเมื่อคุณแสดงเป็นเดซิเบลค่านี้จะให้ช่วง -60 dB เทียบกับ -10 และ 0 dB ตามลำดับ จากนั้นสิ่งนี้น่าจะถูกจัดเป็น 'ช่วงกว้าง' - โดยเฉพาะถ้าคุณจะรวมค่าเบี่ยงเบนมาตรฐานใกล้กับ 0 นั่นคือลบอนันต์ dB

ข้อเสนอแนะของฉันจะทำทั้ง PCA ที่มีความสัมพันธ์และความแปรปรวนร่วม หากทั้งสองให้พีซีที่เหมือนกัน (หรือคล้ายกันมากไม่ว่ามันจะหมายถึงอะไร) คุณสามารถมั่นใจได้ว่าคุณได้รับคำตอบที่มีความหมาย หากพวกเขาให้พีซีที่แตกต่างกันอย่างกว้างขวางไม่ได้ใช้ PCA เพราะสองคำตอบที่แตกต่างกันสำหรับปัญหาเดียวไม่ใช่วิธีที่สมเหตุสมผลในการแก้ปัญหา


9
(-1) การได้รับ "คำตอบที่แตกต่างกันสองปัญหา" มักจะหมายความว่าคุณทุบตีอย่างไร้สติโดยไม่คิดว่าเทคนิคใดเหมาะสำหรับการวิเคราะห์ของคุณ ไม่ได้หมายความว่าทั้งสองอย่าง (ตามที่คุณระบุ) เทคนิคทั้งสองนั้นไม่สมเหตุสมผล แต่อย่างน้อยก็อาจไม่เหมาะสมสำหรับปัญหาหรือข้อมูล นอกจากนี้ในหลาย ๆ กรณีคุณสามารถคาดการณ์ได้ว่า PCA ที่ใช้ความแปรปรวนร่วมและ PCA ที่ใช้ความสัมพันธ์ควรให้คำตอบที่ต่างกัน ท้ายที่สุดพวกเขากำลังทำการวัดด้านต่าง ๆ ของข้อมูล การทำทั้งสองอย่างโดยค่าเริ่มต้นจะไม่สมเหตุสมผล
whuber

ที่จริงแล้วมันสมเหตุสมผลมากที่จะได้คำตอบที่ต่างกัน 2 ข้อเมื่อใช้ PCA ที่มีความสัมพันธ์และความแปรปรวนร่วม ในกรณีหุ้นมันเป็นคำถามที่ว่าคุณควรคำนึงถึง betas (หรือค่าเบี่ยงเบนมาตรฐาน)
Juancentro
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.