คำถามติดแท็ก pca

การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นเทคนิคการลดขนาดเชิงเส้น จะช่วยลดชุดข้อมูลหลายตัวแปรให้เป็นชุดเล็ก ๆ ของตัวแปรที่สร้างขึ้นรักษาข้อมูลให้มากที่สุดเท่าที่จะเป็นไปได้ ตัวแปรเหล่านี้เรียกว่าองค์ประกอบหลักคือการรวมกันเชิงเส้นของตัวแปรอินพุต

2
การตีความของ biplots ในการวิเคราะห์องค์ประกอบหลัก
ฉันได้พบกับบทช่วยสอนที่ดีนี้: คู่มือการวิเคราะห์ทางสถิติโดยใช้อาร์บทที่ 13 การวิเคราะห์องค์ประกอบหลัก: โอลิมปิกเซพธาลอนเกี่ยวกับวิธีการทำ PCA ในภาษา R ฉันไม่เข้าใจการตีความรูปที่ 13.3: ดังนั้นฉันจึงวางแผน eigenvector แรกเทียบกับ eigenvector ที่สอง นั่นหมายความว่าอย่างไร? สมมติว่าค่าไอเกนค่าที่สอดคล้องกับไอเกนเวอเตอร์ตัวแรกอธิบาย 60% ของการเปลี่ยนแปลงในชุดข้อมูลและค่าไอเกนค่าที่สอง -Eigenvector อธิบายความแปรปรวน 20% การพล็อตสิ่งเหล่านี้กันหมายความว่าอย่างไร

1
การจัดกึ่งกลางสร้างความแตกต่างใน PCA ได้อย่างไร (สำหรับการแยกย่อย SVD และ eigen)
การจัดกึ่งกลาง (หรือลบความหมาย) ข้อมูลของคุณมีความแตกต่างจาก PCA อย่างไร ฉันได้ยินมาว่ามันทำให้คณิตศาสตร์ง่ายขึ้นหรือป้องกันพีซีเครื่องแรกไม่ให้ถูกครอบงำด้วยค่าเฉลี่ยของตัวแปร แต่ฉันรู้สึกว่าฉันยังไม่สามารถเข้าใจแนวคิดได้อย่างมั่นคง ตัวอย่างเช่นคำตอบยอดนิยมที่นี่ข้อมูลที่อยู่ตรงกลางกำจัดการสกัดกั้นในการถดถอยและ PCA ได้อย่างไร อธิบายวิธีที่การไม่อยู่ตรงกลางจะดึง PCA แรกผ่านจุดเริ่มต้นแทนที่จะเป็นแกนหลักของคลาวด์พอยต์ จากความเข้าใจของฉันเกี่ยวกับวิธีที่พีซีได้รับจาก eigenvectors เมทริกซ์ความแปรปรวนร่วมฉันไม่สามารถเข้าใจได้ว่าทำไมสิ่งนี้จึงเกิดขึ้น ยิ่งกว่านั้นการคำนวณของฉันเองที่มีและไม่มีการกำหนดกึ่งกลางดูเหมือนจะไม่สมเหตุสมผล พิจารณาดอกไม้ setosa ในirisชุดข้อมูลใน R. ฉันคำนวณค่าลักษณะเฉพาะและค่าลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมตัวอย่างดังนี้ data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 …
30 r  pca  svd  eigenvalues  centering 

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
วิธีการสกัดปัจจัยที่ดีที่สุดในการวิเคราะห์ปัจจัย
SPSS เสนอวิธีการสกัดปัจจัยหลายวิธี: องค์ประกอบหลัก (ซึ่งไม่ใช่การวิเคราะห์ปัจจัยทั้งหมด) ไม่ยกกำลังสองน้อยที่สุด ทั่วไปกำลังสองน้อยที่สุด โอกาสสูงสุด แกนหลัก แฟคตอริ่ง ภาพแฟ ไม่สนใจวิธีแรกซึ่งไม่ใช่การวิเคราะห์ปัจจัย (แต่การวิเคราะห์องค์ประกอบหลักคือ PCA) วิธีใดที่ "ดีที่สุด" อะไรคือข้อดีข้อได้เปรียบของวิธีการที่แตกต่างกันอย่างไร โดยพื้นฐานแล้วฉันจะเลือกใช้อันไหนดี? คำถามเพิ่มเติม: ควรได้รับผลลัพธ์ที่คล้ายกันจากทั้ง 6 วิธี?

1
ทำการวิเคราะห์องค์ประกอบหลักหรือการวิเคราะห์ปัจจัยกับข้อมูลไบนารี
ฉันมีชุดข้อมูลที่มีคำตอบใช่ / ไม่ใช่จำนวนมาก ฉันสามารถใช้ส่วนประกอบหลัก (PCA) หรือการวิเคราะห์การลดข้อมูลอื่น ๆ (เช่นการวิเคราะห์ปัจจัย) สำหรับข้อมูลประเภทนี้ได้หรือไม่ โปรดแนะนำวิธีการใช้ SPSS

3
วิธีการถดถอยแบบฉาก (รวมสี่เหลี่ยมจัตุรัสน้อยที่สุด) ผ่านทาง PCA ได้อย่างไร
ฉันมักจะใช้lm()ในการวิจัยเพื่อดำเนินการถดถอยเชิงเส้นของyyyบนxxxxฟังก์ชั่นที่ส่งกลับค่าสัมประสิทธิ์ββ\betaดังกล่าวว่าy=βx.y=βx.y = \beta x. วันนี้ฉันได้เรียนรู้เกี่ยวกับกำลังสองรวมน้อยที่สุดและสามารถprincomp()ใช้ฟังก์ชัน (การวิเคราะห์องค์ประกอบหลัก, PCA) เพื่อดำเนินการได้ มันควรจะดีสำหรับฉัน (แม่นยำยิ่งขึ้น) ฉันได้ทำการทดสอบโดยใช้princomp()เช่น: r <- princomp( ~ x + y) ปัญหาของฉันคือวิธีการตีความผลลัพธ์ ฉันจะรับสัมประสิทธิ์การถดถอยได้อย่างไร โดย "ค่าสัมประสิทธิ์" ผมหมายถึงจำนวนββ\betaว่าผมจะต้องใช้ในการคูณxxxคุ้มค่าที่จะให้ตัวเลขที่ใกล้เคียงกับปีyyy

4
ทำไม Andrew Ng จึงต้องการใช้ SVD และไม่ใช่ EIG ของความแปรปรวนร่วมเพื่อทำ PCA
ฉันกำลังศึกษา PCA จากหลักสูตร Coursera ของ Andrew Ng และสื่ออื่น ๆ ในการมอบหมายครั้งแรกของ Stanford NLP แน่นอน cs224n และในวิดีโอการบรรยายจาก Andrew Ngพวกเขาทำการสลายตัวของค่าเอกพจน์แทนการสลายตัว eigenvector ของเมทริกซ์ความแปรปรวนร่วมและ Ng บอกว่า SVD มีความเสถียรเชิงตัวเลขมากกว่า eigendecomposition จากความเข้าใจของฉันสำหรับ PCA เราควรทำ SVD ของเมทริกซ์ข้อมูล(m,n)ขนาดไม่ใช่เมทริกซ์ความแปรปรวนร่วมของ(n,n)ขนาด และการสลายตัวของไอเก็นเวกเตอร์ของเมทริกซ์ความแปรปรวนร่วม ทำไมพวกเขาถึงทำ SVD ของเมทริกซ์ความแปรปรวนร่วมไม่ใช่เมทริกซ์ข้อมูล?

1
มีการวิเคราะห์ปัจจัยหรือ PCA สำหรับข้อมูลลำดับหรือข้อมูลไบนารีหรือไม่
ฉันเสร็จสิ้นการวิเคราะห์องค์ประกอบหลัก (PCA), การวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) และการวิเคราะห์ปัจจัยยืนยัน (CFA), การจัดการข้อมูลด้วยสเกล likert (การตอบสนอง 5 ระดับ: ไม่มี, น้อย, บาง, .. ) อย่างต่อเนื่อง ตัวแปร. จากนั้นใช้ Lavaan ฉันทำซ้ำ CFA ที่กำหนดตัวแปรเป็นหมวดหมู่ ฉันต้องการทราบว่าการวิเคราะห์ประเภทใดที่เหมาะสมและจะเทียบเท่ากับ PCA และ EFA เมื่อข้อมูลมีลำดับตามธรรมชาติ และเมื่อไบนารี ฉันขอขอบคุณข้อเสนอแนะสำหรับแพ็คเกจหรือซอฟต์แวร์เฉพาะที่สามารถนำไปใช้ในการวิเคราะห์ได้อย่างง่ายดาย

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
เกิดอะไรขึ้นกับ t-SNE กับ PCA สำหรับการลดขนาดโดยใช้ R
ฉันมีเมทริกซ์ของจำนวนจุดลอยตัว 336x256 (336 จีโนมแบคทีเรีย (คอลัมน์) x 256 ความถี่ tetranucleotide ปกติ (แถว) เช่นทุกคอลัมน์เพิ่มขึ้นถึง 1) ฉันได้รับผลลัพธ์ที่ดีเมื่อฉันรันการวิเคราะห์โดยใช้การวิเคราะห์องค์ประกอบหลักการ ก่อนอื่นฉันคำนวณกลุ่ม kmeans ของข้อมูลจากนั้นเรียกใช้ PCA และทำให้จุดข้อมูลเป็นสีตามการจัดกลุ่ม kmeans เริ่มต้นใน 2D และ 3D: library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with …
27 r  pca  tsne 

4
ขนาดตัวอย่างขั้นต่ำสำหรับ PCA หรือ FA เมื่อเป้าหมายหลักคือการประมาณการเพียงไม่กี่องค์ประกอบ?
ถ้าฉันมีชุดข้อมูลที่มีการสังเกตและตัวแปรp (มิติ) และโดยทั่วไปnมีขนาดเล็ก ( n = 12 - 16 ) และpอาจอยู่ในช่วงตั้งแต่ขนาดเล็ก ( p = 4 - 10 ) ถึงอาจใหญ่กว่ามาก ( p = 30 - 50 )nnnpppnnnn=12−16n=12−16n=12-16pppp=4−10p=4−10p = 4-10p=30−50p=30−50p= 30-50 ฉันจำได้ว่าเรียนรู้ว่าควรใหญ่กว่าpเพื่อเรียกใช้การวิเคราะห์องค์ประกอบหลัก (PCA) หรือการวิเคราะห์ปัจจัย (FA) แต่ดูเหมือนว่านี่อาจไม่เป็นเช่นนั้นในข้อมูลของฉัน โปรดทราบว่าเพื่อจุดประสงค์ของฉันฉันไม่ค่อยสนใจองค์ประกอบหลักใด ๆ ที่ผ่านมา PC2nnnppp คำถาม: กฎของหัวแม่มือสำหรับขนาดตัวอย่างขั้นต่ำคืออะไรเมื่อ PCA ใช้งานได้และเมื่อใด มันเป็นเรื่องที่เคยตกลงที่จะใช้เครื่องคอมพิวเตอร์ครั้งแรกไม่กี่แม้ว่าหรือn &lt; P ?n=pn=pn=pn&lt;pn&lt;pn<p มีการอ้างอิงเกี่ยวกับเรื่องนี้หรือไม่? มันเป็นสิ่งสำคัญถ้าเป้าหมายหลักของคุณคือการใช้ PC1 และอาจเป็นไปได้ว่า …

5
อะไรจะทำให้ PCA เสื่อมเสียผลลัพธ์ของตัวจําแนก?
ฉันมีตัวจําแนกที่ฉันทําการตรวจสอบความถูกต้องข้ามพร้อมกับคุณสมบัติหนึ่งร้อยหรือมากกว่านั้นที่ฉันกําลังเลือกไปข้างหน้าเพื่อค้นหาชุดค่าผสมที่เหมาะสม ฉันยังเปรียบเทียบสิ่งนี้กับการเรียกใช้การทดสอบเดียวกันกับ PCA ซึ่งฉันใช้คุณสมบัติที่เป็นไปได้ใช้ SVD แปลงสัญญาณดั้งเดิมไปยังพื้นที่พิกัดใหม่และใช้คุณสมบัติอันดับสูงสุดในกระบวนการเลือกไปข้างหน้าของฉันkkk สัญชาตญาณของฉันคือ PCA จะปรับปรุงผลลัพธ์เนื่องจากสัญญาณจะเป็น "ข้อมูล" มากกว่าคุณลักษณะดั้งเดิม ความเข้าใจอันไร้เดียงสาของฉันเกี่ยวกับ PCA ทำให้ฉันมีปัญหาหรือไม่? ทุกคนสามารถแนะนำสาเหตุทั่วไปบางประการที่ทำให้ PCA อาจปรับปรุงผลลัพธ์ในบางสถานการณ์ แต่แย่ลงในกรณีอื่น ๆ

1
เหตุใด PCA จึงไวต่อผู้ผิด
มีโพสต์มากมายใน SE นี้ที่กล่าวถึงวิธีการที่แข็งแกร่งในการวิเคราะห์องค์ประกอบหลัก (PCA) แต่ฉันไม่สามารถหาคำอธิบายที่ดีเพียงข้อเดียวว่าทำไม PCA จึงไวต่อผู้ผิดกฎหมายในตอนแรก

1
บรรทัดฐานใดของข้อผิดพลาดในการสร้างใหม่จะถูกย่อให้เล็กสุดโดยเมทริกซ์การประมาณอันดับต่ำที่ได้จาก PCA
ได้รับ PCA (หรือ SVD) ประมาณของเมทริกซ์XXXกับเมทริกซ์Xเรารู้ว่าXที่ดีที่สุดคือประมาณต่ำยศXX^X^\hat XX^X^\hat XXXX นี่คือตามที่เหนี่ยวนำให้เกิด∥⋅∥2∥⋅∥2\parallel \cdot \parallel_2บรรทัดฐาน (เช่นที่ใหญ่ที่สุดบรรทัดฐาน eigenvalue) หรือตามที่ Frobenius ∥⋅∥F∥⋅∥F\parallel \cdot \parallel_Fบรรทัดฐาน?

7
การทดสอบการพึ่งพาเชิงเส้นระหว่างคอลัมน์ของเมทริกซ์
ฉันมีเมทริกซ์สหสัมพันธ์ของการรักษาความปลอดภัยที่ส่งกลับซึ่งปัจจัยเป็นศูนย์ (นี่เป็นเรื่องที่น่าแปลกใจเล็กน้อยเนื่องจากเมทริกซ์สหสัมพันธ์ตัวอย่างและเมทริกซ์ความแปรปรวนร่วมที่สอดคล้องกันในทางทฤษฎีควรเป็นบวกแน่นอน) สมมติฐานของฉันคือความปลอดภัยอย่างน้อยหนึ่งรายการขึ้นอยู่กับหลักทรัพย์อื่น ๆ มีฟังก์ชั่นใน R ที่ทดสอบเมทริกซ์เชิงเส้นสำหรับการพึ่งพาเชิงเส้นแต่ละคอลัมน์หรือไม่? ตัวอย่างเช่นวิธีหนึ่งคือการสร้างเมทริกซ์ความสัมพันธ์หนึ่งการรักษาความปลอดภัยในแต่ละครั้งและคำนวณปัจจัยในแต่ละขั้นตอน เมื่อดีเทอร์มิแนนต์ = 0 แล้วหยุดตามที่คุณระบุความปลอดภัยซึ่งเป็นการรวมกันเชิงเส้นของหลักทรัพย์อื่น ๆ เทคนิคอื่นใดที่สามารถระบุการพึ่งพาเชิงเส้นในเมทริกซ์นั้นได้รับการชื่นชม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.