สถิติและข้อมูลขนาดใหญ่ pca

2

การตีความของ biplots ในการวิเคราะห์องค์ประกอบหลัก

ฉันได้พบกับบทช่วยสอนที่ดีนี้: คู่มือการวิเคราะห์ทางสถิติโดยใช้อาร์บทที่ 13 การวิเคราะห์องค์ประกอบหลัก: โอลิมปิกเซพธาลอนเกี่ยวกับวิธีการทำ PCA ในภาษา R ฉันไม่เข้าใจการตีความรูปที่ 13.3: ดังนั้นฉันจึงวางแผน eigenvector แรกเทียบกับ eigenvector ที่สอง นั่นหมายความว่าอย่างไร? สมมติว่าค่าไอเกนค่าที่สอดคล้องกับไอเกนเวอเตอร์ตัวแรกอธิบาย 60% ของการเปลี่ยนแปลงในชุดข้อมูลและค่าไอเกนค่าที่สอง -Eigenvector อธิบายความแปรปรวน 20% การพล็อตสิ่งเหล่านี้กันหมายความว่าอย่างไร

30 r pca data-visualization interpretation biplot

1

การจัดกึ่งกลางสร้างความแตกต่างใน PCA ได้อย่างไร (สำหรับการแยกย่อย SVD และ eigen)

การจัดกึ่งกลาง (หรือลบความหมาย) ข้อมูลของคุณมีความแตกต่างจาก PCA อย่างไร ฉันได้ยินมาว่ามันทำให้คณิตศาสตร์ง่ายขึ้นหรือป้องกันพีซีเครื่องแรกไม่ให้ถูกครอบงำด้วยค่าเฉลี่ยของตัวแปร แต่ฉันรู้สึกว่าฉันยังไม่สามารถเข้าใจแนวคิดได้อย่างมั่นคง ตัวอย่างเช่นคำตอบยอดนิยมที่นี่ข้อมูลที่อยู่ตรงกลางกำจัดการสกัดกั้นในการถดถอยและ PCA ได้อย่างไร อธิบายวิธีที่การไม่อยู่ตรงกลางจะดึง PCA แรกผ่านจุดเริ่มต้นแทนที่จะเป็นแกนหลักของคลาวด์พอยต์ จากความเข้าใจของฉันเกี่ยวกับวิธีที่พีซีได้รับจาก eigenvectors เมทริกซ์ความแปรปรวนร่วมฉันไม่สามารถเข้าใจได้ว่าทำไมสิ่งนี้จึงเกิดขึ้น ยิ่งกว่านั้นการคำนวณของฉันเองที่มีและไม่มีการกำหนดกึ่งกลางดูเหมือนจะไม่สมเหตุสมผล พิจารณาดอกไม้ setosa ในirisชุดข้อมูลใน R. ฉันคำนวณค่าลักษณะเฉพาะและค่าลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมตัวอย่างดังนี้ data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 …

30 r pca svd eigenvalues centering

5

วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง

ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

วิธีการสกัดปัจจัยที่ดีที่สุดในการวิเคราะห์ปัจจัย

SPSS เสนอวิธีการสกัดปัจจัยหลายวิธี: องค์ประกอบหลัก (ซึ่งไม่ใช่การวิเคราะห์ปัจจัยทั้งหมด) ไม่ยกกำลังสองน้อยที่สุด ทั่วไปกำลังสองน้อยที่สุด โอกาสสูงสุด แกนหลัก แฟคตอริ่ง ภาพแฟ ไม่สนใจวิธีแรกซึ่งไม่ใช่การวิเคราะห์ปัจจัย (แต่การวิเคราะห์องค์ประกอบหลักคือ PCA) วิธีใดที่ "ดีที่สุด" อะไรคือข้อดีข้อได้เปรียบของวิธีการที่แตกต่างกันอย่างไร โดยพื้นฐานแล้วฉันจะเลือกใช้อันไหนดี? คำถามเพิ่มเติม: ควรได้รับผลลัพธ์ที่คล้ายกันจากทั้ง 6 วิธี?

29 spss pca factor-analysis

1

ทำการวิเคราะห์องค์ประกอบหลักหรือการวิเคราะห์ปัจจัยกับข้อมูลไบนารี

ฉันมีชุดข้อมูลที่มีคำตอบใช่ / ไม่ใช่จำนวนมาก ฉันสามารถใช้ส่วนประกอบหลัก (PCA) หรือการวิเคราะห์การลดข้อมูลอื่น ๆ (เช่นการวิเคราะห์ปัจจัย) สำหรับข้อมูลประเภทนี้ได้หรือไม่ โปรดแนะนำวิธีการใช้ SPSS

29 spss categorical-data pca factor-analysis binary-data

3

วิธีการถดถอยแบบฉาก (รวมสี่เหลี่ยมจัตุรัสน้อยที่สุด) ผ่านทาง PCA ได้อย่างไร

ฉันมักจะใช้lm()ในการวิจัยเพื่อดำเนินการถดถอยเชิงเส้นของyyyบนxxxxฟังก์ชั่นที่ส่งกลับค่าสัมประสิทธิ์ββ\betaดังกล่าวว่าy=βx.y=βx.y = \beta x. วันนี้ฉันได้เรียนรู้เกี่ยวกับกำลังสองรวมน้อยที่สุดและสามารถprincomp()ใช้ฟังก์ชัน (การวิเคราะห์องค์ประกอบหลัก, PCA) เพื่อดำเนินการได้ มันควรจะดีสำหรับฉัน (แม่นยำยิ่งขึ้น) ฉันได้ทำการทดสอบโดยใช้princomp()เช่น: r <- princomp( ~ x + y) ปัญหาของฉันคือวิธีการตีความผลลัพธ์ ฉันจะรับสัมประสิทธิ์การถดถอยได้อย่างไร โดย "ค่าสัมประสิทธิ์" ผมหมายถึงจำนวนββ\betaว่าผมจะต้องใช้ในการคูณxxxคุ้มค่าที่จะให้ตัวเลขที่ใกล้เคียงกับปีyyy

29 r pca least-squares deming-regression total-least-squares

4

ทำไม Andrew Ng จึงต้องการใช้ SVD และไม่ใช่ EIG ของความแปรปรวนร่วมเพื่อทำ PCA

ฉันกำลังศึกษา PCA จากหลักสูตร Coursera ของ Andrew Ng และสื่ออื่น ๆ ในการมอบหมายครั้งแรกของ Stanford NLP แน่นอน cs224n และในวิดีโอการบรรยายจาก Andrew Ngพวกเขาทำการสลายตัวของค่าเอกพจน์แทนการสลายตัว eigenvector ของเมทริกซ์ความแปรปรวนร่วมและ Ng บอกว่า SVD มีความเสถียรเชิงตัวเลขมากกว่า eigendecomposition จากความเข้าใจของฉันสำหรับ PCA เราควรทำ SVD ของเมทริกซ์ข้อมูล(m,n)ขนาดไม่ใช่เมทริกซ์ความแปรปรวนร่วมของ(n,n)ขนาด และการสลายตัวของไอเก็นเวกเตอร์ของเมทริกซ์ความแปรปรวนร่วม ทำไมพวกเขาถึงทำ SVD ของเมทริกซ์ความแปรปรวนร่วมไม่ใช่เมทริกซ์ข้อมูล?

29 pca linear-algebra svd eigenvalues numerics

1

มีการวิเคราะห์ปัจจัยหรือ PCA สำหรับข้อมูลลำดับหรือข้อมูลไบนารีหรือไม่

ฉันเสร็จสิ้นการวิเคราะห์องค์ประกอบหลัก (PCA), การวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) และการวิเคราะห์ปัจจัยยืนยัน (CFA), การจัดการข้อมูลด้วยสเกล likert (การตอบสนอง 5 ระดับ: ไม่มี, น้อย, บาง, .. ) อย่างต่อเนื่อง ตัวแปร. จากนั้นใช้ Lavaan ฉันทำซ้ำ CFA ที่กำหนดตัวแปรเป็นหมวดหมู่ ฉันต้องการทราบว่าการวิเคราะห์ประเภทใดที่เหมาะสมและจะเทียบเท่ากับ PCA และ EFA เมื่อข้อมูลมีลำดับตามธรรมชาติ และเมื่อไบนารี ฉันขอขอบคุณข้อเสนอแนะสำหรับแพ็คเกจหรือซอฟต์แวร์เฉพาะที่สามารถนำไปใช้ในการวิเคราะห์ได้อย่างง่ายดาย

28 pca factor-analysis ordinal-data binary-data likert

1

องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่

เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

เกิดอะไรขึ้นกับ t-SNE กับ PCA สำหรับการลดขนาดโดยใช้ R

ฉันมีเมทริกซ์ของจำนวนจุดลอยตัว 336x256 (336 จีโนมแบคทีเรีย (คอลัมน์) x 256 ความถี่ tetranucleotide ปกติ (แถว) เช่นทุกคอลัมน์เพิ่มขึ้นถึง 1) ฉันได้รับผลลัพธ์ที่ดีเมื่อฉันรันการวิเคราะห์โดยใช้การวิเคราะห์องค์ประกอบหลักการ ก่อนอื่นฉันคำนวณกลุ่ม kmeans ของข้อมูลจากนั้นเรียกใช้ PCA และทำให้จุดข้อมูลเป็นสีตามการจัดกลุ่ม kmeans เริ่มต้นใน 2D และ 3D: library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with …

27 r pca tsne

4

ขนาดตัวอย่างขั้นต่ำสำหรับ PCA หรือ FA เมื่อเป้าหมายหลักคือการประมาณการเพียงไม่กี่องค์ประกอบ?

ถ้าฉันมีชุดข้อมูลที่มีการสังเกตและตัวแปรp (มิติ) และโดยทั่วไปnมีขนาดเล็ก ( n = 12 - 16 ) และpอาจอยู่ในช่วงตั้งแต่ขนาดเล็ก ( p = 4 - 10 ) ถึงอาจใหญ่กว่ามาก ( p = 30 - 50 )nnnpppnnnn=12−16n=12−16n=12-16pppp=4−10p=4−10p = 4-10p=30−50p=30−50p= 30-50 ฉันจำได้ว่าเรียนรู้ว่าควรใหญ่กว่าpเพื่อเรียกใช้การวิเคราะห์องค์ประกอบหลัก (PCA) หรือการวิเคราะห์ปัจจัย (FA) แต่ดูเหมือนว่านี่อาจไม่เป็นเช่นนั้นในข้อมูลของฉัน โปรดทราบว่าเพื่อจุดประสงค์ของฉันฉันไม่ค่อยสนใจองค์ประกอบหลักใด ๆ ที่ผ่านมา PC2nnnppp คำถาม: กฎของหัวแม่มือสำหรับขนาดตัวอย่างขั้นต่ำคืออะไรเมื่อ PCA ใช้งานได้และเมื่อใด มันเป็นเรื่องที่เคยตกลงที่จะใช้เครื่องคอมพิวเตอร์ครั้งแรกไม่กี่แม้ว่าหรือn < P ?n=pn=pn=pn<pn<pn<p มีการอ้างอิงเกี่ยวกับเรื่องนี้หรือไม่? มันเป็นสิ่งสำคัญถ้าเป้าหมายหลักของคุณคือการใช้ PC1 และอาจเป็นไปได้ว่า …

27 pca sample-size factor-analysis

5

อะไรจะทำให้ PCA เสื่อมเสียผลลัพธ์ของตัวจําแนก?

ฉันมีตัวจําแนกที่ฉันทําการตรวจสอบความถูกต้องข้ามพร้อมกับคุณสมบัติหนึ่งร้อยหรือมากกว่านั้นที่ฉันกําลังเลือกไปข้างหน้าเพื่อค้นหาชุดค่าผสมที่เหมาะสม ฉันยังเปรียบเทียบสิ่งนี้กับการเรียกใช้การทดสอบเดียวกันกับ PCA ซึ่งฉันใช้คุณสมบัติที่เป็นไปได้ใช้ SVD แปลงสัญญาณดั้งเดิมไปยังพื้นที่พิกัดใหม่และใช้คุณสมบัติอันดับสูงสุดในกระบวนการเลือกไปข้างหน้าของฉันkkk สัญชาตญาณของฉันคือ PCA จะปรับปรุงผลลัพธ์เนื่องจากสัญญาณจะเป็น "ข้อมูล" มากกว่าคุณลักษณะดั้งเดิม ความเข้าใจอันไร้เดียงสาของฉันเกี่ยวกับ PCA ทำให้ฉันมีปัญหาหรือไม่? ทุกคนสามารถแนะนำสาเหตุทั่วไปบางประการที่ทำให้ PCA อาจปรับปรุงผลลัพธ์ในบางสถานการณ์ แต่แย่ลงในกรณีอื่น ๆ

27 classification pca feature-selection

1

เหตุใด PCA จึงไวต่อผู้ผิด

มีโพสต์มากมายใน SE นี้ที่กล่าวถึงวิธีการที่แข็งแกร่งในการวิเคราะห์องค์ประกอบหลัก (PCA) แต่ฉันไม่สามารถหาคำอธิบายที่ดีเพียงข้อเดียวว่าทำไม PCA จึงไวต่อผู้ผิดกฎหมายในตอนแรก

26 machine-learning pca outliers

1

บรรทัดฐานใดของข้อผิดพลาดในการสร้างใหม่จะถูกย่อให้เล็กสุดโดยเมทริกซ์การประมาณอันดับต่ำที่ได้จาก PCA

ได้รับ PCA (หรือ SVD) ประมาณของเมทริกซ์XXXกับเมทริกซ์Xเรารู้ว่าXที่ดีที่สุดคือประมาณต่ำยศXX^X^\hat XX^X^\hat XXXX นี่คือตามที่เหนี่ยวนำให้เกิด∥⋅∥2∥⋅∥2\parallel \cdot \parallel_2บรรทัดฐาน (เช่นที่ใหญ่ที่สุดบรรทัดฐาน eigenvalue) หรือตามที่ Frobenius ∥⋅∥F∥⋅∥F\parallel \cdot \parallel_Fบรรทัดฐาน?

26 pca svd matrix-decomposition

7

การทดสอบการพึ่งพาเชิงเส้นระหว่างคอลัมน์ของเมทริกซ์

ฉันมีเมทริกซ์สหสัมพันธ์ของการรักษาความปลอดภัยที่ส่งกลับซึ่งปัจจัยเป็นศูนย์ (นี่เป็นเรื่องที่น่าแปลกใจเล็กน้อยเนื่องจากเมทริกซ์สหสัมพันธ์ตัวอย่างและเมทริกซ์ความแปรปรวนร่วมที่สอดคล้องกันในทางทฤษฎีควรเป็นบวกแน่นอน) สมมติฐานของฉันคือความปลอดภัยอย่างน้อยหนึ่งรายการขึ้นอยู่กับหลักทรัพย์อื่น ๆ มีฟังก์ชั่นใน R ที่ทดสอบเมทริกซ์เชิงเส้นสำหรับการพึ่งพาเชิงเส้นแต่ละคอลัมน์หรือไม่? ตัวอย่างเช่นวิธีหนึ่งคือการสร้างเมทริกซ์ความสัมพันธ์หนึ่งการรักษาความปลอดภัยในแต่ละครั้งและคำนวณปัจจัยในแต่ละขั้นตอน เมื่อดีเทอร์มิแนนต์ = 0 แล้วหยุดตามที่คุณระบุความปลอดภัยซึ่งเป็นการรวมกันเชิงเส้นของหลักทรัพย์อื่น ๆ เทคนิคอื่นใดที่สามารถระบุการพึ่งพาเชิงเส้นในเมทริกซ์นั้นได้รับการชื่นชม

26 r correlation pca linear-model svd

คำถามติดแท็ก pca