คำถามติดแท็ก pca

การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นเทคนิคการลดขนาดเชิงเส้น จะช่วยลดชุดข้อมูลหลายตัวแปรให้เป็นชุดเล็ก ๆ ของตัวแปรที่สร้างขึ้นรักษาข้อมูลให้มากที่สุดเท่าที่จะเป็นไปได้ ตัวแปรเหล่านี้เรียกว่าองค์ประกอบหลักคือการรวมกันเชิงเส้นของตัวแปรอินพุต

2
เมทริกซ์ความแปรปรวนร่วมผกผันกับเมทริกซ์ความแปรปรวนร่วมใน PCA
ใน PCA มันสร้างความแตกต่างหรือไม่ถ้าเราเลือกส่วนประกอบหลักของเมทริกซ์ความแปรปรวนร่วมผกผันหรือถ้าเราปล่อยค่าลักษณะเฉพาะความแปรปรวนร่วมของเมทริกซ์ความแปรปรวนร่วมที่สอดคล้องกับค่าลักษณะเฉพาะขนาดใหญ่ สิ่งนี้เกี่ยวข้องกับการสนทนาในโพสต์นี้

2
การวิเคราะห์องค์ประกอบหลักสามารถนำมาใช้กับราคาหุ้น / ข้อมูลที่ไม่คงที่ได้หรือไม่?
ฉันอ่านตัวอย่างที่กำหนดในหนังสือเครื่องเรียนรู้สำหรับแฮกเกอร์ ฉันจะทำอย่างละเอียดในตัวอย่างก่อนแล้วพูดคุยเกี่ยวกับคำถามของฉัน ตัวอย่าง : ใช้ชุดข้อมูลเป็นเวลา 10 ปีของราคาหุ้น 25 ใช้ PCA ในราคาหุ้น 25 เปรียบเทียบองค์ประกอบหลักกับดัชนี Dow Jones สังเกตความคล้ายคลึงกันที่แข็งแกร่งระหว่าง PC และ DJI! จากสิ่งที่ฉันเข้าใจตัวอย่างเป็นเหมือนของเล่นที่ช่วยให้มือใหม่อย่างฉันเข้าใจว่าเครื่องมือ PCA นั้นมีประสิทธิภาพเพียงใด! อย่างไรก็ตามการอ่านจากแหล่งข้อมูลอื่นฉันเห็นว่าราคาหุ้นไม่คงที่และใช้ PCA ในราคาหุ้นนั้นเป็นเรื่องไร้สาระ แหล่งที่มาจากที่ฉันอ่านเยาะเย้ยความคิดทั้งหมดของการคำนวณความแปรปรวนร่วมและ PCA สำหรับราคาหุ้น คำถาม : ตัวอย่างทำงานได้ดีอย่างไร PCA ของราคาหุ้นและ DJI นั้นใกล้กันมาก และข้อมูลนั้นเป็นข้อมูลจริงจากราคาหุ้น 2545-2554 ใครบางคนสามารถบอกให้ฉันทราบถึงแหล่งข้อมูลที่ดีสำหรับการอ่านข้อมูลที่อยู่กับที่ / ไม่อยู่นิ่ง ฉันเป็นโปรแกรมเมอร์ ฉันมีพื้นฐานคณิตศาสตร์ที่ดี แต่ฉันไม่ได้ทำคณิตศาสตร์อย่างจริงจังเป็นเวลา 3 ปี ฉันเริ่มอ่านอีกครั้งเกี่ยวกับสิ่งต่าง ๆ เช่นการเดินแบบสุ่ม ฯลฯ

1
PCA มีความหมายว่าอย่างไรในการรักษาระยะทางคู่ที่มีขนาดใหญ่เท่านั้น?
ขณะนี้ฉันกำลังอ่านเทคนิคการสร้างภาพข้อมูล t-SNE และได้มีการกล่าวว่าหนึ่งในข้อเสียของการใช้การวิเคราะห์องค์ประกอบหลัก (PCA) สำหรับการแสดงข้อมูลมิติสูงคือการรักษาระยะห่างระหว่างจุดสองจุดขนาดใหญ่เท่านั้น จุดความหมายที่อยู่ห่างกันในพื้นที่มิติสูงก็จะปรากฏห่างกันในพื้นที่ย่อยต่ำ แต่นอกเหนือจากนั้นระยะทางคู่อื่น ๆ ทั้งหมดจะได้รับการเมาขึ้น ใครช่วยให้ฉันเข้าใจว่าทำไมมันถึงเป็นเช่นนั้นและมันหมายถึงอะไร?

1
PCA ขนาดใหญ่เป็นไปได้หรือไม่
การวิเคราะห์องค์ประกอบหลัก (PCA) แบบคลาสสิกคือการทำบนเมทริกซ์ข้อมูลอินพุตซึ่งคอลัมน์มีค่าเฉลี่ยเป็นศูนย์ (จากนั้น PCA สามารถ "เพิ่มความแปรปรวนสูงสุด") สามารถทำได้อย่างง่ายดายโดยการจัดคอลัมน์ให้อยู่ตรงกลาง Howenver เมื่อเมทริกซ์การป้อนข้อมูลเบาบางเมทริกซ์กึ่งกลางตอนนี้จะเบาบางอีกต่อไปและ - ถ้าเมทริกซ์มีขนาดใหญ่มาก - ดังนั้นจะไม่พอดีกับหน่วยความจำอีกต่อไป มีวิธีแก้ปัญหาอัลกอริทึมสำหรับปัญหาการจัดเก็บหรือไม่?

1
ทำไมส่วนประกอบทั้งหมดของ PLS จึงอธิบายเพียงส่วนหนึ่งของความแปรปรวนของข้อมูลต้นฉบับเท่านั้น
ฉันมีชุดข้อมูลซึ่งประกอบด้วยตัวแปร 10 ตัว ฉันวิ่งสี่เหลี่ยมน้อยที่สุดบางส่วน (PLS) เพื่อทำนายตัวแปรการตอบสนองเดียวโดยตัวแปร 10 ตัวเหล่านี้แยกส่วนประกอบ 10 PLS แล้วคำนวณความแปรปรวนของแต่ละองค์ประกอบ จากข้อมูลเดิมฉันได้รวมผลต่างของตัวแปรทั้งหมดซึ่งก็คือ 702 จากนั้นฉันก็แบ่งความแปรปรวนของส่วนประกอบ PLS แต่ละตัวด้วยผลรวมนี้เพื่อให้ได้เปอร์เซ็นต์ของความแปรปรวนที่อธิบายโดย PLS และส่วนประกอบทั้งหมดด้วยกันน่าประหลาดใจเพียงอธิบาย 44% ของความแปรปรวนดั้งเดิม คำอธิบายของสิ่งนั้นคืออะไร? ไม่ควรจะเป็น 100%

1
PCA ยังทำผ่าน eigendecomposition ของเมทริกซ์ความแปรปรวนร่วมเมื่อมีมิติข้อมูลมากกว่าจำนวนการสังเกตหรือไม่?
ฉันมีเมทริกซ์Xที่มีN = 20ตัวอย่างในD = 100มิติมิติ ตอนนี้ฉันต้องการเขียนรหัสการวิเคราะห์องค์ประกอบหลักของตัวเอง (PCA) ใน Matlab ฉันดูถูกXถึงX 0ก่อน20×10020×10020\times100XXXN=20ยังไม่มีข้อความ=20N=20D=100D=100D=100XXXX0X0X_0 ฉันอ่านจากรหัสของใครบางคนซึ่งในสถานการณ์เช่นนี้ที่เรามีมิติมากกว่าการสังเกตเราไม่ได้สลายตัวค่าความแปรปรวนร่วมของอีกต่อไป แต่เราย่อยสลายไอเก็น1X0X0X_0 0 ทำไมมันถูกต้อง?1N−1X0XT01N−1X0X0T\frac{1}{N-1}X_0X_0^T เมทริกซ์ความแปรปรวนร่วมปกติมีขนาดแต่ละองค์ประกอบที่บอกความแปรปรวนร่วมระหว่างสองมิติกับเรา สำหรับฉัน1D×DD×DD\times Dไม่ได้เป็นขนาดที่ถูกต้อง! มันเป็นN×Nเมทริกซ์เพื่อให้สิ่งที่มันจะบอกเรา? ความแปรปรวนระหว่างการสังเกตสองครั้ง!1N−1X0XT01N−1X0X0T\frac{1}{N-1}X_0X_0^TN×NN×NN\times N
10 pca 

2
การใช้ PCA เพื่อทดสอบข้อมูลเพื่อวัตถุประสงค์ในการจำแนกประเภท
ฉันได้เรียนรู้เมื่อเร็ว ๆ นี้เกี่ยวกับ PCA ที่ยอดเยี่ยมและผมเคยทำตัวอย่างที่ระบุไว้ในscikit เรียนรู้เอกสาร ฉันสนใจที่จะทราบว่าฉันสามารถใช้ PCA กับจุดข้อมูลใหม่เพื่อการจำแนกประเภทได้อย่างไร หลังจากแสดงภาพ PCA ในระนาบ 2 มิติ (แกน x, y) ฉันเห็นว่าฉันสามารถวาดเส้นเพื่อแยกจุดข้อมูลเพื่อว่าด้านหนึ่งจะเป็นประเภทหนึ่งและอีกประเภทหนึ่ง ฉันจะวาด "ขอบเขต" นี้และนำไปใช้กับจุดข้อมูลใหม่ได้อย่างไร

1
สับสนเกี่ยวกับคำอธิบายภาพของ eigenvectors: ชุดข้อมูลที่ต่างกันสามารถมี eigenvector เหมือนกันได้อย่างไร
ตำราสถิติจำนวนมากให้ภาพตัวอย่างที่เข้าใจง่ายว่า eigenvectors ของเมทริกซ์ความแปรปรวนร่วมคืออะไร: เวกเตอร์uและzเป็นค่า eigenvectors (ดี, eigenaxes) มันสมเหตุสมผลแล้ว แต่สิ่งหนึ่งที่ทำให้ฉันสับสนก็คือเราแยก eigenvectors จากเมทริกซ์สหสัมพันธ์ไม่ใช่ข้อมูลดิบ นอกจากนี้ชุดข้อมูลดิบที่แตกต่างกันมากอาจมีเมทริกซ์สหสัมพันธ์เหมือนกัน ตัวอย่างเช่นทั้งคู่มีเมทริกซ์สหสัมพันธ์ของ: [10.970.971][10.970.971]\left[\begin{array}{} 1 & 0.97 \\ 0.97 &1\end{array}\right] ดังนั้นพวกเขาจึงมี eigenvectors ชี้ไปในทิศทางเดียวกัน: [.71.71−.71.71][.71−.71.71.71]\left[\begin{array}{} .71 & -.71 \\ .71 & .71\end{array}\right] แต่ถ้าคุณต้องใช้การตีความภาพแบบเดียวกันกับที่ทิศทางของข้อมูลผู้ใช้ในข้อมูลดิบคุณจะได้เวกเตอร์ชี้ไปในทิศทางที่ต่างกัน ใครช่วยบอกฉันทีว่าฉันทำผิดไปได้ไหม การแก้ไขที่สอง : หากฉันกล้าหาญมากด้วยคำตอบที่ดีเยี่ยมด้านล่างฉันสามารถเข้าใจความสับสนและแสดงให้เห็นได้ คำอธิบายด้วยภาพสอดคล้องกับความจริงที่ว่า eigenvector สกัดจากเมทริกซ์ความแปรปรวนร่วมนั้นแตกต่างกัน Covariances และ Eigenvectors (สีแดง): [1111][.7.72−.72.7][1111][.7−.72.72.7]\left[\begin{array}{} 1 & 1 \\ 1 & …

2
ตัวชี้วัดที่ดีในการประเมินคุณภาพของ PCA คืออะไรเพื่อเลือกจำนวนขององค์ประกอบ
อะไรคือการวัดที่ดีสำหรับการประเมินคุณภาพของการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันใช้อัลกอริทึมนี้กับชุดข้อมูล วัตถุประสงค์ของฉันคือลดจำนวนฟีเจอร์ (ข้อมูลซ้ำซ้อนมาก) ฉันรู้ว่าเปอร์เซ็นต์ของความแปรปรวนที่เก็บไว้เป็นตัวบ่งชี้ที่ดีว่าเราเก็บข้อมูลไว้มากน้อยเพียงใดจะมีตัวชี้วัดข้อมูลอื่นที่ฉันสามารถใช้เพื่อให้แน่ใจว่าฉันลบข้อมูลซ้ำซ้อนและไม่สูญเสียข้อมูลดังกล่าวหรือไม่

3
การลดขนาดสูญเสียข้อมูลบางส่วนหรือไม่?
เช่นเดียวกับชื่อเรื่องการลดขนาดจะสูญเสียข้อมูลบางส่วนหรือไม่ พิจารณาตัวอย่าง PCA หากข้อมูลที่ฉันมีอยู่น้อยมากฉันจะถือว่า "การเข้ารหัสที่ดีกว่า" สามารถพบได้ (นี่เกี่ยวข้องกับการจัดอันดับของข้อมูลหรือไม่) และไม่มีอะไรจะหายไป

1
วิธีการตีความ biplot PCA นี้มาจากการสำรวจสิ่งที่ผู้คนมีความสนใจในพื้นที่?
ความเป็นมา:ฉันถามผู้เข้าร่วมหลายร้อยคนในแบบสำรวจของฉันว่าพวกเขาสนใจในพื้นที่ที่เลือกไว้มากเพียงใด (โดยห้าจุด Likert มี 1 ตัวบ่งชี้ว่า "ไม่สนใจ" และ 5 ระบุว่า "สนใจ") จากนั้นฉันก็ลอง PCA ภาพด้านล่างเป็นการฉายภาพลงในองค์ประกอบหลักสองประการแรก สีที่ใช้สำหรับเพศและลูกศร PCA เป็นตัวแปรดั้งเดิม (เช่นความสนใจ) ฉันสังเกตว่า: จุด (ผู้ตอบแบบสอบถาม) ค่อนข้างแยกจากกันโดยองค์ประกอบที่สอง ไม่มีลูกศรชี้ไปทางซ้าย ลูกศรบางตัวสั้นกว่าลูกศรอื่นมาก ตัวแปรมีแนวโน้มที่จะสร้างกลุ่ม แต่ไม่ใช่การสังเกต ดูเหมือนว่าลูกศรชี้ลง (สำหรับผู้ชาย) ส่วนใหญ่เป็นความสนใจของผู้ชายและลูกศรชี้ขึ้นส่วนใหญ่เป็นความสนใจของผู้หญิง ลูกศรบางตัวชี้ไม่ขึ้นหรือลง คำถาม:วิธีการตีความความสัมพันธ์ระหว่างจุดอย่างถูกต้อง (ผู้ตอบแบบสอบถาม), สี (เพศ) และลูกศร (ตัวแปร) ได้อย่างไร? ข้อสรุปอื่น ๆ เกี่ยวกับผู้ตอบและความสนใจของพวกเขาสามารถขุดได้จากแผนนี้ ข้อมูลที่สามารถพบได้ที่นี่

3
การเลือกจำนวนส่วนประกอบหลักที่จะเก็บไว้
วิธีการหนึ่งที่แนะนำให้ฉันคือดูพล็อตหินกรวดและตรวจสอบ "ข้อศอก" เพื่อกำหนดจำนวนพีซีที่ถูกต้องที่จะใช้ แต่ถ้าพล็อตไม่ชัดเจน R มีการคำนวณเพื่อกำหนดจำนวนหรือไม่? fit <- princomp(mydata, cor=TRUE)
10 r  pca 

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
ใช้ kurtosis เพื่อประเมินความสำคัญขององค์ประกอบจากการวิเคราะห์องค์ประกอบอิสระ
ในค่าลักษณะเฉพาะ PCA กำหนดลำดับของส่วนประกอบ ใน ICA ฉันใช้ kurtosis เพื่อรับการสั่งซื้อ มีวิธีการใดบ้างที่ได้รับการยอมรับในการประเมินจำนวน (เนื่องจากฉันมีคำสั่งซื้อ) ของส่วนประกอบที่แตกต่างจากความรู้ก่อนหน้าเกี่ยวกับสัญญาณ

2
ในการวิเคราะห์ปัจจัย (หรือใน PCA) มันหมายถึงปัจจัยที่โหลดมากกว่า 1 หรือไม่
ฉันเพิ่งเรียกใช้ FA โดยใช้การหมุนแบบเอียง (promax) และรายการให้ค่าการโหลดปัจจัย 1.041 ในปัจจัยเดียว (และปัจจัยการโหลดของ -.131, -.119 และ. 0.65 ในอีกปัจจัยที่ใช้เมทริกซ์รูปแบบ ) . และฉันไม่แน่ใจว่ามันหมายถึงอะไรฉันคิดว่ามันอาจจะอยู่ระหว่าง -1 ถึง 1 เท่านั้น มันเกิดจากการหมุนแบบเอียงหรือไม่? และสามารถโหลดเกิน 1 ด้วยปัจจัยมุมฉากได้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.