คำถามติดแท็ก pca

การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นเทคนิคการลดขนาดเชิงเส้น จะช่วยลดชุดข้อมูลหลายตัวแปรให้เป็นชุดเล็ก ๆ ของตัวแปรที่สร้างขึ้นรักษาข้อมูลให้มากที่สุดเท่าที่จะเป็นไปได้ ตัวแปรเหล่านี้เรียกว่าองค์ประกอบหลักคือการรวมกันเชิงเส้นของตัวแปรอินพุต

1
กระดาษกล่าวถึง“ การจำลอง Monte Carlo เพื่อกำหนดจำนวนขององค์ประกอบหลัก”; มันทำงานยังไง?
ฉันกำลังทำการวิเคราะห์ Matlab กับข้อมูล MRI ที่ฉันได้ทำ PCA บนเมทริกซ์ขนาด 10304x236 โดยที่ 10304 คือจำนวน voxels (คิดว่าเป็นพิกเซล) และ 236 คือจำนวนของ timepoints PCA ให้ฉัน 236 ค่าลักษณะเฉพาะและค่าสัมประสิทธิ์ที่เกี่ยวข้อง ทั้งหมดนี้เป็นเรื่องปกติ อย่างไรก็ตามเมื่อถึงเวลาที่ต้องตัดสินใจว่าต้องเก็บส่วนประกอบกี่ชิ้นกระดาษที่ฉันลอกเลียนแบบจะกล่าวต่อไปนี้ (โปรดแจ้งให้เราทราบหากต้องการคำชี้แจงใด ๆ เนื่องจากนี่เป็นเพียงส่วนสั้น ๆ ของกระดาษทั้งหมด): จากนั้นเราทำการจำลอง Monte Carlo เพื่อกำหนดจำนวนขององค์ประกอบหลัก (พีซี) เพื่อแยกจากข้อมูล ROI ที่น่ารำคาญสำหรับการสแกนแต่ละครั้ง การกระจายตัวของค่าลักษณะเฉพาะที่คาดหวังถูกสร้างขึ้นแยกต่างหากสำหรับการเข้ารหัสและข้อมูลส่วนที่เหลือสำหรับแต่ละเรื่องโดยดำเนินการ PCA กับข้อมูลที่กระจายตามปกติในระดับที่เท่าเทียมกันกับการเข้ารหัสและข้อมูล ROI ที่น่ารำคาญ พีซีจากข้อมูล ROI ที่น่ารำคาญจริงนั้นถูกเลือกสำหรับการพักผ่อนหรือเข้ารหัสการสแกนหากค่าลักษณะเฉพาะที่เกี่ยวข้องมีค่าเกินช่วงความเชื่อมั่น 99% ของค่าลักษณะเฉพาะจากการจำลอง Monte Carlo Tambini & …

1
ทำไมคะแนนส่วนประกอบหลักจึงไม่เกี่ยวข้องกัน
Supose AA\mathbf Aเป็นเมทริกซ์ของข้อมูลที่มีค่าเฉลี่ยกึ่งกลาง เมทริกซ์S =cov( A )S=cov(A)\mathbf S=\text{cov}(\mathbf A) คือ m × mm×mm\times mมี ม.mm ค่าลักษณะเฉพาะที่แตกต่างและค่าลักษณะเฉพาะ s1s1\mathbf s_1, s2s2\mathbf s_2 ... sม.sm\mathbf s_mซึ่งเป็นมุมฉาก ผมiiองค์ประกอบหลักที่ (บางคนเรียกพวกเขาว่า "คะแนน") เป็นเวกเตอร์ Zผม= Asผมzi=Asi\mathbf z_i = \mathbf A\mathbf s_i. มันคือการรวมกันเชิงเส้นของคอลัมน์ของAA\mathbf Aโดยที่ค่าสัมประสิทธิ์เป็นองค์ประกอบของ ผมii- ไอเกนวิคเตอร์ของ SS\mathbf S. ฉันไม่เข้าใจว่าทำไม Zผมzi\mathbf z_i และ ZJzj\mathbf z_j กลายเป็นไม่เกี่ยวข้องกับทุกคน ฉัน≠ ji≠ji\neq j. …

2
ความแตกต่างระหว่าง PCA และการจัดกลุ่มสเปกตรัมสำหรับชุดตัวอย่างขนาดเล็กของคุณลักษณะบูลีน
ฉันมีชุดข้อมูลจำนวน 50 ตัวอย่าง แต่ละตัวอย่างประกอบด้วยคุณลักษณะบูลีน 11 (อาจมีความสัมพันธ์) ฉันต้องการที่จะเห็นภาพตัวอย่างเหล่านี้ในพล็อต 2D และตรวจสอบว่ามีกลุ่ม / กลุ่มใน 50 ตัวอย่างหรือไม่ ฉันได้ลองสองวิธีต่อไปนี้: (a) เรียกใช้ PCA บนเมทริกซ์ 50x11 และเลือกสององค์ประกอบหลักแรก ฉายข้อมูลลงบนพล็อต 2 มิติและรัน K-mean อย่างง่ายเพื่อระบุกลุ่ม (b) สร้างเมทริกซ์ความคล้ายคลึงกัน 50x50 (โคไซน์) เรียกใช้การจัดกลุ่มสเปกตรัมเพื่อลดมิติตามด้วย K-mean อีกครั้ง อะไรคือแนวคิดที่แตกต่างระหว่างการทำ PCA โดยตรงกับการใช้ค่าลักษณะเฉพาะของเมทริกซ์ความเหมือนกัน? ดีกว่าอีกไหม? นอกจากนี้ยังมีวิธีที่ดีกว่าในการแสดงภาพข้อมูลในแบบ 2D หรือไม่? เนื่องจากขนาดตัวอย่างของฉันถูก จำกัด ไว้ที่ 50 เสมอและชุดคุณลักษณะของฉันอยู่ในช่วง 10-15 เสมอฉันยินดีที่จะลองใช้วิธีการต่างๆแบบทันทีและเลือกที่ดีที่สุด คำถามที่เกี่ยวข้อง: การ จัดกลุ่มตัวอย่างโดยการทำคลัสเตอร์หรือ PCA

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

3
ระยะทาง Mahalanobis ผ่าน PCA เมื่อ
ฉันมีเมทริกซ์โดยที่คือจำนวนยีนและคือจำนวนผู้ป่วย ทุกคนที่ทำงานกับข้อมูลดังกล่าวรู้ว่านั้นใหญ่กว่าเสมอ โดยใช้การเลือกคุณลักษณะฉันมีอากาศลงไปจำนวนที่เหมาะสมมากขึ้น แต่ยังคงสูงกว่าnn×pn×pn\times ppppnnnpppnnnppppppnnn ฉันต้องการคำนวณความคล้ายคลึงกันของผู้ป่วยตามโปรไฟล์ทางพันธุกรรมของพวกเขา ฉันสามารถใช้ระยะทางแบบยุคลิดได้ แต่มาฮาโลโนบิสดูเหมือนจะเหมาะสมกว่าเพราะมันเกี่ยวข้องกับความสัมพันธ์ระหว่างตัวแปร ปัญหาที่เกิดขึ้น (ตามที่ระบุไว้ในนี้โพสต์ ) เป็นว่าระยะทาง Mahalanobis เฉพาะเมทริกซ์ความแปรปรวนร่วมไม่ทำงานเมื่อ&lt;p เมื่อฉันเรียกใช้ระยะทาง Mahalanobis ใน R ข้อผิดพลาดที่ฉันได้รับคือ:n&lt;pn&lt;pn < p Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 จนถึงตอนนี้ที่จะลองแก้ปัญหานี้ฉันใช้ PCA และแทนที่จะใช้ยีนฉันใช้ส่วนประกอบและดูเหมือนว่าจะทำให้ฉันคำนวณระยะทาง Mahalanobis ได้ 5 ส่วนประกอบแทนประมาณ 80% ของความแปรปรวนดังนั้นตอนนี้Pn&gt;pn&gt;pn > p คำถามของฉันคือ:ฉันสามารถใช้ PCA เพื่อให้ได้ระยะทาง Mahalanobis …

2
วิธีการค้นหาเมทริกซ์ความแปรปรวนร่วมของรูปหลายเหลี่ยม?
ลองนึกภาพคุณมีรูปหลายเหลี่ยมที่กำหนดโดยชุดพิกัด (x1,y1)...(xn,yn)(x1,y1)...(xn,yn)(x_1,y_1)...(x_n,y_n) และศูนย์กลางของมวลอยู่ที่ (0,0)(0,0)(0,0). คุณสามารถถือว่ารูปหลายเหลี่ยมเป็นการกระจายแบบสม่ำเสมอด้วยขอบเขตรูปหลายเหลี่ยม ฉันหลังจากวิธีการที่จะได้พบกับการเมทริกซ์ความแปรปรวนของรูปหลายเหลี่ยม ฉันสงสัยว่าเมทริกซ์ความแปรปรวนร่วมของรูปหลายเหลี่ยมนั้นเกี่ยวข้องอย่างใกล้ชิดกับช่วงเวลาที่สองของพื้นที่แต่ไม่ว่าพวกมันจะเท่ากันหรือไม่ฉันไม่แน่ใจ สูตรที่พบในบทความวิกิพีเดียที่ฉันเชื่อมโยงดูเหมือน (คาดเดาที่นี่มันไม่ชัดเจนโดยเฉพาะอย่างยิ่งกับฉันจากบทความ) เพื่ออ้างถึงความเฉื่อยหมุนรอบแกน x, y และ z มากกว่าแกนหลักของรูปหลายเหลี่ยม (บังเอิญถ้าใครสามารถชี้ให้ฉันถึงวิธีการคำนวณแกนหลักของรูปหลายเหลี่ยมนั้นจะเป็นประโยชน์กับฉันด้วย) เป็นที่น่าดึงดูดใจที่จะเพียงแค่ทำการ PCA บนพิกัดแต่การทำเช่นนี้จะทำให้เกิดปัญหาที่พิกัดไม่จำเป็นต้องกระจายทั่วรูปหลายเหลี่ยมอย่างสม่ำเสมอและดังนั้นจึงไม่ได้เป็นตัวแทนของความหนาแน่นของรูปหลายเหลี่ยม ตัวอย่างสุดขั้วคือโครงร่างของนอร์ทดาโคตาซึ่งรูปหลายเหลี่ยมถูกกำหนดโดยจุดจำนวนมากที่ตามแม่น้ำแดงรวมทั้งอีกสองจุดที่กำหนดขอบตะวันตกของรัฐ

1
เด็ก ๆ สามารถดึงพ่อแม่ของพวกเขามารวมกันในการฉาย PCA ของชุดข้อมูล GWAS ได้อย่างไร
ใช้เวลาประมาณ 20 จุดสุ่มในพื้นที่ 10,000 มิติที่มีพิกัดแต่ละ IID จาก(0,1) แยกออกเป็น 10 คู่ ("คู่รัก") และเพิ่มค่าเฉลี่ยของแต่ละคู่ ("เด็ก") ไปยังชุดข้อมูล จากนั้นทำ PCA บนผลลัพธ์ 30 คะแนนและลงจุด PC1 กับ PC2N(0,1)N(0,1)\mathcal N(0,1) สิ่งที่น่าทึ่งเกิดขึ้น: "ครอบครัว" แต่ละแห่งก่อให้เกิดจุดที่อยู่ใกล้กัน แน่นอนว่าเด็กทุกคนอยู่ใกล้กับผู้ปกครองแต่ละคนในพื้นที่ 10,000 มิติดั้งเดิมดังนั้นใคร ๆ ก็คาดหวังว่ามันจะอยู่ใกล้กับพ่อแม่ในพื้นที่ PCA อย่างไรก็ตามในพื้นที่ PCA ผู้ปกครองแต่ละคู่อยู่ใกล้กันเช่นกันแม้ว่าในพื้นที่ดั้งเดิมพวกเขาเป็นเพียงจุดสุ่ม! เด็ก ๆ จัดการดึงผู้ปกครองมารวมกันในการฉาย PCA ได้อย่างไร \quad\quad\quad\quad บางคนอาจกังวลว่าสิ่งนี้ได้รับอิทธิพลจากความจริงที่ว่าเด็กมีบรรทัดฐานต่ำกว่าพ่อแม่ สิ่งนี้ดูเหมือนจะไม่สำคัญ: ถ้าฉันสร้างเด็กเป็นโดยที่และเป็นจุดของผู้ปกครองพวกเขาจะมีบรรทัดฐานเดียวกันโดยเฉลี่ยกับผู้ปกครอง แต่ฉันยังคงสังเกตเห็นปรากฏการณ์เชิงคุณภาพในพื้นที่ PCA:(x+y)/2–√(x+y)/2(x+y)/\sqrt{2}xxxyyy \quad\quad\quad\quad คำถามนี้ใช้ชุดข้อมูลของเล่น แต่ได้แรงบันดาลใจจากสิ่งที่ฉันสังเกตเห็นในชุดข้อมูลจริงจากการศึกษาความสัมพันธ์จีโนมกว้าง (GWAS) …

3
PCA ช้าเกินไปเมื่อทั้ง n, p มีขนาดใหญ่: ทางเลือก?
การตั้งค่าปัญหา ฉันมีจุดข้อมูล (ภาพ) ที่มีมิติสูง (4096) ซึ่งฉันกำลังพยายามมองเห็นเป็น 2D ด้วยเหตุนี้ผมใช้เสื้อ sne ในลักษณะที่คล้ายกับต่อไปนี้โค้ดตัวอย่างโดย Karpathy เอกสาร scikit เรียนรู้แนะนำให้ใช้ PCA แรกลดขนาดของข้อมูล: ขอแนะนำให้ใช้วิธีการลดขนาดแบบอื่น (เช่น PCA สำหรับข้อมูลหนาแน่นหรือ TruncatedSVD สำหรับข้อมูลแบบเบาบาง) เพื่อลดจำนวนมิติเป็นจำนวนที่เหมาะสม (เช่น 50) หากจำนวนคุณลักษณะสูงมาก ฉันใช้รหัสนี้โดย Darks.Liu เพื่อดำเนินการ PCA ใน Java: //C=X*X^t / m DoubleMatrix covMatrix = source.mmul(source.transpose()).div(source.columns); ComplexDoubleMatrix eigVal = Eigen.eigenvalues(covMatrix); ComplexDoubleMatrix[] eigVectorsVal = Eigen.eigenvectors(covMatrix); ComplexDoubleMatrix eigVectors = …

2
ทำความเข้าใจกับแผนการขายไอศกรีมของ PCA นี้เทียบกับอุณหภูมิ
ฉันกำลังใช้ข้อมูลหุ่นจำลองของอุณหภูมิเทียบกับการขายไอศกรีมและจัดหมวดหมู่โดยใช้ K หมายถึง (n กลุ่ม = 2) เพื่อแยกแยะความแตกต่าง 2 ประเภท (หุ่นจำลองทั้งหมด) ตอนนี้ฉันกำลังทำการวิเคราะห์ส่วนประกอบหลักในข้อมูลนี้และเป้าหมายของฉันคือเข้าใจสิ่งที่ฉันเห็น ฉันรู้ว่าวัตถุประสงค์ PCA คือการลดมิติ (ไม่ชัดเจนในกรณีนี้) และแสดงความแปรปรวนขององค์ประกอบ แต่คุณจะอ่านพล็อต PCA ด้านล่างได้อย่างไรนั่นคือเรื่องราวที่คุณสามารถบอกเกี่ยวกับอุณหภูมิเทียบกับไอศกรีมในพล็อต PCA ได้อย่างไร พีซีรุ่น 1 (X) และ 2nd (Y) หมายถึงอะไร?

2
การลดขนาดที่ปรับขนาดได้
พิจารณาจำนวนของคุณสมบัติคงที่บาร์นส์ฮัทเสื้อ SNEมีความซับซ้อนของ , ประมาณการสุ่มและ PCA มีความซับซ้อนของทำให้พวกเขา "แพง" สำหรับชุดข้อมูลขนาดใหญ่มากO ( n บันทึกn )O(nเข้าสู่ระบบ⁡n)O(n\log n)O ( n )O(n)O(n) ในทางกลับกันวิธีการที่ใช้การวัดหลายมิติมีความซับซ้อนโอ (n2)O(n2)O(n^2) มีเทคนิคการลดขนาดอื่น ๆ (นอกเหนือจากสิ่งเล็กน้อยเช่นการดูคอลัมน์แรก) ซึ่งมีความซับซ้อนต่ำกว่าหรือไม่kkkO ( n บันทึกn )O(nเข้าสู่ระบบ⁡n)O(n\log n)

1
รูปร่างคล้ายลิ่มของพล็อต PCA ระบุว่าอะไร?
ในของพวกเขาบนกระดาษ autoencoders สำหรับการจำแนกข้อความฮินตันและ Salakhutdinov แสดงให้เห็นถึงพล็อตที่ผลิตโดย 2 มิติ LSA (ซึ่งเป็นเรื่องที่เกี่ยวข้องอย่างใกล้ชิดกับ PCA): การใช้ PCA กับข้อมูลมิติสูงแตกต่างกันเล็กน้อยฉันได้รับพล็อตที่คล้ายกัน: (ยกเว้นในกรณีนี้ฉันอยากรู้ว่ามีโครงสร้างภายในหรือไม่) หากเราป้อนข้อมูลแบบสุ่มลงใน PCA เราจะได้รับดิสก์รูปหยดดังนั้นรูปทรงลิ่มนี้ไม่ได้สุ่ม มันหมายถึงอะไรด้วยตัวเอง?

3
หมุนส่วนประกอบ PCA เพื่อปรับความแปรปรวนในแต่ละองค์ประกอบให้เท่ากัน
ฉันกำลังพยายามลดมิติข้อมูลและเสียงรบกวนของชุดข้อมูลด้วยการแสดง PCA บนชุดข้อมูลและทิ้งพีซีสองสามเครื่องล่าสุด หลังจากนั้นฉันต้องการใช้อัลกอริทึมการเรียนรู้ของเครื่องบางอย่างบนพีซีที่เหลืออยู่ดังนั้นฉันจึงต้องการทำให้ข้อมูลเป็นมาตรฐานด้วยการทำให้ความแตกต่างของพีซีให้เท่ากัน วิธีง่ายๆวิธีหนึ่งก็คือทำให้ค่าความแปรปรวนเป็นค่าหน่วย อย่างไรก็ตามพีซีเครื่องแรกมีความแปรปรวนจากชุดข้อมูลดั้งเดิมมากกว่าชุดข้อมูลต่อไปนี้และฉันยังต้องการให้ "น้ำหนัก" มากขึ้น ดังนั้นฉันสงสัยว่า: มีวิธีง่าย ๆ ในการแยกความแปรปรวนและแบ่งปันกับพีซีที่มีความแปรปรวนน้อยกว่าหรือไม่ อีกวิธีหนึ่งคือการแมปพีซีกลับไปยังพื้นที่คุณลักษณะดั้งเดิม แต่ในกรณีนั้นมิติข้อมูลจะเพิ่มขึ้นเป็นค่าดั้งเดิม ฉันเดาว่าจะดีกว่าที่จะเก็บคอลัมน์ผลลัพธ์ไว้เป็นมุมฉาก แต่ก็ไม่จำเป็นในตอนนี้

3
ฉันจะบอกได้อย่างไรว่าไม่มีรูปแบบในผลลัพธ์ PCA
ฉันมีชุดข้อมูลตัวอย่างมากกว่า 1,000 ชุดจาก 19 ตัวแปร วัตถุประสงค์ของฉันคือการทำนายตัวแปรไบนารีตามตัวแปร 18 ตัวอื่น ๆ (ไบนารีและต่อเนื่อง) ฉันค่อนข้างมั่นใจว่า 6 ของตัวแปรการทำนายเกี่ยวข้องกับการตอบสนองแบบไบนารีอย่างไรก็ตามฉันต้องการวิเคราะห์ชุดข้อมูลเพิ่มเติมและค้นหาการเชื่อมโยงหรือโครงสร้างอื่น ๆ ที่ฉันอาจหายไป ในการทำเช่นนี้ฉันตัดสินใจใช้ PCA และการทำคลัสเตอร์ เมื่อเรียกใช้ PCA กับข้อมูลที่ได้รับการทำให้เป็นมาตรฐานจะต้องเก็บส่วนประกอบ 11 อย่างไว้เพื่อรักษาความแปรปรวน 85% ด้วยการวางแผนจับคู่ฉันได้รับสิ่งนี้: ฉันไม่แน่ใจว่ามีอะไรต่อไป ... ฉันไม่เห็นรูปแบบที่สำคัญใน pca และฉันสงสัยว่ามันหมายถึงอะไรและถ้ามันอาจเกิดจากข้อเท็จจริงที่ว่าตัวแปรบางตัวเป็นไบนารี โดยการใช้อัลกอริทึมการจัดกลุ่มด้วย 6 กลุ่มฉันได้รับผลลัพธ์ต่อไปนี้ซึ่งไม่ได้เป็นการปรับปรุงแม้ว่า Blobs บางอันจะดูโดดเด่น (สีเหลือง) อย่างที่คุณสามารถบอกได้ว่าฉันไม่ใช่ผู้เชี่ยวชาญเกี่ยวกับ PCA แต่เห็นบทเรียนบางอย่างและวิธีที่จะมีประสิทธิภาพในการมองเห็นโครงสร้างในพื้นที่มิติสูง ด้วยชุดข้อมูลตัวเลข MNIST (หรือ IRIS) ที่มีชื่อเสียงมันใช้งานได้ดี คำถามของฉันคือตอนนี้ฉันควรทำอย่างไรเพื่อให้เข้าใจถึง PCA ได้ดียิ่งขึ้น ดูเหมือนว่าการจัดกลุ่มไม่ได้มีประโยชน์อะไรฉันจะบอกได้อย่างไรว่าไม่มีรูปแบบใน PCA หรือฉันควรลองอะไรต่อไปเพื่อหารูปแบบในข้อมูล …
9 pca 

1
จะใช้การถดถอยกับองค์ประกอบหลักเพื่อทำนายตัวแปรเอาต์พุตได้อย่างไร
ผมอ่านเกี่ยวกับพื้นฐานของการวิเคราะห์องค์ประกอบหลักจากtutorial1 , link1และlink2 ฉันมีชุดข้อมูลของตัวแปร 100 ตัว (รวมถึงตัวแปรเอาต์พุต Y) ฉันต้องการลดตัวแปรเป็น 40 โดย PCA แล้วทำนายตัวแปร Y โดยใช้ตัวแปร 40 ตัว ปัญหาที่ 1:หลังจากได้รับส่วนประกอบหลักและเลือก 40 องค์ประกอบแรกถ้าฉันใช้การถดถอยบนฉันได้รับฟังก์ชั่นบางอย่างที่เหมาะกับข้อมูล แต่จะคาดเดาตัวแปร Y จากข้อมูลต้นฉบับได้อย่างไร? ในการทำนายตัวแปร YI มีตัวแปร (100-1) ที่อินพุตและฉันจะรู้ได้อย่างไรว่ามีตัวแปร 40 ตัวที่เลือกตัวแปร 100-1 ดั้งเดิมของฉันได้อย่างไร ปัญหาที่ 2:ฉันกลับ PCA และรับข้อมูลกลับมาจากองค์ประกอบหลัก 40 รายการ แต่ข้อมูลมีการเปลี่ยนแปลงเพราะฉันเลือกเพียง 40 องค์ประกอบแรก การใช้การถดถอยกับข้อมูลเหล่านี้สมเหตุสมผลหรือไม่? ฉันใช้ Matlab / Octave
9 regression  pca 

2
ข้อสรุปจากผลลัพธ์ของการวิเคราะห์องค์ประกอบหลัก
ฉันพยายามเข้าใจผลลัพธ์ของการวิเคราะห์องค์ประกอบหลักที่ดำเนินการดังนี้ &gt; head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa &gt; res = prcomp(iris[1:4], scale=T) &gt; …
9 r  pca  interpretation 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.