คำถามติดแท็ก pca

การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นเทคนิคการลดขนาดเชิงเส้น จะช่วยลดชุดข้อมูลหลายตัวแปรให้เป็นชุดเล็ก ๆ ของตัวแปรที่สร้างขึ้นรักษาข้อมูลให้มากที่สุดเท่าที่จะเป็นไปได้ ตัวแปรเหล่านี้เรียกว่าองค์ประกอบหลักคือการรวมกันเชิงเส้นของตัวแปรอินพุต

4
อะไรทำให้เคอร์เนลเกาส์เซียนมีมนต์ขลังสำหรับ PCA และโดยทั่วไปแล้ว?
ฉันอ่านเกี่ยวกับเคอร์เนล PCA ( 1 , 2 , 3 ) กับเกาส์เซียนและเมล็ดพหุนาม เคอร์เนลเกาส์เซียนนั้นแยกข้อมูลที่ไม่เป็นเชิงเส้นออกจากกันได้อย่างไรอย่างดีเป็นพิเศษ? กรุณาให้การวิเคราะห์ที่ใช้งานง่ายเช่นเดียวกับที่เกี่ยวข้องกับคณิตศาสตร์ถ้าเป็นไปได้ อะไรคือคุณสมบัติของเคอร์เนลเกาส์เซียน (มีอุดมคติ ) ที่เมล็ดอื่นไม่มี โครงข่ายประสาทเทียม SVM และเครือข่าย RBF เป็นสิ่งสำคัญσσ\sigma ทำไมเราไม่ใส่บรรทัดฐานพูด Cauchy PDF และคาดหวังผลลัพธ์เดียวกัน

8
PCA ตามมาด้วยการหมุน (เช่น varimax) ยังคงเป็น PCA หรือไม่
ฉันได้ลองทำซ้ำการวิจัย (ใช้ PCA) จาก SPSS ใน R จากประสบการณ์ของฉันprincipal() ฟังก์ชั่นจากแพ็คเกจpsychเป็นฟังก์ชั่นเดียวที่เข้ามาใกล้ (หรือถ้าหน่วยความจำของฉันทำหน้าที่ฉันถูกต้องตาย) เพื่อให้ตรงกับผลลัพธ์ เพื่อให้ตรงกับผลเช่นเดียวกับในโปรแกรม SPSS principal(..., rotate = "varimax")ผมต้องใช้พารามิเตอร์ ฉันเคยเห็นเอกสารพูดคุยเกี่ยวกับวิธีที่พวกเขาทำ PCA แต่จากผลของ SPSS และการใช้การหมุนมันฟังดูคล้ายกับการวิเคราะห์ตัวประกอบ คำถาม: PCA คือแม้หลังจากหมุน (โดยใช้varimax) ยังคง PCA หรือไม่ ฉันรู้สึกว่านี่อาจเป็นการวิเคราะห์ตัวประกอบจริง ๆ ... ในกรณีที่ไม่ได้ฉันมีรายละเอียดอะไรบ้าง

5
ความสัมพันธ์ระหว่าง k-หมายถึงการจัดกลุ่มและ PCA คืออะไร?
มันเป็นเรื่องธรรมดาที่จะใช้ PCA (การวิเคราะห์องค์ประกอบหลัก) ก่อนอัลกอริทึมการจัดกลุ่ม (เช่น k-mean) เชื่อว่าช่วยปรับปรุงผลการจัดกลุ่มในทางปฏิบัติ (ลดเสียงรบกวน) อย่างไรก็ตามฉันสนใจที่จะศึกษาเชิงเปรียบเทียบและเชิงลึกเกี่ยวกับความสัมพันธ์ระหว่าง PCA และ k-mean ตัวอย่างเช่น Chris Ding และ Xiaofeng He, 2004, K- หมายถึงการทำคลัสเตอร์ผ่านการวิเคราะห์องค์ประกอบหลักแสดงให้เห็นว่า "ส่วนประกอบหลักเป็นวิธีการแก้ปัญหาอย่างต่อเนื่องสำหรับตัวบ่งชี้การเป็นสมาชิกคลัสเตอร์แบบไม่ต่อเนื่องสำหรับการจัดกลุ่ม K-mean" แต่ผมมีช่วงเวลาที่ยากในการทำความเข้าใจกระดาษนี้และวิกิพีเดียจริงอ้างว่ามันเป็นความผิด นอกจากนี้ผลลัพธ์ของทั้งสองวิธียังค่อนข้างแตกต่างกันในแง่ที่ PCA ช่วยลดจำนวนของ "คุณสมบัติ" ในขณะที่รักษาความแปรปรวนขณะที่การจัดกลุ่มจะลดจำนวนของ "ข้อมูล - คะแนน" โดยสรุปหลายจุดตามความคาดหวัง / หมายถึง (ในกรณีของ k- หมายถึง) ดังนั้นหากชุดข้อมูลที่ประกอบด้วยในจุดที่มีให้บริการแต่ละ PCA มีจุดมุ่งหมายที่การบีบอัดคุณสมบัติในขณะที่การจัดกลุ่มมีจุดมุ่งหมายในการบีบอัดข้อมูลจุดNNNTTTTTTNNN ฉันกำลังมองหาคำอธิบายของคนธรรมดาของความสัมพันธ์ระหว่างสองเทคนิคนี้ + เอกสารทางเทคนิคเพิ่มเติมบางส่วนที่เกี่ยวข้องกับทั้งสองเทคนิค

2
อะไรคือความแตกต่างระหว่าง ZCA กับไวท์เทนนิ่ง PCA?
ฉันสับสนเกี่ยวกับการฟอกสีฟันแบบ ZCA และการฟอกสีฟันปกติ (ซึ่งได้มาจากการหารส่วนประกอบหลักด้วยค่ารากที่สองของค่าลักษณะ PCA) เท่าที่ฉันรู้, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},ที่เป็น PCA eigenvectorsUU\mathbf U ZCA Whitening มีประโยชน์อะไรบ้าง? อะไรคือความแตกต่างระหว่างการฟอกสีฟันปกติและการฟอกสีฟันแบบ ZCA?


9
คำแนะนำหนังสือสถิติขั้นสูง
มีหลายกระทู้ในเว็บไซต์นี้สำหรับคำแนะนำหนังสือเกี่ยวกับการมีสถิติเบื้องต้นและการเรียนรู้เครื่องแต่ฉันกำลังมองหาข้อความบนสถิติขั้นสูงรวมทั้งในลำดับความสำคัญ: ความน่าจะเป็นสูงสุดทั่วไปรุ่นเชิงเส้นวิเคราะห์องค์ประกอบหลักรุ่นที่ไม่ใช่เชิงเส้น ฉันลองแบบจำลองทางสถิติโดย AC Davison แต่ตรงไปตรงมาฉันต้องวางมันลงหลังจาก 2 บท ข้อความเป็นสารานุกรมในความครอบคลุมและการปฏิบัติทางคณิตศาสตร์ แต่ในฐานะผู้ปฏิบัติงานฉันชอบที่จะเข้าใกล้วิชาโดยการทำความเข้าใจสัญชาตญาณก่อนแล้วจึงเจาะลึกภูมิหลังทางคณิตศาสตร์ นี่คือข้อความบางส่วนที่ฉันพิจารณาว่าโดดเด่นสำหรับคุณค่าการสอนของพวกเขา ฉันต้องการหาวิชาที่เทียบเท่าสำหรับวิชาขั้นสูงที่ฉันกล่าวถึง สถิติ , D. อิสระ, R. Pisani, R. Purves การพยากรณ์: วิธีการและการประยุกต์ใช้ R. Hyndman และคณะ การถดถอยหลายครั้งและอื่นๆ TZ Keith การใช้เทคนิคทางสถิติร่วมสมัยแรนด์อาร์วิลคอกซ์ แนะนำการเรียนรู้เชิงสถิติด้วยแอปพลิเคชั่นใน R - (เวอร์ชันที่เผยแพร่ในรูปแบบ PDF) , Gareth James, Daniela Witten, Trevor Hastie และ Robert Tibshirani องค์ประกอบของการเรียนรู้ทางสถิติ: การทำเหมืองข้อมูลการอนุมานและการทำนาย - (เวอร์ชั่นที่วางจำหน่ายในรูปแบบ PDF) , …

3
การใช้การวิเคราะห์องค์ประกอบหลัก (PCA) สำหรับการเลือกคุณสมบัติ
ฉันใหม่สำหรับการเลือกคุณสมบัติและฉันสงสัยว่าคุณจะใช้ PCA เพื่อดำเนินการเลือกคุณลักษณะอย่างไร PCA คำนวณคะแนนสัมพัทธ์สำหรับตัวแปรอินพุตแต่ละตัวที่คุณสามารถใช้เพื่อกรองตัวแปรอินพุตที่ไม่ใช่ข้อมูลหรือไม่? โดยทั่วไปฉันต้องการที่จะสามารถสั่งซื้อคุณสมบัติเดิมในข้อมูลตามความแปรปรวนหรือจำนวนข้อมูลที่มีอยู่

7
สุดยอดอัลกอริธึม PCA สำหรับฟีเจอร์มากมาย (> 10K)?
ก่อนหน้านี้ฉันเคยถามเรื่องนี้ใน StackOverflow แต่ดูเหมือนว่าอาจเหมาะสมกว่าที่นี่เนื่องจากไม่ได้รับคำตอบใด ๆ เกี่ยวกับ SO มันเป็นจุดตัดระหว่างสถิติกับการเขียนโปรแกรม ฉันต้องเขียนโค้ดบางอย่างเพื่อทำ PCA (การวิเคราะห์ส่วนประกอบหลัก) ฉันเรียกดูผ่านอัลกอริทึมที่รู้จักกันดีและใช้สิ่งนี้ซึ่งเท่าที่ฉันสามารถบอกได้เท่ากับอัลกอริทึม NIPALS มันใช้งานได้ดีสำหรับการค้นหาส่วนประกอบหลัก 2-3 ชิ้นแรก แต่ดูเหมือนจะช้ามากที่จะรวมกัน (ตามลำดับการทำซ้ำหลายร้อยถึงหลายพัน) นี่คือรายละเอียดของสิ่งที่ฉันต้องการ: อัลกอริทึมจะต้องมีประสิทธิภาพเมื่อจัดการกับคุณสมบัติจำนวนมาก (สั่ง 10,000 ถึง 20,000) และขนาดตัวอย่างตามลำดับไม่กี่ร้อย มันจะต้องสามารถนำไปใช้อย่างสมเหตุสมผลโดยไม่มีไลบรารี่พีชคณิตเชิงเส้น / เมทริกซ์ที่เหมาะสมเนื่องจากภาษาเป้าหมายคือ D ซึ่งยังไม่มีและแม้ว่ามันจะเป็นเช่นนั้นฉันก็ไม่ต้องการที่จะเพิ่มมันเป็นการพึ่งพาโครงการที่เป็นปัญหา . เป็นหมายเหตุด้านบนชุดข้อมูลเดียวกัน R ดูเหมือนว่าจะพบส่วนประกอบหลักทั้งหมดอย่างรวดเร็ว แต่ใช้การสลายตัวค่าเอกพจน์ซึ่งไม่ใช่สิ่งที่ฉันต้องการรหัสตัวเอง

5
อะไรคือคำอธิบายที่เข้าใจง่ายว่า PCA เปลี่ยนจากปัญหาเชิงเรขาคณิต (ด้วยระยะทาง) เป็นปัญหาพีชคณิตเชิงเส้น (กับ eigenvectors) อย่างไร
ฉันได้อ่านมากเกี่ยวกับ PCA รวมทั้งบทเรียนต่างๆและคำถาม (เช่นนี้ , คนนี้ , คนนี้และคนนี้ ) ปัญหาทางเรขาคณิตที่ PCA พยายามปรับให้เหมาะสมนั้นชัดเจนสำหรับฉัน: PCA พยายามค้นหาส่วนประกอบหลักแรกด้วยการลดข้อผิดพลาดการสร้างใหม่ (การฉายภาพ) ซึ่งลดความแปรปรวนของข้อมูลที่คาดการณ์ไว้พร้อมกัน เมื่อฉันอ่านครั้งแรกฉันก็นึกถึงบางสิ่งอย่างเช่นการถดถอยเชิงเส้น บางทีคุณสามารถแก้มันโดยใช้การไล่ระดับสีถ้าจำเป็น อย่างไรก็ตามแล้วใจของฉันก็ปลิวไปเมื่อฉันอ่านว่าปัญหาการหาค่าเหมาะที่สุดนั้นได้รับการแก้ไขโดยใช้พีชคณิตเชิงเส้นและหาค่าลักษณะเฉพาะและค่าลักษณะเฉพาะ ฉันไม่เข้าใจว่าการใช้พีชคณิตเชิงเส้นนี้เข้ามาในการเล่นได้อย่างไร ดังนั้นคำถามของฉันคือ PCA สามารถเปลี่ยนจากปัญหาการหาค่าเหมาะที่สุดเชิงเรขาคณิตเป็นปัญหาพีชคณิตเชิงเส้นได้อย่างไร ใครสามารถให้คำอธิบายง่ายๆ ฉันไม่ได้มองหาคำตอบเช่นนี้ที่กล่าวว่า "เมื่อคุณแก้ปัญหาทางคณิตศาสตร์ของ PCA มันจะเทียบเท่ากับการหาค่าลักษณะเฉพาะและ eigenvectors ของเมทริกซ์ความแปรปรวนร่วม" โปรดอธิบายว่าเหตุใด eigenvector จึงกลายเป็นองค์ประกอบหลักและทำไมค่าลักษณะเฉพาะออกมาเป็นความแปรปรวนของข้อมูลที่ฉายลงบนพวกเขา ฉันเป็นวิศวกรซอฟต์แวร์ไม่ใช่นักคณิตศาสตร์เลย หมายเหตุ: รูปด้านบนนี้ถูกถ่ายและแก้ไขจากบทช่วยสอน PCAนี้

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
ฟังก์ชั่นวัตถุประสงค์ของ PCA คืออะไร?
การวิเคราะห์องค์ประกอบหลักสามารถใช้การสลายตัวของเมทริกซ์ แต่นั่นเป็นเพียงเครื่องมือในการเดินทาง คุณจะค้นหาส่วนประกอบหลักโดยไม่ใช้พีชคณิตเมทริกซ์ได้อย่างไร ฟังก์ชั่นวัตถุประสงค์ (เป้าหมาย) คืออะไรและมีข้อ จำกัด อะไร?
42 pca 

1
วิธีการตรวจสอบส่วนประกอบหลักที่สำคัญโดยใช้วิธีการ bootstrapping หรือวิธีการ Monte Carlo?
ฉันสนใจที่จะกำหนดจำนวนของรูปแบบที่สำคัญที่มาจากการวิเคราะห์องค์ประกอบหลัก (PCA) หรือการวิเคราะห์เชิงประจักษ์ฟังก์ชันมุมฉาก (EOF) ฉันสนใจเป็นพิเศษในการใช้วิธีนี้กับข้อมูลสภาพภูมิอากาศ เขตข้อมูลเป็นเมทริกซ์ MxN โดยที่ M เป็นมิติเวลา (เช่นวัน) และ N เป็นมิติข้อมูลเชิงพื้นที่ (เช่นตำแหน่งโลน / ละติจูด) ฉันได้อ่านวิธีบูตสแตรปที่เป็นไปได้เพื่อกำหนดพีซีที่สำคัญ แต่ไม่สามารถหาคำอธิบายโดยละเอียดเพิ่มเติมได้ จนถึงตอนนี้ฉันได้ใช้ Rule of Thumb (North et al ., 1982) ของนอร์ทเพื่อกำหนดทางลัดนี้ แต่ฉันสงสัยว่ามีวิธีการที่แข็งแกร่งกว่านี้หรือไม่ ตัวอย่างเช่น: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 …
40 r  pca  bootstrap  monte-carlo 

3
มีกรณีที่ PCA เหมาะสมกว่า t-SNE หรือไม่?
ฉันต้องการดูวิธีการวัดการแก้ไขข้อความ 7 วิธี (เวลาที่ใช้ในการแก้ไขข้อความจำนวนการกดแป้น ฯลฯ ) เกี่ยวข้องกัน มาตรการมีความสัมพันธ์ ฉันใช้ PCA เพื่อดูว่าการวัดที่ฉายบน PC1 และ PC2 นั้นอย่างไรซึ่งหลีกเลี่ยงการเหลื่อมซ้อนของการรันการทดสอบสหสัมพันธ์แบบสองทางที่แยกกันระหว่างการวัด ฉันถูกถามว่าทำไมไม่ใช้ t-SNE เนื่องจากความสัมพันธ์ระหว่างการวัดบางอย่างอาจไม่ใช่แบบเชิงเส้น ฉันสามารถดูได้ว่าการอนุญาตสำหรับการไม่เป็นเชิงเส้นจะช่วยปรับปรุงสิ่งนี้ได้อย่างไร แต่ฉันสงสัยว่ามีเหตุผลที่ดีที่จะใช้ PCA ในกรณีนี้ไม่ใช่ t-SNE หรือไม่ ฉันไม่ได้สนใจในการจัดกลุ่มข้อความตามความสัมพันธ์ของพวกเขากับมาตรการ แต่ในความสัมพันธ์ระหว่างมาตรการเอง (ฉันเดาว่า EFA อาจเป็นวิธีที่ดีกว่า / วิธีอื่น แต่นั่นคือการสนทนาที่แตกต่างกัน) เมื่อเปรียบเทียบกับวิธีอื่นมี t-SNE จำนวนไม่กี่โพสต์อยู่ที่นี่ดังนั้นคำถามดูเหมือนน่าจะถาม
39 pca  tsne 

3
PCA จะทำงานกับชนิดข้อมูลบูลีน (ไบนารี) หรือไม่
ฉันต้องการลดมิติของระบบการสั่งซื้อที่สูงขึ้นและจับความแปรปรวนส่วนใหญ่ในฟิลด์ 2 มิติหรือ 1 มิติ ฉันเข้าใจว่าสามารถทำได้ผ่านการวิเคราะห์องค์ประกอบหลักและฉันใช้ PCA ในหลาย ๆ สถานการณ์ อย่างไรก็ตามฉันไม่เคยใช้กับชนิดข้อมูลบูลีนและฉันสงสัยว่ามันมีความหมายที่จะทำ PCA กับชุดนี้หรือไม่ ตัวอย่างเช่นสมมติว่าฉันมีตัวชี้วัดเชิงคุณภาพหรือเชิงพรรณนาและฉันกำหนด "1" หากการวัดนั้นใช้ได้สำหรับมิตินั้นและ "0" หากไม่ใช่ (ข้อมูลไบนารี) ตัวอย่างเช่นสมมติว่าคุณกำลังพยายามเปรียบเทียบคนแคระทั้งเจ็ดในสโนว์ไวท์ เรามี: Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy และ Happy และคุณต้องการจัดเรียงตามคุณสมบัติและทำตามที่: ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜DocDopeyBashfulGrumpySneezySleepyHappyLactose Intolerant1011011A Honor Roll0001101Athletic1011100Wealthy1011000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA Honor RollAthleticWealthyDoc1011Dopey0000Bashful1011Grumpy1111Sneezy0110Sleepy1000Happy1100)\begin{pmatrix} & Lactose\ Intolerant & A \ Honor\ Roll & Athletic & Wealthy \\ …

1
การจัดศูนย์กลางข้อมูลกำจัดการสกัดกั้นในการถดถอยและ PCA อย่างไร
ฉันได้อ่านเกี่ยวกับอินสแตนซ์ที่เราจัดเก็บข้อมูลไว้ (เช่นด้วยการทำให้เป็นมาตรฐานหรือ PCA) เพื่อที่จะลบการสกัดกั้น (ดังที่ได้กล่าวไว้ในคำถามนี้ ) ฉันรู้ว่ามันง่าย แต่ฉันมีเวลายากที่จะเข้าใจในเรื่องนี้ ใครสามารถให้สัญชาตญาณหรือการอ้างอิงที่ฉันสามารถอ่านได้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.