คำถามติดแท็ก factor-analysis

การวิเคราะห์ปัจจัยคือเทคนิคการลดขนาดตัวแปรแฝงที่ใช้แทนตัวแปรระหว่างสหสัมพันธ์โดยตัวแปรแฝงต่อเนื่องจำนวนน้อยที่เรียกว่าปัจจัย ปัจจัยที่เชื่อว่ามีความรับผิดชอบต่อความสัมพันธ์ระหว่าง [สำหรับการวิเคราะห์ปัจจัยยืนยันโปรดใช้แท็ก 'ยืนยันปัจจัย' นอกจากนี้คำว่า "ปัจจัย" ของการวิเคราะห์ปัจจัยไม่ควรสับสนกับ "ปัจจัย" ในฐานะตัวพยากรณ์เชิงหมวดหมู่ของการถดถอย / ANOVA]

14
อะไรคือความแตกต่างระหว่างการวิเคราะห์ปัจจัยและการวิเคราะห์องค์ประกอบหลัก?
ดูเหมือนว่าจำนวนของแพ็กเกจสถิติที่ฉันใช้ล้อมสองแนวคิดนี้เข้าด้วยกัน อย่างไรก็ตามฉันสงสัยว่ามีสมมติฐานที่แตกต่างกันหรือ 'พิธีการ' ของข้อมูลที่จะต้องเป็นจริงในการใช้หนึ่งมากกว่าอีก ตัวอย่างจริงจะมีประโยชน์อย่างเหลือเชื่อ

7
PCA เกี่ยวกับสหสัมพันธ์หรือความแปรปรวนร่วม?
อะไรคือความแตกต่างที่สำคัญระหว่างการวิเคราะห์องค์ประกอบหลัก (PCA) ในเมทริกซ์สหสัมพันธ์และเมทริกซ์ความแปรปรวนร่วม? พวกเขาให้ผลลัพธ์เดียวกันหรือไม่

6
มีเหตุผลที่ดีที่จะใช้ PCA แทน EFA หรือไม่ PCA สามารถใช้ทดแทนการวิเคราะห์ปัจจัยได้หรือไม่?
ในบางสาขามีการใช้ PCA (การวิเคราะห์องค์ประกอบหลัก) อย่างเป็นระบบโดยไม่มีเหตุผลและ PCA และ EFA (การวิเคราะห์ปัจจัยเชิงสำรวจ) ถือเป็นคำพ้องความหมาย ดังนั้นเมื่อเร็ว ๆ นี้ฉันใช้ PCA เพื่อวิเคราะห์ผลการศึกษาการตรวจสอบความถูกต้องของสเกล (21 รายการใน 7 คะแนน Likert ซึ่งสันนิษฐานว่าประกอบด้วยองค์ประกอบ 3 รายการจาก 7 รายการ) และผู้ตรวจสอบถามฉันว่าทำไมฉันถึงเลือก PCA แทน EFA ฉันอ่านเกี่ยวกับความแตกต่างระหว่างเทคนิคทั้งสองและดูเหมือนว่า EFA ได้รับการสนับสนุนจาก PCA ในคำตอบส่วนใหญ่ของคุณที่นี่ คุณมีเหตุผลที่ดีว่าทำไม PCA ถึงเป็นตัวเลือกที่ดีกว่า ประโยชน์อะไรบ้างที่จะได้รับและทำไมจึงเป็นตัวเลือกที่ฉลาดในกรณีของฉัน

2
ความสัมพันธ์ระหว่างการวิเคราะห์องค์ประกอบอิสระและการวิเคราะห์ปัจจัยคืออะไร?
ฉันยังใหม่กับการวิเคราะห์ส่วนประกอบอิสระ (ICA) และมีเพียงความเข้าใจพื้นฐานของวิธีการ สำหรับฉันดูเหมือนว่า ICA จะคล้ายกับการวิเคราะห์ปัจจัย (FA) โดยมีข้อยกเว้นอย่างหนึ่ง: ICA ถือว่าตัวแปรสุ่มที่สังเกตนั้นเป็นการรวมกันของส่วนประกอบ / ปัจจัยอิสระที่ไม่ใช่แบบเกาส์ในขณะที่แบบจำลอง FA ดั้งเดิมสันนิษฐานว่าตัวแปรสุ่มสังเกต เป็นการรวมกันเชิงเส้นขององค์ประกอบ / ปัจจัยที่มีความสัมพันธ์แบบเกาส์เซียน ถูกต้องหรือไม่

8
PCA ตามมาด้วยการหมุน (เช่น varimax) ยังคงเป็น PCA หรือไม่
ฉันได้ลองทำซ้ำการวิจัย (ใช้ PCA) จาก SPSS ใน R จากประสบการณ์ของฉันprincipal() ฟังก์ชั่นจากแพ็คเกจpsychเป็นฟังก์ชั่นเดียวที่เข้ามาใกล้ (หรือถ้าหน่วยความจำของฉันทำหน้าที่ฉันถูกต้องตาย) เพื่อให้ตรงกับผลลัพธ์ เพื่อให้ตรงกับผลเช่นเดียวกับในโปรแกรม SPSS principal(..., rotate = "varimax")ผมต้องใช้พารามิเตอร์ ฉันเคยเห็นเอกสารพูดคุยเกี่ยวกับวิธีที่พวกเขาทำ PCA แต่จากผลของ SPSS และการใช้การหมุนมันฟังดูคล้ายกับการวิเคราะห์ตัวประกอบ คำถาม: PCA คือแม้หลังจากหมุน (โดยใช้varimax) ยังคง PCA หรือไม่ ฉันรู้สึกว่านี่อาจเป็นการวิเคราะห์ตัวประกอบจริง ๆ ... ในกรณีที่ไม่ได้ฉันมีรายละเอียดอะไรบ้าง

2
การวิเคราะห์ปัจจัยอธิบายความแปรปรวนร่วมในขณะที่ PCA อธิบายความแปรปรวนอย่างไร
นี่คือข้อความจากหนังสือ "การจดจำรูปแบบและการเรียนรู้ของเครื่อง" ของบิชอปส่วนที่ 12.2.4 "การวิเคราะห์ปัจจัย": ตามที่เป็นส่วนหนึ่งที่เน้นการวิเคราะห์ปัจจัยที่จับความแปรปรวนระหว่างตัวแปรในเมทริกซ์WWW Wฉันสงสัยวิธี ? นี่คือวิธีที่ฉันเข้าใจ สมมติว่าเป็นตัวแปรมิติที่สังเกตได้คือเมทริกซ์การโหลดปัจจัยและคือเวกเตอร์คะแนนปัจจัย จากนั้นเรามีนั่นคือ และแต่ละคอลัมน์ในเป็นตัวประกอบการโหลดเวกเตอร์ ที่นี่ฉันเขียนมีxxxพีppWWWZzzx = μ + WZ+ ϵ ,x=μ+Wz+ϵ,x=\mu+Wz+\epsilon,⎛⎝⎜⎜x1⋮xพี⎞⎠⎟⎟= ⎛⎝⎜⎜μ1⋮μพี⎞⎠⎟⎟+ ⎛⎝⎜|W1|...|Wม.|⎞⎠⎟⎛⎝⎜⎜Z1⋮Zม.⎞⎠⎟⎟+ ϵ ,(x1⋮xp)=(μ1⋮μp)+(||w1…wm||)(z1⋮zm)+ϵ,\begin{align*} \begin{pmatrix} x_1\\ \vdots\\ x_p \end{pmatrix} = \begin{pmatrix} \mu_1\\ \vdots\\ \mu_p \end{pmatrix} + \begin{pmatrix} \vert & & \vert\\ w_1 & \ldots & w_m\\ \vert & & \vert \end{pmatrix} …

3
เครื่องหมายของคะแนนหรือการโหลดใน PCA หรือ FA มีความหมายหรือไม่? ฉันขอป้ายย้อนกลับได้ไหม
ฉันทำการวิเคราะห์องค์ประกอบหลัก (PCA) ด้วย R โดยใช้สองฟังก์ชันที่แตกต่างกัน ( prcompและprincomp) และสังเกตว่าคะแนน PCA นั้นแตกต่างกันในการลงชื่อ มันจะเป็นอย่างไร พิจารณาสิ่งนี้: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 [7,] 1.656178 -0.9952875 [8,] 2.560345 -0.2490548 [9,] 3.508442 0.1874520 [10,] 4.520055 0.1761397 set.seed(999) princomp(data.frame(1:10,rnorm(10)))$scores Comp.1 Comp.2 …
37 r  pca  factor-analysis 

1
เหตุผลที่ใช้งานง่ายที่อยู่เบื้องหลังการหมุนเวียนในการวิเคราะห์ปัจจัย / PCA คืออะไรและจะเลือกการหมุนที่เหมาะสมได้อย่างไร
คำถามของฉัน อะไรคือเหตุผลที่เข้าใจง่ายที่อยู่เบื้องหลังการหมุนของปัจจัยในการวิเคราะห์ปัจจัย (หรือส่วนประกอบใน PCA) ความเข้าใจของฉันคือถ้าตัวแปรถูกโหลดอย่างเท่าเทียมกันในองค์ประกอบด้านบน (หรือปัจจัย) แล้วแน่นอนว่ามันยากที่จะแยกความแตกต่างขององค์ประกอบ ดังนั้นในกรณีนี้เราสามารถใช้การหมุนเพื่อให้ได้ความแตกต่างของส่วนประกอบที่ดีขึ้น ถูกต้องหรือไม่ ผลที่ตามมาจากการหมุนคืออะไร สิ่งนี้มีผลกระทบอะไรบ้าง วิธีการเลือกการหมุนที่เหมาะสม? มีการหมุนมุมฉากและการหมุนเอียง วิธีเลือกระหว่างสิ่งเหล่านี้กับความหมายของตัวเลือกนี้คืออะไร กรุณาอธิบายโดยใช้สมการทางคณิตศาสตร์อย่างน้อยที่สุด คำตอบที่แพร่กระจายเพียงไม่กี่คำคือคณิตศาสตร์อย่างหนัก แต่ฉันกำลังมองหาเหตุผลและกฎง่ายๆ

3
PCA เกี่ยวกับสหสัมพันธ์หรือความแปรปรวนร่วม: PCA ที่สัมพันธ์กันนั้นสมเหตุสมผลหรือไม่? [ปิด]
ในการวิเคราะห์องค์ประกอบหลัก (PCA) เราสามารถเลือกเมทริกซ์ความแปรปรวนร่วมหรือเมทริกซ์สหสัมพันธ์เพื่อค้นหาส่วนประกอบ (จาก eigenvectors ที่เกี่ยวข้อง) สิ่งเหล่านี้ให้ผลลัพธ์ที่แตกต่าง (การโหลด PC และคะแนน) เนื่องจาก eigenvector ระหว่างเมทริกซ์ทั้งสองไม่เท่ากัน ความเข้าใจของฉันคือว่าสิ่งนี้เกิดจากความจริงที่ว่าเวกเตอร์ข้อมูลดิบและมาตรฐานไม่สามารถเกี่ยวข้องผ่านการแปลงมุมฉาก ศาสตร์คณิตศาสตร์, การฝึกอบรมที่คล้ายกัน (เช่นที่เกี่ยวข้องโดยการเปลี่ยนแปลงมุมฉาก) มีค่าลักษณะเดียวกัน แต่ไม่จำเป็นต้อง eigenvectors เดียวกันZXXXZZZ สิ่งนี้ทำให้เกิดความยุ่งยากในใจของฉัน: PCA เข้าท่าจริงหรือไม่ถ้าคุณได้คำตอบที่ต่างกันสองชุดสำหรับชุดข้อมูลเริ่มต้นเดียวกันทั้งคู่พยายามทำสิ่งเดียวกัน (= ค้นหาทิศทางของความแปรปรวนสูงสุด) เมื่อใช้วิธีเมทริกซ์สหสัมพันธ์ตัวแปรแต่ละตัวจะถูกทำให้เป็นมาตรฐาน (ย่อส่วน) โดยค่าเบี่ยงเบนมาตรฐานของตนเองก่อนที่จะคำนวณพีซี ถ้าเช่นนั้นข้อมูลจะถูกปรับขนาด / บีบอัดให้แตกต่างกันไปก่อนแล้วยังคงเหมาะสมหรือไม่ที่จะหาทิศทางของความแปรปรวนสูงสุด ฉันรู้ว่า PCA ที่ใช้ความสัมพันธ์นั้นสะดวกมาก (ตัวแปรมาตรฐานไม่มีมิติดังนั้นจึงสามารถเพิ่มการผสมเชิงเส้นของพวกเขาข้อดีอื่น ๆ ยังขึ้นอยู่กับลัทธิปฏิบัตินิยม) แต่มันถูกต้องหรือไม่ สำหรับฉันแล้วดูเหมือนว่า PCA ที่ใช้ความแปรปรวนร่วมเป็นสิ่งเดียวที่ถูกต้องอย่างแท้จริง (แม้ว่าความแปรปรวนของตัวแปรจะแตกต่างกันอย่างมาก) และเมื่อใดก็ตามที่ไม่สามารถใช้เวอร์ชันนี้ได้ ฉันรู้ว่ามีหัวข้อนี้: PCA ในความสัมพันธ์หรือความแปรปรวนร่วม? - แต่ดูเหมือนว่าจะมุ่งเน้นเฉพาะในการหาวิธีแก้ปัญหาในทางปฏิบัติซึ่งอาจหรืออาจจะไม่ใช่วิธีที่ถูกต้องเกี่ยวกับพีชคณิต

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
วิธีการสกัดปัจจัยที่ดีที่สุดในการวิเคราะห์ปัจจัย
SPSS เสนอวิธีการสกัดปัจจัยหลายวิธี: องค์ประกอบหลัก (ซึ่งไม่ใช่การวิเคราะห์ปัจจัยทั้งหมด) ไม่ยกกำลังสองน้อยที่สุด ทั่วไปกำลังสองน้อยที่สุด โอกาสสูงสุด แกนหลัก แฟคตอริ่ง ภาพแฟ ไม่สนใจวิธีแรกซึ่งไม่ใช่การวิเคราะห์ปัจจัย (แต่การวิเคราะห์องค์ประกอบหลักคือ PCA) วิธีใดที่ "ดีที่สุด" อะไรคือข้อดีข้อได้เปรียบของวิธีการที่แตกต่างกันอย่างไร โดยพื้นฐานแล้วฉันจะเลือกใช้อันไหนดี? คำถามเพิ่มเติม: ควรได้รับผลลัพธ์ที่คล้ายกันจากทั้ง 6 วิธี?

1
ทำการวิเคราะห์องค์ประกอบหลักหรือการวิเคราะห์ปัจจัยกับข้อมูลไบนารี
ฉันมีชุดข้อมูลที่มีคำตอบใช่ / ไม่ใช่จำนวนมาก ฉันสามารถใช้ส่วนประกอบหลัก (PCA) หรือการวิเคราะห์การลดข้อมูลอื่น ๆ (เช่นการวิเคราะห์ปัจจัย) สำหรับข้อมูลประเภทนี้ได้หรือไม่ โปรดแนะนำวิธีการใช้ SPSS

1
มีการวิเคราะห์ปัจจัยหรือ PCA สำหรับข้อมูลลำดับหรือข้อมูลไบนารีหรือไม่
ฉันเสร็จสิ้นการวิเคราะห์องค์ประกอบหลัก (PCA), การวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) และการวิเคราะห์ปัจจัยยืนยัน (CFA), การจัดการข้อมูลด้วยสเกล likert (การตอบสนอง 5 ระดับ: ไม่มี, น้อย, บาง, .. ) อย่างต่อเนื่อง ตัวแปร. จากนั้นใช้ Lavaan ฉันทำซ้ำ CFA ที่กำหนดตัวแปรเป็นหมวดหมู่ ฉันต้องการทราบว่าการวิเคราะห์ประเภทใดที่เหมาะสมและจะเทียบเท่ากับ PCA และ EFA เมื่อข้อมูลมีลำดับตามธรรมชาติ และเมื่อไบนารี ฉันขอขอบคุณข้อเสนอแนะสำหรับแพ็คเกจหรือซอฟต์แวร์เฉพาะที่สามารถนำไปใช้ในการวิเคราะห์ได้อย่างง่ายดาย

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.