คำถามติดแท็ก pca

การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นเทคนิคการลดขนาดเชิงเส้น จะช่วยลดชุดข้อมูลหลายตัวแปรให้เป็นชุดเล็ก ๆ ของตัวแปรที่สร้างขึ้นรักษาข้อมูลให้มากที่สุดเท่าที่จะเป็นไปได้ ตัวแปรเหล่านี้เรียกว่าองค์ประกอบหลักคือการรวมกันเชิงเส้นของตัวแปรอินพุต

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

1
ความแตกต่างระหว่าง PCA ปกติและ PCA ที่น่าจะเป็นคืออะไร?
ฉันรู้ว่า PCA ปกติไม่เป็นไปตามรูปแบบความน่าจะเป็นสำหรับข้อมูลที่สังเกตได้ ดังนั้นความแตกต่างพื้นฐานระหว่าง PCA และPPCAคืออะไร? ในโมเดลตัวแปรแฝง PPCA ประกอบด้วยตัวแปรที่สังเกตได้เช่น , ตัวแปรแฝง (ตัวแปรที่ไม่ได้ตรวจสอบ ) และเมทริกซ์ที่ไม่จำเป็นต้องมีความผิดปกติเหมือนใน PCA ปกติ ความแตกต่างอีกอย่างหนึ่งที่ฉันสามารถนึกถึง PCA ปกติจะให้เฉพาะส่วนประกอบหลักเท่านั้นซึ่ง PPCA จะให้การกระจายของข้อมูลที่น่าจะเป็นYYyxxxWWW ใครช่วยได้โปรดเพิ่มความแตกต่างระหว่าง PCA และ PPCA ให้มากขึ้น?
15 pca 

2
การสร้างดัชนีเดียวจากองค์ประกอบหลักหรือปัจจัยหลายประการที่เก็บรักษาไว้จาก PCA / FA
ฉันใช้การวิเคราะห์ส่วนประกอบหลัก (PCA) เพื่อสร้างดัชนีที่จำเป็นสำหรับการวิจัยของฉัน คำถามของฉันคือวิธีที่ฉันควรสร้างดัชนีเดียวโดยใช้ส่วนประกอบหลักที่คงไว้ซึ่งคำนวณผ่าน PCA ตัวอย่างเช่นฉันตัดสินใจที่จะเก็บส่วนประกอบหลัก 3 ชิ้นหลังจากใช้ PCA และฉันคำนวณคะแนนสำหรับส่วนประกอบหลักทั้งสามนี้ วิธีที่เหมาะสมในการสร้างดัชนีเดียวจากคะแนนทั้งสามนี้คืออะไร? การเพิ่ม 3 คะแนนที่คำนวณนั้นมีค่าคอมโพสิตหรือไม่ หรือโดยเฉลี่ย 3 คะแนนเพื่อให้มีค่าเช่นนี้? หรือฉันควรจะรักษาองค์ประกอบหลักแรก (ที่แข็งแกร่งที่สุด) เท่านั้นและใช้คะแนนเป็นดัชนี? อีกวิธีหนึ่งสามารถใช้การวิเคราะห์ปัจจัย (FA) แต่คำถามเดียวกันยังคงอยู่: วิธีการสร้างดัชนีเดียวตามคะแนนหลายปัจจัย?

1
การถดถอยในการตั้งค่า
ฉันพยายามดูว่าจะไปถดถอยสัน , เชือก , หลักถดถอยส่วนประกอบ (PCR) หรือสแควน้อยบางส่วน (PLS) ในสถานการณ์ที่มีจำนวนมากของตัวแปร / คุณสมบัติ ( ) และขนาดเล็กจำนวนตัวอย่าง ( n < p ) และเป้าหมายของฉันคือการทำนายpppn<pn<pn np>10np>10np>10n ตัวแปร ( และY ) มีความสัมพันธ์ซึ่งกันและกันด้วยองศาที่ต่างกันXXXYYY คำถามของฉันคือกลยุทธ์ใดที่ดีที่สุดสำหรับสถานการณ์นี้ ทำไม?

3
อะไรคือความแตกต่างระหว่างการวิเคราะห์ความหมายแฝง (LSA), ดัชนีความหมายแฝง (LSI) และการสลายตัวของค่าเอกพจน์ (SVD)?
ข้อตกลงเหล่านี้มีอยู่มากมาย แต่ฉันอยากจะรู้ว่าคุณคิดว่าความแตกต่างคืออะไรถ้ามี ขอบคุณ
15 pca  text-mining  svd 

5
สามารถใช้การถดถอยหลายครั้งเพื่อคาดการณ์ส่วนประกอบหลัก (PC) จากพีซีอื่น ๆ ได้หรือไม่?
ไม่นานมานี้ผู้ใช้ในรายชื่อผู้รับจดหมาย R-help ถามเกี่ยวกับความสมบูรณ์ของการใช้คะแนน PCA ในการถดถอย ผู้ใช้พยายามใช้คะแนน PC เพื่ออธิบายการเปลี่ยนแปลงในพีซีเครื่องอื่น (ดูการสนทนาแบบเต็มได้ที่นี่ ) คำตอบคือไม่ไม่เสียงเพราะพีซีตั้งฉากกัน บางคนสามารถอธิบายรายละเอียดเพิ่มเติมได้เล็กน้อยว่าทำไมถึงเป็นเช่นนั้น?
15 regression  pca 

1
PCA มีจำนวนความแปรปรวนที่ต้องจับเพื่อทำการวิเคราะห์ในภายหลังหรือไม่?
ฉันมีชุดข้อมูลที่มี 11 ตัวแปรและ PCA (orthogonal) ทำเพื่อลดข้อมูล การตัดสินใจเกี่ยวกับจำนวนส่วนประกอบเพื่อให้เห็นได้ชัดจากความรู้ของฉันเกี่ยวกับเรื่องและพล็อตหินกรวด (ดูด้านล่าง) ว่าสององค์ประกอบหลัก (พีซี) เพียงพอที่จะอธิบายข้อมูลและส่วนประกอบที่เหลือมีเพียงข้อมูลน้อย พล็อตหินกรวดที่มีการวิเคราะห์แบบขนาน: ค่าลักษณะเฉพาะ (สีเขียว) และค่าลักษณะเฉพาะที่จำลองตามการจำลอง 100 แบบ (สีแดง) พล็อต Scree แนะนำพีซี 3 เครื่องในขณะที่การทดสอบแบบขนานจะแนะนำพีซีสองเครื่องแรกเท่านั้น อย่างที่คุณเห็นเพียง48%ของความแปรปรวนที่สามารถจับได้โดยพีซีสองเครื่องแรก การพล็อตการสำรวจบนระนาบแรกที่ทำโดยพีซี 2 เครื่องแรกเปิดเผยกลุ่มที่แตกต่างกันสามกลุ่มโดยใช้การจัดกลุ่มแบบลำดับชั้น agglomerative (HAC) และการจัดกลุ่ม K-mean ทั้ง 3 กลุ่มนี้มีความเกี่ยวข้องกับปัญหาที่เกิดขึ้นและสอดคล้องกับข้อค้นพบอื่น ๆ เช่นกัน ดังนั้นยกเว้นความจริงที่ว่ามีเพียง 48% ของความแปรปรวนที่ถูกจับได้ทุกอย่างอื่นก็ดีมาก ผู้ตรวจสอบคนหนึ่งในสองคนของฉันพูดว่า: ไม่สามารถเชื่อถือได้มากจากการค้นพบนี้เนื่องจากสามารถอธิบายความแปรปรวนเพียง 48% และน้อยกว่าที่ต้องการ คำถาม มีค่าที่ต้องใช้ในการคำนวณความแปรปรวนของ PCA ที่จะใช้งานได้หรือไม่ มันไม่ได้ขึ้นอยู่กับความรู้และวิธีการใช้งานโดเมนหรือไม่? ใครสามารถตัดสินข้อดีของการวิเคราะห์ทั้งหมดเพียงแค่ขึ้นอยู่กับมูลค่าของความแปรปรวนที่อธิบายไว้เท่านั้น หมายเหตุ …
15 variance  pca 

4
ตัวแปรใดอธิบายถึงส่วนประกอบ PCA และในทางกลับกัน
ใช้ข้อมูลนี้: head(USArrests) nrow(USArrests) ฉันสามารถทำ PCA เป็นเช่นนี้: plot(USArrests) otherPCA <- princomp(USArrests) ฉันสามารถรับส่วนประกอบใหม่ได้ otherPCA$scores และสัดส่วนของความแปรปรวนที่อธิบายโดยส่วนประกอบด้วย summary(otherPCA) แต่ถ้าฉันต้องการรู้ว่าตัวแปรใดที่อธิบายส่วนใหญ่โดยองค์ประกอบหลัก? และในทางกลับกัน: เป็นเช่น PC1 หรือ PC2 ส่วนใหญ่อธิบายโดยmurder? ฉันจะทำสิ่งนี้ได้อย่างไร ฉันสามารถพูดได้เช่นว่า PC1 นั้นสามารถอธิบายได้ 80% โดยmurderหรือassault? ฉันคิดว่าการโหลดช่วยฉันที่นี่ แต่พวกเขาแสดงทิศทางที่ไม่อธิบายความแปรปรวนตามที่ฉันเข้าใจเช่น otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974

1
อะไรคือความหมายของ eigenvector ของเมทริกซ์ข้อมูลร่วมกัน?
เมื่อมองไปที่ไอเก็นเวกเตอร์ของเมทริกซ์ความแปรปรวนร่วมเราจะได้คำแนะนำของความแปรปรวนสูงสุด (ไอเกนวีคตัวแรกคือทิศทางที่ข้อมูลแตกต่างกันมากที่สุด ฯลฯ ); สิ่งนี้เรียกว่าการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันสงสัยว่าการดู eigenvector / คุณค่าของเมทริกซ์ข้อมูลร่วมหมายความว่าพวกเขาจะชี้ไปในทิศทางของเอนโทรปีสูงสุดหรือไม่

1
"ทฤษฎีบทการวิเคราะห์ปัจจัยพื้นฐาน" นำไปใช้กับ PCA อย่างไรหรือมีการกำหนดโหลด PCA อย่างไร
ขณะนี้ฉันกำลังผ่านชุดภาพนิ่งที่ฉันมีสำหรับ "การวิเคราะห์ปัจจัย" (PCA เท่าที่ฉันจะบอกได้) "ทฤษฎีบทพื้นฐานของการวิเคราะห์ปัจจัย" ซึ่งอ้างว่าเมทริกซ์สหสัมพันธ์ของข้อมูลที่เข้าสู่การวิเคราะห์ ( ) สามารถกู้คืนได้โดยใช้เมทริกซ์ของปัจจัยการโหลด ( ):RR\bf RAA\bf A R = A A⊤R=AA⊤\bf R = AA^\top อย่างไรก็ตามเรื่องนี้ทำให้ฉันสับสน ใน PCA เมทริกซ์ของ "factor loadings" นั้นได้รับจากเมทริกซ์ของ eigenvector ของความแปรปรวนร่วม / เมทริกซ์สหสัมพันธ์ของข้อมูล (เนื่องจากเราสมมติว่าข้อมูลนั้นได้มาตรฐานพวกมันเหมือนกัน) โดยแต่ละ eigenvector จะถูกปรับ ความยาวหนึ่ง เมทริกซ์นี้เป็นมุมฉากจึงซึ่งเป็นโดยทั่วไปไม่เท่ากับ\ BF RA A⊤= ฉันAA⊤=ผม\bf AA^\top = IRR\bf R

2
เหตุใดการวินิจฉัยจากการทดสอบทรงกลมของ Bartlett จึงหมายความว่า PCA ไม่เหมาะสม
ฉันเข้าใจว่าการทดสอบของ Bartlett เกี่ยวข้องกับการพิจารณาว่าตัวอย่างของคุณมาจากประชากรที่มีความแปรปรวนเท่ากันหรือไม่ หากตัวอย่างนั้นมาจากประชากรที่มีความแปรปรวนเท่ากันเราจะไม่ปฏิเสธสมมติฐานว่างของการทดสอบดังนั้นการวิเคราะห์องค์ประกอบหลักนั้นไม่เหมาะสม ฉันไม่แน่ใจว่าปัญหาของสถานการณ์นี้อยู่ที่ใด (มีชุดข้อมูลแบบ homoskedastic) อยู่ มีปัญหาอะไรกับการมีชุดข้อมูลที่การกระจายของข้อมูลทั้งหมดของคุณเหมือนกัน? ฉันไม่เห็นเรื่องใหญ่ถ้าเงื่อนไขนี้มีอยู่ เหตุใดจึงทำให้ PCA ไม่เหมาะสม ฉันไม่สามารถหาข้อมูลที่ดีได้ทุกที่ทางออนไลน์ ใครบ้างมีประสบการณ์ในการตีความว่าเพราะเหตุใดการทดสอบนี้จึงเกี่ยวข้องกับ PCA

3
PCA กับข้อมูลตัวอักษรมิติสูงก่อนการจำแนกป่าแบบสุ่ม?
มันเหมาะสมหรือไม่ที่จะทำ PCA ก่อนที่จะทำการจำแนกป่าแบบสุ่ม? ฉันกำลังจัดการกับข้อมูลข้อความมิติสูงและฉันต้องการลดฟีเจอร์เพื่อช่วยหลีกเลี่ยงการสาปแช่งของมิติ แต่ไม่ป่าสุ่มไปแล้วเพื่อลดขนาด

1
ลูกศรใน PCA biplot หมายถึงอะไร
พิจารณา PCA biplot ต่อไปนี้: library(mvtnorm) set.seed(1) x <- rmvnorm(2000, rep(0, 6), diag(c(5, rep(1,5)))) x <- scale(x, center=T, scale=F) pc <- princomp(x) biplot(pc) มีลูกศรสีแดงจำนวนหนึ่งพล็อตพวกมันหมายถึงอะไร ฉันรู้ว่าลูกศรแรกที่มีป้ายกำกับ "Var1" ควรชี้ทิศทางที่แตกต่างกันมากที่สุดของชุดข้อมูล (ถ้าเราคิดว่ามันเป็นจุดข้อมูล 2,000 จุดแต่ละอันเป็นเวกเตอร์ขนาด 6) ฉันอ่านจากที่อื่นทิศทางที่แตกต่างกันมากที่สุดควรเป็นทิศทางของเวกเตอร์ไอเกนลำดับที่ 1 อย่างไรก็ตามการอ่านรหัส biplot ใน R บรรทัดเกี่ยวกับลูกศรคือ: if(var.axes) arrows(0, 0, y[,1L] * 0.8, y[,2L] * 0.8, col = col[2L], yเมทริกการโหลดอยู่ที่ไหน, …
14 r  pca  linear-algebra  biplot 

3
ฉันจะตีความสิ่งที่ได้รับจาก PCA ได้อย่างไร
ในฐานะเป็นส่วนหนึ่งของการมอบหมายของมหาวิทยาลัยฉันต้องดำเนินการประมวลผลข้อมูลล่วงหน้าในชุดข้อมูลดิบที่มีขนาดใหญ่หลายตัวแปร (> 10) ฉันไม่ได้เป็นนักสถิติในแง่ของคำใด ๆ ดังนั้นฉันสับสนเล็กน้อยว่าเกิดอะไรขึ้น ขอโทษล่วงหน้าสำหรับสิ่งที่อาจเป็นคำถามง่ายๆที่น่าหัวเราะ - หัวของฉันหมุนหลังจากดูคำตอบต่าง ๆ และพยายามลุยผ่านสถิติพูด ฉันอ่านแล้ว: PCA ช่วยให้ฉันลดมิติข้อมูลของฉัน มันทำได้โดยการรวม / ลบคุณลักษณะ / มิติที่สัมพันธ์กันมาก (และทำให้ไม่จำเป็นเล็กน้อย) มันทำได้โดยการหา eigenvectors เกี่ยวกับข้อมูลความแปรปรวนร่วม (ขอบคุณกวดวิชาที่ดีที่ฉันติดตามผ่านเพื่อเรียนรู้สิ่งนี้) อันไหนดี อย่างไรก็ตามฉันพยายามอย่างหนักเพื่อดูว่าฉันสามารถนำสิ่งนี้ไปใช้กับข้อมูลของฉันได้อย่างไร ตัวอย่าง (นี่ไม่ใช่ชุดข้อมูลที่ฉันจะใช้ แต่เป็นตัวอย่างที่คนสามารถใช้งานได้) ถ้าฉันต้องมีชุดข้อมูลที่มีบางอย่างเช่น ... PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score 1 1 2 5 7 …
14 pca 

2
ฉันสามารถใช้ CLR (การแปลงอัตราส่วนบันทึกเป็นศูนย์กลาง) เพื่อเตรียมข้อมูลสำหรับ PCA ได้หรือไม่
ฉันกำลังใช้สคริปต์ มันเป็นบันทึกหลัก ฉันมี dataframe ซึ่งแสดงองค์ประกอบต่าง ๆ ในคอลัมน์ที่มีความลึกที่กำหนด (ในคอลัมน์แรก) ฉันต้องการทำ PCA ด้วยและสับสนเกี่ยวกับวิธีการมาตรฐานที่ฉันต้องเลือก มีคนของคุณใช้clr()ในการเตรียมข้อมูลของคุณสำหรับprcomp()? หรือว่ามันเป็นการปลอมปนวิธีแก้ปัญหาของฉัน ฉันได้พยายามใช้clr()กับข้อมูลก่อนที่จะใช้ฟังก์ชั่นนอกเหนือจากการใช้ขนาดแอตทริบิวต์ในprcomp()prcomp() data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html สเกลอธิบายเพื่อปรับสเกลข้อมูลดังนั้นจึงมีความแปรปรวนของหน่วย เนื่องจากข้อมูลของฉันมีขนาดแตกต่างกันมากนั่นคือสิ่งที่ฉันต้องการฉันจึงคิด ปัญหาคือว่าฉันได้รับการแก้ไขที่แตกต่างกันเมื่อฉันใช้รหัสด้านบนหรือเมื่อฉันข้ามclr()(ซึ่งทำให้ผลลัพธ์ที่ต้องการมากขึ้น) แต่ฉันต้องการที่จะรู้ว่าทำไมการclr()รบกวนในกรณีนี้คืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.