คำถามติดแท็ก correspondence-analysis

การวิเคราะห์ความสอดคล้องเป็นเทคนิคการลดขนาดและการทำแผนที่สำหรับตัวแปรเล็กน้อย มักใช้กับตารางฉุกเฉินเพื่อสำรวจความสัมพันธ์ทางสายตาระหว่างประเภทแถวและคอลัมน์ ถ้าตารางเป็น 3 มิติขึ้นไปการวิเคราะห์จะเรียกว่า Multiple Correspondence analysis

6
การวิเคราะห์องค์ประกอบหลักสามารถนำไปใช้กับชุดข้อมูลที่มีการผสมผสานของตัวแปรแบบต่อเนื่องและหมวดหมู่ได้หรือไม่?
ฉันมีชุดข้อมูลที่มีทั้งข้อมูลแบบต่อเนื่องและหมวดหมู่ ฉันกำลังวิเคราะห์โดยใช้ PCA และฉันสงสัยว่ามันดีที่จะรวมตัวแปรเด็ดขาดเป็นส่วนหนึ่งของการวิเคราะห์ ความเข้าใจของฉันคือ PCA สามารถใช้ได้กับตัวแปรต่อเนื่องเท่านั้น ถูกต้องไหม หากไม่สามารถใช้กับข้อมูลที่เป็นหมวดหมู่ได้มีทางเลือกอะไรบ้างในการวิเคราะห์?

3
PCA จะทำงานกับชนิดข้อมูลบูลีน (ไบนารี) หรือไม่
ฉันต้องการลดมิติของระบบการสั่งซื้อที่สูงขึ้นและจับความแปรปรวนส่วนใหญ่ในฟิลด์ 2 มิติหรือ 1 มิติ ฉันเข้าใจว่าสามารถทำได้ผ่านการวิเคราะห์องค์ประกอบหลักและฉันใช้ PCA ในหลาย ๆ สถานการณ์ อย่างไรก็ตามฉันไม่เคยใช้กับชนิดข้อมูลบูลีนและฉันสงสัยว่ามันมีความหมายที่จะทำ PCA กับชุดนี้หรือไม่ ตัวอย่างเช่นสมมติว่าฉันมีตัวชี้วัดเชิงคุณภาพหรือเชิงพรรณนาและฉันกำหนด "1" หากการวัดนั้นใช้ได้สำหรับมิตินั้นและ "0" หากไม่ใช่ (ข้อมูลไบนารี) ตัวอย่างเช่นสมมติว่าคุณกำลังพยายามเปรียบเทียบคนแคระทั้งเจ็ดในสโนว์ไวท์ เรามี: Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy และ Happy และคุณต้องการจัดเรียงตามคุณสมบัติและทำตามที่: ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜DocDopeyBashfulGrumpySneezySleepyHappyLactose Intolerant1011011A Honor Roll0001101Athletic1011100Wealthy1011000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA Honor RollAthleticWealthyDoc1011Dopey0000Bashful1011Grumpy1111Sneezy0110Sleepy1000Happy1100)\begin{pmatrix} & Lactose\ Intolerant & A \ Honor\ Roll & Athletic & Wealthy \\ …

1
PCA และการวิเคราะห์สารบรรณที่เกี่ยวข้องกับ Biplot
Biplot มักใช้เพื่อแสดงผลลัพธ์ของการวิเคราะห์องค์ประกอบหลัก (และเทคนิคที่เกี่ยวข้อง) เป็นรูปแบบการกระจายแบบสองทางหรือแบบซ้อนทับซึ่งแสดงการโหลดส่วนประกอบและคะแนนส่วนประกอบพร้อมกัน ฉันได้รับแจ้งจาก @amoeba วันนี้ว่าเขาได้รับคำตอบจากความคิดเห็นของฉันไปยังคำถามที่ถามเกี่ยวกับวิธีการสร้าง / ปรับขนาดพิกัด biplot; และคำตอบของเขาพิจารณาหลายวิธีในรายละเอียดบางอย่าง และ @amoeba ถามว่าฉันจะแบ่งปันประสบการณ์ของฉันกับ biplot หรือไม่ ประสบการณ์ของฉัน (ทั้งทางทฤษฎีและโดยการทดลอง) ถึงแม้จะค่อนข้างเรียบง่าย nevetherless เน้นสองสิ่งที่ไม่ได้รับการยอมรับบ่อย: (1) biplot ควรจัดเป็นเทคนิคการวิเคราะห์มากกว่า scatterplot ในเครือ (2) PCA การวิเคราะห์การติดต่อ (และเทคนิคอื่น ๆ ที่รู้จักกันดี) เป็นกรณีเฉพาะของ biplot หรืออย่างน้อยพวกเขาทั้งคู่เกือบจะเป็นแฝด หากคุณสามารถทำ biplot คุณสามารถทำอีกสอง คำถามของฉันคือคุณ: พวกเขาเชื่อมต่อ (PCA, CA, Biplot) ได้อย่างไร? ได้โปรดแบ่งปันความคิดของคุณ ในขณะที่ฉันกำลังโพสต์บัญชีของตัวเองเกี่ยวกับเรื่องนี้ ฉันอยากจะขอให้เพิ่มคำตอบและพูดอย่างมีวิจารณญาณ

1
“ เอฟเฟ็กต์เกือกม้า” และ / หรือ“ เอฟเฟ็กต์โค้ง” ในการวิเคราะห์ PCA / การโต้ตอบคืออะไร
มีเทคนิคมากมายในสถิติทางนิเวศวิทยาสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจของข้อมูลหลายมิติ สิ่งเหล่านี้เรียกว่าเทคนิค 'การบวช' หลายคนเหมือนหรือใกล้เคียงกับเทคนิคทั่วไปในที่อื่น ๆ ในสถิติ บางทีตัวอย่างต้นแบบอาจเป็นการวิเคราะห์ส่วนประกอบหลัก (PCA) นักนิเวศวิทยาอาจใช้ PCA และเทคนิคที่เกี่ยวข้องเพื่อสำรวจ 'การไล่ระดับสี' (ฉันไม่ชัดเจนเลยว่าการไล่ระดับสีคืออะไร แต่ฉันอ่านเรื่องนี้มาเล็กน้อย) ในหน้านี้รายการสุดท้ายภายใต้การวิเคราะห์ส่วนประกอบหลัก (PCA)อ่าน: PCA มีปัญหาร้ายแรงสำหรับข้อมูลพืช: ผลของเกือกม้า เรื่องนี้เกิดจากความโค้งของการกระจายพันธุ์ตามการไล่สี เนื่องจากสปีชีส์การตอบสนองของสปีชีส์นั้นโดยทั่วไปจะมีรูปแบบเดียว เพิ่มเติมหน้าลงไปภายใต้การวิเคราะห์สารบรรณหรือค่าเฉลี่ยซึ่งกันและกัน (RA)มันหมายถึง "ผลกระทบอาร์ค": RA มีปัญหา: เอฟเฟกต์ส่วนโค้ง มันเกิดจากความไม่เชิงเส้นของการแจกแจงตามการไล่ระดับสี ส่วนโค้งนั้นไม่รุนแรงเท่าผลเกือกม้าของ PCA เนื่องจากปลายของการไล่ระดับสีไม่ได้ซับซ้อน มีคนอธิบายเรื่องนี้ได้ไหม ฉันเพิ่งเห็นปรากฏการณ์นี้ในแปลงที่เป็นตัวแทนของข้อมูลในพื้นที่มิติที่ต่ำกว่า (ได้แก่ การวิเคราะห์การติดต่อและการวิเคราะห์ปัจจัย) "การไล่ระดับสี" จะตรงกับอะไรมากกว่าปกติ (เช่นในบริบทที่ไม่ใช่เชิงนิเวศน์)? หากสิ่งนี้เกิดขึ้นกับข้อมูลของคุณมันเป็น "ปัญหา" ("ปัญหาร้ายแรง") หรือไม่ เพื่ออะไร? เราควรตีความเอาต์พุตที่เกือกม้า / โค้งแสดงขึ้นได้อย่างไร? ต้องใช้วิธีการรักษาหรือไม่? อะไร? การแปลงข้อมูลดั้งเดิมจะช่วยได้หรือไม่? จะเป็นอย่างไรถ้าข้อมูลนั้นเป็นอันดับเรตติ้ง …

1
การตีความแปลงการวิเคราะห์ความสอดคล้อง 2D
ฉันค้นหาอินเทอร์เน็ตไปทั่ว ... ฉันยังไม่พบภาพรวมที่ดีจริง ๆ ของวิธีการตีความแผนการวิเคราะห์การโต้ตอบสองมิติ มีใครให้คำแนะนำในการตีความระยะทางระหว่างคะแนนหรือไม่ บางทีตัวอย่างอาจช่วยได้นี่คือพล็อตที่พบในเว็บไซต์หลายแห่งที่ฉันเคยเห็นว่าวิเคราะห์การโต้ตอบจดหมาย สามเหลี่ยมสีแดงแสดงสีตาและจุดสีดำแสดงสีผม ดูกราฟข้างต้นคุณช่วยทำงบสองสามข้อเกี่ยวกับสิ่งที่คุณเห็นในข้อมูลเหล่านี้ จุดที่น่าสนใจเกี่ยวกับมิติและความสัมพันธ์ที่แตกต่างกันระหว่างสามเหลี่ยมและจุด? คำอธิบายจุดแถวของข้อคอลัมน์และการใช้คำว่า "โปรไฟล์" ที่มีความสำคัญเป็นพิเศษในตัวอย่างจะเป็นเครื่องมือ

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
เกณฑ์ใดที่ใช้สำหรับการแยกตัวแปรออกเป็นตัวแปรอธิบายและการตอบสนองสำหรับวิธีการบวชในระบบนิเวศ
ฉันมีตัวแปรต่าง ๆ ที่มีผลกระทบต่อประชากร โดยทั่วไปฉันได้ทำรายการสินค้าของกิ้งกือและวัดค่าอื่น ๆ ของภูมิประเทศเช่น: ชนิดและปริมาณตัวอย่างที่เก็บได้ สภาพแวดล้อมที่แตกต่างกันที่สัตว์เป็น ค่า pH เปอร์เซ็นต์ของสารอินทรีย์ ปริมาณของ P, K, Mg, Ca, Mn, Fe, Zn, Cu ความสัมพันธ์ของ Ca + Mg / K โดยทั่วไปฉันต้องการใช้ PCA เพื่อกำหนดว่าตัวแปรใดที่ขับเคลื่อนความแปรปรวนของตัวอย่างและทำให้ฟอเรสต์ (สภาพแวดล้อม) แตกต่างกัน ฉันควรใช้ตัวแปรใดสำหรับ "ตัวแปร" และตัวแปรใดสำหรับ "บุคคล"

1
ใช้การวิเคราะห์องค์ประกอบหลักเทียบกับการวิเคราะห์การโต้ตอบ
ฉันกำลังวิเคราะห์ชุดข้อมูลที่เกี่ยวข้องกับชุมชน intertidal ข้อมูลเป็นเปอร์เซ็นต์การครอบคลุม (ของสาหร่ายทะเล, เพรียง, หอยแมลงภู่, ฯลฯ ) ในรูปสี่เหลี่ยม ฉันเคยคิดเกี่ยวกับการวิเคราะห์การติดต่อ (CA) ในแง่ของจำนวนสปีชีส์และการวิเคราะห์องค์ประกอบหลัก (PCA) เป็นสิ่งที่มีประโยชน์มากขึ้นสำหรับแนวโน้มเชิงเส้นสิ่งแวดล้อม (ไม่ใช่สปีชีส์) ฉันไม่ได้มีโชคใด ๆ ที่คิดว่า PCA หรือ CA จะเหมาะกว่าสำหรับเปอร์เซ็นต์การครอบคลุม (ไม่พบเอกสารใด ๆ ) และฉันไม่แน่ใจด้วยซ้ำว่าสิ่งที่ต่อยอดสูงสุดถึง 100% จะกระจายออกไปได้อย่างไร ? ฉันคุ้นเคยกับแนวทางคร่าวๆว่าหากความยาวของแกนการวิเคราะห์การโต้ตอบจดหมายที่ถูก detrended แรก (DCA) มากกว่า 2 คุณจะสามารถสันนิษฐานได้ว่าควรใช้ CA อย่างปลอดภัย ความยาวของแกน DCA 1 คือ 2.17 ซึ่งฉันไม่พบว่ามีประโยชน์

1
ข้อมูลไม่ต่อเนื่องและทางเลือกในการ PCA
ฉันมีชุดข้อมูลของตัวแปรที่ไม่ต่อเนื่อง (ลำดับ, meristic, และชื่อ) ที่อธิบายถึงลักษณะปีกของสัณฐานวิทยาของแมลงหลายชนิดที่เกี่ยวข้องอย่างใกล้ชิด สิ่งที่ฉันต้องการทำคือทำการวิเคราะห์บางอย่างที่จะทำให้ฉันเห็นภาพของความคล้ายคลึงกันของสปีชีส์ต่าง ๆ ตามลักษณะทางสัณฐานวิทยา สิ่งแรกที่โผล่เข้ามาในหัวของฉันคือ PCA (นี่คือประเภทของการสร้างภาพข้อมูลที่ฉันต้องการสร้าง) แต่หลังจากตรวจสอบแล้ว (โดยเฉพาะคำถามอื่น ๆ เช่น: การวิเคราะห์องค์ประกอบหลักสามารถนำไปใช้กับชุดข้อมูลที่มีการผสมผสานอย่างต่อเนื่อง และตัวแปรเด็ดขาด?) ดูเหมือนว่า PCA อาจไม่เหมาะสมสำหรับข้อมูลที่ไม่ต่อเนื่อง (PCA ใช้ในการศึกษาประเภทนี้ในวรรณคดี แต่มักจะมีข้อมูลต่อเนื่องอยู่เสมอ) ไม่สนใจภูมิหลังทางสถิติว่าเพราะเหตุใดข้อมูลนี้จึงไม่เหมาะสม PCA ให้ผลลัพธ์ที่สมบูรณ์แบบสำหรับคำถามทางชีววิทยาของฉัน (กลุ่มลูกผสมที่น่าสนใจตกอยู่ตรงกลางกลุ่มพ่อ) ฉันได้ลองวิเคราะห์การติดต่อหลายครั้งเพื่อเอาใจสถิติ (อย่างน้อยที่สุดเท่าที่ความเข้าใจของฉันไป) แต่ฉันไม่สามารถรับพล็อตที่คล้ายกับที่ฉันจะได้รับจาก PCA ที่การสังเกตของฉัน (บุคคลทางชีววิทยา) มีการแยกคำพูดด้วยสีเพื่อแสดงการจัดกลุ่มที่แตกต่างกัน (สปีชีส์ต่างกัน, การพูดทางชีววิทยา) ดูเหมือนว่าการวิเคราะห์นี้มีวัตถุประสงค์เพื่ออธิบายว่าตัวแปร (ที่นี่ลักษณะทางสัณฐานวิทยาของฉัน) มีความเกี่ยวข้องกันอย่างไรไม่ใช่การสังเกตของแต่ละบุคคล และเมื่อฉันพล็อตข้อสังเกตเป็นสีกลุ่มฉันจะได้รับค่าเดียวเท่านั้น (อาจเป็นค่าเฉลี่ย) ที่อธิบายกลุ่มบุคคลทั้งหมด ฉันได้ทำการวิเคราะห์ใน R ดังนั้นบางทีฉันก็ไม่ได้ขยันพอที่จะทำให้แนวคิดของฉันทำงาน ฉันถูกต้องในการลองวิเคราะห์เช่นนี้กับข้อมูลของฉันหรือฉันออกนอกเส้นทาง? หากคุณไม่สามารถบอกได้ว่าความเชี่ยวชาญทางสถิติของฉันมี จำกัด ดังนั้นสมการที่เกิดขึ้นภายใต้การวิเคราะห์เหล่านี้จะอยู่เหนือหัวของฉัน ฉันพยายามทำการวิเคราะห์นี้อย่างสมบูรณ์แบบเชิงพรรณนา …

2
การวิเคราะห์ข้อมูลภาษาฝรั่งเศสคืออะไร
วิธีการทางสถิติบางอย่าง - ฉันจำไม่ได้ว่ามันเป็นการวิเคราะห์องค์ประกอบหลักหรืออะไรทำนองนั้น - บางครั้งเรียกว่า "การวิเคราะห์ข้อมูลภาษาฝรั่งเศส" มันคืออะไรกันแน่? และบางคนบอกว่าชื่อนี้เป็นเรื่องน่าขันจริงหรือไม่และทำไม?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.