คำถามติดแท็ก multivariate-analysis

วิเคราะห์ที่มีมากกว่าหนึ่งตัวแปรวิเคราะห์พร้อมกันและตัวแปรเหล่านี้อาจขึ้นอยู่กับ (ตอบสนอง) หรือคนเดียวในการวิเคราะห์ สิ่งนี้สามารถเปรียบเทียบกับการวิเคราะห์ "หลาย" หรือ "หลายตัวแปร" ซึ่งมีความหมายมากกว่าหนึ่งตัวแปร (อิสระ) ตัวแปร

3
ฉันสามารถใช้การทดสอบใดในการเปรียบเทียบความชันจากแบบจำลองการถดถอยสองแบบขึ้นไป
ฉันต้องการทดสอบความแตกต่างในการตอบสนองของตัวแปรสองตัวต่อตัวทำนายหนึ่งตัว นี่คือตัวอย่างที่ทำซ้ำได้น้อยที่สุด library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, …

6
ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี
อะไรคือการเลือกตัวแปร / คุณสมบัติที่คุณต้องการสำหรับการจำแนกเลขฐานสองเมื่อมีตัวแปร / คุณสมบัติมากกว่าการสังเกตในชุดการเรียนรู้ จุดมุ่งหมายที่นี่คือเพื่อหารือเกี่ยวกับขั้นตอนการเลือกคุณสมบัติที่ช่วยลดข้อผิดพลาดในการจัดหมวดหมู่ เราสามารถแก้ไขข้อความเพื่อความมั่นคง: สำหรับให้เป็นชุดการเรียนรู้จากการสังเกตการณ์จากกลุ่มผมดังนั้นคือขนาดของชุดการเรียนรู้ เราตั้งค่าเป็นจำนวนคุณลักษณะ (เช่นมิติของพื้นที่คุณลักษณะ) ให้หมายถึง -th พิกัดของ Pi∈{0,1}i∈{0,1}i \in \{0, 1\}{xi1,…,xini}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}iiin0+n1=nn0+n1=nn_0 + n_1 = npppx[i]x[i]x[i]iiix∈Rpx∈Rpx \in \mathbb{R}^p โปรดให้ข้อมูลอ้างอิงแบบเต็มหากคุณไม่สามารถให้รายละเอียดได้ แก้ไข (ปรับปรุงอย่างต่อเนื่อง): ขั้นตอนที่เสนอในคำตอบด้านล่าง การเลือกไปข้างหน้าโลภ ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี การคัดลอกย้อนหลัง ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี การสแกน Metropolis / MCMC ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี ลงโทษการถดถอยโลจิสติก ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี เนื่องจากนี่คือวิกิชุมชนจึงสามารถมีการสนทนาและอัพเดตได้มากขึ้น ฉันมีข้อสังเกตหนึ่ง: ในแง่หนึ่งคุณทุกคนให้ขั้นตอนที่อนุญาตให้เรียงลำดับของตัวแปร แต่ไม่ใช่การเลือกตัวแปร (คุณค่อนข้างจะหลีกเลี่ยงวิธีการเลือกจำนวนฟีเจอร์ฉันเดาว่าคุณใช้การตรวจสอบไขว้กันหรือไม่?) คำตอบในทิศทางนี้ (เนื่องจากนี่คือวิกิชุมชนคุณไม่จำเป็นต้องเป็นนักเขียนคำตอบเพื่อเพิ่มข้อมูลเกี่ยวกับวิธีเลือกจำนวนตัวแปรหรือไม่ฉันเปิดคำถามในทิศทางนี้ที่นี่การตรวจสอบข้ามในมิติที่สูงมาก (เพื่อเลือกจำนวน ตัวแปรที่ใช้ในการจำแนกมิติที่สูงมาก) )

5
การวัด "ระยะทาง" ระหว่างการแจกแจงหลายตัวแปรสองค่า
ฉันกำลังมองหาคำศัพท์ที่ดีเพื่ออธิบายสิ่งที่ฉันพยายามทำเพื่อให้ง่ายต่อการค้นหาแหล่งข้อมูล ดังนั้นบอกว่าฉันมีสองกลุ่มของจุด A และ B แต่ละคนที่เกี่ยวข้องกับสองค่า X และ Y และฉันต้องการวัด "ระยะทาง" ระหว่าง A และ B - นั่นคือโอกาสที่พวกเขาถูกสุ่มตัวอย่างจากการกระจายเดียวกัน (ฉันสามารถสันนิษฐานได้ว่าการแจกแจงเป็นเรื่องปกติ) ตัวอย่างเช่นถ้า X และ Y มีความสัมพันธ์ใน A แต่ไม่ใช่ใน B การแจกแจงจะแตกต่างกัน โดยสังหรณ์ใจฉันจะได้เมทริกซ์ความแปรปรวนร่วมของ A แล้วดูว่าแต่ละจุดใน B น่าจะพอดีกับที่นั่นและในทางกลับกัน (อาจใช้ Someting เหมือนระยะทาง Mahalanobis) แต่นั่นเป็นบิต "ad-hoc" และอาจมีวิธีการอธิบายที่เข้มงวดกว่านี้ (แน่นอนในทางปฏิบัติฉันมีชุดข้อมูลมากกว่าสองชุดที่มีตัวแปรมากกว่าสองตัว - ฉันพยายามระบุว่าชุดข้อมูลชุดใดของฉัน เป็นค่าผิดปกติ) ขอบคุณ!

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

11
คำแนะนำหนังสือสำหรับการวิเคราะห์หลายตัวแปร
ฉันสนใจรับหนังสือเกี่ยวกับการวิเคราะห์หลายตัวแปรและต้องการคำแนะนำของคุณ ยินดีต้อนรับหนังสือฟรีเสมอ แต่ถ้าคุณรู้เกี่ยวกับหนังสือ MVA ที่ยอดเยี่ยมซึ่งไม่ใช่หนังสือโปรดระบุ

4
การจัดลำดับความสำคัญของตัวแปรมีประโยชน์อย่างไร
ฉันกลายเป็นผู้ทำลายล้างบ้างเมื่อพูดถึงการจัดลำดับความสำคัญที่แปรผัน (ในบริบทของแบบจำลองหลายตัวแปรทุกชนิด) บ่อยครั้งในการทำงานของฉันฉันถูกขอให้ช่วยทีมอื่นสร้างการจัดลำดับความสำคัญของตัวแปรหรือสร้างการจัดลำดับความสำคัญของตัวแปรจากงานของฉันเอง ในการตอบสนองต่อคำขอเหล่านี้ฉันถามคำถามต่อไปนี้ คุณต้องการให้อันดับความสำคัญของตัวแปรนี้คืออะไร คุณหวังว่าจะเรียนรู้อะไรจากมัน? คุณต้องการใช้การตัดสินใจประเภทใด คำตอบที่ฉันได้รับมักจะตกอยู่ในหนึ่งในสองหมวดหมู่ ฉันต้องการทราบความสำคัญของตัวแปรต่าง ๆ ในแบบจำลองของฉันในการทำนายการตอบสนอง ฉันต้องการใช้สำหรับการเลือกคุณสมบัติโดยลบตัวแปรที่มีความสำคัญต่ำ คำตอบแรกคือ tautological (ฉันต้องการอันดับความสำคัญของตัวแปรเพราะฉันต้องการอันดับความสำคัญของตัวแปร) ฉันต้องสมมติว่าการจัดอันดับเหล่านี้เติมความต้องการทางด้านจิตใจเมื่อบริโภคผลลัพธ์ของแบบจำลองหลายตัวแปร ฉันมีเวลายากที่จะเข้าใจสิ่งนี้เนื่องจากการจัดอันดับตัวแปร "ความสำคัญ" เป็นรายบุคคลดูเหมือนจะปฏิเสธธรรมชาติหลายมิติของแบบจำลองในคำถาม การตอบสนองครั้งที่สองจะลดการเลือกย้อนหลังอย่างไม่เป็นทางการซึ่งเป็นความผิดทางสถิติซึ่งได้รับการบันทึกไว้อย่างดีในส่วนอื่น ๆ ของ ฉันยังต่อสู้กับธรรมชาติของการจัดอันดับความสำคัญที่กำหนดไว้อย่างไม่ดี ดูเหมือนจะมีข้อตกลงเล็ก ๆ น้อย ๆ เกี่ยวกับแนวคิดพื้นฐานที่การจัดอันดับควรวัดผล มีหลายวิธีในการกำหนดคะแนนความสำคัญหรือการจัดอันดับและโดยทั่วไปแล้วพวกเขาต้องทนทุกข์ทรมานจากข้อบกพร่องและคำเตือน: พวกเขาสามารถขึ้นอยู่กับอัลกอริทึมสูงเช่นเดียวกับในการจัดอันดับความสำคัญในป่าสุ่มและ gbms พวกเขาสามารถมีความแปรปรวนสูงมากเปลี่ยนไปอย่างมากกับการก่อกวนข้อมูลพื้นฐาน พวกเขาสามารถทนทุกข์ทรมานอย่างมากจากความสัมพันธ์ในการทำนายอินพุต ดังนั้นทั้งหมดที่กล่าวว่าคำถามของฉันคืออะไรการใช้การจัดอันดับความสำคัญของตัวแปรที่ถูกต้องคืออะไรหรืออะไรคือข้อโต้แย้งที่น่าเชื่อถือ (สำหรับนักสถิติหรือฆราวาส) สำหรับความไร้ประโยชน์ของความปรารถนาดังกล่าว? ฉันสนใจทั้งข้อโต้แย้งเชิงทฤษฎีทั่วไปและกรณีศึกษาแล้วแต่อย่างใดจะมีประสิทธิภาพมากขึ้นในการทำให้จุด

2
การกระจายของระยะทาง Mahalanobis ระดับสังเกต
ถ้าฉันมีตัวอย่าง iid ปกติหลายตัวแปรและกำหนด (ซึ่งเป็นชนิดของระยะทาง Mahalanobis [กำลังสอง] จากจุดตัวอย่างไปยังเวกเตอร์โดยใช้เมทริกซ์สำหรับการถ่วงน้ำหนัก) อะไรคือการกระจายตัวของ (ระยะทาง Mahalanobis sample meanโดยใช้เมทริกซ์ความแปรปรวนร่วมตัวอย่าง )?d 2 i ( b , A ) = ( X i - b ) ′ A - 1 ( X i - b ) a AX1, … , Xn∼ Nพี( μ , Σ )X1,…,Xn∼Np(μ,Σ)X_1, \ldots, X_n \sim …

2
ป่าสุ่มสำหรับการถดถอยหลายตัวแปร
ฉันมีปัญหาการถดถอยหลายเอาท์พุทที่มีคุณสมบัติเข้าและเอาท์พุท เอาต์พุตมีโครงสร้างความสัมพันธ์ที่ไม่เป็นเชิงเส้นที่ซับซ้อนdxdxd_xdYdYd_y ฉันต้องการใช้ป่าสุ่มในการถดถอย เท่าที่ฉันสามารถบอกได้ป่าสุ่มสำหรับการถดถอยจะทำงานกับผลลัพธ์เดียวดังนั้นฉันจะต้องฝึกป่าสุ่มdYdYd_y - หนึ่งป่าสำหรับแต่ละผลผลิต สิ่งนี้จะละเว้นความสัมพันธ์ของพวกเขา มีส่วนขยายไปยังฟอเรสต์แบบสุ่มที่คำนึงถึงความสัมพันธ์ของผลผลิตหรือไม่ บางทีบางอย่างเช่นGaussian ถดถอยกระบวนการสำหรับการเรียนรู้หลายงาน

2
“ การถดถอยอันดับที่ลดลง” คืออะไรเกี่ยวกับ?
ฉันได้อ่านองค์ประกอบของการเรียนรู้ทางสถิติแล้วและฉันไม่สามารถเข้าใจได้ว่าส่วนที่ 3.7 "การหดตัวและการเลือกหลายผลลัพธ์" นั้นเกี่ยวกับอะไร มันพูดเกี่ยวกับ RRR (การถดถอยลดอันดับ) และฉันสามารถเข้าใจได้ว่าหลักฐานเป็นเรื่องเกี่ยวกับโมเดลเชิงเส้นหลายตัวแปรแบบทั่วไปที่ไม่ทราบค่าสัมประสิทธิ์ นั่นเป็นสิ่งเดียวที่ฉันเข้าใจ คณิตศาสตร์ที่เหลืออยู่นั้นเกินกว่าฉัน มันไม่ได้ช่วยให้ผู้เขียนพูดว่า 'ใคร ๆ ก็สามารถแสดง' และทิ้งสิ่งต่าง ๆ ไว้เป็นแบบฝึกหัดได้ ใครช่วยกรุณาอธิบายสิ่งที่เกิดขึ้นที่นี่อย่างสังหรณ์ใจ? บทนี้ควรพูดถึงวิธีการใหม่ ๆ หรือไม่? หรืออะไร?

3
เมทริกซ์ความแปรปรวนแปรปรวนเชิงบวกที่ไม่แน่นอนบอกอะไรฉันได้บ้างเกี่ยวกับข้อมูลของฉัน
ฉันมีการสังเกตหลายตัวแปรหลายครั้งและต้องการประเมินความหนาแน่นของความน่าจะเป็นของตัวแปรทั้งหมด สันนิษฐานว่าเป็นข้อมูลที่กระจายตามปกติ ที่ตัวแปรจำนวนต่ำทุกอย่างทำงานได้ตามที่คาดหวัง แต่การย้ายไปหาจำนวนที่มากขึ้นส่งผลให้เมทริกซ์ความแปรปรวนร่วมแปรเปลี่ยนเป็นค่าบวกแน่นอน ฉันได้ลดปัญหาใน Matlab ไปที่: load raw_data.mat; % matrix number-of-values x number of variables Sigma = cov(data); [R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf. หากข้อผิดพลาด> 0 แสดงว่า Sigma ไม่ใช่ค่าบวกแน่นอน มีอะไรที่ฉันสามารถทำได้เพื่อประเมินข้อมูลการทดลองของฉันในระดับที่สูงขึ้นหรือไม่ มันบอกฉันว่ามีอะไรที่เป็นประโยชน์เกี่ยวกับข้อมูลของฉันหรือไม่? ฉันค่อนข้างเป็นผู้เริ่มต้นในพื้นที่นี้ดังนั้นจึงขออภัยถ้าฉันพลาดบางสิ่งที่ชัดเจน

4
สรุปผลลัพธ์“ ใหญ่ p, เล็ก n”
ใครช่วยชี้ให้ฉันไปที่รายงานผลการสำรวจ "ใหญ่ , เล็ก "? ฉันสนใจในวิธีการแก้ปัญหานี้ปรากฏตัวในบริบทของการวิจัยที่แตกต่างกันเช่นการถดถอยการจำแนกการทดสอบ Hotelling ของฯลฯpพีpnnn

2
ชื่ออะไร: ความแม่นยำ (อินเวอร์สของความแปรปรวน)
สังหรณ์ใจค่าเฉลี่ยเป็นเพียงค่าเฉลี่ยของการสังเกต ความแปรปรวนคือการสังเกตเหล่านี้แตกต่างจากค่าเฉลี่ยเท่าใด ฉันต้องการทราบว่าทำไมการผกผันของความแปรปรวนจึงเป็นที่รู้จักกันอย่างแม่นยำ เราสามารถทำอะไรได้จากสัญชาตญาณนี้ และทำไมเมทริกซ์ความแม่นยำจึงมีประโยชน์เหมือนเมทริกซ์ความแปรปรวนร่วมในการแจกแจงหลายตัวแปร (ปกติ) กรุณาเข้าใจด้วย

3
วิธีการดำเนินการแปลงภาพอัตราส่วนภาพสามมิติ
ฉันมีข้อมูลเกี่ยวกับพฤติกรรมการเคลื่อนไหว (เวลาที่ใช้ในการนอนหลับอยู่ประจำที่และทำกิจกรรมทางกาย) ซึ่งมีจำนวนถึง 24 (เช่นในชั่วโมงต่อวัน) ฉันต้องการสร้างตัวแปรที่ใช้เวลาสัมพัทธ์ที่ใช้ในพฤติกรรมเหล่านี้ - ฉันได้รับแจ้งว่าการเปลี่ยนแปลงอัตราส่วนการบันทึกภาพสามมิติจะทำให้สิ่งนี้สำเร็จ ดูเหมือนว่าฉันควรใช้ฟังก์ชั่น ilr ใน R แต่ไม่สามารถหาตัวอย่างที่แท้จริงด้วยรหัสได้ ฉันจะเริ่มที่ไหน ตัวแปรที่ฉันมีคือเวลานอนหลับเวลานั่งนิ่งเฉลี่ยกิจกรรมออกกำลังกายเบา ๆ โดยเฉลี่ยกิจกรรมออกกำลังกายปานกลางปานกลางและออกกำลังกายแข็งแรงโดยเฉลี่ย รายงานการนอนหลับด้วยตนเองในขณะที่คนอื่น ๆ เป็นค่าเฉลี่ยจากวันที่ถูกต้องของข้อมูล accelerometer ดังนั้นสำหรับตัวแปรเหล่านี้เคสจะไม่รวมเท่ากับ 24 ฉันเดาว่าฉันทำงานใน SAS แต่ดูเหมือนว่า R จะใช้งานได้ง่ายกว่าสำหรับส่วนนี้ ดังนั้นการนำเข้าข้อมูลก่อนโดยมีเพียงตัวแปรที่น่าสนใจ จากนั้นใช้ฟังก์ชั่น acomp () จากนั้นฉันไม่สามารถหาไวยากรณ์สำหรับฟังก์ชัน ilr () ได้ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมมาก

1
ก่อสร้างการกระจาย Dirichlet ด้วยการกระจายแกมม่า
ให้X 1 , … , X k + 1X1,…,Xk+1X_1,\dots,X_{k+1}เป็นตัวแปรสุ่มอิสระที่ต่างกันซึ่งแต่ละอันมีการแจกแจงแกมม่าที่มีพารามิเตอร์α i , i = 1 , 2 , … , k + 1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1แสดงว่าY i = X iX 1 + ⋯ + X k + 1 ,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,k, มีการแบ่งส่วนร่วมเป็นDirichlet(α1,α2,…,αk;αk+1)Dirichlet(α1,α2,…,αk;αk+1)\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1}) PDF ร่วมของ( X 1 , … , X k + 1 ) = e …

2
การจัดประเภทตัวแปรจะเปลี่ยนจากไม่มีนัยสำคัญเป็นสำคัญ
ฉันมีตัวแปรที่เป็นตัวเลขซึ่งไม่มีนัยสำคัญในแบบจำลองการถดถอยโลจิสติกหลายตัวแปร อย่างไรก็ตามเมื่อฉันจัดหมวดหมู่เป็นกลุ่มทันใดนั้นมันก็กลายเป็นสิ่งสำคัญ สิ่งนี้ตอบโต้ฉันได้ง่ายมาก: เมื่อจัดหมวดหมู่ตัวแปรเราจะให้ข้อมูลบางอย่าง สิ่งนี้จะเป็นอย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.