สถิติและข้อมูลขนาดใหญ่ multivariate-analysis

1

ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

2

ทดสอบว่าการแจกแจงหลายตัวแปรสองตัวอย่างถูกสุ่มจากประชากรพื้นฐานเดียวกันได้อย่างไร

สมมติว่าคุณได้รับชุดข้อมูลหลายตัวแปรสองชุดกล่าวว่าชุดเก่าและชุดใหม่และควรถูกสร้างขึ้นด้วยกระบวนการเดียวกัน (ซึ่งคุณไม่มีรูปแบบ) แต่บางทีอยู่ที่ไหนสักแห่งตามแนวการรวบรวม / การสร้าง ข้อมูลมีบางสิ่งผิดพลาด คุณไม่ต้องการใช้ข้อมูลใหม่เป็นชุดการตรวจสอบความถูกต้องสำหรับข้อมูลเก่าหรือเพื่อเพิ่มลงในข้อมูลเก่า คุณสามารถทำสถิติ 1 มิติ (ต่อตัวแปร) เช่นผลรวมอันดับ Wilcoxon และลองแก้ไขการทดสอบหลาย ๆ อย่าง แต่ฉันไม่แน่ใจว่าเหมาะสมที่สุด (เพื่อจับภาพความซับซ้อนของข้อมูลหลายตัวแปรทำให้เกิดปัญหาการทดสอบหลายครั้ง) วิธีหนึ่งคือการใช้ตัวจําแนกและดูว่าคุณสามารถแยกแยะระหว่างชุดข้อมูลสองชุด (ให้ตัวจําแนกที่ดีที่สุดที่เหมาะสมที่สุด) ดูเหมือนจะใช้งานได้ แต่ยังคงเป็น a) perhpas มีวิธีที่ดีกว่า b) มันไม่ได้ถูกออกแบบมาเพื่อบอกคุณว่าทำไมมันถึงแตกต่างกัน (ถ้าไม่มีอะไรเลยมันจะใช้ตัวทำนายที่ดีที่สุดและอาจพลาด

13 multivariate-analysis

3

จะทดสอบว่าเมทริกซ์ความแปรปรวนร่วมมีการเปลี่ยนแปลงในช่วงเวลาสองจุดได้อย่างไร?

งานของฉันคือการทดสอบว่ามีการเปลี่ยนแปลงในเมทริกซ์ความแปรปรวนร่วมของตัวแปร 6 ตัวหรือไม่ ค่าของตัวแปร 6 ตัวจะถูกวัดสองครั้งจากตัวแบบเดียวกัน (3 ปีระหว่างการวัด) ฉันจะทำสิ่งนั้นได้อย่างไร ฉันทำงานส่วนใหญ่ด้วย SAS

13 hypothesis-testing repeated-measures multivariate-analysis covariance-matrix

2

เมื่อข้อมูลมีการแจกแจงแบบเกาส์ตัวอย่างจะมีลักษณะเป็นจำนวนเท่าใด

ข้อมูลแบบเกาส์กระจายในมิติเดียวต้องใช้พารามิเตอร์สองตัวในการอธิบายลักษณะ (ค่าเฉลี่ยความแปรปรวน) และข่าวลือมีว่าตัวอย่างที่เลือกแบบสุ่มประมาณ 30 ตัวอย่างเพียงพอที่จะประมาณค่าพารามิเตอร์เหล่านี้ แต่จะเกิดอะไรขึ้นเมื่อจำนวนมิติเพิ่มขึ้น ในสองมิติ (เช่นความสูงน้ำหนัก) ใช้เวลา 5 พารามิเตอร์ในการระบุวงรี "ที่ดีที่สุด" ในสามมิตินี้เพิ่มขึ้นเป็น 9 พารามิเตอร์เพื่ออธิบายรูปวงรีและใน 4 มิติใช้เวลา 14 พารามิเตอร์ ฉันสนใจที่จะทราบว่าจำนวนตัวอย่างที่จำเป็นในการประมาณค่าพารามิเตอร์เหล่านี้ยังเพิ่มขึ้นในอัตราที่เทียบเคียงในอัตราที่ช้ากว่าหรือ (โปรดอย่า!) ในอัตราที่สูงขึ้น ยังดีกว่าถ้ามีกฎของหัวแม่มือยอมรับในวงกว้างที่แนะนำจำนวนตัวอย่างที่จำเป็นในการจำแนกลักษณะการแจกแจงแบบเกาส์ในจำนวนมิติที่กำหนดนั่นจะเป็นการดีที่จะรู้ หากต้องการแม่นยำยิ่งขึ้นสมมติว่าเราต้องการกำหนดขอบเขต "แบบที่เหมาะสมที่สุด" แบบสมมาตรซึ่งมีศูนย์กลางอยู่ที่จุดเฉลี่ยภายในซึ่งเรามั่นใจได้ว่า 95% ของตัวอย่างทั้งหมดจะลดลง ฉันต้องการทราบจำนวนตัวอย่างที่ใช้ในการค้นหาพารามิเตอร์เพื่อประมาณขอบเขตนี้ (ช่วงเวลาใน 1-D, วงรีใน 2-D, ฯลฯ ) ด้วยความมั่นใจสูง (> 95%) และความแตกต่างของจำนวนนั้น จำนวนมิติเพิ่มขึ้น

12 normal-distribution multivariate-analysis

3

การกระจายตัวของควอดเรนจ์ k-dimension บวกกับเมทริกซ์ความแปรปรวนร่วม parametrizable คืออะไร?

ต่อไปนี้zzk 's คำถามในการแก้ปัญหาของเขาด้วยการจำลองเชิงลบผมสงสัยว่าสิ่งที่เป็นครอบครัว parametrized ของการกระจายในด้าน k มิติบวกซึ่งแปรปรวนเมทริกซ์สามารถตั้งค่า ΣRk+R+k\mathbb{R}_+^kΣΣ\Sigma ตามที่หารือกับzzkเริ่มต้นจากการกระจายในและใช้การแปลงเชิงเส้นไม่ทำงาน X⟶ Σ 1 / 2 (X-μ)+μRk+R+k\mathbb{R}_+^kX⟶Σ1/2(X−μ)+μX⟶Σ1/2(X−μ)+μX \longrightarrow\Sigma^{1/2} (X-\mu) + \mu

12 distributions multivariate-analysis covariance

2

Split-Plot ANOVA: การทดสอบเปรียบเทียบแบบใน R

ฉันจะทดสอบเอฟเฟกต์ใน ANOVA แบบแยกส่วนได้อย่างไรโดยใช้การเปรียบเทียบแบบจำลองที่เหมาะสมสำหรับใช้กับXและMข้อโต้แย้งของanova.mlm()ใน R ฉันคุ้นเคยกับ?anova.mlmDalgaard (2007) [1] น่าเสียดายที่มันมีเฉพาะแปรงแบบแยกส่วน การทำเช่นนี้ในการออกแบบแบบสุ่มอย่างสมบูรณ์ด้วยสองปัจจัยภายในวิชา: N <- 20 # 20 subjects total P <- 3 # levels within-factor 1 Q <- 3 # levels within-factor 2 DV <- matrix(rnorm(N* P*Q), ncol=P*Q) # random data in wide format id <- expand.grid(IVw1=gl(P, 1), IVw2=gl(Q, 1)) # intra-subjects layout …

12 r anova multivariate-analysis repeated-measures split-plot

1

จะทำอย่างไรเมื่อเมทริกซ์ความแปรปรวนร่วมตัวอย่างไม่สามารถกลับด้านได้

ฉันกำลังทำงานกับเทคนิคการจัดกลุ่มบางอย่างซึ่งสำหรับกลุ่ม d- มิติเวกเตอร์ที่กำหนดฉันถือว่าการแจกแจงปกติหลายตัวแปรและคำนวณตัวอย่างเวกเตอร์เฉลี่ยมิติสามมิติและเมทริกซ์ความแปรปรวนร่วมตัวอย่าง จากนั้นเมื่อพยายามที่จะตัดสินใจว่าเวกเตอร์ d-มิติใหม่ที่ยังไม่ถูกมองเป็นของกลุ่มนี้ฉันกำลังตรวจสอบระยะทางผ่านทางวัดนี้: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) ซึ่งจะต้องมีฉันในการคำนวณค่าผกผันของการแปรปรวนเมทริกซ์\แต่จากตัวอย่างบางอย่างที่ฉันไม่สามารถรับประกันได้ว่าเมทริกซ์ความแปรปรวนร่วมจะกลับกันได้ฉันควรทำอย่างไรในกรณีที่ไม่เป็นเช่นนั้นσ^Xσ^X\hat{\sigma}_X ขอบคุณ

12 clustering multivariate-analysis covariance covariance-matrix matrix-inverse

1

ทางเลือกเพื่อบล็อก bootstrap สำหรับอนุกรมเวลาหลายตัวแปร

ขณะนี้ฉันใช้กระบวนการต่อไปนี้ในการทำการบูตอนุกรมเวลาหลายตัวแปรใน R: กำหนดขนาดบล็อก - เรียกใช้ฟังก์ชันb.starในnpแพ็คเกจที่สร้างขนาดบล็อกสำหรับแต่ละชุด เลือกขนาดบล็อกสูงสุด ทำงานtsbootกับซีรีส์ใดก็ได้โดยใช้ขนาดบล็อกที่เลือก ใช้ดัชนีจากเอาต์พุต bootstrap เพื่อสร้างอนุกรมเวลาหลายตัวแปรอีกครั้ง มีคนแนะนำให้ใช้แพคเกจ meboot เป็นทางเลือกแทน block bootstrap แต่เนื่องจากฉันไม่ได้ใช้ชุดข้อมูลทั้งหมดเพื่อเลือกขนาดบล็อกฉันไม่แน่ใจว่าจะรักษาความสัมพันธ์ระหว่างชุดข้อมูลอย่างไรถ้าฉันใช้ดัชนีที่สร้างขึ้นโดยใช้mebootบน หนึ่งชุด หากใครมีประสบการณ์กับ meboot ในการตั้งค่าหลายตัวแปรฉันจะขอบคุณคำแนะนำในกระบวนการอย่างมาก

12 r time-series multivariate-analysis bootstrap

1

การถดถอยเชิงเส้นหลายตัวแปรกับแบบจำลองการถดถอยหลายตัวแปร

ในการตั้งค่าการถดถอยแบบไม่รวมตัวแปรเราพยายามทำแบบจำลอง y=Xβ+noisey=Xβ+noisey = X\beta +noise ที่เวกเตอร์ของการสังเกตและเมทริกซ์การออกแบบด้วยทำนาย การแก้ปัญหาคือ(Xy∈Rny∈Rny \in \mathbb{R}^nnnnX∈Rn×mX∈Rn×mX \in \mathbb{R}^{n \times m}mmmβ0=(XTX)−1Xyβ0=(XTX)−1Xy\beta_0 = (X^TX)^{-1}Xy ในการตั้งค่าการถดถอยหลายตัวแปรเราพยายามสร้างแบบจำลอง Y=Xβ+noiseY=Xβ+noiseY = X\beta +noise ที่เป็นเมทริกซ์ของการสังเกตและตัวแปรแฝงที่แตกต่างกันการแก้ปัญหาคือ(Xy∈Rn×py∈Rn×py \in \mathbb{R}^{n \times p}nnnpppβ0=(XTX)−1XYβ0=(XTX)−1XY\beta_0 = (X^TX)^{-1}XY คำถามของฉันเป็นอย่างไรที่แตกต่างจากการดำเนินการถดถอยเชิงเส้นที่แตกต่างกันอย่างไร ? ฉันอ่านที่นี่ว่าในกรณีหลังเราคำนึงถึงความสัมพันธ์ระหว่างตัวแปรตาม แต่ฉันไม่เห็นจากคณิตศาสตร์ppp

11 regression multivariate-analysis multivariate-regression

1

การกระจายตัวตัวอย่างของรัศมีของการแจกแจงแบบปกติ 2D

การกระจายปกติ bivariate ที่มีค่าเฉลี่ยและแปรปรวนเมทริกซ์Σสามารถเขียนอีกครั้งในพิกัดเชิงขั้วที่มีรัศมีRและมุมθ คำถามของฉันคือคือการกระจายตัวอย่างของสิ่งที่R , ที่อยู่, ระยะห่างจากจุดxไปยังศูนย์ประมาณˉ xได้รับตัวอย่างแปรปรวนเมทริกซ์S ?μμ\muΣΣ\Sigmarrrθθ\thetar^r^\hat{r}xxxx¯x¯\bar{x}SSS พื้นหลัง: ระยะทางจริงจากจุดxค่าเฉลี่ยμดังต่อไปนี้การกระจายฮอยต์ ด้วยค่าลักษณะเฉพาะλ 1 , λ 2ของΣและλ 1 > λ 2พารามิเตอร์รูปร่างของมันคือq = 1rrrxxxμμ\muλ1,λ2λ1,λ2\lambda_{1}, \lambda_{2}ΣΣ\Sigmaλ1>λ2λ1>λ2\lambda_{1} > \lambda_{2}และพารามิเตอร์ขนาดของมันคือω=λ1+λ2 ฟังก์ชันการแจกแจงสะสมเป็นที่รู้จักกันว่าเป็นความแตกต่างสมมาตรระหว่างสองฟังก์ชันของ Marcum Qq=1(λ1+λ2)/λ2)−1√q=1(λ1+λ2)/λ2)−1q=\frac{1}{\sqrt{(\lambda_{1}+\lambda_{2})/\lambda_{2})-1}}ω=λ1+λ2ω=λ1+λ2\omega = \lambda_{1} + \lambda_{2} การจำลองแสดงให้เห็นว่าการเสียบค่าประมาณและSสำหรับμและΣลงใน cdf จริงนั้นใช้ได้กับตัวอย่างขนาดใหญ่ แต่ไม่ใช่สำหรับตัวอย่างขนาดเล็ก แผนภาพต่อไปนี้แสดงผลลัพธ์จาก 200 ครั้งx¯x¯\bar{x}SSSμμ\muΣΣ\Sigma จำลอง 20 เวกเตอร์ปกติ 2 มิติสำหรับการรวมกันของ ( x -axis), ω (แถว) และควอนไทล์ …

11 probability normal-distribution multivariate-analysis rayleigh

4

MANOVA และความสัมพันธ์ระหว่างตัวแปรตาม: แข็งแรงแค่ไหน?

ตัวแปรตามใน MANOVA ไม่ควร "มีความสัมพันธ์มากเกินไป" แต่ความสัมพันธ์มีความแข็งแกร่งแค่ไหน มันจะน่าสนใจที่จะได้รับความคิดเห็นของผู้คนในเรื่องนี้ ตัวอย่างเช่นคุณจะดำเนินการกับ MANOVA ในสถานการณ์ต่อไปนี้หรือไม่? Y1 และ Y2 มีความสัมพันธ์กับและr=0.3r=0.3r=0.3p<0.005p<0.005p<0.005 Y1 และ Y2 มีความสัมพันธ์กับและr=0.7r=0.7r=0.7p=0.049p=0.049p=0.049 ปรับปรุง ตัวแทนบางคนเสนอราคาเพื่อตอบสนองต่อ @onestop: "MANOVA ทำงานได้ดีในสถานการณ์ที่มีความสัมพันธ์ในระดับปานกลางระหว่าง DVs" (หมายเหตุหลักสูตรจาก San Francisco State Uni) "ตัวแปรตามมีความสัมพันธ์ซึ่งเหมาะสมกับ Manova" (ไพรเมอร์สหรัฐอเมริกา EPA Stats) "ตัวแปรตามควรเกี่ยวข้องกับแนวคิดและควรมีความสัมพันธ์กับตัวแปรอื่นในระดับต่ำถึงปานกลาง" (หมายเหตุหลักสูตรจากมหาวิทยาลัย Northern Arizona) "DVs มีความสัมพันธ์กันจากประมาณ. 3 ถึง. 0.7 มีสิทธิ์" (Maxwell 2001, วารสารจิตวิทยาผู้บริโภค) nb ฉันไม่ได้อ้างถึงข้อสันนิษฐานว่าสัมพันธภาพระหว่าง Y1 และ …

11 correlation anova multivariate-analysis rule-of-thumb manova

3

การวิเคราะห์การแทรกแซงด้วยอนุกรมเวลาหลายมิติ

ฉันต้องการทำการวิเคราะห์การแทรกแซงเพื่อหาปริมาณผลลัพธ์ของการตัดสินใจเชิงนโยบายเกี่ยวกับการขายแอลกอฮอล์เมื่อเวลาผ่านไป อย่างไรก็ตามฉันค่อนข้างใหม่กับการวิเคราะห์อนุกรมเวลาดังนั้นฉันจึงมีคำถามเริ่มต้น จากการตรวจสอบวรรณกรรมพบว่านักวิจัยคนอื่นได้ใช้ ARIMA เพื่อจำลองการขายเครื่องดื่มแอลกอฮอล์ตามลำดับเวลาโดยมีตัวแปรหุ่นจำลองเป็นตัวแทนเพื่อจำลองผลกระทบของการแทรกแซง ในขณะที่สิ่งนี้ดูเหมือนจะเป็นวิธีการที่สมเหตุสมผล แต่ชุดข้อมูลของฉันก็ยิ่งดีกว่าที่ฉันเคยเขียนในวรรณคดี ประการแรกชุดข้อมูลของฉันถูกจำแนกตามประเภทเครื่องดื่ม (เช่นเบียร์ไวน์สุรา) แล้วแยกตามเขตภูมิศาสตร์ต่อไป ในขณะที่ฉันสามารถสร้างการวิเคราะห์ ARIMA แยกต่างหากสำหรับแต่ละกลุ่มที่ไม่ได้แยกจากกันแล้วเปรียบเทียบผลลัพธ์ แต่ฉันสงสัยว่ามีวิธีการที่ดีกว่าที่นี่ ใครบ้างที่คุ้นเคยกับข้อมูลอนุกรมเวลาหลายมิติมากขึ้นสามารถให้คำแนะนำหรือคำแนะนำได้?

11 time-series multivariate-analysis arima intervention-analysis

1

R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน

mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

การลงโทษแบบนุ่มนวลเทียบกับการลงโทษ

ฉันกำลังพยายามสรุปสิ่งที่ฉันเข้าใจจนถึงการวิเคราะห์หลายตัวแปรที่มีการลงโทษด้วยชุดข้อมูลมิติสูงและฉันยังคงดิ้นรนโดยใช้คำจำกัดความที่ถูกต้องเกี่ยวกับการลงโทษที่นุ่มนวลกับLasso (หรือ )L1L1L_1 แม่นยำยิ่งขึ้นฉันใช้การกระจัดกระจาย PLS เพื่อวิเคราะห์โครงสร้างข้อมูลแบบ 2 บล็อกรวมถึงข้อมูลจีโนม ( polymorphisms นิวคลีโอไทด์เดี่ยวที่เราพิจารณาความถี่ของอัลลีลย่อยในช่วง {0,1,2} ซึ่งถือว่าเป็นตัวแปรตัวเลข) และ ฟีโนไทป์ต่อเนื่อง (คะแนนเชิงปริมาณลักษณะบุคลิกภาพหรือความไม่สมดุลของสมองยังถือว่าเป็นตัวแปรต่อเนื่อง) ความคิดคือการแยกตัวทำนายที่มีอิทธิพลมากที่สุด (ที่นี่ความผันแปรทางพันธุกรรมในลำดับดีเอ็นเอ) เพื่ออธิบายการแปรผันของฟีโนไทป์ระหว่างบุคคล ฉันเริ่มใช้แพ็คเกจ mixOmics R (เดิมintegrOmics) ซึ่งมีการลงโทษPLSและCCA ที่ทำให้เป็นมาตรฐาน เมื่อมองไปที่รหัส R เราพบว่า "sparsity" ในตัวทำนายนั้นเกิดจากการเลือกตัวแปรอันดับสูงสุดที่มีการโหลดสูงสุด (ในค่าสัมบูรณ์) บนองค์ประกอบ th, (อัลกอริทึม คือการทำซ้ำและคำนวณตัวแปรของการโหลดในองค์ประกอบทำให้ตัวบล็อกการทำนายในแต่ละการวนซ้ำดูการกระจัดกระจาย PLS: การเลือกตัวแปรเมื่อรวมข้อมูล Omicsสำหรับภาพรวม) ในทางตรงกันข้ามแพ็คเกจsplsร่วมเขียนโดย S. Keleş (ดูkkkiiii=1,…,ki=1,…,ki=1,\dots, kkkkเบาบางบางส่วนแควน้อยถดถอยสำหรับพร้อมกันขนาดลดลงและการคัดเลือกตัวแปรสำหรับคำอธิบายที่เป็นทางการมากขึ้นของวิธีการดำเนินการโดยผู้เขียนเหล่านี้) การดำเนินการ -penalization สำหรับการปรับไหมตัวแปรL1L1L_1 มันไม่ได้เป็นที่เห็นได้ชัดกับผมว่ามีความเข้มงวด "bijection" เพื่อที่จะพูดระหว่างการเลือกคุณลักษณะซ้ำขึ้นอยู่กับนุ่ม thresholding …

11 multivariate-analysis lasso feature-selection genetics

3

ค่าสเกลในการวิเคราะห์ discriminant เชิงเส้น (LDA) สามารถนำมาใช้เพื่อพล็อตตัวแปรอธิบายบน discriminants เชิงเส้นได้หรือไม่

การใช้ biplot ของค่าที่ได้จากการวิเคราะห์องค์ประกอบหลักเป็นไปได้ที่จะสำรวจตัวแปรอธิบายที่ประกอบกันเป็นองค์ประกอบหลัก นี่เป็นไปได้ไหมกับการวิเคราะห์จำแนกเชิงเส้น? ตัวอย่างที่มีให้ใช้ข้อมูลคือ "ข้อมูล Iris Data ของ Edgar Anderson" ( http://en.wikipedia.org/wiki/Iris_flower_data_set ) นี่คือข้อมูลม่านตา : id SLength SWidth PLength PWidth species 1 5.1 3.5 1.4 .2 setosa 2 4.9 3.0 1.4 .2 setosa 3 4.7 3.2 1.3 .2 setosa 4 4.6 3.1 1.5 .2 setosa 5 5.0 3.6 1.4 …

11 r pca multivariate-analysis discriminant-analysis biplot

คำถามติดแท็ก multivariate-analysis