คำถามติดแท็ก multivariate-analysis

วิเคราะห์ที่มีมากกว่าหนึ่งตัวแปรวิเคราะห์พร้อมกันและตัวแปรเหล่านี้อาจขึ้นอยู่กับ (ตอบสนอง) หรือคนเดียวในการวิเคราะห์ สิ่งนี้สามารถเปรียบเทียบกับการวิเคราะห์ "หลาย" หรือ "หลายตัวแปร" ซึ่งมีความหมายมากกว่าหนึ่งตัวแปร (อิสระ) ตัวแปร

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

2
ทดสอบว่าการแจกแจงหลายตัวแปรสองตัวอย่างถูกสุ่มจากประชากรพื้นฐานเดียวกันได้อย่างไร
สมมติว่าคุณได้รับชุดข้อมูลหลายตัวแปรสองชุดกล่าวว่าชุดเก่าและชุดใหม่และควรถูกสร้างขึ้นด้วยกระบวนการเดียวกัน (ซึ่งคุณไม่มีรูปแบบ) แต่บางทีอยู่ที่ไหนสักแห่งตามแนวการรวบรวม / การสร้าง ข้อมูลมีบางสิ่งผิดพลาด คุณไม่ต้องการใช้ข้อมูลใหม่เป็นชุดการตรวจสอบความถูกต้องสำหรับข้อมูลเก่าหรือเพื่อเพิ่มลงในข้อมูลเก่า คุณสามารถทำสถิติ 1 มิติ (ต่อตัวแปร) เช่นผลรวมอันดับ Wilcoxon และลองแก้ไขการทดสอบหลาย ๆ อย่าง แต่ฉันไม่แน่ใจว่าเหมาะสมที่สุด (เพื่อจับภาพความซับซ้อนของข้อมูลหลายตัวแปรทำให้เกิดปัญหาการทดสอบหลายครั้ง) วิธีหนึ่งคือการใช้ตัวจําแนกและดูว่าคุณสามารถแยกแยะระหว่างชุดข้อมูลสองชุด (ให้ตัวจําแนกที่ดีที่สุดที่เหมาะสมที่สุด) ดูเหมือนจะใช้งานได้ แต่ยังคงเป็น a) perhpas มีวิธีที่ดีกว่า b) มันไม่ได้ถูกออกแบบมาเพื่อบอกคุณว่าทำไมมันถึงแตกต่างกัน (ถ้าไม่มีอะไรเลยมันจะใช้ตัวทำนายที่ดีที่สุดและอาจพลาด

3
จะทดสอบว่าเมทริกซ์ความแปรปรวนร่วมมีการเปลี่ยนแปลงในช่วงเวลาสองจุดได้อย่างไร?
งานของฉันคือการทดสอบว่ามีการเปลี่ยนแปลงในเมทริกซ์ความแปรปรวนร่วมของตัวแปร 6 ตัวหรือไม่ ค่าของตัวแปร 6 ตัวจะถูกวัดสองครั้งจากตัวแบบเดียวกัน (3 ปีระหว่างการวัด) ฉันจะทำสิ่งนั้นได้อย่างไร ฉันทำงานส่วนใหญ่ด้วย SAS

2
เมื่อข้อมูลมีการแจกแจงแบบเกาส์ตัวอย่างจะมีลักษณะเป็นจำนวนเท่าใด
ข้อมูลแบบเกาส์กระจายในมิติเดียวต้องใช้พารามิเตอร์สองตัวในการอธิบายลักษณะ (ค่าเฉลี่ยความแปรปรวน) และข่าวลือมีว่าตัวอย่างที่เลือกแบบสุ่มประมาณ 30 ตัวอย่างเพียงพอที่จะประมาณค่าพารามิเตอร์เหล่านี้ แต่จะเกิดอะไรขึ้นเมื่อจำนวนมิติเพิ่มขึ้น ในสองมิติ (เช่นความสูงน้ำหนัก) ใช้เวลา 5 พารามิเตอร์ในการระบุวงรี "ที่ดีที่สุด" ในสามมิตินี้เพิ่มขึ้นเป็น 9 พารามิเตอร์เพื่ออธิบายรูปวงรีและใน 4 มิติใช้เวลา 14 พารามิเตอร์ ฉันสนใจที่จะทราบว่าจำนวนตัวอย่างที่จำเป็นในการประมาณค่าพารามิเตอร์เหล่านี้ยังเพิ่มขึ้นในอัตราที่เทียบเคียงในอัตราที่ช้ากว่าหรือ (โปรดอย่า!) ในอัตราที่สูงขึ้น ยังดีกว่าถ้ามีกฎของหัวแม่มือยอมรับในวงกว้างที่แนะนำจำนวนตัวอย่างที่จำเป็นในการจำแนกลักษณะการแจกแจงแบบเกาส์ในจำนวนมิติที่กำหนดนั่นจะเป็นการดีที่จะรู้ หากต้องการแม่นยำยิ่งขึ้นสมมติว่าเราต้องการกำหนดขอบเขต "แบบที่เหมาะสมที่สุด" แบบสมมาตรซึ่งมีศูนย์กลางอยู่ที่จุดเฉลี่ยภายในซึ่งเรามั่นใจได้ว่า 95% ของตัวอย่างทั้งหมดจะลดลง ฉันต้องการทราบจำนวนตัวอย่างที่ใช้ในการค้นหาพารามิเตอร์เพื่อประมาณขอบเขตนี้ (ช่วงเวลาใน 1-D, วงรีใน 2-D, ฯลฯ ) ด้วยความมั่นใจสูง (> 95%) และความแตกต่างของจำนวนนั้น จำนวนมิติเพิ่มขึ้น

3
การกระจายตัวของควอดเรนจ์ k-dimension บวกกับเมทริกซ์ความแปรปรวนร่วม parametrizable คืออะไร?
ต่อไปนี้zzk 's คำถามในการแก้ปัญหาของเขาด้วยการจำลองเชิงลบผมสงสัยว่าสิ่งที่เป็นครอบครัว parametrized ของการกระจายในด้าน k มิติบวกซึ่งแปรปรวนเมทริกซ์สามารถตั้งค่า ΣRk+R+k\mathbb{R}_+^kΣΣ\Sigma ตามที่หารือกับzzkเริ่มต้นจากการกระจายในและใช้การแปลงเชิงเส้นไม่ทำงาน X⟶ Σ 1 / 2 (X-μ)+μRk+R+k\mathbb{R}_+^kX⟶Σ1/2(X−μ)+μX⟶Σ1/2(X−μ)+μX \longrightarrow\Sigma^{1/2} (X-\mu) + \mu

2
Split-Plot ANOVA: การทดสอบเปรียบเทียบแบบใน R
ฉันจะทดสอบเอฟเฟกต์ใน ANOVA แบบแยกส่วนได้อย่างไรโดยใช้การเปรียบเทียบแบบจำลองที่เหมาะสมสำหรับใช้กับXและMข้อโต้แย้งของanova.mlm()ใน R ฉันคุ้นเคยกับ?anova.mlmDalgaard (2007) [1] น่าเสียดายที่มันมีเฉพาะแปรงแบบแยกส่วน การทำเช่นนี้ในการออกแบบแบบสุ่มอย่างสมบูรณ์ด้วยสองปัจจัยภายในวิชา: N <- 20 # 20 subjects total P <- 3 # levels within-factor 1 Q <- 3 # levels within-factor 2 DV <- matrix(rnorm(N* P*Q), ncol=P*Q) # random data in wide format id <- expand.grid(IVw1=gl(P, 1), IVw2=gl(Q, 1)) # intra-subjects layout …

1
จะทำอย่างไรเมื่อเมทริกซ์ความแปรปรวนร่วมตัวอย่างไม่สามารถกลับด้านได้
ฉันกำลังทำงานกับเทคนิคการจัดกลุ่มบางอย่างซึ่งสำหรับกลุ่ม d- มิติเวกเตอร์ที่กำหนดฉันถือว่าการแจกแจงปกติหลายตัวแปรและคำนวณตัวอย่างเวกเตอร์เฉลี่ยมิติสามมิติและเมทริกซ์ความแปรปรวนร่วมตัวอย่าง จากนั้นเมื่อพยายามที่จะตัดสินใจว่าเวกเตอร์ d-มิติใหม่ที่ยังไม่ถูกมองเป็นของกลุ่มนี้ฉันกำลังตรวจสอบระยะทางผ่านทางวัดนี้: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) ซึ่งจะต้องมีฉันในการคำนวณค่าผกผันของการแปรปรวนเมทริกซ์\แต่จากตัวอย่างบางอย่างที่ฉันไม่สามารถรับประกันได้ว่าเมทริกซ์ความแปรปรวนร่วมจะกลับกันได้ฉันควรทำอย่างไรในกรณีที่ไม่เป็นเช่นนั้นσ^Xσ^X\hat{\sigma}_X ขอบคุณ

1
ทางเลือกเพื่อบล็อก bootstrap สำหรับอนุกรมเวลาหลายตัวแปร
ขณะนี้ฉันใช้กระบวนการต่อไปนี้ในการทำการบูตอนุกรมเวลาหลายตัวแปรใน R: กำหนดขนาดบล็อก - เรียกใช้ฟังก์ชันb.starในnpแพ็คเกจที่สร้างขนาดบล็อกสำหรับแต่ละชุด เลือกขนาดบล็อกสูงสุด ทำงานtsbootกับซีรีส์ใดก็ได้โดยใช้ขนาดบล็อกที่เลือก ใช้ดัชนีจากเอาต์พุต bootstrap เพื่อสร้างอนุกรมเวลาหลายตัวแปรอีกครั้ง มีคนแนะนำให้ใช้แพคเกจ meboot เป็นทางเลือกแทน block bootstrap แต่เนื่องจากฉันไม่ได้ใช้ชุดข้อมูลทั้งหมดเพื่อเลือกขนาดบล็อกฉันไม่แน่ใจว่าจะรักษาความสัมพันธ์ระหว่างชุดข้อมูลอย่างไรถ้าฉันใช้ดัชนีที่สร้างขึ้นโดยใช้mebootบน หนึ่งชุด หากใครมีประสบการณ์กับ meboot ในการตั้งค่าหลายตัวแปรฉันจะขอบคุณคำแนะนำในกระบวนการอย่างมาก

1
การถดถอยเชิงเส้นหลายตัวแปรกับแบบจำลองการถดถอยหลายตัวแปร
ในการตั้งค่าการถดถอยแบบไม่รวมตัวแปรเราพยายามทำแบบจำลอง y=Xβ+noisey=Xβ+noisey = X\beta +noise ที่เวกเตอร์ของการสังเกตและเมทริกซ์การออกแบบด้วยทำนาย การแก้ปัญหาคือ(Xy∈Rny∈Rny \in \mathbb{R}^nnnnX∈Rn×mX∈Rn×mX \in \mathbb{R}^{n \times m}mmmβ0=(XTX)−1Xyβ0=(XTX)−1Xy\beta_0 = (X^TX)^{-1}Xy ในการตั้งค่าการถดถอยหลายตัวแปรเราพยายามสร้างแบบจำลอง Y=Xβ+noiseY=Xβ+noiseY = X\beta +noise ที่เป็นเมทริกซ์ของการสังเกตและตัวแปรแฝงที่แตกต่างกันการแก้ปัญหาคือ(Xy∈Rn×py∈Rn×py \in \mathbb{R}^{n \times p}nnnpppβ0=(XTX)−1XYβ0=(XTX)−1XY\beta_0 = (X^TX)^{-1}XY คำถามของฉันเป็นอย่างไรที่แตกต่างจากการดำเนินการถดถอยเชิงเส้นที่แตกต่างกันอย่างไร ? ฉันอ่านที่นี่ว่าในกรณีหลังเราคำนึงถึงความสัมพันธ์ระหว่างตัวแปรตาม แต่ฉันไม่เห็นจากคณิตศาสตร์ppp

1
การกระจายตัวตัวอย่างของรัศมีของการแจกแจงแบบปกติ 2D
การกระจายปกติ bivariate ที่มีค่าเฉลี่ยและแปรปรวนเมทริกซ์Σสามารถเขียนอีกครั้งในพิกัดเชิงขั้วที่มีรัศมีRและมุมθ คำถามของฉันคือคือการกระจายตัวอย่างของสิ่งที่R , ที่อยู่, ระยะห่างจากจุดxไปยังศูนย์ประมาณˉ xได้รับตัวอย่างแปรปรวนเมทริกซ์S ?μμ\muΣΣ\Sigmarrrθθ\thetar^r^\hat{r}xxxx¯x¯\bar{x}SSS พื้นหลัง: ระยะทางจริงจากจุดxค่าเฉลี่ยμดังต่อไปนี้การกระจายฮอยต์ ด้วยค่าลักษณะเฉพาะλ 1 , λ 2ของΣและλ 1 > λ 2พารามิเตอร์รูปร่างของมันคือq = 1rrrxxxμμ\muλ1,λ2λ1,λ2\lambda_{1}, \lambda_{2}ΣΣ\Sigmaλ1>λ2λ1>λ2\lambda_{1} > \lambda_{2}และพารามิเตอร์ขนาดของมันคือω=λ1+λ2 ฟังก์ชันการแจกแจงสะสมเป็นที่รู้จักกันว่าเป็นความแตกต่างสมมาตรระหว่างสองฟังก์ชันของ Marcum Qq=1(λ1+λ2)/λ2)−1√q=1(λ1+λ2)/λ2)−1q=\frac{1}{\sqrt{(\lambda_{1}+\lambda_{2})/\lambda_{2})-1}}ω=λ1+λ2ω=λ1+λ2\omega = \lambda_{1} + \lambda_{2} การจำลองแสดงให้เห็นว่าการเสียบค่าประมาณและSสำหรับμและΣลงใน cdf จริงนั้นใช้ได้กับตัวอย่างขนาดใหญ่ แต่ไม่ใช่สำหรับตัวอย่างขนาดเล็ก แผนภาพต่อไปนี้แสดงผลลัพธ์จาก 200 ครั้งx¯x¯\bar{x}SSSμμ\muΣΣ\Sigma จำลอง 20 เวกเตอร์ปกติ 2 มิติสำหรับการรวมกันของ ( x -axis), ω (แถว) และควอนไทล์ …

4
MANOVA และความสัมพันธ์ระหว่างตัวแปรตาม: แข็งแรงแค่ไหน?
ตัวแปรตามใน MANOVA ไม่ควร "มีความสัมพันธ์มากเกินไป" แต่ความสัมพันธ์มีความแข็งแกร่งแค่ไหน มันจะน่าสนใจที่จะได้รับความคิดเห็นของผู้คนในเรื่องนี้ ตัวอย่างเช่นคุณจะดำเนินการกับ MANOVA ในสถานการณ์ต่อไปนี้หรือไม่? Y1 และ Y2 มีความสัมพันธ์กับและr=0.3r=0.3r=0.3p&lt;0.005p&lt;0.005p<0.005 Y1 และ Y2 มีความสัมพันธ์กับและr=0.7r=0.7r=0.7p=0.049p=0.049p=0.049 ปรับปรุง ตัวแทนบางคนเสนอราคาเพื่อตอบสนองต่อ @onestop: "MANOVA ทำงานได้ดีในสถานการณ์ที่มีความสัมพันธ์ในระดับปานกลางระหว่าง DVs" (หมายเหตุหลักสูตรจาก San Francisco State Uni) "ตัวแปรตามมีความสัมพันธ์ซึ่งเหมาะสมกับ Manova" (ไพรเมอร์สหรัฐอเมริกา EPA Stats) "ตัวแปรตามควรเกี่ยวข้องกับแนวคิดและควรมีความสัมพันธ์กับตัวแปรอื่นในระดับต่ำถึงปานกลาง" (หมายเหตุหลักสูตรจากมหาวิทยาลัย Northern Arizona) "DVs มีความสัมพันธ์กันจากประมาณ. 3 ถึง. 0.7 มีสิทธิ์" (Maxwell 2001, วารสารจิตวิทยาผู้บริโภค) nb ฉันไม่ได้อ้างถึงข้อสันนิษฐานว่าสัมพันธภาพระหว่าง Y1 และ …

3
การวิเคราะห์การแทรกแซงด้วยอนุกรมเวลาหลายมิติ
ฉันต้องการทำการวิเคราะห์การแทรกแซงเพื่อหาปริมาณผลลัพธ์ของการตัดสินใจเชิงนโยบายเกี่ยวกับการขายแอลกอฮอล์เมื่อเวลาผ่านไป อย่างไรก็ตามฉันค่อนข้างใหม่กับการวิเคราะห์อนุกรมเวลาดังนั้นฉันจึงมีคำถามเริ่มต้น จากการตรวจสอบวรรณกรรมพบว่านักวิจัยคนอื่นได้ใช้ ARIMA เพื่อจำลองการขายเครื่องดื่มแอลกอฮอล์ตามลำดับเวลาโดยมีตัวแปรหุ่นจำลองเป็นตัวแทนเพื่อจำลองผลกระทบของการแทรกแซง ในขณะที่สิ่งนี้ดูเหมือนจะเป็นวิธีการที่สมเหตุสมผล แต่ชุดข้อมูลของฉันก็ยิ่งดีกว่าที่ฉันเคยเขียนในวรรณคดี ประการแรกชุดข้อมูลของฉันถูกจำแนกตามประเภทเครื่องดื่ม (เช่นเบียร์ไวน์สุรา) แล้วแยกตามเขตภูมิศาสตร์ต่อไป ในขณะที่ฉันสามารถสร้างการวิเคราะห์ ARIMA แยกต่างหากสำหรับแต่ละกลุ่มที่ไม่ได้แยกจากกันแล้วเปรียบเทียบผลลัพธ์ แต่ฉันสงสัยว่ามีวิธีการที่ดีกว่าที่นี่ ใครบ้างที่คุ้นเคยกับข้อมูลอนุกรมเวลาหลายมิติมากขึ้นสามารถให้คำแนะนำหรือคำแนะนำได้?

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 &lt;- function(x,z,sx=0.3,sz=0.4) { x &lt;- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n &lt;- 500 x &lt;- runif(n)/20;z &lt;- runif(n); xs &lt;- seq(0,1,length=30)/20;zs &lt;- seq(0,1,length=30) pr &lt;- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth &lt;- matrix(test1(pr$x,pr$z),30,30) f &lt;- test1(x,z) y &lt;- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
การลงโทษแบบนุ่มนวลเทียบกับการลงโทษ
ฉันกำลังพยายามสรุปสิ่งที่ฉันเข้าใจจนถึงการวิเคราะห์หลายตัวแปรที่มีการลงโทษด้วยชุดข้อมูลมิติสูงและฉันยังคงดิ้นรนโดยใช้คำจำกัดความที่ถูกต้องเกี่ยวกับการลงโทษที่นุ่มนวลกับLasso (หรือ )L1L1L_1 แม่นยำยิ่งขึ้นฉันใช้การกระจัดกระจาย PLS เพื่อวิเคราะห์โครงสร้างข้อมูลแบบ 2 บล็อกรวมถึงข้อมูลจีโนม ( polymorphisms นิวคลีโอไทด์เดี่ยวที่เราพิจารณาความถี่ของอัลลีลย่อยในช่วง {0,1,2} ซึ่งถือว่าเป็นตัวแปรตัวเลข) และ ฟีโนไทป์ต่อเนื่อง (คะแนนเชิงปริมาณลักษณะบุคลิกภาพหรือความไม่สมดุลของสมองยังถือว่าเป็นตัวแปรต่อเนื่อง) ความคิดคือการแยกตัวทำนายที่มีอิทธิพลมากที่สุด (ที่นี่ความผันแปรทางพันธุกรรมในลำดับดีเอ็นเอ) เพื่ออธิบายการแปรผันของฟีโนไทป์ระหว่างบุคคล ฉันเริ่มใช้แพ็คเกจ mixOmics R (เดิมintegrOmics) ซึ่งมีการลงโทษPLSและCCA ที่ทำให้เป็นมาตรฐาน เมื่อมองไปที่รหัส R เราพบว่า "sparsity" ในตัวทำนายนั้นเกิดจากการเลือกตัวแปรอันดับสูงสุดที่มีการโหลดสูงสุด (ในค่าสัมบูรณ์) บนองค์ประกอบ th, (อัลกอริทึม คือการทำซ้ำและคำนวณตัวแปรของการโหลดในองค์ประกอบทำให้ตัวบล็อกการทำนายในแต่ละการวนซ้ำดูการกระจัดกระจาย PLS: การเลือกตัวแปรเมื่อรวมข้อมูล Omicsสำหรับภาพรวม) ในทางตรงกันข้ามแพ็คเกจsplsร่วมเขียนโดย S. Keleş (ดูkkkiiii=1,…,ki=1,…,ki=1,\dots, kkkkเบาบางบางส่วนแควน้อยถดถอยสำหรับพร้อมกันขนาดลดลงและการคัดเลือกตัวแปรสำหรับคำอธิบายที่เป็นทางการมากขึ้นของวิธีการดำเนินการโดยผู้เขียนเหล่านี้) การดำเนินการ -penalization สำหรับการปรับไหมตัวแปรL1L1L_1 มันไม่ได้เป็นที่เห็นได้ชัดกับผมว่ามีความเข้มงวด "bijection" เพื่อที่จะพูดระหว่างการเลือกคุณลักษณะซ้ำขึ้นอยู่กับนุ่ม thresholding …

3
ค่าสเกลในการวิเคราะห์ discriminant เชิงเส้น (LDA) สามารถนำมาใช้เพื่อพล็อตตัวแปรอธิบายบน discriminants เชิงเส้นได้หรือไม่
การใช้ biplot ของค่าที่ได้จากการวิเคราะห์องค์ประกอบหลักเป็นไปได้ที่จะสำรวจตัวแปรอธิบายที่ประกอบกันเป็นองค์ประกอบหลัก นี่เป็นไปได้ไหมกับการวิเคราะห์จำแนกเชิงเส้น? ตัวอย่างที่มีให้ใช้ข้อมูลคือ "ข้อมูล Iris Data ของ Edgar Anderson" ( http://en.wikipedia.org/wiki/Iris_flower_data_set ) นี่คือข้อมูลม่านตา : id SLength SWidth PLength PWidth species 1 5.1 3.5 1.4 .2 setosa 2 4.9 3.0 1.4 .2 setosa 3 4.7 3.2 1.3 .2 setosa 4 4.6 3.1 1.5 .2 setosa 5 5.0 3.6 1.4 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.