คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

2
สัมประสิทธิ์ประมาณขึ้นเมื่อใดโดยประมาณการถดถอยโลจิสติกและโลจิสติกส์
เมื่อการสร้างแบบจำลองสัดส่วนอย่างต่อเนื่อง (เช่นพืชพรรณตามสัดส่วนที่ quadrats สำรวจหรือสัดส่วนของเวลาในกิจกรรม) การถดถอยโลจิสติกถือว่าไม่เหมาะสม (เช่นWarton & Hui (2011) Arcsine เป็น asinine: การวิเคราะห์สัดส่วนในระบบนิเวศ ) แต่การถดถอยของ OLS หลังจาก logit-transform สัดส่วนหรือบางทีการถดถอยเบต้ามีความเหมาะสมมากกว่า การประมาณค่าสัมประสิทธิ์ของการถดถอยแบบ logit-linear และ logistic regression แตกต่างกันอย่างไรเมื่อใช้ R's lmและglm? ใช้ชุดข้อมูลจำลองต่อไปนี้ซึ่งเราสามารถสันนิษฐานได้ว่าpเป็นข้อมูลดิบของเรา (เช่นสัดส่วนต่อเนื่องแทนที่จะแสดง ):nsuccessesntrialsnsuccessesntrials{n_{successes}\over n_{trials}} set.seed(1) x <- rnorm(1000) a <- runif(1) b <- runif(1) logit.p <- a + b*x + rnorm(1000, 0, 0.2) …
11 r  regression  logistic 

1
R - Lasso Regression - แลมบ์ดาที่แตกต่างกันต่อการถดถอย
ฉันต้องการทำสิ่งต่อไปนี้: 1) การถดถอย OLS (ไม่มีเงื่อนไขการลงโทษ) เพื่อรับค่าสัมประสิทธิ์เบต้า ; หมายถึงตัวแปรที่ใช้ในการถดถอย ฉันทำสิ่งนี้ด้วยb∗jbj∗b_{j}^{*}jjj lm.model = lm(y~ 0 + x) betas = coefficients(lm.model) 2) การถดถอยของ Lasso ที่มีเงื่อนไขการลงโทษเกณฑ์การคัดเลือกจะต้องเป็นเกณฑ์ข้อมูล Bayesian (BIC) ที่กำหนดโดย λj=log(T)T|b∗j|λj=log⁡(T)T|bj∗|\lambda _{j} = \frac{\log (T)}{T|b_{j}^{*}|} โดยที่หมายถึงหมายเลขตัวแปร / regressor,สำหรับจำนวนการสังเกตและสำหรับ betas เริ่มต้นที่ได้รับในขั้นตอนที่ 1) ฉันต้องการให้ผลลัพธ์การถดถอยสำหรับค่าเฉพาะเจาะจงซึ่งแตกต่างกันสำหรับ regressor แต่ละตัวที่ใช้ ดังนั้นถ้ามีสามตัวแปรจะมีสามค่าที่แตกต่างกัน\jjjTTTb∗jbj∗b_{j}^{*}λjλj\lambda_jλjλj\lambda_j จากนั้นปัญหาการปรับให้เหมาะสมของ OLS-Lasso minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}\underset{b\epsilon \mathbb{R}^{n} }{min} = \left \{ \sum_{t=1}^{T}(y_{t}-b^{\top} X_{t} …
11 r  regression  glmnet  lars 

1
Binomial glmm พร้อมตัวแปรเด็ดขาดพร้อมความสำเร็จเต็มรูปแบบ
ฉันกำลังเรียกใช้ glmm พร้อมกับตัวแปรตอบสนองทวินามและตัวทำนายหมวดหมู่ ผลแบบสุ่มจะได้รับจากการออกแบบที่ซ้อนกันที่ใช้สำหรับการรวบรวมข้อมูล ข้อมูลมีลักษณะดังนี้: m.gen1$treatment [1] sucrose control protein control no_injection ..... Levels: no_injection control sucrose protein m.gen1$emergence [1] 1 0 0 1 0 1 1 1 1 1 1 0 0.... > m.gen1$nest [1] 1 1 1 2 2 3 3 3 3 4 4 4 ..... Levels: …

1
กราฟ ACF ของฉันบอกอะไรฉันเกี่ยวกับข้อมูลของฉัน
ฉันมีสองชุดข้อมูล: ชุดข้อมูลแรกของฉันคือมูลค่าของการลงทุน (เป็นพันล้านดอลลาร์) เทียบกับเวลาแต่ละหน่วยเวลาเป็นหนึ่งในสี่ตั้งแต่ไตรมาส 1 ของปี 1947 เวลาขยายไปถึงไตรมาสที่ 3 ของปี 2545 ชุดข้อมูลที่สองของฉันคือ "ผลลัพธ์ของการเปลี่ยนค่าของการลงทุนใน [ชุดข้อมูลแรก] เป็นกระบวนการคงที่โดยประมาณ" ชุดแรกของข้อมูลและชุดที่สองของข้อมูล แปลง ACF ที่เกี่ยวข้อง: ฉันรู้ว่าแผนการนั้นถูกต้องและฉันถูกขอให้ "แสดงความคิดเห็นกับพวกเขา" ผมค่อนข้างใหม่ในฟังก์ชั่นอัตและฉันไม่ได้อย่างสิ้นเชิงแน่ใจว่าสิ่งที่มันบอกฉันเกี่ยวกับข้อมูลของฉัน หากใครสามารถใช้เวลาอธิบายสั้น ๆ มันจะได้รับการชื่นชมอย่างมาก

1
การจำลองมอนติคาร์โลในอาร์
ฉันพยายามที่จะแก้ปัญหาการออกกำลังกายต่อไปนี้ แต่จริง ๆ แล้วฉันไม่มีเงื่อนงำเกี่ยวกับวิธีการเริ่มต้นทำเช่นนี้ ฉันพบรหัสบางอย่างในหนังสือของฉันที่ดูเหมือนว่ามัน แต่เป็นการออกกำลังกายที่แตกต่างอย่างสิ้นเชิงและฉันไม่รู้วิธีการเชื่อมโยงพวกเขากับแต่ละคน ฉันจะเริ่มเลียนแบบการมาถึงได้อย่างไรและฉันจะรู้ได้อย่างไรเมื่อพวกเขาเสร็จสิ้นแล้ว ฉันรู้วิธีจัดเก็บและคำนวณ a, b, c, d ตามนั้น แต่ฉันไม่รู้ว่าจริง ๆ แล้วฉันต้องการจำลอง monte carlo Simulation อย่างไร ใครช่วยกรุณาเริ่มต้นได้บ้าง ฉันรู้ว่านี่ไม่ใช่สถานที่สำหรับตอบคำถามของคุณ แต่ได้รับการแก้ไขแทน แต่ปัญหาคือฉันไม่รู้วิธีเริ่มต้น แผนกช่วยเหลือด้านไอทีแสดงถึงระบบเข้าคิวด้วยผู้ช่วยห้าคนที่รับสายจากลูกค้า การโทรเกิดขึ้นตามกระบวนการปัวซงโดยมีอัตราเฉลี่ยของการโทรหนึ่งครั้งทุก 45 วินาที เวลาบริการสำหรับผู้ช่วยที่ 1, 2, 3, 4 และ 5 คือตัวแปรสุ่มเอ็กซ์โพเนนเชียลทั้งหมดที่มีพารามิเตอร์λ1 = 0.1, λ2 = 0.2, λ3 = 0.3, λ4 = 0.4, และλ5 = 0.5 …

1
การใช้เครื่องมือการเรียนรู้เครื่องมาตรฐานกับข้อมูลที่ตรวจสอบแล้ว
ฉันกำลังพัฒนาแอพพลิเคชั่นพยากรณ์ซึ่งมีวัตถุประสงค์เพื่อให้ผู้นำเข้าสามารถคาดการณ์ความต้องการผลิตภัณฑ์ของตนจากเครือข่ายลูกค้าของผู้จัดจำหน่าย ตัวเลขยอดขายเป็นตัวแทนที่ดีสำหรับความต้องการตราบใดที่มีสินค้าคงคลังเพียงพอที่จะเติมเต็มความต้องการ เมื่อสินค้าคงคลังถูกดึงลงมาที่ศูนย์แม้ว่า (สถานการณ์ที่เรากำลังมองหาเพื่อช่วยให้ลูกค้าหลีกเลี่ยง) เราไม่ทราบมากว่าเราพลาดเป้าหมายโดย ลูกค้าจะทำยอดขายได้เท่าใดพวกเขามีอุปทานเพียงพอหรือไม่ วิธีการ ML แบบอิงการถดถอยแบบมาตรฐานที่ใช้การขายเป็นตัวแปรเป้าหมายอย่างง่ายจะสร้างการประมาณที่ไม่สอดคล้องกันของความสัมพันธ์ระหว่างเวลาตัวแปรอธิบายของฉันและความต้องการ การสร้างแบบจำลองบิทเป็นวิธีที่เห็นได้ชัดที่สุดในการแก้ปัญหา: http://en.wikipedia.org/wiki/Tobit_model ฉันสงสัยเกี่ยวกับการปรับ ML ป่าสุ่ม, GBMS, SVM และเครือข่ายประสาทที่ยังบัญชีสำหรับโครงสร้างเซ็นเซอร์ข้อมูลด้านซ้ายมือ ในระยะสั้นฉันจะใช้เครื่องมือการเรียนรู้ของเครื่องกับข้อมูลการถดถอยที่ถูกเซ็นเซอร์ด้านซ้ายเพื่อรับการประมาณการที่สอดคล้องกันของความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระของฉันได้อย่างไร การตั้งค่าแรกจะเป็นโซลูชั่นที่มีอยู่ใน R ตามด้วย Python ไชโย แอรอน

2
ทำไม runif ไม่สร้างผลลัพธ์เดียวกันทุกครั้ง
ทำไมเครื่องกำเนิดตัวเลขแบบสุ่มrunif()ใน R ไม่สร้างผลลัพธ์เหมือนกันทุกครั้ง? ตัวอย่างเช่น: X <- runif(100) X กำลังสร้างเอาต์พุตที่แตกต่างกันทุกครั้ง เหตุผลในการสร้างผลลัพธ์ที่แตกต่างกันทุกครั้งคืออะไร? มันทำหน้าที่อะไรในพื้นหลังที่จะทำเช่นนี้?

2
lme4 :: lmer เทียบเท่ากับ ANOVA ที่ทำซ้ำสามทางคืออะไร?
คำถามของฉันอยู่บนพื้นฐานของการตอบสนองซึ่งแสดงให้เห็นว่าlme4::lmerรูปแบบใดที่สอดคล้องกับการวัดความแปรปรวนสองทางแบบ ANOVA: require(lme4) set.seed(1234) d <- data.frame( y = rnorm(96), subject = factor(rep(1:12, 4)), a = factor(rep(1:2, each=24)), b = factor(rep(rep(1:2, each=12))), c = factor(rep(rep(1:2, each=48)))) # standard two-way repeated measures ANOVA: summary(aov(y~a*b+Error(subject/(a*b)), d[d$c == "1",])) # corresponding lmer call: anova(lmer(y ~ a*b+(1|subject) + (1|a:subject) + (1|b:subject), d[d$c == "1",])) …

6
วิธีการใน R หรือ Python เพื่อทำการเลือกคุณสมบัติในการเรียนรู้ที่ไม่มีผู้ดูแล [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา อะไรคือวิธีการ / การนำไปใช้งานใน R / Python เพื่อยกเลิก / เลือกคุณสมบัติที่ไม่สำคัญ / สำคัญในข้อมูล ข้อมูลของฉันไม่มีป้ายกำกับ (ไม่มีการสำรอง) ข้อมูลมีคุณสมบัติประมาณ ~ 100 ชนิดผสม บางตัวเป็นตัวเลขในขณะที่อื่น ๆ เป็นเลขฐานสอง (0/1)

1
อะไรคือความแตกต่างระหว่าง "การบรรทุก" และ "การโหลดความสัมพันธ์" ใน PCA และ PLS
สิ่งหนึ่งที่ต้องทำเมื่อทำการวิเคราะห์ส่วนประกอบหลัก (PCA) คือการพล็อตการโหลดสองครั้งต่อกันเพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปร ในกระดาษที่มาพร้อมกับแพคเกจ PLS Rสำหรับการทำส่วนประกอบหลักการถดถอยและการถดถอย PLS มีพล็อตที่แตกต่างกันที่เรียกว่าพล็อตโหลดความสัมพันธ์ (ดูรูปที่ 7 และหน้า 15 ในกระดาษ) การโหลดความสัมพันธ์ตามที่อธิบายไว้คือความสัมพันธ์ระหว่างคะแนน (จาก PCA หรือ PLS) และข้อมูลที่สังเกตได้จริง สำหรับฉันแล้วการโหลดและความสัมพันธ์มีความคล้ายคลึงกันยกเว้นว่าอัตราส่วนจะถูกปรับให้แตกต่างกันเล็กน้อย ตัวอย่างที่ทำซ้ำได้ใน R พร้อมกับชุดข้อมูล mtcars ในตัวมีดังนี้: data(mtcars) pca <- prcomp(mtcars, center=TRUE, scale=TRUE) #loading plot plot(pca$rotation[,1], pca$rotation[,2], xlim=c(-1,1), ylim=c(-1,1), main='Loadings for PC1 vs. PC2') #correlation loading plot correlationloadings <- cor(mtcars, pca$x) plot(correlationloadings[,1], …

3
ฟังก์ชันการแทรกแซงการถ่ายโอน ARIMA - วิธีการแสดงผล
ฉันมีชุดเวลารายเดือนที่มีการแทรกแซงและฉันต้องการที่จะหาปริมาณผลกระทบของการแทรกแซงนี้ในผล ฉันรู้ว่าซีรี่ส์ค่อนข้างสั้นและยังไม่ได้สรุปผล ข้อมูล cds <- structure(c(2580L, 2263L, 3679L, 3461L, 3645L, 3716L, 3955L, 3362L, 2637L, 2524L, 2084L, 2031L, 2256L, 2401L, 3253L, 2881L, 2555L, 2585L, 3015L, 2608L, 3676L, 5763L, 4626L, 3848L, 4523L, 4186L, 4070L, 4000L, 3498L), .Dim=c(29L, 1L), .Dimnames=list(NULL, "CD"), .Tsp=c(2012, 2014.33333333333, 12), class="ts") วิธีการ 1) ซีรี่ส์ก่อนการแทรกแซง (จนถึงตุลาคม 2013) ถูกใช้กับauto.arimaฟังก์ชัน รูปแบบที่แนะนำคือ ARIMA …

1
ทดสอบว่าสัมประสิทธิ์การถดถอยสองตัวนั้นแตกต่างกันอย่างมีนัยสำคัญ (ในอุดมคติ R)
หากนี่เป็นคำถามที่ซ้ำกันโปรดชี้ไปที่วิธีที่ถูกต้อง แต่คำถามที่คล้ายกันที่ฉันพบที่นี่ยังไม่ได้คล้ายกันเพียงพอ สมมติว่าฉันประเมินโมเดลY= α + βX+ uY=α+βX+ยูY=\alpha + \beta X + u และพบว่า 0 แต่มันกลับกลายเป็นว่าX = X 1 + X 2และฉันสงสัยว่า∂ Y / ∂ X 1 ≠ ∂ Y / ∂ X 2และโดยเฉพาะอย่างยิ่งที่∂ Y / ∂ X 1 > ∂ Y / ∂ X 2 ดังนั้นฉันจึงประเมินโมเดลY = α + β …

3
ปรับโมเดลหลายระดับให้เหมาะสมกับข้อมูลการสำรวจที่ซับซ้อนใน R
ฉันกำลังมองหาคำแนะนำเกี่ยวกับวิธีการวิเคราะห์ข้อมูลการสำรวจที่ซับซ้อนด้วยโมเดลหลายระดับในอาร์ฉันใช้surveyแพคเกจน้ำหนักเพื่อความน่าจะเป็นที่ไม่เท่ากันของการเลือกในแบบจำลองระดับเดียว แต่แพ็คเกจนี้ไม่มีฟังก์ชันสำหรับการสร้างแบบหลายระดับ lme4แพคเกจเป็นที่ดีสำหรับการสร้างแบบจำลองหลายระดับ แต่มีไม่ได้เป็นวิธีที่ฉันรู้ที่จะรวมน้ำหนักในระดับที่แตกต่างกันของการจัดกลุ่ม Asparouhov (2006)สร้างปัญหา: แบบหลายระดับมักถูกใช้เพื่อวิเคราะห์ข้อมูลจากการออกแบบการสุ่มตัวอย่างแบบกลุ่ม การออกแบบการสุ่มตัวอย่างดังกล่าวมักจะใช้ความน่าจะเป็นที่ไม่เท่ากันของการเลือกในระดับคลัสเตอร์และระดับบุคคล น้ำหนักตัวอย่างจะถูกกำหนดในหนึ่งหรือทั้งสองระดับเพื่อสะท้อนความน่าจะเป็นเหล่านี้ หากน้ำหนักการสุ่มตัวอย่างถูกเพิกเฉยไม่ว่าในระดับใดการประมาณค่าพารามิเตอร์สามารถลำเอียงอย่างมาก แนวทางหนึ่งสำหรับแบบจำลองสองระดับคือตัวประมาณความน่าจะเป็นแบบหลอกหลายระดับ (MPML) ที่ใช้ใน MPLUS ( Asparouhov et al,? ) Carle (2009)ตรวจสอบแพ็คเกจซอฟต์แวร์ที่สำคัญและให้คำแนะนำเล็กน้อยเกี่ยวกับวิธีดำเนินการต่อ: ในการดำเนินการ MLM อย่างเหมาะสมกับข้อมูลการสำรวจที่ซับซ้อนและตุ้มน้ำหนักการออกแบบนักวิเคราะห์จำเป็นต้องใช้ซอฟต์แวร์ที่สามารถรวมน้ำหนักที่ปรับสัดส่วนไว้นอกโปรแกรม ปัจจุบันโปรแกรมซอฟต์แวร์ MLM ที่สำคัญสามโปรแกรมอนุญาตสิ่งนี้: Mplus (5.2), MLwiN (2.02) และ GLLAMM น่าเสียดายที่ HLM และ SAS ไม่สามารถทำได้ West และ Galecki (2013)ให้ความเห็นที่อัปเดตมากกว่าเดิมและฉันจะเสนอราคาข้อความที่เกี่ยวข้องตามความยาว: ในบางครั้งนักวิเคราะห์ต้องการปรับ LMM ให้เหมาะกับการสำรวจชุดข้อมูลที่รวบรวมจากตัวอย่างด้วยการออกแบบที่ซับซ้อน (ดู Heeringa et al, 2010, …

1
การทดสอบฟรีดแมนกับการทดสอบวิลคอกซัน
ฉันพยายามประเมินประสิทธิภาพของอัลกอริทึมการจัดหมวดหมู่การเรียนรู้ของเครื่องภายใต้การดูแล ข้อสังเกตตกอยู่ในชั้นเรียนเล็กน้อย (2 ในขณะนี้ แต่ฉันต้องการที่จะพูดคุยเรื่องนี้กับปัญหาหลายชั้น) ที่ดึงมาจากประชากร 99 วิชา หนึ่งในคำถามที่ฉันต้องการจะตอบคือถ้าอัลกอริทึมแสดงความแตกต่างอย่างมีนัยสำคัญในความถูกต้องของการจำแนกประเภทระหว่างคลาสอินพุต สำหรับกรณีการจำแนกเลขฐานสองฉันกำลังเปรียบเทียบความแม่นยำหมายถึงระหว่างชั้นเรียนของอาสาสมัครโดยใช้การทดสอบWilcoxon ที่จับคู่ (เนื่องจากการแจกแจงแบบพื้นฐานไม่ใช่แบบปกติ) เพื่อพูดคุยขั้นตอนนี้กับปัญหาหลายชั้นฉันต้องการใช้แบบทดสอบฟรีดแมน อย่างไรก็ตามค่า p ที่ได้รับจากทั้งสองโพรซีเดอร์ในกรณีของไบนารี IV จะแตกต่างกันไปอย่างดุเดือดด้วยการทดสอบ Wilcoxon ที่ให้ผลp < .001ในขณะที่p = .25การทดสอบฟรีดแมน สิ่งนี้ทำให้ฉันเชื่อว่าฉันมีความเข้าใจผิดขั้นพื้นฐานเกี่ยวกับโครงสร้างของการทดสอบฟรีดแมน มันไม่เหมาะสมที่จะใช้การทดสอบฟรีดแมนในกรณีนี้เพื่อเปรียบเทียบผลของการวัดซ้ำของความถูกต้องในทุกวิชาหรือไม่ รหัส R ของฉันเพื่อรับผลลัพธ์เหล่านั้น ( subjectคือตัวระบุหัวเรื่อง, accความแม่นยำ DV และexpectedคลาสการสังเกต IV): > head(subject.accuracy, n=10) subject expected acc 1 10 none 0.97826087 2 10 high 0.55319149 3 …

4
วิธีแก้ไขค่าสัมประสิทธิ์หนึ่งค่าและทำให้พอดีกับค่าอื่น ๆ
ฉันต้องการแก้ไขสัมประสิทธิ์บางอย่างด้วยตัวเองพูดแล้วพอดีสัมประสิทธิ์กับตัวทำนายอื่น ๆ ทั้งหมดในขณะที่รักษาβ 1 = 1.0ในโมเดลβ1= 1.0β1=1.0\beta_1=1.0β1= 1.0β1=1.0\beta_1=1.0 ฉันจะบรรลุสิ่งนี้โดยใช้ R ได้อย่างไร ฉันต้องการทำงานกับ LASSO ( glmnet) โดยเฉพาะอย่างยิ่งถ้าเป็นไปได้ อีกวิธีหนึ่งคือวิธีการที่ฉันสามารถ จำกัด ค่าสัมประสิทธิ์นี้ในช่วงที่เฉพาะเจาะจงบอกว่า ?0.5 ≤ บีตา1≤ 1.00.5≤β1≤1.00.5\le\beta_1\le1.0

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.