คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

2
วัด ANOVA ซ้ำด้วย lme / lmer ใน R สำหรับปัจจัยภายในสองเรื่อง
ฉันพยายามใช้lmeจากnlmeแพ็คเกจเพื่อทำซ้ำผลลัพธ์จากaovมาตรการ ANOVAs ซ้ำ ๆ ฉันได้ทำสิ่งนี้สำหรับการทดสอบซ้ำปัจจัยเดียวและสำหรับการทดสอบสองปัจจัยด้วยปัจจัยหนึ่งระหว่างวิชาและอีกหนึ่งปัจจัยในวิชา แต่ฉันมีปัญหาในการทดลองสองปัจจัยกับสองภายใน - หัวข้อย่อย ตัวอย่างที่แสดงด้านล่าง AและBเป็นปัจจัยที่มีผลคงที่และsubjectเป็นปัจจัยที่มีผลแบบสุ่ม set.seed(1) d <- data.frame( Y = rnorm(48), subject = factor(rep(1:12, 4)), A = factor(rep(1:2, each=24)), B = factor(rep(rep(1:2, each=12), 2))) summary(aov(Y ~ A*B + Error(subject/(A*B)), data=d)) # Standard repeated measures ANOVA library(nlme) # Attempts: anova(lme(Y ~ A*B, data=d, random = …

2
ข้อผิดพลาดการไล่ระดับสีเอกพจน์ใน nls ด้วยค่าเริ่มต้นที่ถูกต้อง
ฉันพยายามใส่เส้นโค้ง + เอ็กซ์โพเนนเชียลให้พอดีกับข้อมูลบางอย่าง เป็นการเริ่มต้นฉันพยายามทำสิ่งนี้กับข้อมูลเทียมบางอย่าง ฟังก์ชั่นคือ: มันเป็นเส้นโค้งเอ็กซ์โพเนนเชียลได้อย่างมีประสิทธิภาพกับส่วนเชิงเส้นเช่นเดียวกับพารามิเตอร์ shift แนวนอนเพิ่มเติม ( m ) อย่างไรก็ตามเมื่อฉันใช้ฟังก์ชั่นของ R ฉันได้รับข้อผิดพลาด " เมทริกซ์การไล่ระดับสีเอกพจน์ที่การประมาณการพารามิเตอร์เริ่มต้น " ที่น่ากลัวแม้ว่าฉันจะใช้พารามิเตอร์เดียวกันกับที่ฉันใช้ในการสร้างข้อมูลตั้งแต่แรก ฉันลองใช้อัลกอริทึมที่แตกต่างกันค่าเริ่มต้นที่แตกต่างกันและพยายามใช้Y= a + b ⋅ r( x - m )+ c ⋅ xY=a+ข⋅R(x-ม.)+ค⋅xy=a+b\cdot r^{(x-m)}+c\cdot xnls()optimเพื่อลดผลรวมที่เหลือของกำลังสองทั้งหมดนี้จะไม่มีประโยชน์ ฉันได้อ่านว่าสาเหตุที่เป็นไปได้สำหรับการทำเช่นนี้อาจเป็นการทำให้เกินขอบเขตของสูตร แต่ฉันไม่คิดว่ามันจะเป็น (คืออะไร) มีใครมีข้อเสนอแนะสำหรับปัญหานี้หรือไม่? หรือนี่เป็นเพียงโมเดลที่น่าอึดอัดใจ? ตัวอย่างสั้น ๆ : #parameters used to generate the data reala=-3 realb=5 realc=0.5 …

3
วิธีใช้ DLM พร้อมตัวกรอง Kalman สำหรับการคาดการณ์
มีคนแนะนำฉันผ่านตัวอย่างเกี่ยวกับวิธีใช้ตัวกรอง DLM Kalman ใน R ในอนุกรมเวลา บอกว่าฉันมีค่าเหล่านี้ (ค่ารายไตรมาสที่มีฤดูกาลประจำปี); คุณจะใช้ DLM เพื่อทำนายค่าต่อไปอย่างไร และ BTW ฉันมีข้อมูลในอดีตเพียงพอหรือไม่ 89 2009Q1 82 2009Q2 89 2009Q3 131 2009Q4 97 2010Q1 94 2010Q2 101 2010Q3 151 2010Q4 100 2011Q1 ? 2011Q2 ฉันกำลังมองหาคำตอบแบบทีละขั้นตอนสำหรับวิธีทำทีละขั้นตอน ความแม่นยำในการทำนายไม่ใช่เป้าหมายหลักของฉันฉันแค่ต้องการเรียนรู้ลำดับของรหัสที่ให้ตัวเลขสำหรับไตรมาสที่ 2 ปี 2011 ถึงแม้ว่าฉันจะมีข้อมูลไม่เพียงพอ

4
โมเดลเชิงเส้นเรียบง่ายพร้อมข้อผิดพลาดที่เกี่ยวข้องอัตโนมัติใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน8 เดือนที่ผ่านมา ฉันจะพอดีกับโมเดลเชิงเส้นที่มีข้อผิดพลาดอัตโนมัติที่สัมพันธ์กันใน R ได้อย่างไร ใน stata ฉันจะใช้praisคำสั่ง แต่ฉันไม่พบ R เทียบเท่า ...

2
วิธีการพยากรณ์ VAR
ฉันกำลังสร้างแบบจำลอง VAR เพื่อคาดการณ์ราคาของสินทรัพย์และต้องการทราบว่าวิธีการของฉันดีขึ้นหรือไม่ไม่ว่าการทดสอบที่ฉันได้รวมไว้นั้นมีความเกี่ยวข้องหรือไม่และจำเป็นต้องมีอีกหรือไม่ ด้านล่างนี้เป็นกระบวนการปัจจุบันของฉันเพื่อตรวจสอบหาสาเหตุของเกรนเจอร์และคาดการณ์รูปแบบ VAR ที่เลือก require("forecast") require("vars") #Read Data da=read.table("VARdata.txt", header=T) dac <- c(2,3) # Select variables x=da[,dac] plot.ts(x) summary(x) #Run Augmented Dickey-Fuller tests to determine stationarity and differences to achieve stationarity. ndiffs(x[, "VAR1"], alpha = 0.05, test = c("adf")) ndiffs(x[, "VAR2"], alpha = 0.05, test = c("adf")) #Difference …
19 r  forecasting  modeling  var 

4
วิธีที่ดีที่สุดในการจัดการกับ heteroscedasticity?
ฉันมีพล็อตของค่าที่เหลืออยู่ของตัวแบบเชิงเส้นในการทำงานของค่าติดตั้งที่ความแตกต่างแบบเฮเทอโรเซสติกมีความชัดเจนมาก อย่างไรก็ตามฉันไม่แน่ใจว่าฉันควรทำอย่างไรต่อไปเพราะเท่าที่ฉันเข้าใจความแตกต่างแบบนี้ทำให้โมเดลเชิงเส้นของฉันไม่ถูกต้อง (นั่นถูกต้องใช่ไหม?) ใช้การติดตั้งเชิงเส้นที่มีประสิทธิภาพโดยใช้rlm()ฟังก์ชั่นของMASSแพคเกจเพราะเห็นได้ชัดว่ามีความทนทานต่อความแข็งแรงที่ต่างกัน ในฐานะที่เป็นข้อผิดพลาดมาตรฐานของสัมประสิทธิ์ของฉันผิดเนื่องจากความแตกต่างแบบ heteroscedasticity ฉันสามารถปรับข้อผิดพลาดมาตรฐานให้มีความทนทานต่อความแตกต่างแบบ heteroscedasticity ได้หรือไม่ ใช้วิธีการโพสต์ใน Stack Overflow ที่นี่: การถดถอยด้วย Heteroskedasticity แก้ไขข้อผิดพลาดมาตรฐาน วิธีใดดีที่สุดที่จะใช้เพื่อจัดการกับปัญหาของฉัน หากฉันใช้โซลูชันที่ 2 ความสามารถในการทำนายรุ่นของฉันไร้ประโยชน์อย่างสมบูรณ์หรือไม่ การทดสอบ Breusch-Pagan ยืนยันว่าความแปรปรวนไม่คงที่ ค่าคงที่ของฉันในฟังก์ชันของค่าติดตั้งมีลักษณะดังนี้: (รุ่นใหญ่กว่า)

3
เหตุใดสถิติของช่องว่างสำหรับ k-mean จึงแนะนำหนึ่งคลัสเตอร์แม้ว่าจะมีอยู่สองกลุ่มก็ตาม
ฉันกำลังใช้ K- หมายถึงการจัดกลุ่มข้อมูลของฉันและกำลังมองหาวิธีการแนะนำหมายเลขคลัสเตอร์ "ดีที่สุด" สถิติ Gap น่าจะเป็นวิธีการทั่วไปในการค้นหาหมายเลขคลัสเตอร์ที่ดี ด้วยเหตุผลบางอย่างมันคืนค่า 1 เป็นหมายเลขคลัสเตอร์ที่ดีที่สุด แต่เมื่อฉันดูข้อมูลมันชัดเจนว่ามี 2 คลัสเตอร์: นี่คือวิธีที่ฉันเรียกช่องว่างใน R: gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) ชุดผลลัพธ์: > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 …


2
อะไรคือวิธีที่ปราศจากความเจ็บปวดที่สุดในการปรับเส้นโค้งการเติบโตของโลจิสติกส์ใน R
นี่ไม่ใช่เรื่องง่ายสำหรับ Google เช่นเดียวกับสิ่งอื่น ๆ อย่างชัดเจนฉันไม่ได้พูดถึงการถดถอยแบบลอจิสติกในแง่ของการใช้การถดถอยเพื่อทำนายตัวแปรเด็ดขาด ฉันกำลังพูดถึงการปรับกราฟการเติบโตโลจิสติกให้เหมาะสมกับจุดข้อมูลที่กำหนด จะเฉพาะเจาะจง, เป็นปีที่ได้รับ 1958-2012 และปีคือประมาณ ppm CO2 ทั่วโลก (ส่วนต่อล้านส่วนของก๊าซคาร์บอนไดออกไซด์) ในเดือนพฤศจิกายนปีxxxxyyyxxx ตอนนี้มันกำลังเร่งความเร็ว แต่มันก็ต้องหยุดลงในบางจุด ดังนั้นฉันต้องการเส้นโค้งโลจิสติก ฉันยังไม่พบวิธีที่ตรงไปตรงมาในการทำเช่นนี้

1
วางระดับที่ไม่ได้ใช้ใน facets ด้วย ggplot2 [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว เป็นไปได้หรือไม่ที่จะลดระดับที่ไม่ได้ใช้ใน ggplot2s facets? นี่คือรหัสของฉัน: tab = as.data.frame(cbind(groups = mtcars$cyl, names = row.names(mtcars), val = mtcars$mpg, N = mtcars$disp)) tab$N = as.numeric(tab$N) ggplot(tab, aes(names,val)) + geom_point() + coord_flip() + theme_bw() + facet_grid(groups ~ ., drop=TRUE)#, scales="free", as.table=F, space="free") ฉันลองใช้drop=Tสวิตช์ แต่ไม่ช่วย ผมทำอะไรผิดหรือเปล่า?

4
การแสดงการตอบสนอง Likert โดยใช้ R หรือ SPSS
ฉันมีผู้ตอบแบบสอบถาม 82 คนใน 2 กลุ่ม (43 คนในกลุ่ม A และ 39 คนในกลุ่ม B) ที่ทำแบบสอบถาม 65 Likert แต่ละคำถามมีตั้งแต่ 1 - 5 (เห็นด้วยอย่างยิ่ง - ไม่เห็นด้วยอย่างยิ่ง) ฉันจึงมี dataframe ที่มี 66 คอลัมน์ (1 สำหรับแต่ละคำถาม + 1 หมายถึงการจัดสรรกลุ่ม) และ 82 แถว (1 สำหรับผู้ตอบแต่ละคน) การใช้ R หรือ SPSS ทำให้ทุกคนรู้วิธีที่ดีในการแสดงข้อมูลนี้ ฉันต้องการสิ่งนี้: (จากJason Bryer ) แต่ฉันไม่สามารถรับส่วนเริ่มต้นของรหัสในการทำงาน หรือฉันพบตัวอย่างที่ดีของวิธีการแสดงภาพข้อมูล Likert จากโพสต์ที่ผ่านการตรวจสอบความถูกต้องก่อนหน้า: …

7
ค่าเฉลี่ยของหน้าต่างเลื่อนใน R
ฉันมีเวกเตอร์ของค่าที่ฉันต้องการรายงานค่าเฉลี่ยในหน้าต่างตามสไลด์ที่เล็กกว่า ตัวอย่างเช่นสำหรับเวกเตอร์ของค่าต่อไปนี้: 4, 5, 7, 3, 9, 8 ขนาดหน้าต่าง 3 และสไลด์ 2 จะทำดังนี้: (4+5+7)/3 = 5.33 (7+3+9)/3 = 6.33 (9+8)/3 = 5.67 และคืนค่าเวกเตอร์ของค่าเหล่านี้: 5.33, 6.33, 5.67 มีฟังก์ชั่นง่าย ๆ ที่จะทำสิ่งนี้ให้ฉันหรือไม่? หากมันส่งคืนดัชนีของหน้าต่างเริ่มก็จะเป็นโบนัสเพิ่ม ในตัวอย่างนี้จะเป็น 1,3,5
19 r 

2
มันเหมาะสมหรือไม่ที่จะใช้ Logistic regression กับผลลัพธ์ไบนารีและตัวทำนาย
ฉันมีตัวแปรผลลัพธ์ไบนารี {0,1} และตัวแปรตัวทำนาย {0,1} ความคิดของฉันคือว่ามันไม่สมเหตุสมผลที่จะทำเรื่องโลจิสติกส์ยกเว้นว่าฉันรวมตัวแปรอื่น ๆ และคำนวณอัตราต่อรอง ด้วยตัวทำนายไบนารีหนึ่งจะไม่คำนวณอัตราส่วนความน่าจะเป็นที่พอเพียงเทียบกับอัตราต่อรองหรือไม่

6
การถดถอยเชิงเส้นหรือการถดถอยโลจิสติกอันดับเพื่อทำนายการจัดอันดับไวน์ (จาก 0 และ 10)
ฉันมีข้อมูลไวน์จากที่นี่ซึ่งประกอบด้วยตัวแปรอิสระ 11 ตัวเลขที่มีการจัดอันดับที่สัมพันธ์กับแต่ละรายการที่มีค่าระหว่าง 0 ถึง 10 ทำให้ชุดข้อมูลที่ยอดเยี่ยมในการใช้แบบจำลองการถดถอยเพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปรและที่เกี่ยวข้อง อันดับ อย่างไรก็ตามการถดถอยเชิงเส้นจะเหมาะสมหรือดีกว่าที่จะใช้การถดถอยโลจิสติกแบบหลายชื่อ / สั่ง การถดถอยแบบลอจิสติกดูเหมือนจะดีกว่าในหมวดหมู่ที่เฉพาะเจาะจงนั่นคือไม่ใช่ตัวแปรที่ขึ้นอยู่กับแบบต่อเนื่อง แต่ (1) มี 11 หมวดหมู่ (มากไปหน่อย?) และ (2) เมื่อตรวจสอบมีข้อมูลเพียง 6-7 ประเภทเท่านั้น 5-4 หมวดหมู่ไม่มีตัวอย่างในชุดข้อมูล ในทางกลับกันการถดถอยเชิงเส้นควรประเมินเชิงเส้นตรงระหว่างระดับ 0-10 ซึ่งดูใกล้เคียงกับสิ่งที่ฉันกำลังพยายามหา แต่ตัวแปรที่ขึ้นต่อกันไม่ได้ต่อเนื่องในชุดข้อมูล วิธีใดดีกว่ากัน หมายเหตุ: ฉันกำลังใช้ R สำหรับการวิเคราะห์ แก้ไขโดยพูดถึงประเด็นที่กล่าวถึงในคำตอบ: ไม่มีเป้าหมายทางธุรกิจเนื่องจากเป็นหลักสูตรของมหาวิทยาลัย ภารกิจคือการวิเคราะห์ชุดข้อมูลที่เลือกได้ตามที่ฉันเห็นว่าเหมาะสม การแจกแจงเรตติ้งนั้นดูปกติ (ฮิสโตแกรม / qq-plot) ค่าจริงในชุดข้อมูลอยู่ระหว่าง 3-8 (แม้ว่าทางเทคนิคจะมีค่า 0-10)

1
เหตุใด t-test และ ANOVA จึงให้ค่า p แตกต่างกันสำหรับการเปรียบเทียบสองกลุ่ม
ในบทความ Wikipedia เกี่ยวกับANOVAมันบอกว่า ในรูปแบบที่ง่ายที่สุด ANOVA จัดให้มีการทดสอบทางสถิติว่าค่าเฉลี่ยของหลาย ๆ กลุ่มมีค่าเท่ากันหรือไม่และดังนั้นจึงทำให้การทดสอบ t-test เป็นมากกว่าสองกลุ่ม ความเข้าใจของฉันเกี่ยวกับเรื่องนี้คือ ANOVA นั้นเหมือนกับ t-test เมื่อเปรียบเทียบกับกลุ่มสองกลุ่ม อย่างไรก็ตามในตัวอย่างง่าย ๆ ของฉันด้านล่าง (ใน R) การวิเคราะห์ความแปรปรวนและการทดสอบ t ให้ค่า p ที่เหมือนกัน แต่แตกต่างกันเล็กน้อย มีใครอธิบายได้บ้างไหม x1=rnorm(100,mean=0,sd=1) x2=rnorm(100,mean=0.5,sd=1) y1=rnorm(100,mean=0,sd=10) y2=rnorm(100,mean=0.5,sd=10) t.test(x1,x2)$p.value # 0.0002695961 t.test(y1,y2)$p.value # 0.8190363 df1=as.data.frame(rbind(cbind(x=x1,type=1), cbind(x2,type=2))) df2=as.data.frame(rbind(cbind(x=y1,type=1), cbind(y2,type=2))) anova(lm(x~type,df1))$`Pr(>F)`[1] # 0.0002695578 anova(lm(x~type,df2))$`Pr(>F)`[1] # 0.8190279

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.