คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
R: ทดสอบค่าปกติของส่วนที่เหลือของตัวแบบเชิงเส้น - ซึ่งส่วนที่เหลือที่จะใช้
ฉันต้องการทำการทดสอบ W ของ Shapiro Wilk และการทดสอบ Kolmogorov-Smirnov กับส่วนที่เหลือของแบบจำลองเชิงเส้นเพื่อตรวจสอบความเป็นไปได้ ฉันแค่สงสัยว่าสิ่งที่เหลือควรใช้สำหรับการนี้ - ส่วนที่เหลือดิบ, เพียร์สันที่เหลือ, นักเรียนที่เหลืออยู่หรือนักเรียนที่ได้มาตรฐาน? สำหรับการทดสอบ W ของ Shapiro-Wilk นั้นปรากฏว่าผลลัพธ์สำหรับส่วนที่เหลือและเพียร์สันดิบนั้นเหมือนกัน แต่ไม่ใช่สำหรับคนอื่น ๆ fit=lm(mpg ~ 1 + hp + wt, data=mtcars) res1=residuals(fit,type="response") res2=residuals(fit,type="pearson") res3=rstudent(fit) res4=rstandard(fit) shapiro.test(res1) # W = 0.9279, p-value = 0.03427 shapiro.test(res2) # W = 0.9279, p-value = 0.03427 shapiro.test(res3) # …

1
การอนุมานไม่ถูกต้องเมื่อการสังเกตไม่เป็นอิสระ
ฉันเรียนรู้ในสถิติเบื้องต้นว่าด้วยโมเดลเชิงเส้นทั่วไปเพื่อให้การอนุมานมีเหตุผลการสังเกตต้องเป็นอิสระ เมื่อการรวมกลุ่มเกิดขึ้นความเป็นอิสระอาจไม่ได้นำไปสู่การอนุมานที่ไม่ถูกต้องอีกต่อไปหากไม่นับรวม วิธีหนึ่งในการทำบัญชีสำหรับการทำคลัสเตอร์ดังกล่าวคือการใช้ตัวแบบผสม ฉันต้องการค้นหาชุดข้อมูลตัวอย่างจำลองหรือไม่ซึ่งแสดงให้เห็นอย่างชัดเจน ฉันพยายามใช้หนึ่งในชุดข้อมูลตัวอย่างบนไซต์ UCLA สำหรับการวิเคราะห์ข้อมูลคลัสเตอร์ > require(foreign) > require(lme4) > dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta") > m1 <- lm(api00~growth+emer+yr_rnd, data=dt) > summary(m1) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 740.3981 11.5522 64.092 <2e-16 *** growth -0.1027 0.2112 -0.486 0.6271 emer -5.4449 0.5395 -10.092 <2e-16 *** yr_rnd -51.0757 19.9136 -2.565 …

2
การใช้แพ็กเกจคาเร็ตนั้นเป็นไปได้หรือไม่ที่จะได้รับเมทริกซ์ความสับสนสำหรับค่าเกณฑ์เฉพาะ
ผมเคยได้รับรูปแบบการถดถอยโลจิสติก (ผ่านtrain) สำหรับการตอบสนองไบนารีและฉันได้รับเมทริกซ์ความสับสนโลจิสติกผ่านทางในconfusionMatrix caretมันให้เมทริกซ์ความสับสนของโมเดลโลจิสติกถึงฉัน แต่ฉันไม่แน่ใจว่าจะใช้เกณฑ์ใดในการรับ ฉันจะรับเมทริกซ์ความสับสนสำหรับค่าเกณฑ์เฉพาะที่ใช้confusionMatrixในได้caretอย่างไร

1
วิธีการทดสอบว่าการจัดจำหน่ายเป็นไปตามกฎหมายพลังงานหรือไม่
ฉันมีข้อมูลจำนวนผู้ใช้ที่โพสต์จำนวนคำถาม ตัวอย่างเช่น, [UserCount, QuestionCount] [2, 100] [9, 10] [3, 80] ... ... ซึ่งหมายความว่าผู้ใช้ 2 คนแต่ละคนโพสต์ 100 คำถามผู้ใช้ 9 คนโพสต์คำถาม 10 ข้อและอื่น ๆ ดังนั้นฉันจะทราบได้อย่างไรว่าการUserCount, QuestionCountกระจายตามกฎหมายพลังงานหรือไม่ ผมพบว่าแพคเกจ poweRlaw อย่างไรก็ตามฉันสามารถส่งเฉพาะตัวเลขกลุ่มเดียวเพื่อทำการประเมิน (ตัวอย่างที่มีให้ในแพ็คเกจนี้คือความถี่ของคำ) ดังนั้นฉันจะใช้แพ็คเกจนี้ได้อย่างไร หรือฉันมีอะไรผิดปกติ? [100, 100, 10, 10, 10 ... ]ฉันยังมีข้อมูลของการนับคำถามของผู้ใช้แต่ละคือ, ถ้าฉันส่งข้อมูลนี้ไปยังแพ็คเกจฉันจะได้อะไร

1
เหตุใด R's lm () จึงส่งกลับค่าสัมประสิทธิ์ที่แตกต่างจากตำราของฉัน
พื้นหลัง ฉันพยายามที่จะเข้าใจตัวอย่างแรกในหลักสูตรเกี่ยวกับแบบจำลองที่เหมาะสม (ดังนั้นนี่อาจดูเรียบง่ายอย่างน่าหัวเราะ) ฉันทำการคำนวณด้วยมือและพวกมันจับคู่ตัวอย่าง แต่เมื่อฉันทำซ้ำใน R สัมประสิทธิ์ของโมเดลจะดับ ฉันคิดว่าความแตกต่างอาจเกิดจากหนังสือเรียนที่ใช้ความแปรปรวนประชากร ( ) ในขณะที่ R อาจใช้ความแปรปรวนตัวอย่าง ( ) แต่ฉันไม่เห็นว่าจะใช้ที่ใดในการคำนวณ ตัวอย่างเช่นหาก ใช้บางส่วนส่วนช่วยเหลือในบันทึกย่อ:S 2σ2σ2\sigma^2S2S2S^2lm()var()var() ตัวส่วน n - 1 ถูกใช้ซึ่งให้ค่าประมาณที่ไม่เอนเอียงของความแปรปรวน (ร่วม) สำหรับการสังเกต iid ฉันดูที่รหัสสำหรับทั้งlm()และlm.fit()และไม่ใช้var()แต่lm.fit()ส่งผ่านข้อมูลนั้นเพื่อรวบรวมรหัส C ( z <- .Call(C_Cdqrls, x, y, tol, FALSE)) ซึ่งฉันไม่สามารถเข้าถึงได้ คำถาม ทุกคนสามารถอธิบายได้หรือไม่ว่าเหตุใด R จึงให้ผลลัพธ์ที่ต่างกัน แม้ว่าจะมีความแตกต่างในการใช้กลุ่มตัวอย่างเทียบกับความแปรปรวนของประชากรทำไมค่าสัมประสิทธิ์ประมาณต่างกัน ข้อมูล พอดีกับเส้นเพื่อทำนายขนาดรองเท้าจากเกรดในโรงเรียน # model data mod.dat <- …
13 r  regression  self-study  lm 

2
เคยมีเหตุผลไหมที่จะไม่ใช้ชื่อโพลิโนเมียลแบบฉากฉากในการถดถอยที่เหมาะสม?
โดยทั่วไปแล้วฉันสงสัยว่าจะมีการใช้พหุนามแบบมุมฉากหรือไม่เมื่อปรับการถดถอยด้วยตัวแปรลำดับที่สูงขึ้น โดยเฉพาะอย่างยิ่งฉันสงสัยว่าด้วยการใช้ R: หากpoly()มีraw = FALSEการผลิตค่าติดตั้งเช่นเดียวpoly()กับraw = TRUEและpolyมีraw = FALSEแก้บางส่วนของปัญหาที่เกี่ยวข้องกับการถดถอยพหุนามแล้วควรpoly()มีraw = FALSE เสมอจะใช้สำหรับการกระชับการถดถอยพหุนาม? ในสถานการณ์ใดจะเป็นการดีกว่าที่จะไม่ใช้poly()?

1
จะปรับขนาดการสังเกตใหม่สำหรับการคาดการณ์เมื่อแบบจำลองนั้นพอดีกับข้อมูลที่ปรับขนาดได้อย่างไร
ฉันเข้าใจแนวคิดของการปรับเมทริกซ์ข้อมูลเพื่อใช้ในตัวแบบการถดถอยเชิงเส้น ตัวอย่างเช่นใน R คุณสามารถใช้: scaled.data <- scale(data, scale=TRUE) คำถามเดียวของฉันคือสำหรับการสังเกตใหม่ที่ฉันต้องการทำนายค่าผลลัพธ์พวกเขาจะปรับขนาดได้อย่างถูกต้องอย่างไร มันจะเป็นscaled.new <- (new - mean(data)) / std(data)อย่างไร

3
การนำ PCA มาใช้อย่างเป็นขั้นเป็นตอนโดยใช้บทช่วยสอนของ Lindsay Smith
ฉันทำงานใน R ผ่านการสอน PCA ที่ยอดเยี่ยมโดย Lindsay I Smithและติดอยู่ในขั้นตอนสุดท้าย สคริปต์ R ด้านล่างพาเราขึ้นสู่สเตจ (บนหน้า 19) ซึ่งข้อมูลต้นฉบับถูกสร้างขึ้นใหม่จาก (เอกพจน์ในกรณีนี้) ส่วนประกอบหลักซึ่งควรให้พล็อตเส้นตรงตามแนวแกน PCA1 (ซึ่งเป็นข้อมูล มีเพียง 2 มิติส่วนที่สองกำลังถูกลบโดยเจตนา) d = data.frame(x=c(2.5,0.5,2.2,1.9,3.1,2.3,2.0,1.0,1.5,1.1), y=c(2.4,0.7,2.9,2.2,3.0,2.7,1.6,1.1,1.6,0.9)) # mean-adjusted values d$x_adj = d$x - mean(d$x) d$y_adj = d$y - mean(d$y) # calculate covariance matrix and eigenvectors/values (cm = cov(d[,1:2])) #### outputs ############# …
13 r  pca 

3
ฉันจะทดสอบได้อย่างไรว่าการแจกแจงสองแบบ (ไม่ปกติ) แตกต่างกันอย่างไร
ฉันได้อ่านเกี่ยวกับการทดสอบของนักเรียนแล้ว แต่ดูเหมือนว่าจะใช้งานได้เมื่อเราสามารถสันนิษฐานได้ว่าการแจกแจงดั้งเดิมจะกระจายอยู่ตามปกติ ในกรณีของฉันพวกเขาไม่แน่นอน นอกจากนี้หากฉันมีการแจกแจง 13 ครั้งฉันต้องทำแบบ13^2ทดสอบหรือไม่?

2
การทดสอบของ Dunnett ใน R คืนค่าต่างกันในแต่ละครั้ง
ฉันใช้ไลบรารี R 'multcomp' ( http://cran.r-project.org/web/packages/multcomp/ ) เพื่อคำนวณการทดสอบของ Dunnett ฉันใช้สคริปต์ด้านล่าง: Group <- factor(c("A","A","B","B","B","C","C","C","D","D","D","E","E","F","F","F")) Value <- c(5,5.09901951359278,4.69041575982343,4.58257569495584,4.79583152331272,5,5.09901951359278,4.24264068711928,5.09901951359278,5.19615242270663,4.58257569495584,6.16441400296898,6.85565460040104,7.68114574786861,7.07106781186548,6.48074069840786) data <- data.frame(Group, Value) aov <- aov(Value ~ Group, data) summary(glht(aov, linfct=mcp(Group="Dunnett"))) ตอนนี้ถ้าฉันรันสคริปต์นี้ผ่าน R Console หลาย ๆ ครั้งฉันจะได้ผลลัพธ์ที่แตกต่างกันเล็กน้อยในแต่ละครั้ง นี่คือตัวอย่างหนึ่ง: Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Dunnett Contrasts Fit: aov(formula = Value …

2
ARIMA vs ARMA ในซีรี่ส์ที่ต่างกัน
ใน R (2.15.2) ฉันติดตั้ง ARIMA หนึ่งครั้ง (3,1,3) ในอนุกรมเวลาหนึ่งครั้งและ ARMA (3,3) หนึ่งครั้งในช่วงเวลาที่ต่างกัน พารามิเตอร์ที่ติดตั้งแตกต่างกันซึ่งฉันอ้างถึงวิธีการติดตั้งใน ARIMA นอกจากนี้การติดตั้ง ARIMA (3,0,3) ในข้อมูลเดียวกันกับ ARMA (3,3) จะไม่ส่งผลให้มีพารามิเตอร์เหมือนกันไม่ว่าวิธีการฟิตติ้งที่ฉันใช้จะเป็นอย่างไร ฉันสนใจที่จะระบุว่าความแตกต่างนั้นมาจากไหนและด้วยพารามิเตอร์ใดที่ฉันสามารถทำได้ (ถ้าหากทั้งหมด) พอดีกับ ARIMA เพื่อให้ได้ค่าสัมประสิทธิ์ของความพอดีเหมือนกับ ARMA รหัสตัวอย่างที่จะสาธิต: library(tseries) set.seed(2) #getting a time series manually x<-c(1,2,1) e<-c(0,0.3,-0.2) n<-45 AR<-c(0.5,-0.4,-0.1) MA<-c(0.4,0.3,-0.2) for(i in 4:n){ tt<-rnorm(1) t<-x[length(x)]+tt+x[i-1]*AR[1]+x[i-2]*AR[2]+x[i-3]*AR[3]+e[i-1]*MA[1]+e[i-2]*MA[2]+e[i-3]*MA[3] x<-c(x,t) e<-c(e,tt) } par(mfrow=c(2,1)) plot(x) plot(diff(x,1)) …
13 r  time-series  arima  fitting  arma 

1
การประเมินรูปแบบการถดถอยโลจิสติก
ฉันกำลังทำงานกับโมเดลโลจิสติกส์และฉันมีปัญหาในการประเมินผลลัพธ์ โมเดลของฉันเป็น logom ทวินาม ตัวแปรอธิบายของฉันคือ: ตัวแปรเด็ดขาดที่มี 15 ระดับตัวแปร dichotomous และ 2 ตัวแปรต่อเนื่อง My N มีขนาดใหญ่> 8000 ฉันพยายามจำลองการตัดสินใจของ บริษัท ที่จะลงทุน ตัวแปรตามคือการลงทุน (ใช่ / ไม่ใช่) ตัวแปรระดับ 15 เป็นอุปสรรคที่แตกต่างกันสำหรับการลงทุนที่รายงานโดยผู้จัดการ ตัวแปรที่เหลือคือการควบคุมการขายเครดิตและกำลังการผลิตที่ใช้ ด้านล่างคือผลลัพธ์ของฉันโดยใช้rmsแพ็คเกจใน R Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 8035 LR chi2 399.83 R2 0.067 C 0.632 1 5306 d.f. …

2
การกระจายตัวใน summary.glm ()
ฉันทำ glm.nb โดย glm1<-glm.nb(x~factor(group)) กับกลุ่มที่เป็น categorial และ x เป็นตัวแปรเมทริกซ์ เมื่อฉันพยายามที่จะได้รับการสรุปผลที่ฉันได้รับผลลัพธ์ที่แตกต่างกันเล็กน้อยขึ้นอยู่กับว่าผมใช้หรือsummary() ให้ฉันsummary.glmsummary(glm1) ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.1044 0.1519 0.687 0.4921 factor(gruppe)2 0.1580 0.2117 0.746 0.4555 factor(gruppe)3 0.3531 0.2085 1.693 0.0904 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 …

4
Boxplot เทียบเท่ากับการแจกของหนัก
สำหรับข้อมูลที่กระจายตามปกติประมาณกล่องแปลงเป็นวิธีที่ดีในการมองเห็นค่ามัธยฐานและการแพร่กระจายของข้อมูลได้อย่างรวดเร็วเช่นเดียวกับการปรากฏตัวของค่าผิดปกติใด ๆ อย่างไรก็ตามสำหรับการแจกแจงแบบเทลด์ที่หนักกว่านั้นจำนวนมากของคะแนนจะแสดงเป็นค่าผิดปกติเนื่องจากค่าผิดปกติถูกกำหนดว่าอยู่นอกปัจจัยคงที่ของ IQR และสิ่งนี้เกิดขึ้นแน่นอนบ่อยครั้งมากขึ้นด้วยการแจกแจงแบบหนา ดังนั้นสิ่งที่ผู้คนใช้ในการมองเห็นข้อมูลประเภทนี้? มีอะไรที่ดัดแปลงเพิ่มเติมหรือไม่ ฉันใช้ ggplot กับ R ถ้ามันสำคัญ

2
การถดถอยเชิงเส้นและไม่เชิงเส้น
ฉันมีชุดของค่าและที่เกี่ยวข้องในทางทฤษฎีชี้แจง:xxxyyy y=axby=axby = ax^b วิธีหนึ่งในการรับค่าสัมประสิทธิ์คือการใช้ลอการิทึมธรรมชาติทั้งสองด้านและปรับโมเดลเชิงเส้นให้เหมาะสม: > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] อีกวิธีหนึ่งในการได้มาซึ่งสิ่งนี้คือการใช้การถดถอยแบบไม่เชิงเส้นโดยกำหนดค่าเริ่มต้นตามทฤษฎี: > fit <- nls(y~a*x^b, start=c(a=50, b=1.3)) การทดสอบของฉันแสดงผลลัพธ์ที่เกี่ยวข้องกับทฤษฎีได้ดีขึ้นและมากขึ้นถ้าฉันใช้อัลกอริทึมที่สอง อย่างไรก็ตามฉันต้องการทราบความหมายทางสถิติและความหมายของแต่ละวิธี อันไหนดีกว่ากัน?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.