คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
การใช้คอมพิวเตอร์จำลองเพื่อเข้าใจแนวคิดทางสถิติในระดับบัณฑิตศึกษา
สวัสดีฉันกำลังเรียนหลักสูตรบัณฑิตศึกษาในสถิติและเราได้ครอบคลุมสถิติการทดสอบและแนวคิดอื่น ๆ อย่างไรก็ตามฉันมักจะสามารถใช้สูตรและพัฒนาสัญชาตญาณเกี่ยวกับวิธีการทำงาน แต่ฉันมักจะรู้สึกว่าถ้าฉันสำรองการศึกษาของฉันด้วยการทดลองจำลองฉันจะพัฒนาสัญชาตญาณเป็นปัญหาที่มือ . ดังนั้นฉันจึงคิดว่าจะเขียนแบบจำลองง่าย ๆ เพื่อให้เข้าใจแนวคิดบางอย่างที่เราพูดถึงในชั้นเรียนได้ดีขึ้น ตอนนี้ฉันสามารถใช้พูด Java เพื่อ: สร้างประชากรสุ่มโดยมีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน จากนั้นนำตัวอย่างเล็ก ๆ และลองพยายามคำนวณข้อผิดพลาด Type-I และ Type-II เชิงประจักษ์ ตอนนี้คำถามที่ฉันมีคือ: นี่เป็นวิธีที่ถูกต้องตามกฎหมายในการพัฒนาสัญชาตญาณหรือไม่? มีซอฟต์แวร์ให้ทำเช่นนี้SASหรือRไม่? นี่เป็นวินัยในสถิติที่เกี่ยวข้องกับการเขียนโปรแกรมเช่น: สถิติการทดลองหรือไม่, สถิติการคำนวณ? จำลอง?

1
ข้อมูลเหล่านี้สามารถรวมกันเป็นสัดส่วนสำหรับ binomial glm ได้หรือไม่?
เราขอให้คน 60 รายชื่อแฟรนไชส์ร้านอาหารจำนวนมากในแอตแลนตาเท่าที่จะทำได้ รายการโดยรวมนั้นมีร้านอาหารกว่า 70 ร้าน แต่เรากำจัดร้านที่ถูกกล่าวถึงน้อยกว่า 10% ของผู้คนทำให้เราเหลือ 45 คนสำหรับ 45 ร้านนี้เราคำนวณสัดส่วนของผู้ให้ข้อมูลที่แสดงรายการแฟรนไชส์และเราสนใจ การสร้างแบบจำลองสัดส่วนนี้เป็นฟังก์ชั่นของงบประมาณการโฆษณาของแฟรนไชส์ ​​(บันทึกการเปลี่ยนแปลง) และปีนับตั้งแต่กลายเป็นแฟรนไชส์ ดังนั้นฉันจึงเขียนรหัสนี้: model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45) ตามที่คาดการณ์ไว้ตัวแปรทั้งสองแสดงผลที่แข็งแกร่งและมีนัยสำคัญ แต่ถึงแม้ว่าฉันรู้ว่าข้อมูลที่เป็นสัดส่วนไม่ควรเป็นแบบจำลองด้วยการถดถอย OLS ฉันก็เขียนรหัสนี้: model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45) …

2
สร้างอนุกรมเวลาที่มีข้อสังเกตหลายอย่างสำหรับแต่ละวัน
ฉันพยายามใช้อนุกรมเวลากับข้อมูลตัวอย่างรายไตรมาส (ชีวมวลสัตว์) ในช่วงเวลา 10 ปีโดยมี 3 reps ต่อไตรมาส ดังนั้น 40 วัน แต่ 120 การสังเกตทั้งหมด ฉันได้อ่านถึง SARIMA'a ในการวิเคราะห์อนุกรมเวลาของ Shumway และ Stoffer แล้วและก็เป็นแอปพลิเคชันเช่นเดียวกับ Woodward ที่เหลืออยู่ การวิเคราะห์อนุกรมเวลาของอัลประยุกต์และความเข้าใจของฉันคือแต่ละแบบจำลองนั้นอิงจากการสังเกตเพียงจุดเดียวในแต่ละจุดในอนุกรมเวลา คำถาม: ฉันจะรวมการเปลี่ยนแปลงในแต่ละการสังเกตในแบบจำลองของฉันได้อย่างไร ฉันสามารถสร้างซีรีส์ตามค่าเฉลี่ย แต่ฉันจะหลวมการเปลี่ยนแปลงในแต่ละการสังเกตและฉันคิดว่ามันเป็นสิ่งสำคัญที่จะเข้าใจสิ่งที่เกิดขึ้น
11 r  time-series 

1
จะแก้ไขค่าสัมประสิทธิ์ในการถดถอยแบบลอจิสติกอันดับที่ไม่มีสมมติฐานอัตราต่อรองใน R ได้อย่างไร?
ฉันต้องการทำการถดถอยโลจิสติกอันดับใน R โดยไม่มีสมมติฐานอัตราต่อรองสัดส่วน ฉันรู้ว่านี้สามารถทำได้โดยตรงโดยใช้vglm()ฟังก์ชั่นในโดยการตั้งค่าRparallel=FALSE แต่ปัญหาของฉันคือวิธีแก้ไขชุดสัมประสิทธิ์เฉพาะในการตั้งค่าการถดถอยนี้ ตัวอย่างเช่นสมมติว่าตัวแปรเป็นต่อเนื่องและลำดับและสามารถใช้ค่าY = 1 , 2หรือ3 หาก regressors เป็นX 1และX 2ดังนั้นสมการการถดถอยคือYYYY= 1Y=1Y = 1222333X1X1X_{1}X2X2X_{2} l o g i t ( P( Y≤ 1 ) )l o g i t ( P( Y≤ 2 ) )= α1+ β11X1+ β12X2= α2+ β21X1+ β22X2ล.โอก.ผมเสื้อ(P(Y≤1))=α1+β11X1+β12X2ล.โอก.ผมเสื้อ(P(Y≤2))=α2+β21X1+β22X2 \begin{aligned} {\rm logit} \big( P(Y …
11 r  regression  logistic 

2
พารามิเตอร์การกระจายในเอาต์พุต GLM
ฉันวิ่ง glm ใน R และใกล้ด้านล่างสุดของsummary()เอาต์พุตมันระบุ (Dispersion parameter for gaussian family taken to be 28.35031) ฉันได้ทำการค้นหาใน Google และได้เรียนรู้ว่าพารามิเตอร์การกระจายใช้เพื่อให้พอดีกับข้อผิดพลาดมาตรฐาน ฉันหวังว่าใครบางคนสามารถให้รายละเอียดเพิ่มเติมเกี่ยวกับพารามิเตอร์การกระจายคืออะไรและควรตีความอย่างไร

1
ติดตั้ง Poisson GLM ใน R - ปัญหาเกี่ยวกับอัตราเทียบกับจำนวน
ขณะนี้ฉันกำลังทำงานในโครงการที่เกี่ยวข้องกับ GLM (และในที่สุดเกม) ของการนับจำนวนข้อมูลเมื่อเวลาผ่านไป โดยปกติฉันจะทำสิ่งนี้ใน SAS แต่ฉันพยายามย้ายไปที่ R และมีปัญหา ... เมื่อฉันพอดีกับ GLM เพื่อนับข้อมูลโดยใช้สิ่งต่อไปนี้: cdi_model <- glm(counts ~ exposure + covariate + month, data=test, family = poisson) ฉันเข้าใจ: Deviance Residuals: Min 1Q Median 3Q Max -1.9825 -0.7903 -0.1187 0.5717 1.7649 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.97563 0.20117 9.821 …

2
จะคำนวณอัตราอันตรายที่คาดการณ์จากแบบจำลอง Cox PH ได้อย่างไร
ฉันมีโมเดล Cox PH ต่อไปนี้: (เวลา, กิจกรรม) ~ X + Y + Z ฉันต้องการที่จะได้รับอันตรายจากการคาดการณ์อัตรา (ฉันพูดคุยเกี่ยวกับอัตราการเกิดอันตรายไม่อัตราส่วนอันตราย) ได้รับค่าเฉพาะของX, ,Y Zฉันรู้ว่าแพ็คเกจ muhaz Rสามารถคำนวณอัตราอันตรายที่สังเกตได้ แต่ฉันสนใจในแบบจำลองที่ทำนายไว้ มีวิธีทำเช่นนี้ใน R หรือไม่?
11 r  survival  hazard  cox-model 

4
น้ำหนักเบต้าแบบมาตรฐานสำหรับการถดถอยหลายระดับ
เราจะได้น้ำหนักที่ถดถอยแบบมาตรฐาน (เอฟเฟกต์คงที่) จากการถดถอยหลายระดับได้อย่างไร และในฐานะ "Add-on": วิธีที่ง่ายที่สุดในการรับน้ำหนักมาตรฐานเหล่านี้จากmer-object คืออะไร (จากlmerฟังก์ชั่นของlme4แพ็คเกจในR)

1
การค้นหากฎที่เหมาะสมสำหรับข้อมูลใหม่โดยใช้ arules
ฉันใช้ R (และแพ็คเกจ arules) เพื่อทำธุรกรรมการขุดสำหรับกฎการเชื่อมโยง สิ่งที่ฉันต้องการทำคือสร้างกฎและนำไปใช้กับข้อมูลใหม่ {Beer=YES} -> {Diapers=YES}ตัวอย่างเช่นสมมติว่าผมมีกฎระเบียบมากแห่งหนึ่งซึ่งเป็นที่ยอมรับ จากนั้นฉันก็มีข้อมูลธุรกรรมใหม่ที่หนึ่งในรายการซื้อเบียร์ แต่ไม่ใช่ผ้าอ้อม ฉันจะระบุกฎที่พบ LHS ได้ แต่ยังไม่มี RHS ได้อย่างไร ตัวอย่าง R: install.packages("arules") library(arules) data("Groceries") **#generate Rules omitting second record** rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules")) กฎที่สร้างขึ้นคือ: > inspect(rules) lhs rhs support confidence lift 1 {} => …

1
ขยายโมเดล 2 ระดับไปสู่ปัญหาหลายระดับ
บทความเกี่ยวกับ Adaboostนี้จะให้คำแนะนำและรหัส (หน้า 17) สำหรับการขยายโมเดล 2-class ไปสู่ปัญหา K-class ฉันต้องการที่จะพูดคุยรหัสนี้เพื่อที่ฉันสามารถเสียบรุ่น 2 ระดับที่แตกต่างกันได้อย่างง่ายดายและเปรียบเทียบผลลัพธ์ เนื่องจากโมเดลการจำแนกประเภทส่วนใหญ่มีอินเตอร์เฟสสูตรและpredictวิธีการบางอย่างนี้จึงค่อนข้างง่าย น่าเสียดายที่ฉันไม่พบวิธีการแยกความน่าจะเป็นแบบคลาสจากแบบจำลอง 2 ระดับดังนั้นแต่ละรุ่นจะต้องใช้รหัสที่กำหนดเอง นี่คือฟังก์ชั่นที่ฉันเขียนเพื่อแบ่งปัญหา K-class ออกเป็นปัญหา 2 ระดับและคืน K โมเดล: oneVsAll <- function(X,Y,FUN,...) { models <- lapply(unique(Y), function(x) { name <- as.character(x) .Target <- factor(ifelse(Y==name,name,'other'), levels=c(name, 'other')) dat <- data.frame(.Target, X) model <- FUN(.Target~., data=dat, ...) return(model) }) …

1
การวางแผนเหตุการณ์บนเส้นเวลาใน R
มีห้องสมุดพล็อตสำหรับ R ที่สามารถเปลี่ยน dataframe ของเวลาเริ่มต้นและหยุดเวลาเป็นพล็อตไทม์ไลน์ได้ดังนี้: แกน Y มีความหมายเพียงอย่างเดียวนั่นคือมันซ้อนกันพร้อมกัน แต่ไม่ได้แสดงถึงการเกิดพร้อมกันเสมอ (ดูที่ช่องว่างตรงกลาง) แต่ละกล่องสีเทาเป็นเหตุการณ์ - แถวจากดาต้าเฟรม DataFrame จะมีสองคอลัมน์เวลาเริ่มต้นและเวลาหยุด

2
นามสกุลที่เป็นไปได้สำหรับแผนการวินิจฉัยเริ่มต้นสำหรับ lm (ใน R และโดยทั่วไป)?
ฉันเริ่มขุดลงไปในฟังก์ชั่นplot.lmฟังก์ชั่นนี้ให้หกพล็อตสำหรับ lm คือ: พล็อตของสารตกค้างต่อค่าติดตั้ง พล็อตที่ตั้งมาตราส่วนของ sqrt (| residuals |) เทียบกับค่าติดตั้ง พล็อต QQ ปกติพล็อตระยะทางของ Cook เทียบกับฉลากแถว เนื้อเรื่องของส่วนที่เหลือเทียบกับการยกระดับ เนื้อเรื่องของระยะทาง Cook เทียบกับ leverage / (1-leverage) และฉันสงสัยว่าส่วนขยายทั่วไป / ที่เป็นประโยชน์อื่น ๆ ของแปลงปัจจุบันมีอยู่สำหรับตัวแบบเชิงเส้นและพวกเขาสามารถทำได้ใน R อย่างไร (ยินดีต้อนรับลิงก์ไปยังบทความของแพ็คเกจ) ดังนั้นฟังก์ชั่น boxcox (จาก {MASS}) เป็นตัวอย่างของพล็อตการวินิจฉัยอีกประโยชน์ (และเช่นคำตอบจะดี) แต่ผมอยากรู้เพิ่มเติมเกี่ยวกับรูปแบบ / ส่วนขยายในที่มีอยู่แปลงวินิจฉัยเริ่มต้นสำหรับ LM ใน R (แม้ว่าโดยทั่วไป ข้อสังเกตอื่น ๆ ในหัวข้อยินดีเสมอ) นี่คือตัวอย่างง่ายๆของสิ่งที่ฉันหมายถึง: #Some example code …

1
ค่าที่ทำนายไว้ส่งคืนโดยฟังก์ชัน Pred () ใน R เมื่อใช้ข้อมูลต้นฉบับเป็นอินพุตคืออะไร
หลังจากรันการถดถอยของแบบฟอร์มreg <- lm(y ~ x1 + x2, data=example)บนชุดข้อมูลฉันสามารถรับค่าที่ทำนายได้โดยใช้ predict(reg, example, interval="prediction", level=0.95) ฉันสงสัยว่าค่าที่ทำนายไว้จริงหมายถึงอะไรเมื่อฉันใช้การถดถอยเพื่อทำนายชุดข้อมูลที่แท้จริง ฉันไม่ควรได้รับค่าดั้งเดิมหรือไม่?
11 r  regression 

2
ความสัมพันธ์ระหว่างตัวแปรเด็ดขาด
มีจำนวนมากเกี่ยวกับ collinearity ที่เกี่ยวกับการทำนายแบบต่อเนื่อง แต่ไม่มากนักที่ฉันสามารถค้นหาในตัวทำนายแบบหมวดหมู่ ฉันมีข้อมูลประเภทนี้แสดงไว้ด้านล่าง ปัจจัยแรกคือตัวแปรทางพันธุกรรม (นับอัลลีล) ปัจจัยที่สองคือประเภทของโรค เห็นได้ชัดว่ายีนนำหน้าโรคและเป็นปัจจัยในการแสดงอาการที่นำไปสู่การวินิจฉัย อย่างไรก็ตามการวิเคราะห์อย่างสม่ำเสมอโดยใช้ผลบวกของสี่เหลี่ยมจัตุรัสที่มีประเภท II หรือ III ดังเช่นที่ใช้กันทั่วไปในทางจิตวิทยากับ SPSS คิดถึงผลกระทบที่เกิดขึ้น การวิเคราะห์สแควร์สจำนวนหนึ่งเป็นการวิเคราะห์แบบหยิบมันขึ้นมาเมื่อป้อนคำสั่งที่เหมาะสมเพราะมันขึ้นอยู่กับลำดับ นอกจากนี้มีแนวโน้มว่าจะมีส่วนประกอบเพิ่มเติมในกระบวนการของโรคซึ่งไม่เกี่ยวข้องกับยีนที่ไม่ได้ระบุอย่างดีกับประเภท II หรือ III ดูanova (lm1)ด้านล่าง vs lm2 หรือ Anova ข้อมูลตัวอย่าง: set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, …

3
วิธีการทำแผนภูมิวาฟเฟิลใน R?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันจะพล็อตแผนภูมิวาฟเฟิลเป็นทางเลือกแทนการใช้แผนภูมิวงกลมใน R ได้อย่างไร help.search("waffle") No help files found with alias or concept or title matching ‘waffle’ using fuzzy matching. ที่ใกล้ที่สุดที่ฉันพบ googling ออกมี mosaicplots

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.