คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
จะเข้าใจเอาต์พุตจากฟังก์ชัน polr ของ R ได้อย่างไร (สั่งการถดถอยโลจิสติก)
ฉันกำลังใหม่เพื่อ R polrสั่งการถดถอยโลจิสติกและ ส่วน "ตัวอย่าง" ที่ด้านล่างของหน้าความช่วยเหลือสำหรับpolr (ที่เหมาะกับรูปแบบการถดถอยโลจิสติกหรือ probit กับการตอบสนองต่อปัจจัยที่สั่งซื้อ) แสดง options(contrasts = c("contr.treatment", "contr.poly")) house.plr <- polr(Sat ~ Infl + Type + Cont, weights = Freq, data = housing) pr <- profile(house.plr) plot(pr) pairs(pr) มีข้อมูลอะไรบ้างpr? หน้าความช่วยเหลือในโปรไฟล์เป็นข้อมูลทั่วไปและไม่มีแนวทางสำหรับ polr กำลังplot(pr)แสดงอะไร ฉันเห็นกราฟหกตัว แต่ละคนมีแกน X ที่เป็นตัวเลขแม้ว่าฉลากจะเป็นตัวแปรตัวบ่งชี้ (ดูเหมือนว่าตัวแปรอินพุตที่เป็นตัวบ่งชี้สำหรับค่าลำดับ) จากนั้นแกน Y คือ "เอกภาพ" ซึ่งไม่ได้อธิบายอย่างสมบูรณ์ กำลังpairs(pr)แสดงอะไร ดูเหมือนพล็อตสำหรับตัวแปรอินพุตแต่ละคู่ …
26 r  logistic 

7
วิธีการหนึ่งทำ Type-III SS ANOVA ใน R ด้วยรหัสความคมชัด?
โปรดระบุรหัส R ซึ่งอนุญาตให้บุคคลหนึ่งทำการวิเคราะห์ความแปรปรวนระหว่างอาสาสมัครที่มี -3, -1, 1, 3 ตรงกันข้าม ฉันเข้าใจว่ามีการถกเถียงกันเกี่ยวกับประเภทผลรวมของกำลังสอง (SS) ที่เหมาะสมสำหรับการวิเคราะห์ดังกล่าว อย่างไรก็ตามเนื่องจากประเภทเริ่มต้นของ SS ที่ใช้ใน SAS และ SPSS (Type III) ถือเป็นมาตรฐานในพื้นที่ของฉัน ดังนั้นฉันต้องการให้ผลลัพธ์ของการวิเคราะห์นี้ตรงกับสิ่งที่สร้างขึ้นโดยโปรแกรมสถิติเหล่านั้น หากต้องการได้รับคำตอบคำตอบจะต้องโทร aov () โดยตรง แต่คำตอบอื่น ๆ อาจได้รับการโหวต (espeically ถ้าพวกเขาเข้าใจง่าย / ใช้งาน) sample.data <- data.frame(IV=rep(1:4,each=20),DV=rep(c(-3,-3,1,3),each=20)+rnorm(80)) แก้ไข:โปรดทราบความแตกต่างที่ฉันขอไม่ใช่ความคมชัดเชิงเส้นหรือพหุนามที่เรียบง่าย แต่เป็นความแตกต่างที่ได้จากการทำนายเชิงทฤษฎีคือประเภทของความแตกต่างที่กล่าวถึงโดย Rosenthal และ Rosnow

1
หนึ่งสามารถสังเกตุเห็นได้ชัดใน R ซึ่งวิธีการตรวจสอบข้ามที่ AIC และ BIC จะเทียบเท่าได้อย่างไร?
ในคำถามอื่น ๆ ในไซต์นี้คำตอบหลายข้อกล่าวว่า AIC นั้นเทียบเท่ากับการตรวจสอบความถูกต้องแบบ cross-one-out (LOO) และ BIC นั้นเทียบเท่ากับการตรวจสอบความถูกต้องข้ามแบบ K-fold มีวิธีที่จะแสดงให้เห็นถึงสังเกตุนี้ใน R หรือไม่ว่าเทคนิคที่เกี่ยวข้องใน LOO และ K-fold นั้นชัดเจนและแสดงให้เห็นว่าเทียบเท่ากับค่า AIC และ BIC หรือไม่? รหัสความคิดเห็นดีจะเป็นประโยชน์ในเรื่องนี้ นอกจากนี้ในการสาธิต BIC โปรดใช้แพ็คเกจ lme4 ดูตัวอย่างชุดข้อมูลด้านล่าง ... library(lme4) #for the BIC function generate.data <- function(seed) { set.seed(seed) #Set a seed so the results are consistent (I hope) a …
26 r  aic  cross-validation  bic 

7
ฉันจะตัดสินใจได้อย่างไรว่าจะใช้ช่วงใดในการถดถอยแบบ LOESS ใน R
ฉันใช้โมเดลการถดถอยแบบ LOESS ใน R และฉันต้องการเปรียบเทียบผลลัพธ์ของรุ่นที่แตกต่างกัน 12 แบบด้วยขนาดตัวอย่างที่แตกต่างกัน ฉันสามารถอธิบายรายละเอียดเพิ่มเติมของโมเดลจริง ๆ ได้ถ้ามันช่วยตอบคำถามได้ นี่คือขนาดตัวอย่าง: Fastballs vs RHH 2008-09: 2002 Fastballs vs LHH 2008-09: 2209 Fastballs vs RHH 2010: 527 Fastballs vs LHH 2010: 449 Changeups vs RHH 2008-09: 365 Changeups vs LHH 2008-09: 824 Changeups vs RHH 2010: 201 Changeups vs LHH 2010: …
26 r  regression  loess 

7
การทดสอบการพึ่งพาเชิงเส้นระหว่างคอลัมน์ของเมทริกซ์
ฉันมีเมทริกซ์สหสัมพันธ์ของการรักษาความปลอดภัยที่ส่งกลับซึ่งปัจจัยเป็นศูนย์ (นี่เป็นเรื่องที่น่าแปลกใจเล็กน้อยเนื่องจากเมทริกซ์สหสัมพันธ์ตัวอย่างและเมทริกซ์ความแปรปรวนร่วมที่สอดคล้องกันในทางทฤษฎีควรเป็นบวกแน่นอน) สมมติฐานของฉันคือความปลอดภัยอย่างน้อยหนึ่งรายการขึ้นอยู่กับหลักทรัพย์อื่น ๆ มีฟังก์ชั่นใน R ที่ทดสอบเมทริกซ์เชิงเส้นสำหรับการพึ่งพาเชิงเส้นแต่ละคอลัมน์หรือไม่? ตัวอย่างเช่นวิธีหนึ่งคือการสร้างเมทริกซ์ความสัมพันธ์หนึ่งการรักษาความปลอดภัยในแต่ละครั้งและคำนวณปัจจัยในแต่ละขั้นตอน เมื่อดีเทอร์มิแนนต์ = 0 แล้วหยุดตามที่คุณระบุความปลอดภัยซึ่งเป็นการรวมกันเชิงเส้นของหลักทรัพย์อื่น ๆ เทคนิคอื่นใดที่สามารถระบุการพึ่งพาเชิงเส้นในเมทริกซ์นั้นได้รับการชื่นชม

3
การหาค่า p-pearson ในสหสัมพันธ์ p
เป็นไปได้หรือไม่ที่จะหาค่า p-pearson correlation ใน R? เพื่อค้นหาความสัมพันธ์ลูกแพร์สันฉันมักจะทำเช่นนี้ col1 = c(1,2,3,4) col2 = c(1,4,3,5) cor(col1,col2) # [1] 0.8315218 แต่ฉันจะหาค่า p ของสิ่งนี้ได้อย่างไร

2
ฉันระบุโมเดลของฉันอย่างถูกต้องหรือไม่?
ฉันได้กำจัดเว็บไซต์ช่วยเหลือจำนวนมากและยังคงสับสนเกี่ยวกับวิธีระบุคำซ้อนที่ซับซ้อนมากขึ้นในรูปแบบผสมเช่นกัน นอกจากนี้ผมยังสับสนกับการใช้งานของ:และ/และ|ในการระบุการมีปฏิสัมพันธ์และทำรังที่มีปัจจัยสุ่มใช้lmer()ในแพคเกจในlme4R สำหรับจุดประสงค์ของคำถามนี้สมมติว่าฉันได้แสดงข้อมูลของฉันอย่างถูกต้องด้วยโมเดลสถิติมาตรฐานนี้: ได้รับการแก้ไขและเป็นแบบสุ่ม เป็น (โดยปริยาย) ซ้อนกันภายในYฉันj k= u + สถานีผม+ พ่วงj ( i )+ วันk+ ( สถานี× วัน)ฉันk+ ( พ่วง× วัน)j ( i ) kYผมJk=ยู+สถานีผม+พ่วงJ(ผม)+วันk+(สถานี×วัน)ผมk+(พ่วง×วัน)J(ผม)k Y_{ijk} = u + \text{station}_i + \text{tow}_{j(i)} + \text{day}_k + (\text{station}\times \text{day})_{ik} + (\text{tow}\times\text{day})_{j(i)k} stationtowdayTowstation ฉันหวังว่าแบบจำลองของฉันจะรวม Station (i, fixed), Tow (j, random, ซ้อนกันโดยนัยภายใน Station), …

2
ใน caret ความแตกต่างที่แท้จริงระหว่าง cv และ repeatcv คืออะไร?
นี่คล้ายกับคำถามวิธีการสุ่มตัวอย่าง Caret อีกครั้งแม้ว่าจะไม่เคยตอบคำถามนี้ในส่วนที่ตกลงกัน ฟังก์ชั่นรถไฟเครื่องหมายของข้อเสนอและcv repeatedcvอะไรคือความแตกต่างของการพูด: MyTrainControl=trainControl( method = "cv", number=5, repeats=5 ) VS MyTrainControl=trainControl( method = "repeatedcv", number=5, repeats=5 ) ฉันเข้าใจว่าcvแบ่งการตั้งค่าเป็น k-folds (พารามิเตอร์number) แล้วเริ่มต้นใหม่และเรียกใช้พารามิเตอร์repeatsจำนวนครั้ง สิ่งเดียวที่ฉันจะคิดว่าอาจจะเป็นปกติcvด้วยrepeatsการใช้ดัชนีที่แน่นอนเดียวกันสำหรับพับแต่ละครั้ง? โดยพื้นฐานแล้วการรันcvเท่ากันแน่นอนในแต่ละครั้ง vs อาจrepeatedcvเลือกใหม่เท่าในแต่ละครั้ง? บางคนสามารถอธิบายได้หรือไม่

4
เมื่อใดที่จะเข้าสู่การแปลงอนุกรมเวลาก่อนที่จะติดตั้งแบบจำลอง ARIMA
ก่อนหน้านี้ฉันเคยใช้โปรแกรมพยากรณ์อากาศเพื่อคาดการณ์อนุกรมเวลาที่ไม่เปลี่ยนแปลง แต่ฉันเปลี่ยนเวิร์กโฟลว์ของฉันไปเป็น R แพ็คเกจพยากรณ์สำหรับ R มีฟังก์ชั่นที่มีประโยชน์มากมาย แต่สิ่งหนึ่งที่มันไม่ได้ทำคือการแปลงข้อมูลชนิดใด ๆ .arima () ในบางกรณีการคาดการณ์โปรตัดสินใจที่จะเข้าสู่ระบบการแปลงข้อมูลก่อนที่จะทำการคาดการณ์ แต่ฉันยังไม่ได้หาสาเหตุ ดังนั้นคำถามของฉันคือ: เมื่อใดที่ฉันควรเปลี่ยนชุดเวลาของฉันก่อนที่จะลองใช้วิธี ARIMA กับมัน / แก้ไข: หลังจากอ่านคำตอบของคุณฉันจะใช้สิ่งนี้โดยที่ x คืออนุกรมเวลาของฉัน: library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } มันสมเหตุสมผลหรือไม่

5
ใช้เวลาในการตีรูปแบบของหัวและก้อยในชุดเหรียญโยน
โดยได้รับแรงบันดาลใจจากคำปราศรัยของ Peter Donnelly ที่TEDซึ่งเขากล่าวถึงว่าต้องใช้เวลานานเท่าใดในการที่รูปแบบบางอย่างจะปรากฏในชุดเหรียญโยนฉันสร้างสคริปต์ต่อไปนี้ใน R. ด้วยรูปแบบสอง 'hth' และ 'htt' คำนวณระยะเวลาเฉลี่ย (เช่นจำนวนเหรียญที่โยน) โดยเฉลี่ยก่อนที่คุณจะเข้าสู่หนึ่งในรูปแบบเหล่านี้ coin <- c('h','t') hit <- function(seq) { miss <- TRUE fail <- 3 trp <- sample(coin,3,replace=T) while (miss) { if (all(seq == trp)) { miss <- FALSE } else { trp <- c(trp[2],trp[3],sample(coin,1,T)) fail <- fail + 1 …

1
เมื่อใดที่โมเดลเชิงผสมแบบ zero-correlation จะได้ยินทฤษฎี
ใบเสนอราคาบล็อกด้านล่างจากผู้นำในฟิลด์ของการสร้างแบบจำลองเอฟเฟกต์แบบผสมอ้างว่าประสานงานการเปลี่ยนแปลงในแบบจำลองโดยไม่มีสหสัมพันธ์ระหว่างผลแบบสุ่ม (โมเดล 'ZCP') เปลี่ยนการทำนายแบบจำลอง แต่ใครบางคนสามารถอธิบายรายละเอียดเพิ่มเติมหรือปรับการเรียกร้องของพวกเขา? งบในคำถามจากเบตส์ et al, ของ 2015 กระดาษlme4, ฟิตติ้งเชิงเส้นผสมผลกระทบรุ่นใช้ lme4 , หน้า 7 วรรคสอง ( ลิงค์ดาวน์โหลด ) \newcommand{\slope}{\text{slope}} \newcommand{\int}{\text{int}} \newcommand{\intercept}{\text{intercept}} นี่คือการถอดความสิ่งที่พวกเขาเขียน: แม้ว่าตัวแบบพารามิเตอร์ความสัมพันธ์แบบศูนย์จะใช้ในการลดความซับซ้อนของแบบจำลองความชันแบบสุ่ม แบบจำลองที่ความลาดชันและจุดตัดขวางได้รับอนุญาตให้มีความสัมพันธ์ที่ไม่เป็นศูนย์นั้นไม่แปรเปลี่ยนไปจากการเปลี่ยนแปลงแบบเสริมของตัวทำนายอย่างต่อเนื่อง ความไม่แปรเปลี่ยนนี้จะหยุดลงเมื่อความสัมพันธ์ถูก จำกัด ให้เป็นศูนย์ การเปลี่ยนแปลงใด ๆ ในตัวทำนายจะจำเป็นต้องนำไปสู่การเปลี่ยนแปลงในความสัมพันธ์โดยประมาณและในโอกาสและการทำนายของแบบจำลอง 1ตัวอย่างเช่นเราสามารถขจัดความสัมพันธ์ในFM1เพียงโดยการขยับวัน [ทำนายที่มาพร้อมกับslopeslope\slope ] ตามจำนวนเงินที่เท่ากับอัตราส่วนของประมาณการหมู่-เรื่องค่าเบี่ยงเบนมาตรฐานคูณด้วยความสัมพันธ์โดยประมาณคือ2 , ρslope:intercept×σslopeσinterceptρslope:intercept×σslopeσintercept\rho_{\slope:\intercept}\times\frac{\sigma_{\slope}}{\sigma_{\intercept}} การใช้แบบจำลองดังกล่าวควรถูก จำกัด ในกรณีที่ตัวทำนายถูกวัดในอัตราส่วนสเกล (กล่าวคือจุดศูนย์บนสเกลนั้นมีความหมายไม่ใช่เฉพาะตำแหน่งที่กำหนดโดยความสะดวกสบายหรือแบบแผน) คำถาม: หมายเลขตามตัวยกด้านบน ... ฉันสามารถเห็นได้ว่าการเปลี่ยนแปลงใด ๆ ในระบบพิกัดซึ่งตัวทำนายถูกวัดจะนำไปสู่การเปลี่ยนแปลงของความสัมพันธ์โดยประมาณซึ่งนำไปสู่ความสัมพันธ์ที่ไม่เป็นศูนย์ สิ่งนี้สนับสนุนคำแถลงว่าแบบจำลองพารามิเตอร์ศูนย์ความสัมพันธ์ไม่คงที่ภายใต้การเปลี่ยนแปลงในระบบพิกัดทำนายและดังนั้นรูปแบบใด ๆ …

3
“ รุ่นรั้วกระโดดข้าม” เป็นแบบจำลองเดียวจริง ๆ หรือไม่ หรือเพียงแค่สองรุ่นแยกตามลำดับ?
พิจารณาตัวแบบอุปสรรค์ที่ทำนายข้อมูลนับyจากตัวทำนายปกติx: set.seed(1839) # simulate poisson with many zeros x <- rnorm(100) e <- rnorm(100) y <- rpois(100, exp(-1.5 + x + e)) # how many zeroes? table(y == 0) FALSE TRUE 31 69 ในกรณีนี้ฉันมีข้อมูลนับด้วย 69 ศูนย์และจำนวนบวก 31 รายการ ไม่เป็นไรตอนนี้โดยนิยามของกระบวนการสร้างข้อมูลเป็นกระบวนการปัวซองเพราะคำถามของฉันเกี่ยวกับแบบจำลองอุปสรรค์ สมมติว่าฉันต้องการจัดการค่าศูนย์ส่วนเกินเหล่านี้ด้วยแบบจำลองอุปสรรค์ จากการอ่านของฉันเกี่ยวกับพวกเขาดูเหมือนว่าแบบจำลองอุปสรรค์ไม่ใช่แบบจำลองที่แท้จริงต่อพวกเขากำลังทำการวิเคราะห์สองแบบที่ต่างกันตามลำดับ ก่อนอื่นการถดถอยแบบลอจิสติกจะทำนายว่าค่านั้นเป็นค่าบวกกับศูนย์หรือไม่ ประการที่สองการถดถอยปัวซองที่ไม่มีการตัดทอนด้วยการรวมกรณีที่ไม่เป็นศูนย์เท่านั้น ขั้นตอนที่สองนี้รู้สึกผิดกับฉันเพราะเป็น (ก) ทิ้งข้อมูลที่ดีอย่างสมบูรณ์แบบซึ่ง (b) อาจนำไปสู่ปัญหาด้านพลังงานเนื่องจากข้อมูลส่วนใหญ่เป็นศูนย์และ (c) ไม่ใช่ …

2
การประมาณ Satterthwaite vs. Kenward-Roger สำหรับองศาอิสระในโมเดลผสม
lmerTestแพคเกจให้anova()ฟังก์ชั่นหลากหลายรูปแบบเชิงเส้นที่มีตัวเลือกประมาณ Satterthwaite ของ (เริ่มต้น) หรือ Kenward-Roger ขององศาอิสระ (DF) ความแตกต่างระหว่างสองแนวทางนี้คืออะไร? เลือกได้เมื่อใด

4
การแสดงตัวแปรจำนวนมากในหนึ่งพล็อต
ฉันต้องการแสดงให้เห็นว่าคุณค่าของตัวแปรบางตัว (~ 15) เปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป แต่ฉันอยากจะแสดงให้เห็นว่าตัวแปรแตกต่างจากกันในแต่ละปีอย่างไร ดังนั้นฉันจึงสร้างพล็อตนี้: แต่แม้ว่าเมื่อเปลี่ยนชุดรูปแบบสีหรือเพิ่มประเภทของเส้น / รูปร่างที่แตกต่างกันก็ดูยุ่งเหยิง มีวิธีที่ดีกว่าในการมองเห็นข้อมูลประเภทนี้หรือไม่? ทดสอบข้อมูลด้วยรหัส R: structure(list(Var = structure(c(1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L, 6L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 8L, …

5
วิธีการทดสอบและหลีกเลี่ยงความหลากสีในโมเดลเชิงเส้นผสม?
ฉันกำลังใช้โมเดลเชิงเส้นเชิงเส้นผสม ฉันใช้แพ็คเกจ "lme4" ใน R แบบจำลองของฉันอยู่ในรูปแบบ: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) ก่อนใช้แบบจำลองของฉันฉันตรวจสอบความเป็นไปได้หลายทางระหว่างตัวทำนาย ฉันทำสิ่งนี้โดย: ทำดาต้าเฟรมของเครื่องทำนาย dummy_df <- data.frame(predictor1, predictor2) ใช้ฟังก์ชัน "cor" เพื่อคำนวณความสัมพันธ์ของ Pearson ระหว่างตัวทำนาย correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2) หาก "correl_dummy_df" มากกว่า 0.80 แล้วฉันตัดสินใจว่าตัวทำนาย 1 และทำนาย 2 มีความสัมพันธ์สูงเกินไปและไม่รวมอยู่ในแบบจำลองของฉัน ในการอ่านหนังสือบางส่วนจะมีวิธีที่เป็นไปได้มากกว่าในการตรวจสอบความหลากหลายของสี ใครมีคำแนะนำเกี่ยวกับเรื่องนี้หรือไม่? "Variance Inflation …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.