คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

4
วิธีจัดการกับค่าที่หายไปเพื่อเตรียมข้อมูลสำหรับการเลือกคุณสมบัติด้วย LASSO
สถานการณ์ของฉัน: ตัวอย่างขนาดเล็ก: 116 ตัวแปรผลลัพธ์ไบนารี รายการตัวแปรอธิบายยาวแบบยาว: 44 ตัวแปรอธิบายไม่ได้มาจากด้านบนของหัวของฉัน ทางเลือกของพวกเขาขึ้นอยู่กับวรรณกรรม กรณีส่วนใหญ่ในตัวอย่างและตัวแปรส่วนใหญ่มีค่าขาดหายไป เลือกวิธีการเลือกคุณลักษณะ: LASSO แพ็คเกจ glmnet ของ R จะไม่ให้ฉันเรียกใช้รูทีน glmnet อย่างเห็นได้ชัดเนื่องจากมีค่าที่ขาดหายไปในชุดข้อมูลของฉัน ดูเหมือนจะมีวิธีการต่าง ๆ สำหรับการจัดการข้อมูลที่หายไปดังนั้นฉันอยากจะรู้ว่า: LASSO กำหนดข้อ จำกัด ใด ๆ ในแง่ของวิธีการใส่ร้ายที่ฉันสามารถใช้ได้หรือไม่? อะไรจะเป็นทางออกที่ดีที่สุดสำหรับวิธีการใส่ร้าย เป็นการดีที่ฉันต้องการวิธีการที่ฉันสามารถทำงานบน SPSS (ดีกว่า) หรือ R UPDATE1: มันชัดเจนจากคำตอบบางส่วนด้านล่างที่ฉันได้จัดการกับปัญหาพื้นฐานเพิ่มเติมก่อนที่จะพิจารณาวิธีการใส่ร้าย ฉันต้องการที่จะเพิ่มคำถามใหม่เกี่ยวกับที่นี่ ในคำตอบที่แนะนำการเข้ารหัสเป็นค่าคงที่และการสร้างตัวแปรใหม่เพื่อจัดการกับค่า 'ไม่สามารถใช้งานได้' และการใช้กลุ่ม lasso: คุณจะบอกว่าถ้าฉันใช้กลุ่ม LASSO ฉันจะสามารถใช้วิธีการที่แนะนำให้ผู้ทำนายต่อเนื่องกับผู้ทำนายหมวดหมู่ได้หรือไม่ ถ้าเป็นเช่นนั้นฉันคิดว่ามันจะเทียบเท่ากับการสร้างหมวดหมู่ใหม่ - ฉันระแวงว่านี่อาจทำให้เกิดอคติ ไม่มีใครรู้ว่าแพ็คเกจ glmnet ของ R …

1
การทดสอบอัตราส่วนความน่าจะเป็นและการทดสอบ Wald ให้ข้อสรุปที่แตกต่างกันสำหรับ glm ใน R
ฉันทำซ้ำเช่นจากทั่วไปเชิงเส้นและรูปแบบผสม MWE ของฉันอยู่ด้านล่าง: Dilution <- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates <- rep(x=5, times=10) NoPositive <- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data <- data.frame(Dilution, NoofPlates, NoPositive) fm1 <- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), data=Data) summary(object=fm1) เอาท์พุต Call: glm(formula = NoPositive/NoofPlates ~ log(Dilution), family …

3
จะตรวจสอบได้อย่างไรว่าข้อมูลของฉันตรงกับการกระจายปกติหรือไม่
ฉันต้องการตรวจสอบRว่าข้อมูลของฉันตรงกับการแจกแจงแบบล็อกปกติหรือแบบ Pareto ฉันจะทำสิ่งนั้นได้อย่างไร อาจks.testช่วยให้ฉันทำเช่นนั้นได้ แต่ฉันจะรับพารามิเตอร์αα\alphaและkkkสำหรับการกระจาย Pareto สำหรับข้อมูลของฉันได้อย่างไร

3
พล็อตสะสม / สะสม (หรือ“ การแสดงเส้นโค้ง Lorenz”)
ฉันไม่รู้ว่าแปลงดังกล่าวเรียกว่าอะไรฉันจึงตั้งคำถามโง่ ๆ สมมติว่าฉันมีชุดข้อมูลที่สั่งซื้อดังนี้ 4253 4262 4270 4383 4394 4476 4635 ... แต่ละหมายเลขสอดคล้องกับจำนวนการโพสต์ที่ผู้ใช้บางรายมีส่วนร่วมในเว็บไซต์ ฉันกำลังสังเกตุการตรวจสอบ "การมีส่วนร่วมความไม่เท่าเทียมกัน" ปรากฏการณ์ตามที่กำหนดไว้ที่นี่ เพื่อให้ง่ายต่อการเข้าใจฉันต้องการสร้างพล็อตที่ช่วยให้ผู้อ่านสรุปได้อย่างรวดเร็วเช่น "10% ของผู้ใช้มีส่วนร่วม 50% ของข้อมูล" มันควรจะมีลักษณะคล้ายกับภาพร่างสีสวยหมัดนี้เป็นที่ยอมรับ: ฉันไม่รู้เลยว่าจะเรียกสิ่งนี้ได้อย่างไรฉันไม่รู้ว่าจะหาที่ไหน นอกจากนี้หากใครบางคนมีการนำไปใช้Rสิ่งนั้นจะยอดเยี่ยม

2
การตีความฟังก์ชันสรุปสำหรับโมเดล lm ใน R
ความหมายของt valueและPr(>|t|)เมื่อใช้summary()ฟังก์ชันกับตัวแบบการถดถอยเชิงเส้นใน R คืออะไร? Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 10.1595 1.3603 7.469 1.11e-13 *** log(var) 0.3422 0.1597 2.143 0.0322 *

2
น้ำหนักคะแนนความชอบในการวิเคราะห์ค่า Cox และการเลือกค่าความแปรปรวนร่วม
เกี่ยวกับการให้คะแนนความชอบ (IPTW) เมื่อทำแบบจำลองความเป็นอันตรายตามสัดส่วนของ Cox ของข้อมูลการรอดชีวิตแบบเวลาต่อเหตุการณ์: ฉันมีข้อมูลรีจิสทรีในอนาคตที่เราสนใจที่จะดูผลการรักษาของยาซึ่งโดยส่วนใหญ่แล้วผู้ป่วยจะได้รับข้อมูลพื้นฐาน ฉันไม่แน่ใจว่าจะวิเคราะห์ข้อมูลได้ดีที่สุดอย่างไร อาจเป็นไปได้ว่าตัวแปรพื้นฐานบางตัวมีระดับที่ได้รับอิทธิพลจากการรักษาและไม่ใช่วิธีอื่น ๆ (เช่นผู้ให้บริการชีวภาพบางราย) ฉันหลงทางนิดหน่อยว่า covariates ใดที่ฉันควรรวมไว้ในแบบจำลองคะแนนความชอบสำหรับการประเมินน้ำหนักและสิ่งที่ฉันควรจะรวมเป็น covariates ในcoxphรูปแบบ (ถ้ามี) คำแนะนำในทิศทางที่ถูกต้องจะเป็นประโยชน์! ฉันยังไม่สามารถค้นหาวรรณกรรมเกี่ยวกับเรื่องนี้ในการสร้างแบบจำลองของ CoxPh ได้ในตอนนี้ ฉันคิดว่าโควาเรียที่เป็นตัวแทนของการรักษาที่มีพื้นฐานที่ว่า (อาจ) มีอิทธิพลต่อผลลัพธ์ควรรวมอยู่ใน Cox PH covariates แต่ฉันไม่แน่ใจในเรื่องนี้ ฉันจะทราบได้อย่างไรว่าควรรวมตัวแปรตัวใดเป็นโควาเรียต์ในโมเดล Cox แทนที่จะใช้ในการคำนวณน้ำหนักคะแนนความชอบ? คำถามติดตาม ฉันเข้าใจปัญหาที่สืบทอดมาของการประเมินผลการรักษาของการแทรกแซงบางอย่างที่ได้เริ่มขึ้นแล้ว - นั่นคือแพร่หลายในหมู่ผู้ป่วยก่อนที่จะเริ่มการสังเกต ทั้งในเรื่องที่เกี่ยวกับการแนะนำอคติที่เกี่ยวข้องกับการเปลี่ยนแปลงเวลาของความเสี่ยง (เช่นผลข้างเคียงที่พบบ่อยในปีแรกของการบำบัด) และเพื่อนร่วมทุนที่ได้รับผลกระทบจากการรักษา หากฉันไม่เข้าใจผิดนี่เป็นข้อเสนอที่เป็นสาเหตุของความคลาดเคลื่อนระหว่างการสังเกตและการสุ่มว่าเกี่ยวกับหัวใจและหลอดเลือดและการบำบัดทดแทนฮอร์โมน ในชุดข้อมูลของฉันในอีกทางหนึ่งเราสนใจที่จะดูผลกระทบที่อาจเกิดขึ้นจากการรักษา ถ้าฉันใช้การปรับคะแนนความชอบเพื่อตรวจสอบผลการรักษาในหมู่ผู้ใช้ที่แพร่หลายเช่นการใช้ยาก่อนการสังเกตในข้อมูลกลุ่มและเราสังเกตเห็นผลข้างเคียงของการรักษาด้วยยา (และนี่คือสิ่งที่เรากำลังมองหา) ฉันสามารถแยกแยะความเป็นไปได้ที่จะประเมินความเสี่ยงที่เกี่ยวข้องกับการรักษามากเกินไปได้หรือไม่? คือตราบใดที่ความเสี่ยงนั้นเพิ่มขึ้นอย่างมีนัยสำคัญมันเป็น "แน่นอน" ที่สุดที่ไม่ได้ป้องกัน? ฉันไม่สามารถจินตนาการถึงตัวอย่างที่ความลำเอียงชนิดนี้สามารถแนะนำการประเมินค่าความเสี่ยงสูงเกินไปของการเชื่อมโยงความเสี่ยงที่ผิดพลาดในบริบทนี้

6
การระบุค่าผิดปกติสำหรับการถดถอยเชิงเส้น
ฉันกำลังวิจัยเกี่ยวกับการตอบสนองการทำงานของไร ฉันต้องการทำการถดถอยเพื่อประเมินพารามิเตอร์ (อัตราการโจมตีและเวลาจัดการ) ของฟังก์ชัน Rogers type II ฉันมีชุดข้อมูลของการวัด ฉันจะกำหนดค่าผิดปกติได้ดีที่สุดอย่างไร สำหรับการถดถอยของฉันฉันใช้สคริปต์ต่อไปนี้ใน R (การถดถอยเชิงเส้นที่ไม่ใช่): (dateet เป็นไฟล์ข้อความ 2 คอลัมน์แบบง่าย ๆ ที่เรียกว่าdata.txtไฟล์ที่มีN0ค่า (จำนวนเหยื่อเริ่มต้น) และFRค่า (จำนวนเหยื่อกินในช่วง 24 ชั่วโมง): library("nlstools") dat <- read.delim("C:/data.txt") #Rogers type II model a <- c(0,50) b <- c(0,40) plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR") rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)} params1 <- list(attackR3_N=0.04,Th3_N=1.46) RogersII_N …

2
ฉันจะปรับปรุงเสถียรภาพเครือข่ายประสาทของฉันได้อย่างไร
ฉันใช้ neuralnet ใน R เพื่อสร้าง NN พร้อมอินพุต 14 ช่องและเอาต์พุตเดียว ฉันสร้าง / ฝึกอบรมเครือข่ายหลายครั้งโดยใช้ข้อมูลการฝึกอบรมอินพุตเดียวกันและสถาปัตยกรรมเครือข่าย / การตั้งค่าเดียวกัน หลังจากสร้างเครือข่ายแล้วฉันจะใช้กับชุดข้อมูลทดสอบแบบสแตนด์อโลนเพื่อคำนวณค่าที่คาดการณ์ไว้ ฉันพบว่ามีความแปรปรวนจำนวนมากในแต่ละรอบซ้ำของข้อมูลที่คาดการณ์ถึงแม้ว่าอินพุตทั้งหมด (ทั้งข้อมูลการฝึกอบรมและข้อมูลการทดสอบ) จะยังคงเหมือนเดิมทุกครั้งที่ฉันสร้างเครือข่าย ฉันเข้าใจว่าจะมีความแตกต่างของน้ำหนักที่ผลิตภายใน NN ในแต่ละครั้งและจะไม่มีเครือข่ายประสาทเทียมสองเครือข่ายเหมือนกัน แต่ฉันจะพยายามสร้างเครือข่ายที่สอดคล้องกันมากขึ้นในแต่ละขบวนรถไฟได้อย่างไรจากข้อมูลที่เหมือนกัน

1
ค่าสัมประสิทธิ์จินีและขอบเขตข้อผิดพลาด
ฉันมีชุดข้อมูลเวลาที่มี N = 14 นับในแต่ละช่วงเวลาและฉันต้องการคำนวณค่าสัมประสิทธิ์ Gini และข้อผิดพลาดมาตรฐานสำหรับการประมาณนี้ในแต่ละช่วงเวลา เนื่องจากฉันมีเพียง N = 14 นับในแต่ละครั้งที่ฉันดำเนินการคำนวณความแปรปรวนของขนุนคือจากสม 7 ของ Tomson Ogwang 'วิธีการที่สะดวกในการคำนวณดัชนี Gini และ' ข้อผิดพลาดมาตรฐาน' ที่ไหนเป็นสัมประสิทธิ์จีนีของค่า N โดยไม่ต้ององค์ประกอบและเป็นค่าเฉลี่ยของk)var( G ) = n - 1n× ∑nk = 1( G ( n , k ) - G¯( n ) )2var⁡(G)=n-1n×Σk=1n(G(n,k)-G¯(n))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G ( n …

2
ปัญหาการแปลงจากปัจจัยเป็นตัวแปรตัวเลขใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน7 ปีที่ผ่านมา ฉันต้องการแปลงตัวแปรปัจจัยเป็นตัวเลข แต่as.numericไม่มีผลกระทบที่ฉันคาดหวัง ด้านล่างฉันได้รับสถิติสรุปสำหรับรุ่นตัวเลขของตัวแปรตามตัวแปรดั้งเดิม หมายถึงการนับต่อ 1 ... บางที (เขาคาดเดา) ระดับของปัจจัยที่มีทั้งชื่อและหมายเลขและฉันคาดหวังว่าค่าของตัวแปรใหม่จะมาจากชื่อเมื่อas.numericถูกออกแบบมาเพื่อใช้หมายเลข? > describe.by(as.numeric(df$sch), df$sch) group: var n mean sd median trimmed mad min max range skew kurtosis se 1 1 5389 1 0 1 1 0 1 1 0 NaN NaN 0 --------------------------------------------------------- group: 001 …

1
จะทดสอบได้อย่างไรว่าข้อมูลของฉันไม่ต่อเนื่องหรือต่อเนื่อง
สำหรับฉันที่จะเลือกเครื่องมือทางสถิติที่เหมาะสมฉันต้องระบุก่อนว่าชุดข้อมูลของฉันไม่ต่อเนื่องหรือต่อเนื่อง คุณพอจะสอนฉันได้ไหมว่าฉันจะทดสอบได้อย่างไรว่าข้อมูลนั้นไม่ต่อเนื่องหรือต่อเนื่องกับ R

1
ประเภทใดที่เหลือและระยะทางของ Cook ที่ใช้สำหรับ GLM
ไม่มีใครรู้ว่าสูตรระยะทางของ Cook คืออะไร? สูตรระยะทางของ Cook ดั้งเดิมใช้ส่วนที่เหลือเป็นราย ๆ แต่ทำไม R จึงใช้ std เพียร์สันที่เหลือเมื่อคำนวณระยะทางพล็อตของ Cook สำหรับ GLM ฉันรู้ว่าเศษที่เหลือเป็นนักเรียนไม่ได้กำหนดไว้สำหรับ GLMs แต่สูตรคำนวณระยะทางของ Cook มีลักษณะอย่างไร สมมติตัวอย่างต่อไปนี้: numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) สูตรสำหรับระยะทางของ Cook คืออะไร กล่าวอีกนัยหนึ่งสูตรการคำนวณเส้นประสีแดงคืออะไร สูตรนี้สำหรับเพียร์สันที่เหลืออยู่นั้นมาจากที่ไหน?

2
การค้นหาดัชนีคอลัมน์ตามชื่อใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา ในกรอบข้อมูลฉันต้องการรับดัชนีของคอลัมน์ตามชื่อ ตัวอย่างเช่น: x <- data.frame(foo=c('a','b','c'),bar=c(4,5,6),quux=c(4,5,6)) ฉันต้องการทราบดัชนีคอลัมน์สำหรับ "บาร์" ฉันมากับสิ่งต่อไปนี้ แต่ดูเหมือนไม่เหมาะสม มีบิวด์อินตรงไปตรงมามากกว่าที่ฉันหายไปไหม? seq(1,length(names(x)))[names(x) == "bar"] [1] 2
11 r 

1
การจำลองซีรี่ส์ ARIMA (1,1,0)
ฉันได้ติดตั้งโมเดล ARIMA กับซีรี่ส์เวลาดั้งเดิมและรุ่นที่ดีที่สุดคือ ARIMA (1,1,0) ตอนนี้ฉันต้องการจำลองซีรีส์จากโมเดลนั้น ฉันเขียนโมเดล AR (1) อย่างง่าย แต่ฉันไม่เข้าใจวิธีการปรับความแตกต่างภายในโมเดล ARI (1,1,0) รหัส R ต่อไปนี้สำหรับซีรีย์ AR (1) คือ: phi= -0.7048 z=rep(0,100) e=rnorm(n=100,0,0.345) cons=2.1 z[1]=4.1 for (i in 2:100) z[i]=cons+phi*z[i-1]+e[i] plot(ts(Y)) ฉันจะรวมคำต่าง ARI (1,1) ในรหัสข้างต้นได้อย่างไร คนใดคนหนึ่งช่วยฉันในเรื่องนี้
11 r  time-series  arima 

1
วิธีการคำนวณคะแนนความมั่นใจในการถดถอย (พร้อมฟอเรสต์แบบสุ่ม / XGBoost) สำหรับการทำนายแต่ละครั้งใน R อย่างไร
มีวิธีในการรับคะแนนความเชื่อมั่น (เราสามารถเรียกได้ว่าเป็นค่าความเชื่อมั่นหรือความน่าจะเป็น) สำหรับแต่ละค่าที่คาดการณ์เมื่อใช้อัลกอริทึมเช่นการสุ่มป่าหรือการไล่ระดับสีมากขึ้น สมมติว่าคะแนนความเชื่อมั่นนี้จะอยู่ในช่วงตั้งแต่ 0 ถึง 1 และแสดงว่าฉันมีความมั่นใจเกี่ยวกับการทำนายโดยเฉพาะอย่างไร จากสิ่งที่ฉันพบในอินเทอร์เน็ตเกี่ยวกับความมั่นใจมักจะวัดจากช่วงเวลา นี่คือตัวอย่างของช่วงความเชื่อมั่นที่คำนวณด้วยconfpredฟังก์ชันจากlavaไลบรารี: library(lava) set.seed(123) n <- 200 x <- seq(0,6,length.out=n) delta <- 3 ss <- exp(-1+1.5*cos((x-delta))) ee <- rnorm(n,sd=ss) y <- (x-delta)+3*cos(x+4.5-delta)+ee d <- data.frame(y=y,x=x) newd <- data.frame(x=seq(0,6,length.out=50)) cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd) if (interactive()) { ##' plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y") with(cc, lava::confband(newd$x, lwr, upr, fit, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.