คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

6
การใช้การทดสอบการเปลี่ยนรูปแบบใน R เพื่อใช้แทนการทดสอบแบบที (ทั้งคู่และไม่ใช่คู่)?
ฉันมีข้อมูลจากการทดสอบที่ฉันวิเคราะห์โดยใช้การทดสอบที ตัวแปรตามคือสเกลช่วงเวลาและข้อมูลไม่ถูกจับคู่ (เช่น 2 กลุ่ม) หรือจับคู่ (เช่นภายในวิชา) เช่น (ภายในวิชา): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, 89.5, 99.5, 100, 99.5) y1 <- c(99, 99.5, 99.5, 0, 50, 100, 99.5, 99.5, 0, 99.5, 99.5, 90, 80, 0, 99, 0, 74.5, …

8
วิธีจำลองข้อมูลที่เป็นไปตามข้อ จำกัด เฉพาะเช่นมีค่าเฉลี่ยเฉพาะและค่าเบี่ยงเบนมาตรฐาน
คำถามนี้กระตุ้นโดยคำถามของฉันในการวิเคราะห์อภิมาน แต่ฉันคิดว่ามันจะมีประโยชน์ในการสอนบริบทที่คุณต้องการสร้างชุดข้อมูลที่สะท้อนชุดข้อมูลที่มีอยู่เดิม ฉันรู้วิธีสร้างข้อมูลแบบสุ่มจากการแจกแจงที่กำหนด ตัวอย่างเช่นถ้าฉันอ่านเกี่ยวกับผลลัพธ์ของการศึกษาที่มี: ค่าเฉลี่ย 102 ค่าเบี่ยงเบนมาตรฐานเท่ากับ 5.2 และ ขนาดตัวอย่าง 72 ฉันสามารถสร้างข้อมูลที่คล้ายกันโดยใช้rnormใน R ตัวอย่างเช่น set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) แน่นอนค่าเฉลี่ยและ SD จะไม่เท่ากับ 102 และ 5.2 ตามลำดับ: round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 โดยทั่วไปฉันสนใจที่จะจำลองข้อมูลที่เป็นไปตามข้อ จำกัด ในกรณีข้างต้นค่าคงที่คือขนาดตัวอย่างค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน ในกรณีอื่น ๆ อาจมีข้อ จำกัด เพิ่มเติม ตัวอย่างเช่น, ขั้นต่ำและสูงสุดในข้อมูลหรือตัวแปรพื้นฐานอาจเป็นที่รู้จัก ตัวแปรอาจทราบว่าใช้กับค่าจำนวนเต็มเท่านั้นหรือเฉพาะค่าที่ไม่เป็นลบ …

4
การเลือกระหว่าง LM และ GLM สำหรับตัวแปรตอบกลับที่บันทึกการเปลี่ยนแปลง
ฉันพยายามที่จะเข้าใจปรัชญาที่อยู่เบื้องหลังโดยใช้แบบจำลองเชิงเส้นทั่วไป (GLM) เทียบกับแบบจำลองเชิงเส้น (LM) ฉันได้สร้างชุดข้อมูลตัวอย่างด้านล่างโดยที่: เข้าสู่ระบบ( y) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon ตัวอย่างไม่ได้มีข้อผิดพลาดเป็นฟังก์ชันของขนาดของyดังนั้นฉันจะสมมติว่าโมเดลเชิงเส้นของบันทึกการแปลง y จะดีที่สุด ในตัวอย่างด้านล่างนี่เป็นกรณี (ฉันคิดว่า) - เนื่องจาก AIC ของ LM ในข้อมูลการแปลงบันทึกมีค่าต่ำที่สุด AIC ของการแจกแจงแกมมา GLM ที่มีฟังก์ชั่นบันทึกการเชื่อมโยงมีผลรวมของกำลังสองน้อยลง (SS) แต่การเพิ่มระดับความอิสระเพิ่มขึ้นส่งผลให้ AIC ที่สูงขึ้นเล็กน้อย ฉันรู้สึกประหลาดใจที่การแจกแจงแบบเกาส์ AIC นั้นสูงกว่ามาก (แม้ว่า SS จะเป็นรุ่นที่ต่ำที่สุด)εε\varepsilonYyy ฉันหวังว่าจะได้รับคำแนะนำเมื่อควรเข้าใกล้รุ่น GLM - มีบางสิ่งที่ฉันควรมองหาในโมเดล LM ของฉันที่พอดีกับส่วนที่เหลือเพื่อบอกฉันว่าการกระจายอื่นเหมาะสมกว่าหรือไม่ นอกจากนี้เราควรเลือกตระกูลการแจกจ่ายที่เหมาะสมอย่างไร ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของคุณ [แก้ไข]: ตอนนี้ฉันได้ปรับสถิติสรุปเพื่อให้ …

3
คำถามเกี่ยวกับวิธีระบุเอฟเฟกต์แบบสุ่มใน lmer
เมื่อไม่นานมานี้ฉันได้วัดความหมายของคำศัพท์ใหม่ผ่านการสัมผัสซ้ำ ๆ (การปฏิบัติ: วันที่ 1 ถึงวันที่ 10) โดยการวัด ERP (EEG) เมื่อดูคำศัพท์ในบริบทที่แตกต่างกัน ฉันยังควบคุมคุณสมบัติของบริบทเช่นมีประโยชน์สำหรับการค้นหาความหมายคำใหม่ (สูงกับต่ำ) ฉันสนใจผลของการฝึกซ้อมเป็นพิเศษ (วัน) เนื่องจากการบันทึก ERP แต่ละครั้งมีเสียงดังค่าส่วนประกอบของ ERP จะได้รับโดยเฉลี่ยจากการทดลองตามเงื่อนไขเฉพาะ ด้วยlmerฟังก์ชั่นฉันใช้สูตรต่อไปนี้: lmer(ERPindex ~ practice*context + (1|participants), data=base) และ lmer(ERPindex ~ practice*context + (1+practice|participants), data=base) ฉันยังได้เห็นผลเทียบเท่าแบบสุ่มต่อไปนี้ในวรรณคดี: lmer(ERPindex ~ practice*context + (practice|participants) + (practice|participants:context), data=base) อะไรคือความสำเร็จโดยใช้ปัจจัยสุ่มของรูปแบบparticipants:context? มีแหล่งข้อมูลที่ดีที่จะอนุญาตให้ใครบางคนที่มีความรู้คร่าวๆของพีชคณิตเมทริกซ์เข้าใจอย่างแม่นยำว่าปัจจัยแบบสุ่มทำอะไรในโมเดลเชิงเส้นผสมและพวกเขาควรเลือกอย่างไร?

6
ทางเลือกในการถดถอยโลจิสติกใน R
ฉันต้องการอัลกอริทึมเป็นจำนวนมากที่ทำงานเช่นเดียวกับการถดถอยโลจิสติก นั่นคืออัลกอริธึม / แบบจำลองที่สามารถทำนายการตอบสนองแบบไบนารี (Y) ด้วยตัวแปรอธิบาย (X) ฉันจะดีใจถ้าคุณตั้งชื่ออัลกอริทึมถ้าคุณจะแสดงวิธีการใช้ในอาร์นี่คือรหัสที่สามารถอัปเดตกับรุ่นอื่น ๆ ได้: set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" …

9
R และ Python เติมเต็มซึ่งกันและกันในข้อมูลวิทยาศาสตร์ได้อย่างไร?
ในแบบฝึกหัดหรือคู่มือต่างๆการบรรยายดูเหมือนจะบอกเป็นนัยว่า R และ python อยู่ร่วมกันเป็นองค์ประกอบเสริมของกระบวนการวิเคราะห์ อย่างไรก็ตามสำหรับตาที่ไม่ได้รับการฝึกฝนของฉันดูเหมือนว่าทั้งสองภาษาจะทำสิ่งเดียวกัน ดังนั้นคำถามของฉันคือถ้ามี niches พิเศษสำหรับสองภาษาหรือถ้าเป็นเพียงการตั้งค่าส่วนตัวว่าจะใช้อย่างใดอย่างหนึ่งหรือไม่
54 r  python  software 

3
การใช้การวิเคราะห์องค์ประกอบหลัก (PCA) สำหรับการเลือกคุณสมบัติ
ฉันใหม่สำหรับการเลือกคุณสมบัติและฉันสงสัยว่าคุณจะใช้ PCA เพื่อดำเนินการเลือกคุณลักษณะอย่างไร PCA คำนวณคะแนนสัมพัทธ์สำหรับตัวแปรอินพุตแต่ละตัวที่คุณสามารถใช้เพื่อกรองตัวแปรอินพุตที่ไม่ใช่ข้อมูลหรือไม่? โดยทั่วไปฉันต้องการที่จะสามารถสั่งซื้อคุณสมบัติเดิมในข้อมูลตามความแปรปรวนหรือจำนวนข้อมูลที่มีอยู่

3
Box-Cox ชอบการแปลงสำหรับตัวแปรอิสระหรือไม่?
Box-Cox มีการแปลงสำหรับตัวแปรอิสระหรือไม่? นั่นคือการแปลงที่ปรับตัวแปรให้เหมาะสมที่สุดเพื่อให้เหมาะสมกับแบบจำลองเชิงเส้นมากขึ้นหรือไม่xxxy~f(x) ถ้าเป็นเช่นนั้นมีฟังก์ชั่นในการทำสิ่งนี้ด้วยRหรือไม่?

3
APIs / ฟีดข้อมูลพร้อมใช้งานเป็นแพ็คเกจใน R
แก้ไข: มุมมองงานเว็บเทคโนโลยีและบริการ CRAN มีรายการที่ครอบคลุมมากขึ้นของแหล่งข้อมูลและ APIs ที่มีอยู่ในอาร์คุณสามารถส่งคำขอดึงบน GitHubถ้าคุณต้องการที่จะเพิ่มแพคเกจไปที่มุมมองงาน ฉันกำลังสร้างรายการฟีดข้อมูลต่าง ๆ ที่ติดเข้ากับ R แล้วหรือติดตั้งง่าย นี่คือรายการแพ็คเกจเริ่มต้นของฉันและฉันก็สงสัยว่ามีอะไรอีกที่ขาดหายไป ฉันพยายาม จำกัด รายการนี้เป็น "เรียลไทม์" หรือ "ใกล้เคียงกับเรียลไทม์" ฟีดข้อมูล / API ที่ข้อมูลพื้นฐานอาจมีการเปลี่ยนแปลงระหว่างการดาวน์โหลด มีรายการมากมายสำหรับชุดข้อมูลแบบสแตติกซึ่งต้องการการดาวน์โหลดเพียงครั้งเดียว ขณะนี้รายการนี้มีอคติต่อข้อมูลชุดข้อมูลทางการเงิน / เวลาและฉันสามารถใช้ความช่วยเหลือบางอย่างเพื่อขยายเข้าไปในโดเมนอื่น ข้อมูลฟรี: แหล่งข้อมูล - แพ็คเกจ ข้อมูลย้อนหลัง ของ Google Finance - quantmod งบดุลของ Google Finance - Quantmod Yahoo Historical Finance - Quantmod Yahoo Historical Finance …
53 r  references  dataset 

6
การทำนายของแบบจำลองฟอเรสต์มีช่วงเวลาการทำนายหรือไม่?
ถ้าฉันเรียกใช้randomForestแบบจำลองฉันสามารถทำการทำนายตามแบบจำลองได้ มีวิธีใดที่จะได้ช่วงเวลาการทำนายของการทำนายแต่ละครั้งเช่นที่ฉันรู้ว่า "แน่ใจ" โมเดลนั้นเป็นคำตอบของมันหรือไม่ ถ้าเป็นไปได้มันขึ้นอยู่กับความแปรปรวนของตัวแปรตามสำหรับโมเดลทั้งหมดหรือจะมีช่วงกว้างขึ้นและแคบขึ้นอยู่กับแผนผังการตัดสินใจเฉพาะที่ตามมาสำหรับการทำนายโดยเฉพาะ

6
วิธีการกำหนดจุดตัดที่ดีที่สุดและช่วงความมั่นใจโดยใช้เส้นโค้ง ROC ใน R?
ฉันมีข้อมูลการทดสอบที่สามารถใช้แยกแยะเซลล์ปกติและเนื้องอก ตามโค้ง ROC มันดูดีสำหรับจุดประสงค์นี้ (พื้นที่ใต้เส้นโค้งคือ 0.9): คำถามของฉันคือ: จะกำหนดจุดตัดสำหรับการทดสอบนี้และช่วงความมั่นใจได้อย่างไรโดยที่การอ่านควรถูกตัดสินว่าไม่ชัดเจน วิธีที่ดีที่สุดในการมองเห็นภาพนี้ggplot2คืออะไร กราฟแสดงผลโดยใช้ROCRและggplot2แพ็คเกจ: #install.packages("ggplot2","ROCR","verification") #if not installed yet library("ggplot2") library("ROCR") library("verification") d <-read.csv2("data.csv", sep=";") pred <- with(d,prediction(x,test)) perf <- performance(pred,"tpr", "fpr") auc <-performance(pred, measure = "auc")@y.values[[1]] rd <- data.frame(x=perf@x.values[[1]],y=perf@y.values[[1]]) p <- ggplot(rd,aes(x=x,y=y)) + geom_path(size=1) p <- p + geom_segment(aes(x=0,y=0,xend=1,yend=1),colour="black",linetype= 2) p <- p …

6
หนังสือประเภทใดที่แนะนำให้เริ่มต้นเรียนรู้สถิติโดยใช้ R ในเวลาเดียวกัน
หนังสือเพื่อเรียนรู้สถิติโดยใช้ R หนังสือที่ฉันกำลังมองหาคืออะไร สิ่งที่ฉันกำลังมองหาคือหนังสือที่สอนสถิติให้คุณในขณะที่ใช้ R เพื่อให้คุณได้รับประสบการณ์ตรงและท้ายที่สุดก็ช่วยให้คุณเรียนรู้ R ด้วยกัน ฉันเคยเห็น amazon หนังสือหลายเล่มที่พยายามทำเช่นนั้น แต่ไม่ใช่กับอาร์ตัวอย่างเช่น Minitab และ SAS ตัวเลือก R Book และการคำนวณเชิงสถิติเป็นตัวเลือกหรือไม่? - ยังไม่ได้รับคำตอบ R Bookและการคำนวณทางสถิติ: การวิเคราะห์ข้อมูลเบื้องต้นโดยใช้ S-Plusดูเหมือนว่าจะเป็นไปได้ แต่ความเห็นของผู้อ่านที่นี่จะเป็นประโยชน์และยินดีต้อนรับ หนังสือเล่มนี้เกี่ยวข้องกับหลักสูตรสถิติอย่างไร เพื่อให้แม่นยำยิ่งขึ้นกับสิ่งที่ฉันกำลังมองหาให้พิจารณาสองหลักสูตรการเรียนรู้ผลลัพธ์เกี่ยวกับสถิติจากแผนกคณิตศาสตร์ของมหาวิทยาลัยที่ฉันเป็นนักเรียนอยู่ในขณะนี้: สถิติระดับกลางและความน่าจะเป็นและสถิตินั่นคือฉันกำลังมองหาหนังสือหลักสูตรสถิติทั่วไปที่จะไปถึงระดับกลาง แต่แทนที่จะเป็นบอร์ดและกระดาษที่คุณได้เรียนรู้และใช้ R แทน นั่นหมายถึงฉันกำลังมองหาหนังสือที่คิดว่าฉันต้องการเรียนรู้สถิติตั้งแต่ต้น หนังสือเล่มนี้สำหรับนักวิจัยด้วย ฉันยังเป็นนักวิจัยวิศวกรซอฟต์แวร์ แต่ฉันเดาว่าสถานการณ์ปัจจุบันที่คุณพบกับภูเขาของข้อมูลและต้องการเรียนรู้สถิติเพื่อเขียนโค้ดเพื่อให้เป็นอัตโนมัติซึ่งค่อนข้างใช้ได้กับสาขาอื่น ๆ นั่นหมายความว่าฉันไม่สนใจที่จะเรียนรู้ทุกรายละเอียดของทุก ๆ ทรัพย์สินสำหรับทุก ๆ เส้นโค้ง แต่ฉันกังวลมากขึ้นเกี่ยวกับการทำความเข้าใจข้อมูลสำหรับโดเมนการวิจัยของฉันแม้ว่าฉันจะไม่สนใจว่าหนังสือเล่มนี้จะลึกลงไป . ในฐานะที่เป็นแรงจูงใจขั้นสุดท้ายฉันพบว่าตัวเองกำลังอ่านเอกสารทางวิทยาศาสตร์ในชุมชนประเภทต่าง ๆ ที่อ้างถึงผลลัพธ์โดยอาศัยการอนุมานเชิงสถิติในขณะที่ไม่มีข้อพิสูจน์ที่สามารถอ่านได้หากสมมติฐาน / ข้อ จำกัด …
50 r  references 

1
การรับค่าที่คาดการณ์ (Y = 1 หรือ 0) จากแบบจำลองการถดถอยโลจิสติกพอดี
สมมติว่าผมมีวัตถุของคลาสglm(สอดคล้องกับรูปแบบการถดถอยโลจิสติก) และฉันต้องการที่จะเปิดความน่าจะเป็นที่คาดการณ์ที่ได้รับจากpredict.glmการใช้อาร์กิวเมนต์type="response"ลงในการตอบสนองไบนารีคือหรือ 0 วิธีที่เร็วและเป็นที่ยอมรับมากที่สุดในการทำเช่นนี้ใน R คืออะไร?Y = 0Y=1Y=1Y=1Y=0Y=0Y=0 ในขณะที่อีกครั้งฉันรู้predict.glmฉันไม่ทราบว่าค่า cutoff ที่อยู่ตรงไหน- และฉันคิดว่านี่เป็นบล็อกหลักของฉันที่นี่P(Yi=1|X^i)P(Yi=1|X^i)P(Y_i=1|\hat X_{i})

1
Bootstrap vs. jackknife
ทั้งวิธี bootstrap และ jackknife สามารถใช้ในการประเมินความลำเอียงและข้อผิดพลาดมาตรฐานของการประมาณและกลไกของวิธีการสุ่มตัวอย่างทั้งสองวิธีนั้นไม่แตกต่างกันมาก: การสุ่มตัวอย่างด้วยการแทนที่และการละครั้ง อย่างไรก็ตาม jackknife ไม่ได้รับความนิยมเท่ากับ bootstrap ในการวิจัยและการปฏิบัติ มีข้อดีที่ชัดเจนของการใช้ bootstrap แทนที่จะใช้ jackknife หรือไม่?

4
การคำนวณค่า P ด้วยตนเองจาก t-value ใน t-test
ฉันมีชุดข้อมูลตัวอย่างที่มี 31 ค่า ฉันใช้การทดสอบสองทางโดยใช้ R เพื่อทดสอบว่าค่าเฉลี่ยจริงเท่ากับ 10: t.test(x=data, mu=10, conf.level=0.95) เอาท์พุท: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 sample estimates: mean of x 21.22944 ตอนนี้ฉันกำลังพยายามทำสิ่งเดียวกันด้วยตนเอง: t.value = (mean(data) - 10) / (sd(data) / …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.