คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
วิธีการใส่ค่าบนแท่งใน barplot ใน R [Closed]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา คำถามนี้เป็นคำถามที่เกี่ยวข้องกับคำถามก่อนหน้านี้ของฉัน ฉันต้องการที่จะใส่ค่ามากกว่าแถบใน barplot ฉันกำลังเริ่มต้นในการวางแผนใน R

3
Non-Parametric ทำซ้ำมาตรการ Anova หลายทางใน R หรือไม่?
คำถามต่อไปนี้เป็นหนึ่งใน grails ศักดิ์สิทธิ์สำหรับฉันในขณะนี้ฉันหวังว่าบางคนอาจจะสามารถให้คำแนะนำที่ดี ฉันต้องการที่จะดำเนินการที่ไม่ใช่พารามิเตอร์ซ้ำหลายวิธี anova โดยใช้อาร์ ฉันได้ทำการค้นหาและอ่านทางออนไลน์มาระยะหนึ่งแล้วและจนถึงตอนนี้ก็สามารถหาวิธีแก้ปัญหาสำหรับบางกรณีเท่านั้น: การทดสอบของทอดแมนสำหรับวิธีหนึ่งที่ไม่ใช่พารามิเตอร์วัดซ้ำ anova, การถดถอยเชิงอันดับด้วย {car} ฟังก์ชันโนวาสำหรับหลายพารามิเตอร์ โนวาและอื่น ๆ การแก้ปัญหาบางส่วนไม่ใช่สิ่งที่ฉันกำลังมองหาในกระทู้คำถามนี้ ฉันได้สรุปสิ่งที่ค้นพบของฉันแล้วในโพสต์ที่ฉันเผยแพร่เมื่อไม่นานมานี้ (ชื่อ: มาตรการ ANOVA ซ้ำกับ R (ฟังก์ชั่นและแบบฝึกหัด) ซ้ำแล้วซ้ำอีกในกรณีที่มันจะช่วยทุกคน) หากสิ่งที่ฉันอ่านออนไลน์เป็นจริงงานนี้อาจจะประสบความสำเร็จโดยใช้รูปแบบการถดถอยตามแบบผสม (aka: Proportional Odds Model) ฉันพบสองแพ็คเกจที่ดูเหมือนว่ามีความเกี่ยวข้อง แต่ไม่พบบทความสั้น ๆ ในเรื่อง: http://cran.r-project.org/web/packages/repolr/ http://cran.r-project.org/web/packages/ordinal/ ดังนั้นเมื่อฉันยังใหม่กับเรื่องนี้ฉันหวังว่าจะได้คำแนะนำจากผู้คนที่นี่ มีบทเรียน / ข้อแนะนำในการอ่านเกี่ยวกับเรื่องนี้หรือไม่? ยิ่งไปกว่านั้นบางคนสามารถแนะนำรหัสตัวอย่างง่ายๆสำหรับวิธีการเรียกใช้และวิเคราะห์สิ่งนี้ใน R (เช่น: "ไม่ใช่มาตรการซ้ำหลายพารามิเตอร์แบบหลายทาง anova")

1
แพ็คเกจ R สำหรับป่าสุ่มถ่วงน้ำหนัก ตัวเลือก classwt?
ฉันพยายามใช้ Random Forest เพื่อทำนายผลลัพธ์ของชุดข้อมูลที่ไม่สมดุลอย่างยิ่ง (อัตราของชนกลุ่มน้อยอยู่ที่ประมาณ 1% หรือน้อยกว่านั้น) เนื่องจากอัลกอริทึม Random Forest แบบดั้งเดิมลดอัตราข้อผิดพลาดโดยรวมให้น้อยที่สุดแทนที่จะให้ความสนใจเป็นพิเศษกับคลาสของชนกลุ่มน้อยจึงไม่สามารถใช้กับข้อมูลที่ไม่สมดุลได้โดยตรง ดังนั้นฉันต้องการกำหนดค่าใช้จ่ายสูงให้กับการจำแนกประเภทชนกลุ่มน้อย (การเรียนรู้ที่อ่อนไหวด้านต้นทุน) ผมอ่านหลายแหล่งที่มาว่าเราสามารถใช้ตัวเลือกclasswtของrandomForestใน R แต่ผมไม่ทราบวิธีการที่จะใช้นี้ และเรามีทางเลือกอื่นให้กับrandomForestfuntion หรือไม่?
16 r  random-forest 

2
ประมาณค่าสัมประสิทธิ์ ARMA ผ่านการตรวจ ACF และ PACF
คุณประเมินแบบจำลองการพยากรณ์ที่เหมาะสมสำหรับอนุกรมเวลาอย่างไรโดยการตรวจสอบด้วยตาเปล่าของแผนการแปลง ACF และ PACF ตัวไหน (เช่น ACF หรือ PACF) บอก AR หรือ MA (หรือพวกเขาทั้งสอง)? กราฟใดที่บอกส่วนของฤดูกาลและไม่ใช่ฤดูกาลสำหรับ ARIMA ตามฤดูกาล พิจารณาฟังก์ชั่น ACF และ PCF ที่แสดงด้านล่าง พวกเขามาจากบันทึกการเปลี่ยนชุดที่ได้รับการ differenced สองแตกต่างกันอย่างใดอย่างหนึ่งที่ง่ายและฤดูกาลหนึ่ง ( ข้อมูลเดิม , บันทึกข้อมูลเปลี่ยน ) คุณจะอธิบายลักษณะของซีรี่ส์อย่างไร แบบไหนที่เหมาะกับมันที่สุด?

3
การใช้แพ็กเกจการคาดการณ์ R พร้อมค่าที่ขาดหายไปและ / หรืออนุกรมเวลาที่ผิดปกติ
ฉันประทับใจในforecastแพ็คเกจR เช่นเดียวกับzooแพ็คเกจสำหรับอนุกรมเวลาที่ผิดปกติและการแก้ไขค่าที่หายไป ใบสมัครของฉันอยู่ในพื้นที่ของการพยากรณ์การจราจร Call Center เพื่อให้ข้อมูลเกี่ยวกับวันหยุดสุดสัปดาห์เป็น (เกือบ) zooเสมอหายไปซึ่งสามารถจัดการได้เป็นอย่างดีโดย นอกจากนี้บางจุดที่ขาดหายไปอาจหายไปฉันแค่ใช้ R NAเพื่อจุดนั้น สิ่งที่เป็นทุกมายากลที่ดีของแพคเกจการคาดการณ์เช่นeta(), auto.arima()ฯลฯ ดูเหมือนจะคาดหวังธรรมดาtsวัตถุเช่น equispaced อนุกรมเวลาไม่ได้มีข้อมูลที่ขาดหายไป ฉันคิดว่าแอปพลิเคชันในโลกแห่งความเป็นจริงสำหรับซีรี่ย์เวลาที่เท่ากันเท่านั้นนั้นมีอยู่จริง แต่สำหรับความเห็นของฉันนั้นมี จำกัด ปัญหาของการต่อเนื่องไม่กี่NAค่าจะสามารถแก้ไขได้อย่างง่ายดายโดยใช้ใด ๆ ของฟังก์ชั่นการแก้ไขที่นำเสนอในเช่นเดียวกับzoo forecast::interpหลังจากนั้นฉันก็ทำการพยากรณ์ คำถามของฉัน: ไม่มีใครแนะนำวิธีแก้ปัญหาที่ดีกว่า? (คำถามหลักของฉัน)อย่างน้อยที่สุดในโดเมนแอปพลิเคชันของฉันการคาดคะเนปริมาณการใช้งานศูนย์บริการข้อมูล (และเท่าที่ฉันสามารถจินตนาการได้ว่าโดเมนปัญหาอื่น ๆ ส่วนใหญ่) อนุกรมเวลาไม่เท่ากัน อย่างน้อยเราก็มีรูปแบบ "วันทำการ" ที่เกิดขึ้นซ้ำ ๆ หรือบางอย่าง อะไรคือวิธีที่ดีที่สุดในการจัดการสิ่งนั้นและยังคงใช้เวทย์มนตร์เท่ห์ ๆ ของแพ็คเกจพยากรณ์? ฉันควรเพียงแค่ "บีบอัด" อนุกรมเวลาเพื่อเติมวันหยุดสุดสัปดาห์ทำการพยากรณ์แล้ว "ขยาย" ข้อมูลอีกครั้งเพื่อแทรกค่า NA ในวันหยุดสุดสัปดาห์อีกครั้งหรือไม่ (นั่นจะเป็นความอัปยศฉันคิดว่า?) มีแผนใดที่จะทำให้แพ็คเกจพยากรณ์ใช้งานได้กับแพคเกจอนุกรมเวลาที่ผิดปกติอย่างสวนสัตว์หรือ ถ้าใช่เมื่อใดและถ้าไม่ทำไมไม่ ฉันค่อนข้างใหม่ต่อการคาดการณ์ (และสถิติโดยทั่วไป) …

2
การตรวจสอบความถูกต้องข้าม PCA และ k-fold ในชุด Caret ใน R
ฉันเพิ่งดูการบรรยายอีกครั้งจากหลักสูตรการเรียนรู้ของเครื่องใน Coursera ในส่วนที่อาจารย์กล่าวถึง PCA สำหรับการประมวลผลข้อมูลล่วงหน้าในแอปพลิเคชันการเรียนรู้ภายใต้การดูแลเขาบอกว่า PCA ควรจะดำเนินการกับข้อมูลการฝึกอบรมเท่านั้นและจากนั้นการทำแผนที่จะใช้ในการแปลง ดูเพิ่มเติมPCA และรถไฟ / ทดสอบแยก อย่างไรก็ตามในcaretแพ็คเกจ R ข้อมูลการฝึกอบรมที่คุณส่งผ่านไปยังtrain()ฟังก์ชั่นนั้นได้รับการประมวลผลโดย PCA แล้ว ดังนั้นเมื่ออัลกอริทึมทำการตรวจสอบความถูกต้องของ k-fold cross ชุดการตรวจสอบความถูกต้องได้ถูกประมวลผลด้วย PCA ผ่านทางpreProcess()และpredict()ในความเป็นจริงแล้วใช้ใน PCA "fitting" ฉันเข้าใจสถานการณ์ถูกต้องหรือไม่? ขั้นตอนของ IET Caret สำหรับการตรวจสอบข้ามกับ PCA (หรือในความเป็นจริงด้วยวิธีการลดขนาด / การจัดตำแหน่งใด ๆ ) เป็น "ผิด" เนื่องจากการประมวลผลข้อมูลล่วงหน้าจะดำเนินการในชุดการตรวจสอบความถูกต้อง และถ้าเป็นเช่นนั้นผลกระทบนี้จะมีขนาดใหญ่เพียงใด?

3
มีวิธีการทั่วไปในการจำลองข้อมูลจากสูตรหรือการวิเคราะห์หรือไม่?
การจำลองข้อมูลจากกรอบข้อมูลการออกแบบการทดลอง ด้วยการมุ่งเน้นไปที่ R (แม้ว่าภาษาอื่น ๆ จะดีมาก) ในการออกแบบการทดสอบหรือการสำรวจการจำลองข้อมูลและการวิเคราะห์ข้อมูลจำลองนี้สามารถให้ข้อมูลเชิงลึกที่ยอดเยี่ยมเกี่ยวกับข้อดีและจุดอ่อนของการออกแบบ วิธีการดังกล่าวยังเป็นสิ่งจำเป็นต่อความเข้าใจและการใช้การทดสอบทางสถิติที่เหมาะสม อย่างไรก็ตามกระบวนการนี้มีแนวโน้มที่จะค่อนข้างน่าเบื่อและหลายคนถูกพาข้ามขั้นตอนสำคัญนี้ในการทดสอบหรือสำรวจ แบบจำลองทางสถิติและการทดสอบมีข้อมูลส่วนใหญ่ที่จำเป็นในการจำลองข้อมูล (รวมถึงข้อสันนิษฐานหรือคำสั่งที่ชัดเจนของการกระจาย) ด้วยรูปแบบการวิเคราะห์ (และสมมติฐานที่เกี่ยวข้องเช่นความเป็นปกติและความสมดุล) ระดับของปัจจัยและการวัดความสำคัญ (เช่น p-value) ฉันต้องการได้รับข้อมูลจำลอง (ในอุดมคติที่มีฟังก์ชันทั่วไปคล้าย พิมพ์ (), คาดการณ์ (), จำลอง ()) เป็นกรอบการจำลองแบบทั่วไปที่เป็นไปได้หรือไม่? ถ้าเป็นเช่นนั้นกรอบดังกล่าวสามารถใช้ได้ในปัจจุบัน? ตัวอย่างฉันต้องการฟังก์ชั่นเช่น: sim(aov(response~factor1+factor2*factor3), p.values=list(factor1=0.05, factor2=0.05, factor3=0.50, factor2:factor3=0.05), levels=list(factor1=1:10, factor2=c("A", "B", "C"), factor3=c("A", "B", "C"))) เช่นเวอร์ชันทั่วไปของ: sim.lm<-function(){ library(DoE.base) design<-fac.design(nlevels=c(10,3,3), factor.names=c("factor1", "factor2", "factor3"), replications=3, randomize=F) response<-with(design, as.numeric(factor1)+ …

6
จะค้นหายอดเขา / หุบเขาในชุดข้อมูลได้อย่างไร?
นี่คือการทดลองของฉัน: ฉันใช้findPeaksฟังก์ชันในแพ็คเกจquantmod : ฉันต้องการตรวจหายอด "ท้องถิ่น" ภายในค่าเผื่อ 5 นั่นคือตำแหน่งแรกหลังจากที่อนุกรมเวลาลดลงจากยอดเขาท้องถิ่น 5: aa=100:1 bb=sin(aa/3) cc=aa*bb plot(cc, type="l") p=findPeaks(cc, 5) points(p, cc[p]) p ผลลัพธ์คือ [1] 3 22 41 ดูเหมือนว่าผิดเพราะฉันคาดว่าจะมี "ยอดเขา" มากกว่า 3 คน ... ความคิดใด ๆ
16 r  time-series 

6
ความเร็วในการคำนวณใน R?
ฉันได้รับมอบหมายให้ย้ายหนึ่งในโมเดล stochastic ที่มีขนาดใหญ่ในปัจจุบันของเราออกจาก SAS และเป็นภาษาใหม่ โดยส่วนตัวแล้วฉันชอบภาษาที่รวบรวมแบบดั้งเดิม แต่ PI ต้องการให้ฉันตรวจสอบ R ซึ่งฉันไม่เคยใช้ แรงจูงใจของเราในการนำโมเดลออกมาจาก SAS คือ (1) หลายคนไม่สามารถเข้าถึงได้เพราะ SAS มีราคาแพง (2) เรากำลังมองหาที่จะย้ายออกจากภาษาที่ตีความและ (3) SAS ช้าสำหรับ ประเภทของแบบจำลองที่เรามี สำหรับ (1) เห็นได้ชัดว่า R ตอบสนองความต้องการที่จะให้เป็นอิสระ สำหรับ (2) เราควรจะสร้างไฟล์ที่เรียกทำงานได้ แต่โดยปกติแล้ว R จะใช้เป็นภาษาสคริปต์ ฉันเห็นว่ามีคนเพิ่งคอมไพเลอร์ R - ได้รับการตอบรับดีไหม? ใช้ง่ายไหม เราไม่ต้องการบังคับให้ผู้ใช้ดาวน์โหลด R เอง สำหรับ (3) ปัญหาของเรากับ SAS คือเวลาทั้งหมดในการเขียนและอ่านชุดข้อมูล I / …
16 r  computing 

4
รุ่นเชิงเส้นคลาสสิก - การเลือกรูปแบบ
ฉันมีโมเดลเชิงเส้นแบบคลาสสิกโดยมี 5 regressors ที่เป็นไปได้ พวกเขาไม่เกี่ยวข้องกันและมีความสัมพันธ์ค่อนข้างต่ำกับการตอบสนอง ฉันมาถึงแบบจำลองที่มี 3 regressors มีค่าสัมประสิทธิ์นัยสำคัญสำหรับสถิติ t (p <0.05) การเพิ่มตัวแปรที่เหลืออย่างใดอย่างหนึ่งหรือทั้งสองอย่างให้ค่า p> 0.05 สำหรับสถิติ t สำหรับตัวแปรเพิ่ม สิ่งนี้ทำให้ฉันเชื่อว่าโมเดล 3 ตัวแปรนั้น "ดีที่สุด" อย่างไรก็ตามการใช้คำสั่ง anova (a, b) ใน R โดยที่ a คือโมเดลตัวแปร 3 ตัวและ b เป็นรูปแบบเต็มค่า p สำหรับสถิติ F คือ <0.05 ซึ่งบอกให้ฉันชอบแบบเต็มมากกว่าตัวแปร 3 ตัว แบบ ฉันจะกระทบยอดความขัดแย้งที่เห็นได้ชัดเหล่านี้ได้อย่างไร ขอบคุณ PS Edit: พื้นหลังเพิ่มเติมบางส่วน นี่คือการบ้านดังนั้นฉันจะไม่โพสต์รายละเอียด …

3
วิธีที่ดีที่สุดในการแสดงข้อผิดพลาดประเภท II (เบต้า) แบบกราฟิกกำลังไฟและขนาดตัวอย่าง?
ฉันถูกขอให้เขียนบทนำเกี่ยวกับสถิติและฉันกำลังดิ้นรนวิธีการแสดงกราฟค่า p และค่าพลังงานที่เกี่ยวข้อง ฉันมากับกราฟนี้: คำถามของฉัน: มีวิธีที่ดีกว่าในการแสดงนี้หรือไม่? นี่คือรหัส R ของฉัน x <- seq(-4, 4, length=1000) hx <- dnorm(x, mean=0, sd=1) plot(x, hx, type="n", xlim=c(-4, 8), ylim=c(0, 0.5), ylab = "", xlab = "", main= expression(paste("Type II (", beta, ") error")), axes=FALSE) axis(1, at = c(-qnorm(.025), 0, -4), labels = expression("p-value", 0, …
16 r  teaching  power 

2
เปลี่ยนการวิเคราะห์จุดโดยใช้ R's nls ()
ฉันกำลังพยายามใช้การวิเคราะห์ "จุดเปลี่ยน" หรือการถดถอยหลายเฟสที่ใช้nls()ในอาร์ นี่คือบางส่วนข้อมูลปลอมผมได้ทำ สูตรที่ฉันต้องการใช้เพื่อให้พอดีกับข้อมูลคือ: y=β0+β1x+β2max(0,x−δ)y=β0+β1x+β2max(0,x−δ)y = \beta_0 + \beta_1x + \beta_2\max(0,x-\delta) สิ่งนี้ควรจะทำคือพอดีกับข้อมูลได้ถึงจุดหนึ่งที่มีการตัดบางอย่างและความลาดชัน ( β0β0\beta_0และβ1β1\beta_1 ) แล้วหลังจากที่ค่า x บางอย่าง ( δδ\delta ) เพิ่มความลาดชันโดย\β2β2\beta_2นั่นคือสิ่งที่สูงสุดทั้งหมดเป็นเรื่องเกี่ยวกับ ก่อนจุดδδ\deltaมันจะเท่ากับ 0 และβ2β2\beta_2จะถูกทำให้เป็นศูนย์ ดังนั้นนี่คือหน้าที่ของฉันในการทำสิ่งนี้: changePoint <- function(x, b0, slope1, slope2, delta){ b0 + (x*slope1) + (max(0, x-delta) * slope2) } และฉันพยายามทำให้พอดีกับแบบนี้ nls(y ~ changePoint(x, b0, slope1, slope2, …

2
วิธีการพล็อตขอบเขตการตัดสินใจใน R สำหรับรูปแบบการถดถอยโลจิสติก?
ฉันสร้างโมเดลการถดถอยโลจิสติกโดยใช้ glm ใน R. ฉันมีตัวแปรอิสระสองตัว ฉันจะพล็อตขอบเขตการตัดสินใจของโมเดลของฉันในพล็อตกระจายของสองตัวแปรได้อย่างไร ตัวอย่างเช่นฉันจะพล็อตร่างเช่น: http://onlinecourses.science.psu.edu/stat557/node/55 ขอบคุณ
16 r  logistic 

3
`คาดการณ์สุ่มป่าเถื่อน 'ประเมินความน่าจะเป็นของคลาสได้อย่างไร
วิธีการที่ไม่randomForestน่าจะเป็นระดับประมาณการแพคเกจเมื่อฉันใช้predict(model, data, type = "prob")? ฉันใช้rangerสำหรับฝึกป่าสุ่มโดยใช้probability = Tอาร์กิวเมนต์เพื่อทำนายความน่าจะเป็น rangerพูดในเอกสารว่า: ปลูกป่าน่าจะเป็นเหมือนใน Malley และคณะ (2012) ฉันจำลองข้อมูลและลองทั้งแพ็คเกจและได้ผลลัพธ์ที่แตกต่างกันมาก (ดูรหัสด้านล่าง) ดังนั้นฉันรู้ว่ามันใช้เทคนิคต่าง ๆ (จากนั้นแรนเจอร์) เพื่อประเมินความน่าจะเป็น แต่อันไหน simulate_data <- function(n){ X <- data.frame(matrix(runif(n*10), ncol = 10)) Y <- data.frame(Y = rbinom(n, size = 1, prob = apply(X, 1, sum) %>% pnorm(mean = 5) ) %>% as.factor() ) …

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.