คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

5
ภาษาการเขียนโปรแกรมใดที่คุณแนะนำให้สร้างต้นแบบปัญหาการเรียนรู้ของเครื่อง?
กำลังทำงานใน Octave แต่เนื่องจากความคืบหน้าของเอกสารไม่ดีช้ามาก ภาษาใดที่ง่ายต่อการเรียนรู้และใช้งานและมีเอกสารที่ดีในการแก้ปัญหาการเรียนรู้ของเครื่อง? ฉันกำลังมองหาต้นแบบบนชุดข้อมูลขนาดเล็ก (ตัวอย่างหลายพันตัวอย่าง) ดังนั้นความเร็วจึงไม่สำคัญ แก้ไข: ฉันกำลังพัฒนาเครื่องมือแนะนำ ดังนั้นฉันสนใจที่จะใช้ Regularized Linear Regression, Neural Nets, SVN หรือ Collaborative Filtering

2
ฉันจะตั้งค่าปัวส์ซองแบบไม่ต้องพองได้ใน JAGS ได้อย่างไร
ฉันกำลังพยายามตั้งค่าโมเดลปัวซองที่ไม่ทำให้พองใน R และ JAGS ฉันยังใหม่กับ JAGS และฉันต้องการคำแนะนำเกี่ยวกับวิธีการทำเช่นนั้น ฉันได้ลองทำสิ่งต่อไปนี้โดยที่ y [i] เป็นตัวแปรที่สังเกตได้ model { for (i in 1:I) { y.null[i] <- 0 y.pois[i] ~ dpois(mu[i]) pro[i] <- ilogit(theta[i]) x[i] ~ dbern(pro[i]) y[i] <- step(2*x[i]-1)*y.pois[i] + (1-step(2*x[i]-1))*y.null[i] log(mu[i]) <- bla + bla +bla + .... theta[i] <- bla + bla + bla …

4
วิธีการสุ่มตัวอย่างจำนวน 10 ตัวอย่างจากรายการขนาดใหญ่โดยไม่มีการเปลี่ยนโดยรวม
ฉันมีชุดข้อมูลจำนวนมาก (จุดข้อมูล 20,000 จุด) ซึ่งฉันต้องการใช้ตัวอย่างข้อมูล 10 จุดซ้ำหลายครั้ง อย่างไรก็ตามเมื่อฉันเลือกจุดข้อมูลทั้ง 10 แล้วฉันต้องการให้พวกเขาไม่ได้รับเลือกอีกครั้ง ฉันลองใช้sampleฟังก์ชั่นนี้ แต่ดูเหมือนว่าจะไม่มีตัวเลือกตัวอย่างโดยไม่ต้องเปลี่ยนฟังก์ชั่นการโทรหลายครั้ง มีวิธีง่าย ๆ ในการทำเช่นนี้?
12 r  sample 

2
ทฤษฎีที่อยู่เบื้องหลังอาร์กิวเมนต์น้ำหนักใน R เมื่อใช้ lm ()
หลังจากปีในโรงเรียนที่จบที่ความเข้าใจของฉัน "ถ่วงน้ำหนักน้อยสแควร์" คือต่อไปนี้ให้ ,จะมีบางเมทริกซ์ออกแบบ\ boldsymbol \ beta \ in \ mathbb {R} ^ pเป็นเวกเตอร์พารามิเตอร์\ boldsymbol \ epsilon \ in \ mathbb {R} ^ nเป็นเวกเตอร์ข้อผิดพลาดที่\ boldsymbol \ epsilon \ sim \ mathcal {N} (\ mathbf {0} \ ซิก ^ 2 \ mathbf {V})ที่\ mathbf {V} = \ ข้อความ {diag} (v_1, v_2 …

3
การถดถอยป่าแบบสุ่มไม่คาดการณ์สูงกว่าข้อมูลการฝึกอบรม
ฉันสังเกตเห็นว่าเมื่อสร้างแบบจำลองการถดถอยป่าแบบสุ่มอย่างน้อยRค่าที่ทำนายจะไม่เกินค่าสูงสุดของตัวแปรเป้าหมายที่เห็นในข้อมูลการฝึกอบรม ตัวอย่างเช่นดูรหัสด้านล่าง ฉันกำลังสร้างแบบจำลองการถดถอยเพื่อทำนายmpgตามmtcarsข้อมูล ฉันสร้าง OLS และโมเดลป่าไม้แบบสุ่มและใช้มันในการทำนายmpgสำหรับรถยนต์สมมุติที่ควรมีการประหยัดเชื้อเพลิงที่ดีมาก OLS ทำนายป่าสูงmpgตามที่คาดไว้ แต่ป่าสุ่มไม่ได้ ฉันสังเกตเห็นสิ่งนี้ในรูปแบบที่ซับซ้อนมากขึ้นเช่นกัน ทำไมนี้ > library(datasets) > library(randomForest) > > data(mtcars) > max(mtcars$mpg) [1] 33.9 > > set.seed(2) > fit1 <- lm(mpg~., data=mtcars) #OLS fit > fit2 <- randomForest(mpg~., data=mtcars) #random forest fit > > #Hypothetical car that should have very high mpg …
12 r  random-forest 

3
ทรัพยากรสำหรับการวิเคราะห์อนุกรมเวลาที่ขัดจังหวะใน R
ฉันค่อนข้างใหม่สำหรับอาร์ฉันได้พยายามอ่านการวิเคราะห์อนุกรมเวลาและเสร็จสิ้นแล้ว Shumway และ Stoffer ของการวิเคราะห์อนุกรมเวลาและการประยุกต์ใช้ 3rd Edition , การพยากรณ์ที่ยอดเยี่ยมของ Hyndman : หลักการและการปฏิบัติ Avril Coghlan ใช้ R สำหรับการวิเคราะห์อนุกรมเวลา A. Ian McLeod และคณะการวิเคราะห์อนุกรมเวลาด้วย R การวิเคราะห์อนุกรมเวลาของ Dr. Marcel Dettling แก้ไข: ฉันไม่แน่ใจว่าจะจัดการอย่างไร แต่ฉันพบทรัพยากรที่มีประโยชน์นอกการตรวจสอบความถูกต้องของ Cross ฉันต้องการที่จะรวมไว้ที่นี่ในกรณีที่ทุกคนสะดุดกับคำถามนี้ การวิเคราะห์การถดถอยแบบแบ่งกลุ่มของการศึกษาอนุกรมเวลาแบบขัดจังหวะในการวิจัยการใช้ยา ฉันมีอนุกรมเวลาแบบไม่แปรตามจำนวนรายการที่ใช้ (นับข้อมูล) ที่วัดทุกวันเป็นเวลา 7 ปี การแทรกแซงถูกนำไปใช้กับประชากรที่ศึกษาประมาณช่วงกลางของอนุกรมเวลา การแทรกแซงนี้ไม่ได้คาดหวังว่าจะให้ผลทันทีและระยะเวลาของการโจมตีของผลกระทบนั้นเป็นสิ่งที่ไม่สามารถเข้าใจได้ ใช้ Hyndman ของforecastแพคเกจผมได้ติดตั้งรูปแบบ ARIMA auto.arima()ข้อมูลก่อนการแทรกแซงโดยใช้ แต่ฉันไม่แน่ใจว่าจะใช้แบบนี้เพื่อตอบว่ามีการเปลี่ยนแปลงอย่างมีนัยสำคัญทางสถิติในแนวโน้มและปริมาณจำนวน # for simplification I will …
12 r  time-series 

2
การเพิ่มประสิทธิภาพเครื่องเวกเตอร์สนับสนุนด้วยการเขียนโปรแกรม Quadratic
ฉันพยายามที่จะเข้าใจกระบวนการสำหรับการฝึกอบรมเชิงเส้นเครื่องเวกเตอร์การสนับสนุน ฉันรู้ว่าคุณสมบัติของ SMV ช่วยให้พวกเขาได้รับการปรับให้เร็วที่สุดมากกว่าการใช้ตัวแก้ปัญหาการเขียนโปรแกรมแบบสี่เหลี่ยมจัตุรัส แต่เพื่อจุดประสงค์ในการเรียนรู้ ข้อมูลการฝึกอบรม set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), Y=c(rep(1,5), rep(-1, 5))) df X1 X2 Y 1 -1.5454484 0.50127 1 2 -0.5283932 -0.80316 1 3 -1.0867588 0.63644 1 4 -0.0001115 1.14290 1 5 0.3889538 0.06119 1 6 5.5326313 3.68034 -1 7 3.1624283 2.71982 -1 8 5.6505985 …
12 r  svm  optimization 

2
การตีความโมเดลการถดถอยโลจิสติกด้วยตัวทำนายหลายตัว
ฉันทำการถดถอยโลจิสติกหลายตัวแปรโดยมีตัวแปรตามYเป็นตายที่บ้านพักคนชราภายในระยะเวลาหนึ่งของรายการและได้รับผลลัพธ์ดังต่อไปนี้ (โปรดทราบว่าตัวแปรเริ่มในAมันเป็นค่าอย่างต่อเนื่องในขณะที่เริ่มต้นBเป็นหมวดหมู่): Call: glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial) Deviance Residuals: Min 1Q Median 3Q Max -1.0728 -0.2167 -0.1588 -0.1193 3.7788 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 20.048631 6.036637 3.321 0.000896 *** A1 …
12 r  regression  logistic 

1
ฟังก์ชัน "ค่าเริ่มต้น" ในฟังก์ชัน glm () คืออะไร
สิ่งที่เป็นพารามิเตอร์start, etastart, mustartในGLM () ฟังก์ชั่น ? ฉันได้ดูเอกสารและอินเทอร์เน็ต แต่ฉันไม่พบคำอธิบายที่ชัดเจนว่ามันหมายถึงอะไร มันคล้ายกับ Bayesian "ค่าเริ่มต้น" สำหรับกลุ่ม แต่ฉันสงสัยว่ามันเกี่ยวข้องกับเนื่องจากฟังก์ชัน glm () ใน R เป็นสถิติที่ใช้บ่อย ...

1
การค้นหาค่าติดตั้งและทำนายสำหรับโมเดลเชิงสถิติ
สมมติว่าฉันมีข้อมูลต่อไปนี้และกำลังใช้โมเดลการถดถอย: df=data.frame(income=c(5,3,47,8,6,5), won=c(0,0,1,1,1,0), age=c(18,18,23,50,19,39), home=c(0,0,1,0,0,1)) ในอีกด้านหนึ่งฉันใช้โมเดลเชิงเส้นเพื่อทำนายรายได้: md1 = lm(income ~ age + home + home, data=df) ประการที่สองฉันเรียกใช้แบบจำลอง logit เพื่อทำนายตัวแปรที่ชนะ: md2 = glm(factor(won) ~ age + home, data=df, family=binomial(link="logit")) สำหรับทั้งสองรุ่นฉันสงสัยว่าฉันจะสร้างตารางหรือกรอบข้อมูลด้วยหมวดการตอบสนองของผู้ทำนายค่าติดตั้งและค่าที่ทำนายรูปแบบได้อย่างไร ดังนั้นสำหรับโมเดลเชิงเส้นบางอย่างเช่น: age fitted_income predicted_income 18 3 5 23 3 3 50 4 2 19 5 5 39 6 4 home fitted_income …
12 r 

6
การตีความผลลัพธ์ ur.df (การทดสอบรูทยูนิต Dickey-Fuller)
ฉันใช้การทดสอบรูทยูนิตต่อไปนี้ (Dickey-Fuller) ในอนุกรมเวลาโดยใช้ur.df()ฟังก์ชั่นในurcaแพ็คเกจ คำสั่งคือ: summary(ur.df(d.Aus, type = "drift", 6)) ผลลัพธ์คือ: ############################################### # Augmented Dickey-Fuller Test Unit Root Test # ############################################### Test regression drift Call: lm(formula = z.diff ~ z.lag.1 + 1 + z.diff.lag) Residuals: Min 1Q Median 3Q Max -0.266372 -0.036882 -0.002716 0.036644 0.230738 Coefficients: Estimate Std. Error t value …

1
ทางเลือกเพื่อบล็อก bootstrap สำหรับอนุกรมเวลาหลายตัวแปร
ขณะนี้ฉันใช้กระบวนการต่อไปนี้ในการทำการบูตอนุกรมเวลาหลายตัวแปรใน R: กำหนดขนาดบล็อก - เรียกใช้ฟังก์ชันb.starในnpแพ็คเกจที่สร้างขนาดบล็อกสำหรับแต่ละชุด เลือกขนาดบล็อกสูงสุด ทำงานtsbootกับซีรีส์ใดก็ได้โดยใช้ขนาดบล็อกที่เลือก ใช้ดัชนีจากเอาต์พุต bootstrap เพื่อสร้างอนุกรมเวลาหลายตัวแปรอีกครั้ง มีคนแนะนำให้ใช้แพคเกจ meboot เป็นทางเลือกแทน block bootstrap แต่เนื่องจากฉันไม่ได้ใช้ชุดข้อมูลทั้งหมดเพื่อเลือกขนาดบล็อกฉันไม่แน่ใจว่าจะรักษาความสัมพันธ์ระหว่างชุดข้อมูลอย่างไรถ้าฉันใช้ดัชนีที่สร้างขึ้นโดยใช้mebootบน หนึ่งชุด หากใครมีประสบการณ์กับ meboot ในการตั้งค่าหลายตัวแปรฉันจะขอบคุณคำแนะนำในกระบวนการอย่างมาก


3
วิธีการคำนวณความแตกต่างของสองลาด?
มีวิธีการที่จะเข้าใจหรือไม่ว่าสองบรรทัดขนานกัน (มากหรือน้อย)? ฉันมีสองบรรทัดที่สร้างขึ้นจากการถดถอยเชิงเส้นและฉันต้องการที่จะเข้าใจว่าพวกมันขนานกันหรือไม่ กล่าวอีกนัยหนึ่งฉันต้องการได้ความแตกต่างของความลาดชันของสองบรรทัดนี้ มีฟังก์ชั่น R เพื่อคำนวณสิ่งนี้หรือไม่? แก้ไข: ... และฉันจะได้ความชัน (เป็นองศา) ของเส้นการถดถอยเชิงเส้นได้อย่างไร

1
การทดสอบผลกระทบที่เกิดขึ้นพร้อมกันและล้าหลังในโมเดลผสมตามยาวที่มีตัวแปรแปรผันตามเวลา
เมื่อไม่นานมานี้มีคนบอกฉันว่ามันเป็นไปไม่ได้ที่จะรวม covariates ที่แปรผันตามเวลาในรูปแบบผสมตามยาวโดยไม่ได้แนะนำการล่าช้าของ covariates เหล่านี้ คุณสามารถยืนยัน / ปฏิเสธสิ่งนี้ได้หรือไม่? คุณมีการอ้างอิงเกี่ยวกับสถานการณ์นี้หรือไม่? ฉันเสนอสถานการณ์ง่าย ๆ เพื่อชี้แจง สมมติว่าฉันมีมาตรการซ้ำ ๆ (พูดมากกว่า 30 ครั้ง) ของตัวแปรเชิงปริมาณ (y, x1, x2, x3) ใน 40 วิชา ตัวแปรแต่ละตัวจะถูกวัด 30 ครั้งในแต่ละหัวข้อโดยแบบสอบถาม ที่นี่ข้อมูลสุดท้ายจะเป็น 4 800 การสังเกต (4 ตัวแปร X 30 ครั้ง X 40 วิชา) ซ้อนกันใน 40 วิชา ฉันต้องการทดสอบแยกต่างหาก (ไม่ใช่สำหรับการเปรียบเทียบรุ่น) สำหรับ: เอฟเฟกต์แบบซิงโครนัส (พร้อมกัน): อิทธิพลของ x1, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.