คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

2
วิธีการใช้ binomial GLMM (glmer) กับเปอร์เซ็นต์แทนที่จะเป็นจำนวนใช่หรือไม่?
ฉันมีการทดสอบซ้ำหลายครั้งโดยที่ตัวแปรตามคือร้อยละและฉันมีหลายปัจจัยเป็นตัวแปรอิสระ ฉันต้องการใช้glmerจากแพ็คเกจ R lme4เพื่อจัดการกับปัญหาการถดถอยโลจิสติก (โดยระบุfamily=binomial) เนื่องจากดูเหมือนว่าจะรองรับการตั้งค่านี้โดยตรง ข้อมูลของฉันมีลักษณะเช่นนี้: > head(data.xvsy) foldnum featureset noisered pooldur dpoolmode auc 1 0 mfcc-ms nr0 1 mean 0.6760438 2 1 mfcc-ms nr0 1 mean 0.6739482 3 0 melspec-maxp nr075 1 max 0.8141421 4 1 melspec-maxp nr075 1 max 0.7822994 5 0 chrmpeak-tpor1d nr075 1 max 0.6547476 …

2
วิธีตีความพารามิเตอร์ใน GLM with family = Gamma
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 5 ปีที่ผ่านมา ฉันมีคำถามเกี่ยวกับการตีความพารามิเตอร์สำหรับ GLM ที่มีตัวแปรตามการกระจายแกมม่า นี่คือสิ่งที่ R ส่งคืนสำหรับ GLM ของฉันด้วยล็อกลิงค์: Call: glm(formula = income ~ height + age + educat + married + sex + language + highschool, family = Gamma(link = log), data = fakesoep) Deviance Residuals: Min 1Q Median 3Q Max -1.47399 -0.31490 …

5
การสุ่มป่าเทียบกับการถดถอย
ฉันใช้โมเดลการถดถอย OLS ในชุดข้อมูลที่มี 5 ตัวแปรอิสระ ตัวแปรอิสระและตัวแปรตามมีทั้งต่อเนื่องและเกี่ยวข้องเชิงเส้น R Square อยู่ที่ประมาณ 99.3% แต่เมื่อฉันเรียกใช้เดียวกันโดยใช้ฟอเรสต์แบบสุ่มใน R ผลลัพธ์ของฉันคือ '% Var อธิบาย: 88.42' เหตุใดผลการสุ่มป่าจึงต่ำกว่าการถดถอย สมมติฐานของฉันคือป่าสุ่มจะดีเท่ากับ OLS regression

5
แหล่งที่มาสำหรับการเรียนรู้ (ไม่ใช่แค่ทำงาน) สถิติ / คณิตศาสตร์ผ่าน R
ฉันสนใจตัวอย่างของแหล่งข้อมูล (รหัส R, แพ็คเกจ R, หนังสือ, บทหนังสือ, บทความ, ลิงก์ ฯลฯ ) สำหรับการเรียนรู้แนวคิดทางสถิติและคณิตศาสตร์ผ่าน R (อาจเป็นภาษาอื่นได้ แต่ R คือรสนิยมที่ฉันโปรดปราน) ความท้าทายคือการเรียนรู้ของวัสดุอาศัยการเขียนโปรแกรมไม่ใช่เพียงแค่วิธีการเรียกใช้โค้ดที่ดำเนินการตามขั้นตอนวิธี ดังนั้น (ตัวอย่าง) หนังสือเช่นรุ่นเชิงเส้นที่มี R (ซึ่งเป็นหนังสือที่ยอดเยี่ยม) ไม่ใช่สิ่งที่ฉันกำลังมองหา นี่เป็นเพราะว่าหนังสือเล่มนี้ส่วนใหญ่แสดงวิธีการใช้ตัวแบบเชิงเส้นใน R แต่มันไม่ได้หมุนรอบการสอนแบบเชิงเส้นโดยใช้ R ไฟล์ช่วยเหลือสำหรับแพ็คเกจการสอน (มหัศจรรย์) เป็นตัวอย่างที่ดีของสิ่งที่ฉันกำลังมองหา มันเป็นแพคเกจ R ซึ่งรวมถึงฟังก์ชั่นสำหรับการเรียนรู้แนวคิดทางสถิติผ่านแอปเพล็ต R และการจำลองต่างๆ ไฟล์ช่วยเหลือมาพร้อมดี แน่นอนว่าไม่เพียงพอและต้องใช้ตำราเรียนภายนอกเพื่อฝึกฝนรายละเอียดที่แน่นอนหลายอย่างเพื่อเรียนรู้ (เช่นไฟล์ช่วยเหลือ) โอกาสในการขายทั้งหมดจะได้รับการชื่นชมมาก

5
วิธีการควบคุมค่าใช้จ่ายของการจำแนกประเภทในป่าสุ่ม?
เป็นไปได้หรือไม่ที่จะควบคุมค่าใช้จ่ายในการจำแนกประเภทใน R แพ็คเกจแบบสุ่มป่าไม้ ? ในงานของฉันเองเชิงลบเท็จ (เช่นหายไปในข้อผิดพลาดที่บุคคลอาจมีโรค) มีราคาแพงกว่าบวกเท็จ แพ็คเกจrpartช่วยให้ผู้ใช้สามารถควบคุมค่าใช้จ่ายในการจำแนกประเภทได้โดยการระบุเมทริกซ์การสูญเสียไปยังการจัดประเภทน้ำหนักที่แตกต่างกัน มีอะไรที่คล้ายกันเกิดขึ้นเพื่อrandomForestอะไร? ตัวอย่างเช่นฉันควรใช้classwtตัวเลือกในการควบคุมเกณฑ์ของ Gini หรือไม่

1
ฉันจะจัดแนว / ประสานสัญญาณสองสัญญาณได้อย่างไร
ฉันกำลังทำวิจัย แต่ติดค้างอยู่ที่ขั้นตอนการวิเคราะห์ (ควรให้ความสนใจกับการบรรยายสถิติของฉันมากขึ้น) ฉันได้รวบรวมสัญญาณสองสัญญาณพร้อมกัน: อัตราการไหลรวมเข้ากับปริมาณและการเปลี่ยนแปลงการขยายหน้าอก ฉันต้องการเปรียบเทียบสัญญาณและในที่สุดก็หวังว่าจะได้ปริมาณจากสัญญาณการขยายหน้าอก แต่ก่อนอื่นฉันต้องจัด / ประสานข้อมูลของฉัน เนื่องจากการบันทึกไม่เริ่มต้นอย่างแม่นยำในเวลาเดียวกันและการขยายหน้าอกถูกจับเป็นระยะเวลานานฉันจำเป็นต้องค้นหาข้อมูลที่สอดคล้องกับข้อมูลปริมาณของฉันภายในชุดข้อมูลการขยายหน้าอกและมีการวัดความสอดคล้องกัน ฉันไม่แน่ใจว่าจะทำอย่างไรถ้าสัญญาณสองสัญญาณไม่เริ่มต้นในเวลาเดียวกันหรือระหว่างข้อมูลในระดับต่างๆและความละเอียดที่ต่างกัน ฉันได้แนบตัวอย่างของสัญญาณสองรายการ ( https://docs.google.com/spreadsheet/ccc?key=0As4oZTKp4RZ3dFRKaktYWEhZLXlFbFVVNNllbGVXNHc ) โปรดแจ้งให้เราทราบหากมีสิ่งใดอีก

1
การวินิจฉัยที่เหลือในรูปแบบการถดถอยแบบ MCMC
ฉันเพิ่งลงมือเมื่อไม่นานมานี้ในแบบผสมการถดถอยที่เหมาะสมในกรอบ Bayesian โดยใช้อัลกอริทึม MCMC (ฟังก์ชั่น MCMCglmm ใน R จริง) ฉันเชื่อว่าฉันเข้าใจวิธีการวินิจฉัยลู่เข้าของกระบวนการประมาณ (ติดตาม, พล็อต geweke, autocorrelation, การกระจายหลัง ... ) สิ่งหนึ่งที่ทำให้ฉันตกอยู่ในกรอบการทำงานของ Bayesian คือความพยายามอย่างมากที่จะอุทิศให้กับการวินิจฉัยเหล่านั้นในขณะที่ดูเหมือนว่าจะทำได้น้อยมากในแง่ของการตรวจสอบชิ้นส่วนที่เหลือของแบบจำลองที่ติดตั้ง ยกตัวอย่างเช่นใน MCMCglmm ส่วนฟังก์ชั่น residual.mcmc () นั้นยังมีอยู่ แต่ยังไม่ได้นำไปใช้จริง (เช่นส่งกลับ: "ส่วนที่เหลือยังไม่ได้นำไปใช้กับวัตถุ MCMCglmm"; เรื่องเดียวกันสำหรับทำนาย. ดูเหมือนว่าจะขาดจากแพ็คเกจอื่น ๆ เช่นกันและโดยทั่วไปแล้วจะมีการพูดคุยกันเล็กน้อยในวรรณคดีที่ฉันพบ ใครช่วยชี้ให้ฉันถึงการอ้างอิงที่มีประโยชน์และรหัส R ที่ฉันสามารถเล่นหรือแก้ไขได้ ขอบคุณมาก.

3
โมเดลเรียงซ้อน / ตระการตาพร้อมคาเร็ต
ฉันมักจะพบว่าตัวเองกำลังฝึกอบรมตัวพยากรณ์ที่แตกต่างกันหลายตัวที่ใช้caretในอาร์ฉันจะฝึกพวกมันทั้งหมดในการตรวจสอบความถูกต้องไขว้แบบเดียวกันโดยใช้caret::: createFoldsแล้วเลือกโมเดลที่ดีที่สุดโดยอิงจากข้อผิดพลาดการตรวจสอบข้าม อย่างไรก็ตามการทำนายค่ามัธยฐานจากหลายรุ่นมักจะดีกว่าแบบจำลองเดี่ยวที่ดีที่สุดในชุดทดสอบอิสระ ฉันกำลังคิดว่าจะเขียนฟังก์ชั่นบางอย่างสำหรับการวางซ้อน / การวางแบบ caret ที่ได้รับการฝึกอบรมโดยใช้ cross-validation folds เช่นโดยการคาดคะเนค่ามัธยฐานจากแต่ละแบบจำลองในแต่ละครั้งหรือโดยการฝึก "meta-model" แน่นอนว่าอาจต้องใช้ลูปการตรวจสอบความถูกต้องภายนอก ไม่มีใครรู้แพคเกจที่มีอยู่ / รหัสโอเพนซอร์สที่มีอยู่สำหรับรุ่น caret ตระการตา
21 r  caret  ensemble 

3
ขั้นตอนแรกสำหรับข้อมูลขนาดใหญ่ ( , )
สมมติว่าคุณกำลังวิเคราะห์ชุดข้อมูลขนาดใหญ่ที่มีการสังเกตการณ์นับพันล้านครั้งต่อวันซึ่งการสังเกตแต่ละครั้งมีตัวแปรเบาบางและตัวแปรเชิงซ้อนและตัวเลขซ้ำซ้อนสองพันรายการ สมมติว่ามีปัญหาการถดถอยหนึ่งปัญหาการจำแนกเลขฐานสองที่ไม่สมดุลและอีกหนึ่งภารกิจของ "ค้นหาว่าตัวทำนายใดที่สำคัญที่สุด" ความคิดของฉันสำหรับวิธีการแก้ไขปัญหาคือ: ติดตั้งโมเดลการทำนายบางอย่างกับกลุ่มตัวอย่างย่อยที่มีขนาดใหญ่ขึ้นและใหญ่ขึ้น (สุ่ม) จนกระทั่ง: การติดตั้งและตรวจสอบความถูกต้องของโมเดลกลายเป็นเรื่องยากในการคำนวณ (เช่นการใช้แล็ปท็อปของฉันช้าไม่มีเหตุผล R ไม่มีหน่วยความจำเหลือ ฯลฯ ) หรือ การฝึกอบรมและทดสอบ RMSE หรือค่าความแม่นยำ / การเรียกคืนมีความเสถียร หากข้อผิดพลาดในการฝึกอบรมและการทดสอบไม่คงที่ (1. ) ให้ใช้โมเดลที่ง่ายกว่าและ / หรือใช้โมเดลรุ่นมัลติคอร์หรือมัลติโหนดและรีสตาร์ทตั้งแต่ต้น หากการฝึกอบรมและการทดสอบข้อผิดพลาดเสถียร (2. ): หาก (เช่นฉันยังคงสามารถเรียกใช้อัลกอริทึมบนเนื่องจากยังไม่ใหญ่เกินไป) พยายามปรับปรุงประสิทธิภาพโดยการขยายพื้นที่ของฟีเจอร์หรือใช้โมเดลที่ซับซ้อนมากขึ้นและรีสตาร์ทตั้งแต่ต้นยังไม่มีข้อความs u b s e t≪ Nยังไม่มีข้อความsยูขsอีเสื้อ«ยังไม่มีข้อความN_{subset} \ll NXs u b s e tXsยูขsอีเสื้อX_{subset} หากเป็น 'ใหญ่' และการดำเนินการวิเคราะห์เพิ่มเติมนั้นมีค่าใช้จ่ายสูงให้วิเคราะห์ความสำคัญและสิ้นสุดของตัวแปรยังไม่มีข้อความs u b s …

4
ความสำคัญของการทำนายในการถดถอยหลายครั้ง: บางส่วนกับค่าสัมประสิทธิ์มาตรฐาน
ฉันสงสัยว่าความสัมพันธ์ที่แน่นอนระหว่างบางส่วนกับสัมประสิทธิ์ในแบบจำลองเชิงเส้นคืออะไรและฉันควรใช้เพียงหนึ่งหรือทั้งสองเพื่อแสดงความสำคัญและอิทธิพลของปัจจัยต่างๆR2R2R^2 เท่าที่ฉันรู้summaryฉันได้รับการประมาณค่าสัมประสิทธิ์และanovaผลรวมของกำลังสองสำหรับแต่ละปัจจัย - สัดส่วนของผลรวมของกำลังสองของปัจจัยหนึ่งหารด้วยผลรวมของผลบวกของสี่เหลี่ยมบวกส่วนที่เหลือเป็นบางส่วน (รหัสต่อไปนี้อยู่ใน)R2R2R^2R library(car) mod<-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 …

3
การถดถอยเทียบกับความคลาดเคลื่อน ANOVA (aov vs lm ใน R)
ฉันมักจะรู้สึกว่าการถดถอยเป็นเพียงรูปแบบทั่วไปของ ANOVA และผลลัพธ์ก็จะเหมือนกัน อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันได้รันทั้งการถดถอยและการวิเคราะห์ความแปรปรวนของข้อมูลเดียวกันและผลลัพธ์แตกต่างกันอย่างมีนัยสำคัญ นั่นคือในรูปแบบการถดถอยทั้งผลกระทบหลักและการมีปฏิสัมพันธ์อย่างมีนัยสำคัญในขณะที่ ANOVA หนึ่งผลกระทบหลักไม่สำคัญ ฉันคาดหวังว่าสิ่งนี้จะเกี่ยวข้องกับการโต้ตอบ แต่ไม่ชัดเจนสำหรับฉันเกี่ยวกับการสร้างแบบจำลองคำถามเดียวกัน หากเป็นสิ่งสำคัญตัวทำนายหนึ่งตัวจะจัดหมวดหมู่และอีกตัวเป็นแบบต่อเนื่องตามที่ระบุในการจำลองด้านล่าง นี่คือตัวอย่างของข้อมูลของฉันและการวิเคราะห์ที่ฉันใช้ แต่ไม่มีค่า p หรือเอฟเฟ็กต์ที่มีนัยสำคัญในผลลัพธ์ group<-c(1,1,1,0,0,0) moderator<-c(1,2,3,4,5,6) score<-c(6,3,8,5,7,4) summary(lm(score~group*moderator)) summary(aov(score~group*moderator))
21 r  regression  anova 

1
การคำนวณเมทริกซ์ผกผันใน R อย่างมีประสิทธิภาพ
ฉันต้องการคำนวณเมทริกซ์ผกผันและใช้solveฟังก์ชัน ในขณะที่มันใช้งานได้ดีกับเมทริกซ์ขนาดเล็ก แต่solveมีแนวโน้มที่จะช้ามากในเมทริกซ์ขนาดใหญ่ ฉันสงสัยว่ามีฟังก์ชั่นอื่น ๆ หรือการรวมกันของฟังก์ชั่น (ผ่าน SVD, QR, LU หรือฟังก์ชั่นการสลายตัวอื่น ๆ ) ที่สามารถให้ผลลัพธ์ที่เร็วขึ้น

1
ฉันจะทำนายค่าจากอินพุตใหม่ของโมเดลเชิงเส้นใน R ได้อย่างไร?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันได้สร้างโมเดลเชิงเส้นตรงใน mod = lm(train_y ~ train_x)R: ฉันต้องการส่งรายการของ X และรับการคาดการณ์ / ประเมิน / คาดการณ์ Y ฉันดูpredict()แต่ฉันคิดว่ามันมีไว้สำหรับอย่างอื่นหรือฉันไม่รู้ว่าจะใช้มันอย่างไร ฉันคาดเดาด้วยการใช้สัมประสิทธิ์ของแบบจำลองของฉันฉันสามารถปลั๊กอินตัวแปร test_x แบบตัวต่อตัวและทำนายค่า Y ได้ แต่ฉันเดาว่าจะมีวิธีที่มีประสิทธิภาพมากกว่านี้

5
ตัวอย่างของค่าสัมประสิทธิ์สหสัมพันธ์ที่แข็งแกร่งกับค่า p สูง
ฉันสงสัยว่าเป็นไปได้หรือไม่ที่จะมีค่าสัมประสิทธิ์สหสัมพันธ์ที่สูงมาก (พูด. 9 หรือสูงกว่า) ด้วยค่า p สูง (พูด. 25 หรือสูงกว่า)? นี่คือตัวอย่างของสัมประสิทธิ์สหสัมพันธ์ต่ำที่มีค่า p สูง: set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0.03908927, p = 0.6994 สัมประสิทธิ์สหสัมพันธ์สูงค่า p ต่ำ: y <- rnorm(100) x <- rnorm(100)+2*y cor.test(x,y) cor = 0.8807809, p = 2.2e-16 ค่าสัมประสิทธิ์สหสัมพันธ์ต่ำค่า p ต่ำ: y <- rnorm(100000) x …

1
การถดถอยโลจิสติกสำหรับอนุกรมเวลา
ฉันต้องการใช้แบบจำลองการถดถอยแบบลอจิสติกแบบไบนารีในบริบทของการสตรีมข้อมูล (อนุกรมเวลาหลายมิติ) เพื่อทำนายค่าของตัวแปรตามของข้อมูล (เช่นแถว) ที่เพิ่งมาถึงจากการสังเกตที่ผ่านมา เท่าที่ฉันทราบการถดถอยโลจิสติกส์นั้นใช้สำหรับการวิเคราะห์หลังการตายซึ่งตัวแปรตามแต่ละตัวได้ถูกตั้งค่าไว้แล้ว (ไม่ว่าจะโดยการตรวจสอบหรือโดยธรรมชาติของการศึกษา) สิ่งที่เกิดขึ้นในกรณีของอนุกรมเวลา แต่ที่เราต้องการที่จะทำให้การคาดการณ์ (การบิน) เกี่ยวกับตัวแปรในแง่ของข้อมูลทางประวัติศาสตร์ (ตัวอย่างเช่นในหน้าต่างเวลาของสุดท้ายวินาที) และแน่นอนก่อนหน้านี้ ประมาณการของตัวแปรตามเสื้อtt และถ้าคุณเห็นระบบข้างต้นเมื่อเวลาผ่านไปมันควรจะถูกสร้างขึ้นอย่างไรเพื่อให้การถดถอยทำงานได้? เราต้องฝึกมันก่อนโดยการติดฉลากสมมติว่า 50 แถวแรกของข้อมูลของเรา (เช่นการตั้งค่าตัวแปรตามเป็น 0 หรือ 1) จากนั้นใช้ประมาณการปัจจุบันของเวกเตอร์เพื่อประเมินความน่าจะเป็นใหม่ของตัวแปรตาม 0 หรือ 1 สำหรับข้อมูลที่เพิ่งมาถึง (เช่นแถวใหม่ที่เพิ่งเพิ่มไปยังระบบ)ββ{\beta} เพื่อทำให้ปัญหาของฉันชัดเจนยิ่งขึ้นฉันพยายามสร้างระบบที่แยกวิเคราะห์ชุดข้อมูลทีละแถวและพยายามคาดคะเนของผลลัพธ์ไบนารี (ตัวแปรตาม) ให้ความรู้ (การสังเกตหรือการประเมิน) ของทั้งหมดขึ้นอยู่กับหรืออธิบาย ตัวแปรที่มาถึงในช่วงเวลาที่แน่นอน ระบบของฉันอยู่ใน Rerl และใช้ R สำหรับการอนุมาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.