คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

7
การคำนวณพารามิเตอร์ของการแจกแจงแบบเบต้าโดยใช้ค่าเฉลี่ยและความแปรปรวน
ฉันจะคำนวณพารามิเตอร์และสำหรับการแจกแจงแบบเบต้าได้อย่างไรถ้าฉันรู้ค่าเฉลี่ยและความแปรปรวนที่ฉันต้องการให้การกระจายมี ตัวอย่างของคำสั่ง R เพื่อทำสิ่งนี้จะเป็นประโยชน์มากที่สุดบีตาαα\alphaββ\beta

8
ภาษา R น่าเชื่อถือสำหรับสาขาเศรษฐศาสตร์หรือไม่?
ฉันเป็นนักศึกษาระดับบัณฑิตศึกษาในสาขาเศรษฐศาสตร์ซึ่งเพิ่งเปลี่ยนมาใช้ R จากแพ็คเกจทางสถิติที่รู้จักกันดีอื่น ๆ (ฉันใช้ SPSS เป็นหลัก) ปัญหาเล็ก ๆ ของฉันในตอนนี้คือฉันเป็นผู้ใช้ R คนเดียวในชั้นเรียนของฉัน เพื่อนร่วมชั้นของฉันใช้ Stata และ Gauss และอาจารย์คนหนึ่งของฉันบอกว่า R เหมาะสำหรับงานวิศวกรรม แต่ไม่ใช่เพื่อเศรษฐศาสตร์ เขากล่าวว่าแพ็คเกจจำนวนมากถูกสร้างขึ้นโดยผู้ที่มีความรู้เกี่ยวกับการเขียนโปรแกรมมาก แต่ไม่มากนักเกี่ยวกับเศรษฐศาสตร์และดังนั้นจึงไม่น่าเชื่อถือ นอกจากนี้เขายังกล่าวถึงความจริงที่ว่าเนื่องจากไม่มีเงินเกี่ยวข้องกับการสร้างแพ็คเกจ R ดังนั้นจึงไม่มีแรงจูงใจที่จะทำอย่างถูกต้อง (ต่างจาก Stata เช่น) และเขาใช้ R เป็นเวลาและได้ผลลัพธ์ที่ "ไร้สาระ" ใน เขาพยายามประเมินบางสิ่ง ยิ่งไปกว่านั้นเขาบ่นว่าเขาสร้างตัวเลขสุ่มใน R ซึ่งเขาบอกว่า " ฉันใช้ R มานานกว่าหนึ่งเดือนและต้องบอกว่าฉันตกหลุมรักมันแล้ว ทุกสิ่งที่ฉันได้ยินจากอาจารย์ของฉันมันทำให้ฉันท้อใจ ดังนั้นคำถามของฉันคือ: "R เชื่อถือได้สำหรับสาขาเศรษฐศาสตร์หรือไม่"

1
วิธีการตีความสัมประสิทธิ์ในการถดถอยปัวซอง?
ฉันจะตีความผลกระทบหลัก (ค่าสัมประสิทธิ์สำหรับปัจจัยจำลอง) ในการถดถอยปัวซองได้อย่างไร สมมติตัวอย่างต่อไปนี้: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- …

8
PCA ตามมาด้วยการหมุน (เช่น varimax) ยังคงเป็น PCA หรือไม่
ฉันได้ลองทำซ้ำการวิจัย (ใช้ PCA) จาก SPSS ใน R จากประสบการณ์ของฉันprincipal() ฟังก์ชั่นจากแพ็คเกจpsychเป็นฟังก์ชั่นเดียวที่เข้ามาใกล้ (หรือถ้าหน่วยความจำของฉันทำหน้าที่ฉันถูกต้องตาย) เพื่อให้ตรงกับผลลัพธ์ เพื่อให้ตรงกับผลเช่นเดียวกับในโปรแกรม SPSS principal(..., rotate = "varimax")ผมต้องใช้พารามิเตอร์ ฉันเคยเห็นเอกสารพูดคุยเกี่ยวกับวิธีที่พวกเขาทำ PCA แต่จากผลของ SPSS และการใช้การหมุนมันฟังดูคล้ายกับการวิเคราะห์ตัวประกอบ คำถาม: PCA คือแม้หลังจากหมุน (โดยใช้varimax) ยังคง PCA หรือไม่ ฉันรู้สึกว่านี่อาจเป็นการวิเคราะห์ตัวประกอบจริง ๆ ... ในกรณีที่ไม่ได้ฉันมีรายละเอียดอะไรบ้าง

3
วิธีการพล็อตแผนภูมิตัวอย่างจาก randomForest :: getTree () จริง ๆ ได้อย่างไร? [ปิด]
ทุกคนมีคำแนะนำห้องสมุดหรือรหัสเกี่ยวกับวิธีการพล็อตตัวอย่างต้นไม้สองสามต้นจาก: getTree(rfobj, k, labelVar=TRUE) (ใช่ฉันรู้ว่าคุณไม่ควรทำสิ่งนี้ในเชิงปฏิบัติ RF เป็นกล่องดำ ฯลฯ ฯลฯ ฉันต้องการให้มีสติตรวจสายตาต้นไม้เพื่อดูว่าตัวแปรใดที่ทำงานผิดพลาดหรือไม่จำเป็นต้องปรับแต่ง / รวม / แยก / แปลง / ตรวจสอบ ปัจจัยที่เข้ารหัสของฉันทำงานได้ดีเพียงใด ฯลฯ ) คำถามก่อนหน้าโดยไม่มีคำตอบที่ดี: วิธีที่จะทำให้ป่าสุ่มตีความได้มากขึ้น? นอกจากนี้ยังได้รับความรู้จากป่าสุ่ม ที่จริงผมอยากจะพล็อตต้นไม้ตัวอย่าง ดังนั้นอย่าเถียงกับฉันเกี่ยวกับเรื่องนี้อยู่แล้ว ฉันไม่ได้ถามเกี่ยวกับvarImpPlot(Variance Importance Plot) หรือpartialPlotหรือMDSPlotหรือแปลงอื่น ๆ เหล่านี้ฉันมีอยู่แล้ว แต่พวกมันไม่ได้ใช้แทนการดูต้นไม้ตัวอย่าง getTree(...,labelVar=TRUE)ใช่ครับผมสายตาสามารถตรวจสอบการส่งออกของ (ฉันเดาว่าplot.rf.tree()ผลงานจะได้รับการตอบรับดีมาก)

3
สิ่งที่เหลืออยู่ในการถดถอยโลจิสติกหมายถึงอะไร
ในการตอบคำถามนี้ John Christie แนะนำว่าแบบจำลองการถดถอยแบบโลจิสติกส์ควรได้รับการประเมินโดยการประเมินส่วนที่เหลือ ฉันคุ้นเคยกับวิธีการตีความส่วนที่เหลือใน OLS พวกเขาอยู่ในระดับเดียวกับ DV และความแตกต่างอย่างชัดเจนระหว่าง y และ y ที่ทำนายโดยโมเดล อย่างไรก็ตามสำหรับการถดถอยโลจิสติกส์ในอดีตที่ผ่านมาฉันมักจะตรวจสอบการประมาณการของแบบจำลองเช่น AIC เพราะฉันไม่แน่ใจว่าสิ่งที่เหลือจะหมายถึงการถดถอยโลจิสติก หลังจากดูไฟล์ช่วยเหลือของ Rแล้วฉันเห็นว่าใน R มี glm เหลืออยู่ห้าประเภท, c("deviance", "pearson", "working","response", "partial"). ไฟล์ช่วยเหลืออ้างถึง: Davison, AC และ Snell, EJ (1991) ส่วนที่เหลือและการวินิจฉัย ใน: ทฤษฎีสถิติและแบบจำลอง ในเกียรติของเซอร์เดวิดคอคส์ FRSชั้นเลิศ Hinkley, DV, Reid, N. และ Snell, EJ, Chapman & Hall ฉันไม่มีสำเนาของสิ่งนั้น มีวิธีสั้น …

4
วิธีควรเล็ก -values มีการรายงาน? (และทำไม R ใส่ค่าต่ำสุดใน 2.22e-16)
สำหรับการทดสอบบางอย่างในการRมีวงเงินที่ต่ำกว่าในp-valueคำนวณของ16} ฉันไม่แน่ใจว่าทำไมมันเป็นจำนวนนี้ถ้ามีเหตุผลที่ดีสำหรับมันหรือถ้ามันเป็นเพียงโดยพลการ แพ็คเกจสถิติอื่น ๆ มากมายให้ไปดังนั้นนี่คือระดับความแม่นยำที่สูงขึ้นมาก แต่ผมยังไม่ได้เห็นเอกสารจำนวนมากเกินไปรายงานหรือ16}2.22⋅10−162.22⋅10−162.22 \cdot 10^{-16}0.0001p&lt;2.22⋅10−16p&lt;2.22⋅10−16p < 2.22\cdot 10^{-16}p=2.22⋅10−16p=2.22⋅10−16p = 2.22\cdot 10^{-16} เป็นเรื่องปกติ / วิธีปฏิบัติที่ดีที่สุดในการรายงานค่าที่คำนวณนี้หรือเป็นเรื่องปกติมากกว่าที่จะรายงานสิ่งอื่น (เช่นp &lt; 0.000000000000001)

6
ข้อผิดพลาดมาตรฐานสำหรับการทำนายด้วยเชือกโดยใช้ R
ฉันพยายามใช้โมเดล LASSO เพื่อการคาดการณ์และฉันต้องประเมินข้อผิดพลาดมาตรฐาน มีคนเขียนแพคเกจเพื่อทำสิ่งนี้แล้ว แต่เท่าที่ฉันเห็นไม่มีแพ็คเกจใน CRAN ที่ทำการทำนายโดยใช้ LASSO จะส่งกลับข้อผิดพลาดมาตรฐานสำหรับการคาดการณ์เหล่านั้น ดังนั้นคำถามของฉันคือ: มีแพ็คเกจหรือรหัส R บางอย่างที่สามารถคำนวณข้อผิดพลาดมาตรฐานสำหรับการทำนาย LASSO ได้หรือไม่?

5
ทำไมการรวบรวมข้อมูลจนกว่าจะได้ผลลัพธ์ที่มีนัยสำคัญจะเพิ่มอัตราความผิดพลาด Type I
ฉันสงสัยว่าทำไมการรวบรวมข้อมูลจนกว่าจะได้ผลลัพธ์ที่สำคัญ (เช่น ) ได้รับ (เช่นการแฮ็ค p) เพิ่มอัตราความผิดพลาด Type I หรือไม่p &lt; .05p&lt;.05p \lt .05 ฉันขอชื่นชมการRสาธิตปรากฏการณ์นี้อย่างมาก

4
เหตุใดการรวมละติจูดและลองจิจูดในบัญชี GAM สำหรับความสัมพันธ์เชิงพื้นที่อัตโนมัติ
ฉันสร้างแบบจำลองสารเติมแต่งทั่วไปสำหรับการตัดไม้ทำลายป่า เพื่ออธิบายความสัมพันธ์เชิงพื้นที่ฉันได้รวมละติจูดและลองจิจูดไว้ในรูปแบบการโต้ตอบที่ราบรื่น (เช่น s (x, y)) ฉันใช้การอ่านบทความจำนวนมากซึ่งผู้เขียนบอกว่า 'เพื่ออธิบายความสัมพันธ์เชิงพื้นที่โดยอัตโนมัติพิกัดของจุดถูกรวมไว้ในรูปแบบที่ราบรื่น' แต่สิ่งเหล่านี้ไม่เคยอธิบายว่าทำไมสิ่งนี้ถึงเกิดขึ้นจริง มันค่อนข้างน่าผิดหวัง ฉันได้อ่านหนังสือทั้งหมดที่ฉันสามารถหาได้ใน GAM โดยหวังว่าจะได้คำตอบ แต่ส่วนใหญ่ (เช่นโมเดลเสริมทั่วไป, บทนำด้วย R, SN Wood) เพียงแค่สัมผัสกับเรื่องโดยไม่อธิบาย ฉันจะซาบซึ้งจริง ๆ ถ้ามีใครสามารถอธิบายได้ว่าทำไมการรวมบัญชีละติจูดและลองจิจูดสำหรับการเปลี่ยนแปลงเชิงพื้นที่และสิ่งที่ 'การบัญชี' สำหรับมันหมายถึงจริงๆ - เป็นเพียงพอที่จะรวมไว้ในรูปแบบหรือถ้าคุณเปรียบเทียบแบบจำลองด้วย s (x, y) และโมเดลที่ไม่มี? และความเบี่ยงเบนที่อธิบายโดยคำนี้ระบุขอบเขตของความสัมพันธ์เชิงพื้นที่อัตโนมัติหรือไม่?

2
ฉันจะเปลี่ยนชื่อของตำนานใน ggplot2 ได้อย่างไร [ปิด]
ฉันมีพล็อตที่ฉันทำใน ggplot2 เพื่อสรุปข้อมูลที่มาจากชุดข้อมูล celled 2 x 4 x 3 ฉันได้รับสามารถที่จะทำให้การติดตั้งสำหรับตัวแปร 2 ระดับการใช้facet_grid(. ~ Age)และการตั้งค่า x และแกน y aes(x=4leveledVariable, y=DV)ที่ใช้ ฉันเคยaes(group=3leveledvariable, lty=3leveledvariable)ผลิตเนื้อเรื่องจนถึงตอนนี้ สิ่งนี้ทำให้ฉันเห็นภาพที่เป็นแบบพาเนลโดยตัวแปร 2 ระดับโดยที่แกน X เป็นตัวแทนของตัวแปร 4 ระดับและเส้นที่แตกต่างกันที่พล็อตภายในพาเนลสำหรับตัวแปร 3 ระดับ แต่ที่สำคัญสำหรับตัวแปร 3 ระดับนั้นมีชื่อว่าด้วยชื่อของตัวแปร 3 ระดับและฉันต้องการให้มันเป็นชื่อที่มีช่องว่างของอักขระ ฉันจะเปลี่ยนชื่อตำนานได้อย่างไร? สิ่งที่ฉันพยายามที่ดูเหมือนจะไม่ทำงาน (ที่abpเป็นวัตถุ ggplot2 ของฉัน): abp &lt;- abp + opts(legend.title="Town Name") abp &lt;- abp + …

1
ทำความเข้าใจเกี่ยวกับเส้นโค้ง ROC
ฉันมีปัญหาในการเข้าใจเส้นโค้ง ROC มีข้อได้เปรียบ / การปรับปรุงในพื้นที่ภายใต้เส้นโค้ง ROC หรือไม่ถ้าฉันสร้างแบบจำลองที่แตกต่างจากชุดย่อยเฉพาะแต่ละชุดของการฝึกอบรมและใช้มันเพื่อสร้างความน่าจะเป็น ตัวอย่างเช่นถ้ามีค่าเป็นและฉันสร้างแบบจำลองโดยใช้จากค่าที่ 1-4 ของและค่าที่ 8-9 ของและสร้างแบบจำลองโดยใช้ข้อมูลรถไฟที่ยังคงอยู่ ในที่สุดสร้างความน่าจะเป็น ความคิด / ความคิดเห็นใด ๆ จะได้รับการชื่นชมมากyyy{a,a,a,a,b,b,b,b}{a,a,a,a,b,b,b,b}\{a, a, a, a, b, b, b, b\}AAAaaayyyyyyBBB นี่คือรหัส r สำหรับคำอธิบายที่ดีกว่าสำหรับคำถามของฉัน: Y = factor(0,0,0,0,1,1,1,1) X = matirx(rnorm(16,8,2)) ind = c(1,4,8,9) ind2 = -ind mod_A = rpart(Y[ind]~X[ind,]) mod_B = rpart(Y[-ind]~X[-ind,]) mod_full = rpart(Y~X) pred …
57 r  roc 

1
การถดถอยโลจิสติกใน R ทำให้เกิดการแยกที่สมบูรณ์แบบ (ปรากฏการณ์ Hauck-Donner) ตอนนี้คืออะไร
ฉันพยายามที่จะทำนายผลเลขฐานสองโดยใช้ตัวแปรอธิบายอย่างต่อเนื่อง 50 ตัว (ช่วงของตัวแปรส่วนใหญ่คือถึง ) ชุดข้อมูลของฉันมีเกือบ 24,000 แถว เมื่อฉันทำงานใน R ฉันจะได้รับ:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred ฉันได้อ่านคำตอบอื่น ๆ ที่แนะนำว่าอาจมีการแยกอย่างสมบูรณ์แบบ แต่ฉันมั่นใจว่าไม่ใช่กรณีในข้อมูลของฉัน (แม้ว่าการแยกแบบกึ่งสมบูรณ์อาจเกิดขึ้นได้ฉันจะทดสอบเพื่อดูว่าเป็นอย่างนั้นได้อย่างไร) . หากฉันลบตัวแปรบางตัวข้อผิดพลาด "ไม่ได้บรรจบกัน" อาจหายไป แต่นั่นไม่ใช่สิ่งที่เกิดขึ้นเสมอไป ฉันพยายามใช้ตัวแปรเดียวกันในbayesglmฟังก์ชั่นและได้รับข้อผิดพลาดเดียวกัน ขั้นตอนใดที่คุณจะต้องทราบว่าเกิดอะไรขึ้นที่นี่ คุณคิดว่าตัวแปรใดเป็นสาเหตุของปัญหาได้อย่างไร

8
ห้องสมุด R สำหรับการเรียนรู้ลึก
ฉันสงสัยว่ามีห้องสมุด R ที่ดีอยู่ที่นั่นสำหรับการเรียนรู้โครงข่ายประสาทเทียมหรือไม่? ฉันรู้ว่ามีของnnet, neuralnetและRSNNSแต่ไม่มีของเหล่านี้ดูเหมือนจะใช้วิธีการเรียนรู้ลึก ฉันสนใจโดยเฉพาะอย่างยิ่งในการหากินตามด้วยการเรียนรู้ภายใต้การดูแลและใช้การออกกลางคันเพื่อป้องกันไม่ให้ร่วมการปรับตัว / แก้ไข: หลังจากไม่กี่ปีที่ผ่านมาฉันได้พบแพ็คเกจการเรียนรู้ระดับลึก h20 ที่ออกแบบมาอย่างดีและติดตั้งง่าย ฉันชอบแพ็คเกจ mxnetซึ่งยากต่อการติดตั้ง แต่สนับสนุนสิ่งต่าง ๆ เช่น covnets ทำงานบน GPU และเร็วมาก

9
จะรับค่า p-value (ตรวจสอบนัยสำคัญ) ของผลกระทบในรูปแบบผสม lme4 ได้อย่างไร
ฉันใช้ lme4 ใน R เพื่อให้พอดีกับโมเดลผสม lmer(value~status+(1|experiment))) โดยที่ค่านั้นต่อเนื่องสถานะและการทดลองเป็นปัจจัยและฉันได้รับ Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance Std.Dev. experiment (Intercept) 0.065526 0.25598 Residual 0.053029 0.23028 Number of obs: 264, groups: experiment, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.