คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
ทับทิมเป็นโต๊ะทำงานสถิติ
และนี่ก็เป็นคำถามที่เกี่ยวข้องอย่างมากกับงูหลามเป็นสถิติที่ปรับแต่งและExcel เป็นสถิติที่ปรับแต่ง ฉันรู้ว่ามีการอภิปรายอย่างมากเกี่ยวกับ Ruby กับ Python แต่นี่ไม่ใช่ประเด็นของคำถามนี้ ฉันคิดว่าทับทิมเร็วกว่าไพ ธ อนและการมีไวยากรณ์ที่เป็นธรรมชาติมาก ๆ อาจเป็นประโยชน์ต่อฉันในการเข้าใจสถิติและอาจเป็นทางเลือกที่ดีสำหรับ R (ซึ่งเป็นที่สนใจของฉันและถูกอ้างถึงในคำถามอื่น ๆ ของฉันที่นี่) ตัวอย่างเช่นหนึ่งในการบรรยายของ Google Tech ที่ฉันเคยเห็น (อ้างถึงคำถามที่เชื่อมโยงที่นี่ผู้สอนบ่นว่า R ช้าในขณะที่สร้างลูปสำหรับ) ด้วย Ruby ยังมี Rails อยู่ด้วยดังนั้นอาจมีความเป็นไปได้ที่จะนำทั้งสองอย่างมารวมกัน (Python มี Django แต่อีกครั้งฉันไม่เข้าใจ) ดังนั้นคำถามก็เหมือนกัน แต่สำหรับฉันใน Ruby: คุณสามารถแนะนำอะไรได้ถ้าฉันต้องการใช้ Ruby เป็น "สถิติ workbench" เพื่อแทนที่ R, SPSS, Python, Excelฯลฯ สิ่งที่ฉันจะได้รับและสูญเสียขึ้นอยู่กับประสบการณ์ของคุณ? โปรดทราบฉันกำลังพิจารณาคำถามนี้ตามคำถาม Python และ Excel …
13 r  python  software  ruby 

3
มีสูตรหรือกฎสำหรับการกำหนด sampSize ที่ถูกต้องสำหรับ randomForest หรือไม่?
ฉันกำลังเล่นกับป่าสุ่มและพบว่าโดยทั่วไปการเพิ่ม sampSize จะนำไปสู่ประสิทธิภาพที่ดีขึ้น มีกฎ / สูตร / ฯลฯ ที่แนะนำว่า sampSize ที่ดีที่สุดควรเป็นอะไรหรือมันเป็นการทดลองและข้อผิดพลาดหรือไม่? ฉันเดาอีกวิธีหนึ่งในการใช้ถ้อยคำ อะไรคือความเสี่ยงของฉันที่มีขนาดเล็กเกินไปของ sampSize หรือใหญ่เกินไป (overfitting?) คำถามนี้อ้างถึงการนำ R ฟอเรสต์มาใช้ในrandomForestแพคเกจแบบสุ่ม ฟังก์ชั่นrandomForestมีพารามิเตอร์sampSizeซึ่งอธิบายไว้ในเอกสารประกอบดังนี้ ขนาดตัวอย่างที่จะวาด สำหรับการจำแนกประเภทหาก sampsize เป็นเวกเตอร์ที่มีความยาวจำนวนชั้นการสุ่มตัวอย่างจะแบ่งเป็นชั้น ๆ และองค์ประกอบของ sampsize จะระบุจำนวนที่จะดึงออกมาจากชั้น
13 r  random-forest 

2
วิเคราะห์สัดส่วน
ฉันมีชุดข้อมูลที่มีหลายสัดส่วนที่รวมกันเป็น 1 ฉันสนใจที่จะเปลี่ยนสัดส่วนเหล่านี้ตามการไล่ระดับสี (ดูตัวอย่างด้านล่างสำหรับข้อมูลตัวอย่าง) gradient <- 1:99 A1 <- gradient * 0.005 A2 <- gradient * 0.004 A3 <- 1 - (A1 + A2) df <- data.frame(gradient = gradient, A1 = A1, A2 = A2, A3 = A3) require(ggplot2) require(reshape2) dfm <- melt(df, id = "gradient") ggplot(dfm, aes(x = gradient, …
13 r  multinomial 

1
การคำนวณกำลังไฟ / ขนาดตัวอย่างสำหรับการศึกษาไบโอมาร์คเกอร์
เรามีไบโอมาร์คเกอร์ที่มีศักยภาพในการทำนายว่าผู้ป่วยจะเป็นมะเร็งหรือไม่ ผลการทดสอบไบโอมาร์คเกอร์คือเลขฐานสองเป็นบวกหรือลบ เราต้องการทราบถึงจำนวนผู้ป่วยที่ต้องทดสอบเพื่อตรวจสอบว่าไบโอมาร์คเกอร์นี้เป็นตัวทำนายที่ดีหรือไม่ จากการอ่านบนอินเทอร์เน็ตดูเหมือนว่าวิธีที่จะไปคือดูความไว (สำหรับจำนวนเคส) และความเฉพาะเจาะจง (สำหรับจำนวนของการควบคุม) ขอแนะนำว่าคุณควรปฏิบัติต่อสถานการณ์นี้เป็นการทดสอบสัดส่วนตัวอย่างเดียว แต่ก็ยังไม่ชัดเจนว่าคุณควรประเมินความไวและช่วงที่คุณเตรียมไว้อย่างไร ถ้าพูดว่าฉันพิจารณาผู้ใช้ไบโอมาร์คเกอร์ที่มีความไวมากกว่า 0.8 ถึง "ดี" คุณจะตั้งค่าตัวแปรทั้งสองอย่างไร ฉันต้องการสมมติฐานว่างเปล่าของฉันที่จะเป็นไบโอมาร์คเกอร์ไม่ได้ดีไปกว่าการสุ่มเลือกเช่นความไว 0.5 ทุกคนสามารถให้ตัวอย่างของวิธีที่ดีที่สุดในการทำเช่นนี้ (โดยเฉพาะถ้ามันอยู่ใน R)
13 r  power 

2
การประเมินแบบจำลองการถดถอยโลจิสติก
คำถามนี้เกิดขึ้นจากความสับสนที่แท้จริงของฉันเกี่ยวกับวิธีการตัดสินใจว่าแบบจำลองโลจิสติกส์นั้นดีพอหรือไม่ ฉันมีรูปแบบที่ใช้สถานะของคู่แต่ละโครงการสองปีหลังจากที่พวกเขาจะกลายเป็นตัวแปรตาม ผลลัพธ์สำเร็จ (1) หรือไม่ (0) ฉันมีตัวแปรอิสระที่วัดได้ในเวลาที่ทำการก่อตัวของคู่ เป้าหมายของฉันคือการทดสอบว่าตัวแปรที่ฉันตั้งสมมติฐานจะมีอิทธิพลต่อความสำเร็จของคู่นั้นมีผลต่อความสำเร็จนั้นหรือไม่ควบคุมอิทธิพลที่อาจเกิดขึ้นอื่น ๆ ในโมเดลตัวแปรที่น่าสนใจมีความสำคัญ รุ่นได้ประมาณโดยใช้ฟังก์ชั่นในglm() Rเพื่อประเมินคุณภาพของรูปแบบที่ฉันได้ทำสิ่งที่ไม่กี่: glm()ช่วยให้คุณresidual devianceที่AICและBICตามค่าเริ่มต้น นอกจากนี้ฉันได้คำนวณอัตราความผิดพลาดของแบบจำลองและพล็อตสิ่งที่เหลือค้างแล้ว แบบจำลองที่สมบูรณ์มีความเบี่ยงเบนที่เหลืออยู่น้อยกว่า AIC และ BIC กว่าแบบจำลองอื่น ๆ ที่ฉันได้ประเมินไว้ (และซ้อนอยู่ในแบบจำลองที่สมบูรณ์) ซึ่งทำให้ฉันคิดว่าแบบจำลองนี้ "ดีกว่า" กว่าคนอื่น ๆ อัตราความผิดพลาดของโมเดลค่อนข้างต่ำ IMHO (เช่นเดียวกับGelman and Hill, 2007, pp.99 ): error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)ที่ประมาณ 20% จนถึงตอนนี้ดีมาก แต่เมื่อฉันพล็อตสิ่งที่เหลือค้าง (อีกครั้งตามคำแนะนำของ Gelman และ …

2
วิธีแปลงตารางความถี่ให้เป็นเวกเตอร์ของค่าได้อย่างไร
การใช้ R หรือ Excel วิธีที่ง่ายที่สุดในการแปลงตารางความถี่เป็นเวกเตอร์ของค่าคืออะไร เช่นคุณจะแปลงตารางความถี่ต่อไปนี้เป็นอย่างไร Value Frequency 1. 2 2. 1 3. 4 4. 2 5. 1 ในเวกเตอร์ต่อไปนี้? 1, 1, 2, 3, 3, 3, 3, 4, 4, 5
13 r  dataset  excel 

4
วาดหลายแปลงบนกราฟเดียวใน R?
Rการใช้รหัสต่อไปนี้ผมพยายามที่จะวาดสี่แปลงในกราฟใน ฉันไม่พอใจกับตัวเลขเพราะมีช่องว่างจำนวนมากระหว่างแปลงดังนั้นความกว้างของแปลงไม่เพียงพอที่จะวิเคราะห์แปลง ใครช่วยฉันสร้างกราฟที่ดีที่มีสี่แปลง? ฉันจะเก็บเลเบลแกน x ได้ตั้งแต่ 1 ถึง 10 แทนที่จะเป็น 5 ป้ายเริ่มต้นได้อย่างไร ข้อมูล: a1: 11.013 13.814 13.831 13.714 13.787 13.734 13.778 13.771 13.823 13.659 a2: 5.181 7.747 8.314 8.061 7.920 8.153 8.540 8.845 7.881 8.301 ฉันใช้ข้อมูล a1 สำหรับ b1, c1 และ d1; ข้อมูล a2 สำหรับ b2, c2 และ d2 เฉพาะที่นี่ …

5
R ทางเลือกเดียวของ BUGS [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันกำลังติดตามหลักสูตรเกี่ยวกับสถิติแบบเบย์โดยใช้ BUGS และ R ตอนนี้ฉันรู้แล้วว่า BUGS มันเยี่ยมมาก แต่ฉันไม่ชอบการใช้โปรแกรมแยกต่างหากแทนที่จะเป็นอาร์ ฉันได้อ่านแล้วว่ามีแพ็คเกจ Bayesian ใหม่จำนวนมากใน R. มีรายการหรือการอ้างอิงว่ามีแพ็คเกจใดบ้างสำหรับสถิติ Bayesian และสิ่งเหล่านี้มีอะไรบ้าง และมีแพ็คเกจ R ที่เป็นทางเลือกสำหรับความยืดหยุ่นของ BUGS หรือไม่?
13 r  bayesian  bugs 

2
Boxplot เกี่ยวกับสองปัจจัยโดยใช้ ggplot2 ใน R
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันใหม่สำหรับ R และแพ็คเกจใด ๆ ใน R. ฉันดูเอกสาร ggplot2 แต่ไม่พบสิ่งนี้ ฉันต้องการพล็อตกล่องของตัวแปรboxthisที่เกี่ยวกับสองปัจจัยและf1 f2นั่นคือสมมติว่าทั้งสองf1และf2เป็นตัวแปรปัจจัยและแต่ละคนมีสองค่าและboxthisเป็นตัวแปรต่อเนื่อง ฉันต้องการที่จะได้รับ 4 boxplots บนกราฟแต่ละสอดคล้องกับหนึ่งรวมกันจากการรวมกันไปได้ว่าf1และf2สามารถใช้ ฉันคิดว่าการใช้ฟังก์ชันพื้นฐานใน R สามารถทำได้โดย > boxplot(boxthis ~ f1 * f2 , data = datasetname) ขอบคุณล่วงหน้าสำหรับความช่วยเหลือใด ๆ
13 r  boxplot  ggplot2 

4
แพ็กเกจ R / Stata สำหรับ GEE ลบทวินามลบศูนย์ที่ถูกตัดทอน?
นี่คือโพสต์แรกของฉัน ฉันขอบคุณสำหรับชุมชนนี้อย่างแท้จริง ฉันพยายามวิเคราะห์ข้อมูลการนับตามยาวที่ไม่มีการตัดทอน (ความน่าจะเป็นที่ตัวแปรตอบสนอง = 0 คือ 0) และค่าเฉลี่ย! = ความแปรปรวนดังนั้นการกระจายแบบทวินามลบจึงถูกเลือกผ่านปัวซอง ฟังก์ชั่น / คำสั่งที่ฉันได้ตัดออก: R ฟังก์ชั่น gee () ใน R ไม่ได้เป็นศูนย์สำหรับการตัดทอนหรือการแจกแจงแบบทวินามเชิงลบ (แม้จะไม่ได้โหลดแพ็คเกจ MASS) glm.nb () ใน R ไม่อนุญาตสำหรับโครงสร้างความสัมพันธ์ที่แตกต่างกัน vglm () จากแพ็คเกจ VGAM สามารถใช้ประโยชน์จากตระกูล posnegbinomial แต่มีปัญหาเช่นเดียวกับคำสั่ง ztnb ของ Stata (ดูด้านล่าง) ซึ่งฉันไม่สามารถปรับรูปแบบใหม่โดยใช้โครงสร้างความสัมพันธ์ที่ไม่ขึ้นกับอิสระ Stata หากข้อมูลไม่ยาวฉันสามารถใช้แพ็คเกจ Stata ztnb เพื่อทำการวิเคราะห์ของฉันได้ แต่คำสั่งนั้นจะถือว่าการสังเกตของฉันเป็นอิสระ ฉันได้จัดการ GLMM ด้วยเหตุผลด้านระเบียบวิธี / …

2
ทำความเข้าใจการเปรียบเทียบผลการจัดกลุ่ม
ฉันกำลังทดลองกับการจำแนกข้อมูลออกเป็นกลุ่ม ฉันค่อนข้างใหม่สำหรับหัวข้อนี้และพยายามเข้าใจผลลัพธ์ของการวิเคราะห์ ใช้ตัวอย่างจากQuick-R แนะนำให้ใช้หลายRแพ็คเกจ ฉันได้ลองใช้แพ็คเกจสองชุดนี้ ( fpcโดยใช้kmeansฟังก์ชั่นและmclust) แง่มุมหนึ่งของการวิเคราะห์ที่ฉันไม่เข้าใจคือการเปรียบเทียบผลลัพธ์ # comparing 2 cluster solutions library(fpc) cluster.stats(d, fit1$cluster, fit2$cluster) ฉันได้อ่านในส่วนต่าง ๆ ที่เกี่ยวข้องของfpc คู่มือและยังไม่ชัดเจนในสิ่งที่ฉันควรจะมุ่ง ตัวอย่างเช่นนี่คือผลลัพธ์ของการเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกันสองวิธี: $n [1] 521 $cluster.number [1] 4 $cluster.size [1] 250 119 78 74 $diameter [1] 5.278162 9.773658 16.460074 7.328020 $average.distance [1] 1.632656 2.106422 3.461598 2.622574 $median.distance [1] 1.562625 1.788113 …
13 r  clustering 

3
GLMNET หรือ LARS สำหรับการคำนวณโซลูชัน LASSO?
ฉันต้องการรับค่าสัมประสิทธิ์สำหรับปัญหา LASSO | | Y- Xβ| | +λ | | β| |1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. ปัญหาคือฟังก์ชั่น glmnet และ lars ให้คำตอบที่ต่างกัน สำหรับฟังก์ชั่น glmnet ฉันขอสัมประสิทธิ์ของλ / | | Y| |λ/||Y||\lambda/||Y||แทนที่จะเป็นλλ\lambdaแต่ฉันยังได้คำตอบที่ต่างออกไป คาดหวังหรือไม่ ความสัมพันธ์ระหว่างลาร์สλλ\lambdaและ glmnet λλ\lambdaคืออะไร? ฉันเข้าใจว่า glmnet นั้นเร็วกว่าสำหรับปัญหา LASSO แต่ฉันอยากจะรู้ว่าวิธีใดที่มีประสิทธิภาพมากกว่า deps_stats ฉันกลัวว่าขนาดของชุดข้อมูลของฉันมีขนาดใหญ่มากจน LARS ไม่สามารถจัดการได้ในขณะที่ glmnet สามารถจัดการกับชุดข้อมูลขนาดใหญ่ของฉันได้ mpiktas ฉันต้องการหาคำตอบของ (Y-Xb) ^ 2 + L \ sum …

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

1
คำนวณข้อผิดพลาดมาตรฐาน Newey-West โดยไม่มีวัตถุ lm ใน R
ฉันถามคำถามนี้เมื่อวานนี้ใน StackOverflow และได้รับคำตอบ แต่เราเห็นพ้องกันว่ามันดูค่อนข้างแฮ็คและอาจมีวิธีที่ดีกว่าในการดู คำถาม: ฉันต้องการคำนวณข้อผิดพลาดมาตรฐาน Newey-West (HAC) สำหรับเวกเตอร์ (ในกรณีนี้เวกเตอร์ที่มีผลตอบแทนสต็อก) ฟังก์ชั่นNeweyWest()ในsandwichแพ็คเกจทำสิ่งนี้ แต่รับlmวัตถุเป็นอินพุต วิธีการแก้ไธ MEYS นำเสนอเป็นโครงการเวกเตอร์บน 1 NeweyWest()ซึ่งจะเปลี่ยนเวกเตอร์ของฉันเป็นสิ่งตกค้างที่จะป้อนเข้าสู่ นั่นคือ: as.numeric(NeweyWest(lm(rnorm(100) ~ 1))) สำหรับความแปรปรวนของค่าเฉลี่ย ฉันควรจะทำอย่างนี้ไหม หรือมีวิธีที่จะทำสิ่งที่ฉันต้องการโดยตรงมากกว่านี้อีกไหม ขอบคุณ!

1
ฉันสามารถทำการวินิจฉัยการบรรจบกันของ MCMC แบบกึ่งอัตโนมัติเพื่อตั้งค่าความยาวเบิร์นอินได้หรือไม่?
ฉันต้องการให้ตัวเลือกการเบิร์นอินสำหรับเครือข่าย MCMC โดยอัตโนมัติเช่นโดยการลบแถว n แรกตามการวิเคราะห์การลู่เข้า ขั้นตอนนี้จะปลอดภัยโดยอัตโนมัติในระดับใด แม้ว่าฉันจะยังตรวจสอบ autocorrelation, การติดตาม mcmc และ PDF อีกครั้งมันก็ดีถ้ามีทางเลือกในการเบิร์นอินแบบอัตโนมัติ คำถามของฉันเป็นเรื่องทั่วไป แต่มันจะดีถ้าคุณสามารถให้ข้อมูลเฉพาะสำหรับการจัดการกับ R mcmc.object; ฉันใช้แพ็คเกจ rjags และ coda ใน R
13 r  bayesian  mcmc 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.