สถิติและข้อมูลขนาดใหญ่ r

1

การทำนายการตอบสนองจากเส้นโค้งใหม่โดยใช้แพ็คเกจ fda ใน R

โดยพื้นฐานทั้งหมดที่ฉันต้องการทำคือทำนายการตอบสนองเซนต์คิตส์และเนวิสโดยใช้เส้นโค้งบางอย่าง ฉันใช้วิธีถดถอยแล้ว (ใช้ fRegress จากแพ็คเกจ fda) แต่ก็ไม่รู้ว่าจะใช้ผลลัพธ์กับเส้นโค้งชุดใหม่ได้อย่างไร (สำหรับการทำนาย) ฉันมีเส้นโค้ง N = 536 และการตอบกลับเซนต์คิตส์และเนวิส 536 นี่คือสิ่งที่ฉันทำไปแล้ว: ฉันได้สร้างพื้นฐานสำหรับเส้นโค้ง ฉันสร้างวัตถุ fdPar เพื่อแนะนำการลงโทษ ฉันได้สร้างวัตถุ fd โดยใช้ smooth.basis เพื่อทำให้เส้นโค้งเรียบโดยมีการลงโทษที่เลือกตามเกณฑ์ที่ระบุ ฉันใช้การถดถอยด้วย fRegress () เพื่อลดความโค้งในการตอบสนองสเกลาร์ ตอนนี้สิ่งที่ฉันอยากทำคือใช้การถดถอยนั้นเพื่อคาดการณ์ชุดข้อมูลใหม่ที่ฉันมี ฉันไม่สามารถหาวิธีที่ง่ายในการทำเช่นนี้ ไชโย

10 r functional-data-analysis

2

วิธีการวิเคราะห์ ROC ใน R ด้วยโมเดล Cox

ฉันได้สร้างแบบจำลองการถดถอยของ Cox แล้วและฉันต้องการดูว่าแบบจำลองเหล่านี้ทำงานได้ดีเพียงใดและฉันคิดว่าบางที ROC-curve หรือ c-statistic อาจมีประโยชน์เหมือนกับที่บทความนี้ใช้: JN Armitage และ JH van der Meulen,” การระบุอาการป่วยในผู้ป่วยผ่าตัดโดยใช้ข้อมูลการบริหารกับ Royal College of ศัลยแพทย์ Charlson Score”, วารสาร British Journal of Surgery, Vol. 97, NUM 5, เอสเอส 772-781, Maj 2010 Armitage ใช้การถดถอยแบบโลจิสติกส์ แต่ฉันสงสัยว่าเป็นไปได้หรือไม่ที่จะใช้แบบจำลองจากแพ็กเกจการเอาตัวรอด SurvivalROCให้คำใบ้เกี่ยวกับความเป็นไปได้นี้ แต่ฉันไม่สามารถหาวิธีที่จะทำให้มัน ฉันจะขอบคุณถ้ามีคนจะแสดงให้ฉันเห็นวิธีการวิเคราะห์ ROC ในตัวอย่างนี้: library(survival) data(veteran) attach(veteran) surv <- Surv(time, status) fit …

10 r survival roc

4

การปรับปรุงการจำแนกประเภท SVM ของโรคเบาหวาน

ฉันใช้ SVM เพื่อทำนายโรคเบาหวาน ฉันใช้ชุดข้อมูลBRFSSเพื่อจุดประสงค์นี้ ชุดข้อมูลมีขนาดและเบ้ ร้อยละของในตัวแปรเป้าหมายคือขณะที่s เป็นการส่วนที่เหลืออีก\%432607 × 136432607×136432607 \times 136Y89 %11 %11%11\%N89 %89%89\% ฉันกำลังใช้เพียง15ออกจาก136ตัวแปรอิสระจากชุดข้อมูล หนึ่งในเหตุผลในการลดชุดข้อมูลคือต้องมีตัวอย่างการฝึกอบรมเพิ่มเติมเมื่อNAละเว้นแถวที่มีs 15ตัวแปรเหล่านี้ถูกเลือกหลังจากใช้วิธีการทางสถิติเช่นต้นไม้สุ่มการถดถอยโลจิสติกส์และการค้นหาว่าตัวแปรใดมีความสำคัญจากตัวแบบผลลัพธ์ ตัวอย่างเช่นหลังจากรันการถดถอยโลจิสติกเราใช้p-valueในการสั่งซื้อตัวแปรที่สำคัญที่สุด วิธีการเลือกตัวแปรของฉันถูกต้องหรือไม่ ข้อเสนอแนะใด ๆ ที่จะยินดีอย่างมาก ต่อไปนี้คือRการดำเนินการของฉัน library(e1071) # Support Vector Machines #-------------------------------------------------------------------- # read brfss file (huge 135 MB file) #-------------------------------------------------------------------- y <- read.csv("http://www.hofroe.net/stat579/brfss%2009/brfss-2009-clean.csv") indicator <- c("DIABETE2", "GENHLTH", "PERSDOC2", "SEX", "FLUSHOT3", "PNEUVAC3", "X_RFHYPE5", …

10 r classification svm feature-selection e1071

6

เปรียบเทียบ R-squared จาก Random Forest สองรุ่นที่แตกต่างกัน

ฉันใช้แพ็คเกจสุ่มป่าไม้ใน R เพื่อพัฒนาโมเดลฟอเรสต์แบบสุ่มเพื่อพยายามอธิบายผลลัพธ์อย่างต่อเนื่องในชุดข้อมูล "กว้าง" ที่มีตัวทำนายมากกว่าตัวอย่าง โดยเฉพาะฉันเหมาะสมกับโมเดล RF หนึ่งตัวที่อนุญาตให้กระบวนการเลือกชุดตัวแปรพยากรณ์ 75 ตัวที่ฉันคิดว่าสำคัญ ฉันกำลังทดสอบว่าตัวแบบนั้นทำนายผลที่แท้จริงสำหรับชุดการทดสอบที่สงวนไว้อย่างไรโดยใช้วิธีการโพสต์ที่นี่ก่อนหน้านี้คือ ... หรือใน R: 1 - sum((y-predicted)^2)/sum((y-mean(y))^2) แต่ตอนนี้ฉันมีตัวแปรทำนายอีก 25 ตัวที่ฉันสามารถเพิ่มได้ เมื่อใช้ชุดตัวทำนาย ~ 100 ตัวR²จะสูงกว่า ฉันต้องการที่จะทดสอบทางสถิติในคำอื่น ๆ เมื่อใช้ชุดของ ~ 100 ทำนายที่จะทดสอบแบบจำลองอย่างมีนัยสำคัญที่ดีกว่าในการทดสอบข้อมูลกว่ารุ่นพอดีโดยใช้ ~ 75 พยากรณ์ นั่นคือR²จากการทดสอบโมเดล RF บนชุดข้อมูลแบบเต็มสูงกว่าR²อย่างมากจากการทดสอบโมเดล RF บนชุดข้อมูลที่ลดลง นี่เป็นสิ่งสำคัญสำหรับฉันที่จะทดสอบเพราะนี่คือข้อมูลนำร่องและการได้รับผู้ทำนายเพิ่มอีก 25 คนนั้นมีค่าใช้จ่ายสูงและฉันจำเป็นต้องรู้ว่าฉันควรจ่ายเงินเพื่อวัดผู้ทำนายเหล่านั้นในการศึกษาติดตามครั้งใหญ่กว่าหรือไม่ ฉันพยายามคิดถึงวิธี resampling / permutation บางอย่าง แต่ไม่มีสิ่งใดในใจ

10 r machine-learning hypothesis-testing model-selection random-forest

3

รวมสองชุดเวลาโดยเฉลี่ยจุดข้อมูล

ฉันต้องการรวมการคาดการณ์และการย้อนกลับ (กล่าวคือค่าที่ผ่านมาที่คาดการณ์) ของข้อมูลอนุกรมเวลาที่ตั้งค่าไว้ในอนุกรมเวลาหนึ่งโดยลดข้อผิดพลาดการคาดคะเนค่าเฉลี่ยกำลังสองลง สมมติว่าฉันมีอนุกรมเวลาตั้งแต่ 2001-2010 โดยมีช่องว่างสำหรับปี 2550 ฉันสามารถคาดการณ์ปี 2007 โดยใช้ข้อมูล 2001-2007 (เส้นสีแดง - เรียกว่า ) และกลับโดยใช้ข้อมูล 2008-2009 (สีน้ำเงินอ่อน) สาย - เรียกมันว่า )Y bYfYfY_fYbYbY_b ฉันต้องการรวมจุดข้อมูลของและเป็นจุดข้อมูลที่ระบุ Y_i ในแต่ละเดือน จะเป็นการดีที่ฉันต้องการที่จะได้รับน้ำหนักดังกล่าวว่าจะช่วยลดข้อผิดพลาดในการทำนาย Mean Squared (MSPE) ของY_iหากเป็นไปไม่ได้ฉันจะหาค่าเฉลี่ยระหว่างจุดข้อมูลของอนุกรมเวลาสองชุดได้อย่างไรY b w Y iYfYfY_fYbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b เป็นตัวอย่างรวดเร็ว: tt_f <- ts(1:12, start = 2007, freq …

10 r time-series forecasting data-imputation

5

การแสดงชุดค่าผสม 2 ตัวอักษร

คำตอบสำหรับคำถามนี้เกี่ยวกับ SO ได้ส่งคืนชุดของชื่อหนึ่งถึงสองตัวประมาณ 125 ตัว: /programming/6979630/what-1-2-letter-object-names-conflict-with-existing -r วัตถุ [1] "Ad" "am" "ar" "as" "bc" "bd" "bp" "br" "BR" "bs" "by" "c" "C" [14] "cc" "cd" "ch" "ci" "CJ" "ck" "Cl" "cm" "cn" "cq" "cs" "Cs" "cv" [27] "d" "D" "dc" "dd" "de" "df" "dg" "dn" "do" "ds" "dt" "e" "E" …

10 r data-visualization

1

อนุญาตให้รวมเวลาเป็นตัวทำนายในโมเดลผสมหรือไม่

ฉันเชื่อเสมอว่าเวลาไม่ควรใช้เป็นตัวทำนายในการถดถอย (รวมถึง gam's) เพราะหลังจากนั้นเราจะเพียงแค่ "อธิบาย" แนวโน้มของตัวเอง หากจุดประสงค์ของการศึกษาคือการหาพารามิเตอร์ด้านสิ่งแวดล้อมเช่นอุณหภูมิและอื่น ๆ ที่อธิบายความแปรปรวนสมมติว่ากิจกรรมของสัตว์แล้วฉันสงสัยว่าจะใช้เวลานานแค่ไหน? เป็นพร็อกซีสำหรับพารามิเตอร์ที่ไม่วัดหรือไม่? คุณสามารถดูแนวโน้มของเวลาเกี่ยวกับข้อมูลกิจกรรมของปลาโลมาที่ท่าเรือได้ที่นี่: -> จะจัดการช่องว่างในอนุกรมเวลาเมื่อใช้ GAMM ได้อย่างไร ปัญหาของฉันคือเมื่อฉันรวมเวลาในแบบจำลองของฉัน (วัดเป็นวันจูเลียน) จากนั้น 90% ของพารามิเตอร์อื่น ๆ ทั้งหมดจะไม่มีนัยสำคัญ ถ้าฉันปล่อยให้เวลาหมดแล้วบางคนก็มีความสำคัญ ... คำถามคือ: อนุญาตให้ใช้เวลาเป็นตัวพยากรณ์ (อาจจำเป็นหรือไม่) หรือทำให้การวิเคราะห์ของฉันยุ่งเหยิง? ขอบคุณมากล่วงหน้า

10 r time-series mixed-model nonlinear-regression

2

มีความดีของแอนเดอร์สันที่รักการทดสอบพอดีสำหรับชุดข้อมูลสองชุดหรือไม่?

ฉันรู้ว่า ad.test () สามารถใช้สำหรับทดสอบมาตรฐานได้ เป็นไปได้ไหมที่จะรับ ad.test เพื่อเปรียบเทียบการแจกแจงจากตัวอย่างข้อมูลสองชุด? x <- rnorm(1000) y <- rgev(2000) ad.test(x,y) ฉันจะทำการทดสอบ Anderson-Darling กับ 2 ตัวอย่างได้อย่างไร

10 r goodness-of-fit

6

วิธีที่ดีที่สุดในการโต้ตอบกับเซสชัน R ที่ทำงานในคลาวด์

ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันมี R ทำงานบน EC2 Amazon, ใช้รุ่นแก้ไขของBioconductor AMI ขณะนี้ฉันกำลังใช้ putty เพื่อ ssh ในเซิร์ฟเวอร์ของฉันเริ่มต้น R จากบรรทัดคำสั่งแล้วคัดลอกและวางสคริปต์ของฉันจาก notepad ++ ลงในเซสชั่นฉาบของฉัน สิ่งคือฉันเกลียดการตัดและวาง รู้สึกถึงยุคหินและบางครั้งฉันก็มีปัญหาเรื่องบัฟเฟอร์ที่ทำให้รหัสของฉันผิดพลาด ฉันไม่สามารถใช้RStudioเพราะมันไม่รองรับมัลติคอร์ซึ่งขึ้นอยู่กับฉัน วิธีที่สง่างามกว่านี้คืออะไร? / แก้ไข: ขอบคุณสำหรับคำแนะนำที่ดีทั้งหมด สำหรับตอนนี้ฉันได้เปลี่ยนไปใช้ foreach กับแบ็กเอนด์ doRedis ซึ่งใช้งานได้ดีกับ Mac, PC ของฉันและ amazon ผ่าน RStudio สวิตช์นี้ค่อนข้างง่ายเมื่อฉันเรียนรู้วิธีเขียนฟังก์ชันที่เลียนแบบ "lapply"โดยใช้ "foreach" (นอกจากนี้ doRedis ยอดเยี่ยมมาก!)

10 r

2

ขั้นตอนที่แนะนำสำหรับการวิเคราะห์ปัจจัยเกี่ยวกับข้อมูลแบบแบ่งขั้วด้วย R

ฉันต้องเรียกใช้การวิเคราะห์ปัจจัยบนชุดข้อมูลที่สร้างขึ้นจากตัวแปร dichotomous (0 = ใช่, 1 = ไม่) และฉันไม่รู้ว่าฉันกำลังอยู่ในเส้นทางที่ถูกต้องหรือไม่ ใช้ฉันจะสร้างเมทริกซ์ความสัมพันธ์ซึ่งผมทำงานtetrachoric() fa(data,factors=1)ผลลัพธ์ค่อนข้างใกล้เคียงกับผลลัพธ์ที่ฉันได้รับเมื่อใช้MixFactorแต่ไม่เหมือนกัน ไม่เป็นไรหรือคุณจะแนะนำขั้นตอนอื่นหรือไม่ เหตุใดจึงfa()ทำงานและfactanal()สร้างข้อผิดพลาด ( Fehler in solve.default(cv) : System ist für den Rechner singulär: reziproke Konditionszahl = 4.22612e-18)

10 r factor-analysis psychometrics binary-data

2

Markowitz Portfolio หมายถึงการปรับความแปรปรวนใน R

ฉันมีตลาดแลกเปลี่ยนเงินตราต่างประเทศรวม 5 ตลาดเกิดใหม่ซึ่งฉันคาดการณ์ผลตอบแทนในช่วงเวลาเดียวในอนาคต (1 ปี) ฉันต้องการสร้าง Markowitz หมายถึงผลต่างที่ได้รับการปรับปรุงให้ดีที่สุดในซีรีส์ 5 โดยใช้ผลต่างทางประวัติศาสตร์และค่าแปรปรวนร่วม (1) และผลตอบแทนที่คาดหวังของฉันเอง R มีวิธี / ไลบรารี (ง่าย) ในการทำสิ่งนี้หรือไม่? นอกจากนี้ฉันจะคำนวณ (1) มีฟังก์ชันในตัวได้อย่างไร เพื่อประโยชน์ของสกุลเงินของฉันคือ USDTRY, USDZAR, USDRUB, USDHUF และ USDPLN

10 r

4

การทำเอฟเฟกต์ของการเปลี่ยนแปลงความกว้างเคอร์เนลใน R

ฉันมีข้อมูลบางอย่างใน R เก็บไว้ในรายการ คิด d <- c(1,2,3,4) แม้ว่านี่จะไม่ใช่ข้อมูลของฉัน ถ้าฉันแล้วป้อนคำสั่ง plot(density(d, kernel="gaussian", width=1)) จากนั้นฉันจะได้รับการประมาณความหนาแน่นของความน่าจะเป็นเคอร์เนลที่เคอร์เนลเป็นมาตรฐานปกติ ถ้าฉันแทนที่ 1 ด้วยตัวเลขอื่น ๆ แน่นอนว่าภาพเปลี่ยนไป สิ่งที่ฉันต้องการจะทำคือการสร้างวิดีโอหรือภาพเคลื่อนไหวที่แต่ละเฟรมเป็นพล็อต แต่แบนด์วิดท์ของเคอร์เนลแตกต่างกันไปในแต่ละเฟรมดังนั้นจึงแสดงผลของการเปลี่ยนแบนด์วิดท์ ฉันจะทำสิ่งนี้ได้อย่างไร (ฉันขอโทษถ้านี่ไม่ใช่สถานที่ที่เหมาะสมที่จะถามคำถามเกี่ยวกับอาร์)

10 r kernel-smoothing

3

วิธีการแสดงเมทริกซ์ของความสัมพันธ์กับรายการที่หายไป?

ฉันต้องการได้ภาพกราฟิกของความสัมพันธ์ในบทความที่รวบรวมมาเพื่อสำรวจความสัมพันธ์ระหว่างตัวแปรได้อย่างง่ายดาย ฉันเคยวาดกราฟ (ยุ่ง) แต่ตอนนี้ฉันมีข้อมูลมากเกินไป โดยทั่วไปฉันมีตารางที่: [0]: ชื่อของตัวแปร 1 [1]: ชื่อของตัวแปร 2 [2]: ค่าสหสัมพันธ์ เมทริกซ์ "โดยรวม" ไม่สมบูรณ์ (เช่นฉันมีความสัมพันธ์ของ V1 * V2, V2 * V3 แต่ไม่ใช่ V1 * V3) มีวิธีที่จะเป็นตัวแทนกราฟิกนี้หรือไม่?

10 r data-visualization correlation

2

การขนานแพ็กเกจคาเร็ตโดยใช้ doSMP

UPDATE: คาเร็ตใช้ในตอนนี้foreachดังนั้นคำถามนี้จึงไม่มีความเกี่ยวข้องอีกต่อไป หากคุณสามารถลงทะเบียนแบ็กเอนด์แบบขนานที่foreachใช้งานได้คาเร็ตจะใช้มัน ฉันมีชุดคาเร็ตสำหรับ R และฉันสนใจที่จะใช้trainฟังก์ชั่นเพื่อตรวจสอบความถูกต้องของโมเดลของฉัน อย่างไรก็ตามฉันต้องการเพิ่มความเร็วและดูเหมือนว่าเครื่องหมายรูปหมวกจะให้การสนับสนุนการประมวลผลแบบขนาน วิธีที่ดีที่สุดในการเข้าถึงคุณลักษณะนี้ในเครื่อง Windows คืออะไร ฉันมีแพ็คเกจdoSMPแต่ฉันไม่สามารถเข้าใจวิธีการแปลforeachฟังก์ชั่นเป็นlapplyฟังก์ชั่นดังนั้นฉันสามารถส่งผ่านไปยังtrainฟังก์ชันได้ นี่คือตัวอย่างของสิ่งที่ฉันต้องการจะทำจากtrainเอกสาร: นี่คือสิ่งที่ฉันต้องการจะทำ แต่ใช้doSMPแพ็คเกจแทนที่จะเป็นdoMPIแพ็คเกจ ## A function to emulate lapply in parallel mpiCalcs <- function(X, FUN, ...) } theDots <- list(...) parLapply(theDots$cl, X, FUN) { library(snow) cl <- makeCluster(5, "MPI") ## 50 bootstrap models distributed across 5 workers mpiControl <- …

10 r parallel-computing

1

เลือกระดับปัจจัยเป็นฐานจำลองใน lm () ใน R

ให้บอกว่าฉันกำลังถดถอย Y บน X1 และ X2 โดยที่ X1 เป็นตัวแปรตัวเลขและ X2 เป็นปัจจัยที่มีสี่ระดับ (A: D) มีวิธีการเขียนฟังก์ชั่นการถดถอยเชิงเส้นlm(Y ~ X1 + as.factor(X2))เพื่อให้ฉันสามารถเลือกระดับเฉพาะของ X2 - พูด, B - เป็นพื้นฐานหรือไม่?

10 r

คำถามติดแท็ก r