สถิติและข้อมูลขนาดใหญ่ r

2

เหตุใดจึงต้องแปลงข้อมูลก่อนที่จะทำการวิเคราะห์ส่วนประกอบหลัก

ฉันกำลังติดตามการสอนที่นี่: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/เพื่อให้เข้าใจ PCA ได้ดียิ่งขึ้น บทช่วยสอนใช้ชุดข้อมูล Iris และใช้การแปลงบันทึกก่อน PCA: โปรดสังเกตว่าในรหัสต่อไปนี้เราใช้การแปลงบันทึกกับตัวแปรต่อเนื่องตามที่แนะนำโดย [1] และตั้งค่าcenterและscaleเท่ากับTRUEในการเรียกเพื่อprcompสร้างมาตรฐานของตัวแปรก่อนการประยุกต์ใช้ PCA มีใครบางคนสามารถอธิบายให้ฉันเป็นภาษาอังกฤษแบบธรรมดาทำไมคุณถึงใช้ฟังก์ชั่นบันทึกในสี่คอลัมน์แรกของชุดข้อมูล Iris ฉันเข้าใจว่ามันมีส่วนเกี่ยวข้องกับการทำข้อมูลให้สัมพันธ์ แต่ฉันสับสนว่าอะไรคือหน้าที่ของ log, center และ scale การอ้างอิง [1] ด้านบนคือVenables and Ripley, สถิติประยุกต์สมัยใหม่กับ S-PLUS , หัวข้อ 11.1 ที่กล่าวสั้น ๆ ว่า: ข้อมูลคือการวัดทางกายภาพดังนั้นกลยุทธ์การเริ่มต้นที่ดีคือการทำงานกับขนาดของบันทึก สิ่งนี้ได้ทำมาตลอด

16 r pca data-transformation logarithm

3

ฟังก์ชัน ETS () จะหลีกเลี่ยงการคาดการณ์ที่ไม่สอดคล้องกับข้อมูลในอดีตได้อย่างไร

ฉันกำลังทำงานกับ alogorithm ใน R เพื่อทำการคำนวณการพยากรณ์รายเดือนโดยอัตโนมัติ ฉันกำลังใช้ฟังก์ชั่น ets () จากแพ็คเกจการคาดการณ์เพื่อคำนวณการคาดการณ์ มันทำงานได้ดีมาก น่าเสียดายที่ในบางช่วงเวลาผลลัพธ์ที่ฉันได้รับนั้นแปลก กรุณาค้นหาด้านล่างรหัสฉันใช้: train_ts<- ts(values, frequency=12) fit2<-ets(train_ts, model="ZZZ", damped=TRUE, alpha=NULL, beta=NULL, gamma=NULL, phi=NULL, additive.only=FALSE, lambda=TRUE, lower=c(0.0001,0.0001,0.0001,0.8),upper=c(0.9999,0.9999,0.9999,0.98), opt.crit=c("lik","amse","mse","sigma","mae"), nmse=3, bounds=c("both","usual","admissible"), ic=c("aicc","aic","bic"), restrict=TRUE) ets <- forecast(fit2,h=forecasthorizon,method ='ets') โปรดคุณจะพบชุดข้อมูลประวัติที่เกี่ยวข้องด้านล่าง: values <- c(27, 27, 7, 24, 39, 40, 24, 45, 36, 37, 31, 47, 16, …

16 r time-series forecasting exponential-smoothing

3

ขั้นตอนวิธีใดบ้างที่ Ward.D ใน hclust () นำไปใช้หากไม่ใช่เกณฑ์ของ Ward

ตัวเลือกที่ใช้โดยตัวเลือก "ward.D" (เทียบเท่ากับตัวเลือก Ward เท่านั้น "Ward" ในรุ่น R <= 3.0.3) ไม่ได้ใช้เกณฑ์การจัดกลุ่มของ Ward (1963) ในขณะที่ตัวเลือก "ward.D2" จะใช้เกณฑ์นั้น ( Murtagh and Legendre 2014) ( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html ) เห็นได้ชัดว่า Ward.D ไม่ได้ใช้เกณฑ์ของ Ward อย่างถูกต้อง อย่างไรก็ตามดูเหมือนว่าจะทำงานได้ดีเกี่ยวกับการรวมกลุ่มที่ผลิต method = "ward.D" นำไปใช้อะไรหากไม่เป็นไปตามเกณฑ์ของ Ward อ้างอิง Murtagh, F. , & Legendre, P. (2014) วิธีการจัดกลุ่มแบบลำดับชั้น agglomerative ของวอร์ด: อัลกอริทึมใดที่ใช้เกณฑ์ของวอร์ด วารสารการจำแนก , 31 …

16 r clustering ward

1

อนุกรมเวลาหลายตัวแปรใน R. วิธีการค้นหาความสัมพันธ์ล้าหลังและสร้างแบบจำลองสำหรับการพยากรณ์

ฉันใหม่ในหน้านี้และค่อนข้างใหม่ในสถิติและอาร์ฉันกำลังทำงานในโครงการสำหรับวิทยาลัยโดยมีวัตถุประสงค์เพื่อค้นหาความสัมพันธ์ระหว่างฝนและระดับน้ำไหลในแม่น้ำ เมื่อได้รับการพิสูจน์ความสัมพันธ์ฉันต้องการที่จะคาดการณ์ / ทำนายมัน ข้อมูลที่ ฉันมีชุดข้อมูลเป็นเวลาหลายปี (ถ่ายทุกๆ 5 นาที) สำหรับแม่น้ำที่มี: ปริมาณน้ำฝนหน่วยเป็นมิลลิเมตร แม่น้ำไหลในลูกบาศก์เมตรต่อวินาที แม่น้ำนี้ไม่มีหิมะดังนั้นโมเดลจึงขึ้นอยู่กับฝนและเวลาเท่านั้น มีการแช่แข็งอุณหภูมิเป็นครั้งคราว แต่ฉันกำลังคิดที่จะลบช่วงเวลาเหล่านั้นออกจากข้อมูลเป็นค่าผิดปกติเนื่องจากสถานการณ์นั้นอยู่นอกขอบเขตสำหรับโครงการของฉัน ตัวอย่างที่ นี่คุณมีตัวอย่างข้อมูลสองสามแปลงจากฝนและน้ำขึ้นในไม่กี่ชั่วโมงต่อมา เส้นสีแดงคือการไหลของแม่น้ำ สีส้มคือฝน คุณสามารถเห็นฝนตกทุกครั้งก่อนที่น้ำจะไหลขึ้นมาในแม่น้ำ มีฝนเริ่มอีกครั้งในตอนท้ายของอนุกรมเวลา แต่มันจะส่งผลกระทบต่อการไหลของแม่น้ำในภายหลัง ความสัมพันธ์อยู่ที่นั่น นี่คือสิ่งที่ฉันทำใน R เพื่อพิสูจน์ความสัมพันธ์โดยใช้ ccf ใน R: ข้ามสหสัมพันธ์ ตัวแปรชั้นนำ ความล่าช้า นี่คือสาย R ของฉันที่ใช้สำหรับตัวอย่างที่สอง (หนึ่งช่วงเวลาปริมาณน้ำฝน): ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain") การตีความของฉันคือ: ฝนจะนำไปสู่ (เกิดขึ้นก่อน) ≈ 450≈450\approx 450 ≈ …

16 r time-series forecasting cross-correlation lags

3

พื้นที่ใต้เส้นโค้ง ROC หรือพื้นที่ใต้เส้นโค้ง PR สำหรับข้อมูลที่ไม่สมดุล?

ฉันมีข้อสงสัยเกี่ยวกับการวัดประสิทธิภาพที่จะใช้พื้นที่ภายใต้เส้นโค้ง ROC (TPR เป็นฟังก์ชันของ FPR) หรือพื้นที่ใต้เส้นโค้งความแม่นยำ - การเรียกคืน (ความแม่นยำเป็นฟังก์ชันการเรียกคืน) ข้อมูลของฉันไม่สมดุลนั่นคือจำนวนอินสแตนซ์เชิงลบมีขนาดใหญ่กว่าอินสแตนซ์บวกมาก ฉันกำลังใช้การทำนายผลลัพธ์ของ weka ตัวอย่างคือ: inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 และฉันใช้ห้องสมุด pROC และ ROCR

16 r machine-learning roc precision-recall auc

1

ความหมายของคำเตือนการบรรจบกันใน Glmer

ฉันใช้glmerฟังก์ชันจากlme4แพ็คเกจใน R และฉันใช้bobyqaเครื่องมือเพิ่มประสิทธิภาพ (เช่นค่าเริ่มต้นในกรณีของฉัน) ฉันได้รับคำเตือนและฉันสงสัยว่ามันหมายถึงอะไร Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a trust region step failed to reduce q ฉันค้นหา "ขั้นตอนภูมิภาคที่เชื่อถือได้ล้มเหลวในการลด q" พบข้อมูลบางอย่างในแพ็คเกจ minqaซึ่งพูดว่า "Consult Powell สำหรับคำอธิบาย" ฉันทำ (คุณสามารถทำได้เช่นกันหากคุณต้องการ! ดูการอ้างอิงและลิงก์ไปยังพวกเขาด้านล่าง) แต่ฉันไม่เข้าใจ ที่จริงแล้วฉันไม่พบสิ่งใดเกี่ยวกับการลด q MJD Powell (2007) "การพัฒนา NEWUOA …

16 r optimization lme4-nlme convergence glmm

2

แสดงความสัมพันธ์เชิงพื้นที่และเชิงเวลาบนแผนที่

ฉันมีข้อมูลสำหรับเครือข่ายสถานีตรวจอากาศทั่วสหรัฐอเมริกา สิ่งนี้ทำให้ฉันมีกรอบข้อมูลที่ประกอบด้วยวันที่ละติจูดลองจิจูดและค่าที่วัดได้บางส่วน สมมติว่ามีการรวบรวมข้อมูลวันละครั้งและขับเคลื่อนด้วยสภาพอากาศระดับภูมิภาค (ไม่เราจะไม่เข้าร่วมการสนทนานั้น) ฉันต้องการแสดงให้เห็นชัดเจนว่าค่าที่วัดได้พร้อมกันนั้นมีความสัมพันธ์กันตลอดเวลาและพื้นที่อย่างไร เป้าหมายของฉันคือการแสดงให้เห็นถึงความเป็นเนื้อเดียวกันในภูมิภาค (หรือไม่มีในนั้น) ของค่าที่จะถูกตรวจสอบ ชุดข้อมูล เริ่มต้นด้วยฉันเอากลุ่มของสถานีในแมสซาชูเซตส์และเมน ฉันเลือกไซต์ตามละติจูดและลองจิจูดจากไฟล์ดัชนีที่มีอยู่ในไซต์ FTP ของ NOAA ทันทีที่คุณเห็นปัญหาหนึ่ง: มีเว็บไซต์จำนวนมากที่มีตัวระบุที่คล้ายกันหรือใกล้เคียงกันมาก FWIW ฉันระบุว่าพวกเขาใช้ทั้งรหัส USAF และ WBAN เมื่อมองลึกลงไปที่เมทาดาทาฉันเห็นว่าพวกเขามีพิกัดและระดับความสูงต่างกันและข้อมูลหยุดที่ไซต์หนึ่งจากนั้นเริ่มที่อีกไซต์หนึ่ง ดังนั้นเนื่องจากฉันไม่รู้อะไรเลยฉันจึงต้องปฏิบัติต่อพวกเขาเป็นสถานีแยก ซึ่งหมายความว่าข้อมูลมีคู่สถานีที่ใกล้กันมาก การวิเคราะห์เบื้องต้น ฉันพยายามจัดกลุ่มข้อมูลตามเดือนปฏิทินจากนั้นคำนวณการถดถอยกำลังสองน้อยสุดธรรมดาระหว่างข้อมูลที่แตกต่างกัน จากนั้นฉันวางแผนความสัมพันธ์ระหว่างคู่ทั้งหมดเป็นเส้นเชื่อมต่อสถานี (ด้านล่าง) สีเส้นแสดงค่า R2 จาก OLS พอดี จากนั้นตัวเลขแสดงให้เห็นว่าจุดข้อมูล 30+ จุดตั้งแต่เดือนมกราคมกุมภาพันธ์เป็นต้นไปมีความสัมพันธ์กันอย่างไรระหว่างสถานีต่างๆในพื้นที่ที่น่าสนใจ ฉันได้เขียนโค้ดที่สำคัญเพื่อที่ค่าเฉลี่ยรายวันจะถูกคำนวณเฉพาะในกรณีที่มีจุดข้อมูลทุก 6 ชั่วโมงดังนั้นข้อมูลควรเปรียบเทียบได้ในทุกไซต์ ปัญหาที่เกิดขึ้น น่าเสียดายที่มีข้อมูลมากเกินไปที่จะเข้าใจในหนึ่งพล็อต ไม่สามารถแก้ไขได้ด้วยการลดขนาดของเส้น kkk เครือข่ายดูเหมือนจะซับซ้อนเกินไปดังนั้นฉันคิดว่าฉันต้องหาวิธีที่จะลดความซับซ้อนหรือใช้เคอร์เนลเชิงพื้นที่บางประเภท ฉันไม่แน่ใจว่าสิ่งที่เป็นตัวชี้วัดที่เหมาะสมที่สุดในการแสดงความสัมพันธ์ แต่สำหรับผู้ชมที่ตั้งใจ (ไม่ใช่ด้านเทคนิค) สัมประสิทธิ์สหสัมพันธ์จาก OLS อาจเป็นวิธีที่ง่ายที่สุดในการอธิบาย …

16 r regression data-visualization pca spatial

1

ทำความเข้าใจกับความแปรปรวนของเอฟเฟกต์แบบสุ่มในโมเดล lmer ()

ฉันมีปัญหาในการเข้าใจผลลัพธ์ของlmer()แบบจำลองของฉัน มันเป็นรูปแบบที่เรียบง่ายของตัวแปรผลลัพธ์ (สนับสนุน) ที่มีการสกัดกั้นรัฐที่แตกต่างกัน / ผลกระทบแบบสุ่มรัฐ: mlm1 <- lmer(Support ~ (1 | State)) ผลลัพธ์ของsummary(mlm1)คือ: Linear mixed model fit by REML Formula: Support ~ (1 | State) AIC BIC logLik deviance REMLdev 12088 12107 -6041 12076 12082 Random effects: Groups Name Variance Std.Dev. State (Intercept) 0.0063695 0.079809 Residual 1.1114756 1.054265 Number …

16 r mixed-model random-effects-model lme4-nlme

3

วิธีการแบ่ง r-squared ระหว่างตัวแปรทำนายในการถดถอยหลายครั้ง?

ฉันเพิ่งอ่านกระดาษที่ผู้เขียนดำเนินการถดถอยหลายครั้งพร้อมตัวทำนายสองตัว ค่า r-squared โดยรวมคือ 0.65 พวกเขาจัดทำตารางที่แบ่ง r-squared ระหว่างตัวทำนายสองตัว ตารางมีลักษณะดังนี้: rsquared beta df pvalue whole model 0.65 NA 2, 9 0.008 predictor 1 0.38 1.01 1, 10 0.002 predictor 2 0.27 0.65 1, 10 0.030 ในรุ่นนี้วิ่งRโดยใช้mtcarsชุดข้อมูลค่า r-squared โดยรวมคือ 0.76 summary(lm(mpg ~ drat + wt, mtcars)) Call: lm(formula = mpg ~ drat …

16 r multiple-regression r-squared importance variance-decomposition

2

ความสับสนกับการทดสอบเพิ่มมากขึ้น Dickey Fuller

ฉันทำงานในชุดข้อมูลที่มีอยู่ในแพคเกจelectricity R TSAจุดประสงค์ของฉันคือการตรวจสอบว่าarimaแบบจำลองจะเหมาะสมกับข้อมูลนี้หรือไม่และในที่สุดก็พอดี ดังนั้นฉันจึงดำเนินการดังนี้: 1: พล็อตอนุกรมเวลาซึ่งส่งผลให้กราฟต่อไปนี้: 2: ฉันต้องการที่จะใช้ log ของelectricityเพื่อรักษาความแปรปรวนและหลังจากนั้นซีรีส์ที่แตกต่างกันตามความเหมาะสม แต่ก่อนทำเช่นนั้น ชุดข้อมูลดั้งเดิมโดยใช้การทดสอบadf(เพิ่มยิ่งขึ้นดิกกี้) และน่าประหลาดใจมันส่งผลดังนี้: รหัสและผลลัพธ์: adf.test(electricity) Augmented Dickey-Fuller Test data: electricity Dickey-Fuller = -9.6336, Lag order = 7, p-value = 0.01 alternative hypothesis: stationary Warning message: In adf.test(electricity) : p-value smaller than printed p-value ตามความคิดเกี่ยวกับอนุกรมเวลาของผู้เริ่มต้นของฉันฉันคิดว่ามันหมายความว่าข้อมูลนั้นเป็นข้อมูลนิ่ง (p-value ขนาดเล็กปฏิเสธสมมติฐานว่างของความไม่คงที่) แต่ดูพล็อตทีฉันไม่พบวิธีนี้สามารถนิ่ง ใครบ้างมีคำอธิบายที่ถูกต้องสำหรับเรื่องนี้?

16 r time-series stationarity

2

R ภาษาความแตกต่างระหว่าง rnorm และ runif คืออะไร [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา ความแตกต่างระหว่างฟังก์ชั่นrnormและrunifใน R คืออะไร?

16 r

1

เกณฑ์การตั้งค่า STL s.window width

ใช้Rเพื่อทำการแยกสลาย STL s.windowควบคุมความรวดเร็วขององค์ประกอบตามฤดูกาลที่สามารถเปลี่ยนแปลงได้ ค่าขนาดเล็กช่วยให้การเปลี่ยนแปลงรวดเร็วยิ่งขึ้น การตั้งค่าหน้าต่างตามฤดูกาลให้เป็นอนันต์เทียบเท่ากับการบังคับให้ส่วนประกอบตามฤดูกาลเป็นคาบ (กล่าวคือเหมือนกันทุกปี) คำถามของฉัน: ถ้าผมมีเวลาแบบรายเดือน (ที่มีความถี่เท่ากับ ) สิ่งที่เกณฑ์ควรจะใช้ชุด?121212s.window มีการเชื่อมโยงระหว่างความถี่นั้นกับอนุกรมเวลาหรือไม่

16 r time-series trend seasonality

2

การเลือกพารามิเตอร์ความซับซ้อนใน CART

ในรูทีน rpart () เพื่อสร้างโมเดลรถเข็นคุณระบุพารามิเตอร์ความซับซ้อนที่คุณต้องการตัดต้นไม้ของคุณ ฉันเห็นคำแนะนำที่แตกต่างกันสองข้อสำหรับการเลือกพารามิเตอร์ความซับซ้อน: เลือกพารามิเตอร์ความซับซ้อนที่เกี่ยวข้องกับข้อผิดพลาดการตรวจสอบข้ามขั้นต่ำที่เป็นไปได้ วิธีนี้แนะนำโดยQuick-Rและ HSAUR เลือกพารามิเตอร์ความซับซ้อนที่ยิ่งใหญ่ที่สุดซึ่งมีข้อผิดพลาดการตรวจสอบข้ามโดยประมาณยังอยู่ใน SE ของข้อผิดพลาดการตรวจสอบข้ามขั้นต่ำที่เป็นไปได้ นี่คือการตีความเอกสารแพคเกจของฉันซึ่งบอกว่า: "ตัวเลือกที่ดีของ cp สำหรับการตัดแต่งมักเป็นค่าทางซ้ายสุดที่ค่าเฉลี่ยอยู่ต่ำกว่าเส้นแนวนอน" ในการอ้างอิงถึงพล็อตนี้ cp สองตัวเลือกให้สร้างต้นไม้ที่แตกต่างกันมากในชุดข้อมูลของฉัน ดูเหมือนว่าวิธีแรกจะสร้างต้นไม้ที่มีความซับซ้อนมากขึ้นและอาจมีการติดตั้งมากเกินไป มีข้อดีข้อเสียคำแนะนำในวรรณคดีอื่น ๆ หรือไม่ฉันควรพิจารณาเมื่อตัดสินใจว่าจะใช้วิธีการใด ฉันสามารถให้ข้อมูลเพิ่มเติมเกี่ยวกับปัญหาการสร้างแบบจำลองเฉพาะของฉันได้หากจะมีประโยชน์ แต่ฉันพยายามทำให้คำถามนี้กว้างพอที่จะเกี่ยวข้องกับคนอื่น

16 r cart rpart

3

การประมาณความน่าจะเป็นของการเปลี่ยนแปลงมาร์คอฟจากข้อมูลลำดับ

ฉันมีชุดเต็มของลำดับ (การสังเกต 432 จะแม่นยำ) ของ 4 รัฐA−DA−DA-D : เช่น Y=⎛⎝⎜⎜⎜⎜AB⋮BCA⋮CDA⋮ADC⋮DBA⋮AA−⋮BC−⋮A⎞⎠⎟⎟⎟⎟Y=(ACDDBACBAACA−−⋮⋮⋮⋮⋮⋮⋮BCADABA)Y=\left(\begin{array}{c c c c c c c} A& C& D&D & B & A &C\\ B& A& A&C & A&- &-\\ \vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\ B& C& A&D & A & B & A\\ \end{array}\right) แก้ไข : ลำดับการสังเกตมีความยาวไม่เท่ากัน! สิ่งนี้เปลี่ยนแปลงอะไรหรือไม่? มีวิธีคำนวณเมทริกซ์การเปลี่ยนแปลงPij(Yt=j|Yt−1=i)Pij(Yt=j|Yt−1=i)P_{ij}(Y_{t}=j|Y_{t-1}=i)ใน Matlab หรือ R หรือคล้ายกันหรือไม่? …

16 r matlab markov-process

2

การจำแนกประเภท GBM ประสบกับขนาดคลาสที่ไม่สมดุลหรือไม่?

ฉันกำลังจัดการกับปัญหาการจำแนกประเภทไบนารีภายใต้การดูแล ฉันต้องการใช้แพคเกจ GBM เพื่อจัดประเภทบุคคลเป็นไม่ติดเชื้อ / ติดเชื้อ ฉันติดเชื้อมากกว่าคนที่ติดเชื้อ 15 เท่า ฉันสงสัยว่ารุ่น GBM ประสบปัญหาในกรณีที่ขนาดไม่สมดุลหรือไม่? ฉันไม่พบการอ้างอิงใด ๆ ที่ตอบคำถามนี้ ฉันพยายามปรับน้ำหนักโดยการกำหนดน้ำหนัก 1 ให้กับบุคคลที่ไม่ได้รับเชื้อและน้ำหนัก 15 ถึงผู้ติดเชื้อ แต่ฉันได้รับผลลัพธ์ที่ไม่ดี

16 r machine-learning boosting unbalanced-classes gbm

คำถามติดแท็ก r