สถิติและข้อมูลขนาดใหญ่ r

2

ข้อผิดพลาดของการฝึกอบรมที่ต้องรายงานสำหรับป่าสุ่มคืออะไร

ขณะนี้ฉันกำลังปรับฟอเรสต์แบบสุ่มสำหรับปัญหาการจำแนกประเภทโดยใช้randomForestแพ็คเกจใน R และไม่แน่ใจเกี่ยวกับวิธีรายงานข้อผิดพลาดในการฝึกอบรมสำหรับโมเดลเหล่านี้ ข้อผิดพลาดในการฝึกอบรมของฉันใกล้เคียงกับ 0% เมื่อฉันคำนวณโดยใช้การคาดการณ์ที่ฉันได้รับจากคำสั่ง: predict(model, data=X_train) ที่X_trainเป็นข้อมูลการฝึกอบรม ในคำตอบของคำถามที่เกี่ยวข้องฉันอ่านว่าควรใช้ข้อผิดพลาดการฝึกอบรมนอกกระเป๋า (OOB) เป็นตัวชี้วัดข้อผิดพลาดการฝึกอบรมสำหรับฟอเรสต์แบบสุ่ม ปริมาณนี้คำนวณจากการทำนายที่ได้จากคำสั่ง: predict(model) ในกรณีนี้ข้อผิดพลาดในการฝึกอบรมของ OOB นั้นใกล้กับข้อผิดพลาดในการทดสอบ 10-CV เฉลี่ยซึ่งมากถึง 11% ฉันสงสัย: เป็นที่ยอมรับกันโดยทั่วไปในการรายงานข้อผิดพลาดการฝึกอบรมของ OOB ว่าเป็นข้อผิดพลาดในการฝึกอบรมสำหรับป่าสุ่มหรือไม่? ความจริงที่ว่าข้อผิดพลาดในการฝึกอบรมแบบดั้งเดิมนั้นต่ำเกินจริงหรือไม่? หากข้อผิดพลาดในการฝึกอบรมแบบดั้งเดิมอยู่ในระดับต่ำมาก ๆ ฉันจะเปรียบเทียบได้สองวิธีเพื่อตรวจสอบว่า RF กำลังเกินขนาดหรือไม่

15 r machine-learning classification random-forest overfitting

1

ฉันมีแนวที่ดีที่สุด ฉันต้องการจุดข้อมูลที่จะไม่เปลี่ยนแนวที่ดีที่สุดของฉัน

ฉันกำลังนำเสนอเกี่ยวกับเส้นสายที่กระชับ ฉันมีฟังก์ชั่นเชิงเส้นอย่างง่าย, ข ฉันกำลังพยายามหาจุดข้อมูลที่กระจัดกระจายที่ฉันสามารถใส่ในพล็อตกระจายที่จะทำให้แถวของฉันเหมาะสมที่สุดสมการเดียวกันy=1x+by=1x+by=1x+b ฉันชอบที่จะเรียนรู้เทคนิคนี้ใน R หรือ Excel - แล้วแต่ว่าจะง่ายกว่ากัน

15 r regression least-squares excel

1

อนุกรมเวลาหลายตัวแปรชีวภาพ: VAR และฤดูกาล

ฉันมีชุดข้อมูลอนุกรมเวลาหลายตัวแปรรวมถึงตัวแปรชีวภาพและสิ่งแวดล้อมที่มีปฏิสัมพันธ์ (รวมถึงตัวแปรภายนอกบางอย่าง) นอกจากฤดูกาลแล้วไม่มีข้อมูลในระยะยาวที่ชัดเจน จุดประสงค์ของฉันคือการดูว่าตัวแปรใดบ้างที่เกี่ยวข้องกัน การคาดการณ์นั้นไม่ได้ถูกมองหา เป็นเรื่องใหม่สำหรับการวิเคราะห์อนุกรมเวลาฉันอ่านการอ้างอิงหลายอย่าง เท่าที่ฉันเข้าใจโมเดล Vector Autoregressive (VAR) จะเหมาะสม แต่ฉันรู้สึกไม่สะดวกกับฤดูกาลและตัวอย่างส่วนใหญ่ที่ฉันพบในสาขาเศรษฐศาสตร์ที่เกี่ยวข้อง (บ่อยครั้งกับการวิเคราะห์อนุกรมเวลา ... ) โดยไม่มีฤดูกาล ฉันควรทำอย่างไรกับข้อมูลตามฤดูกาลของฉัน ฉันถือว่าพวกเขา deseasonalizing - ตัวอย่างเช่นใน R ฉันจะใช้decomposeแล้วใช้$trend + $randค่าเพื่อรับสัญญาณที่ปรากฏนิ่งสวย (ตามการตัดสินต่อacf) ผลลัพธ์ของแบบจำลอง VAR ทำให้ฉันสับสน (แบบจำลองแบบ 1-lag ถูกเลือกในขณะที่ฉันคาดหวังอย่างสังหรณ์ใจมากขึ้นและมีค่าสัมประสิทธิ์สำหรับการตอบโต้อัตโนมัติเท่านั้น ฉันกำลังทำอะไรผิดหรือฉันควรสรุปว่าตัวแปรของฉันไม่เกี่ยวข้อง (เป็นเส้นตรง) / โมเดลของฉันไม่ใช่คำถามที่ดี (คำถามย่อย: มี VAR ที่ไม่ใช่เชิงเส้นเทียบเท่าหรือไม่) [อีกวิธีหนึ่งฉันอ่านฉันอาจใช้ตัวแปรตามฤดูกาลได้แม้ว่าฉันจะไม่สามารถทราบได้ว่าจะนำไปใช้อย่างไร] คำแนะนำทีละขั้นตอนจะได้รับการชื่นชมอย่างมากเนื่องจากรายละเอียดสำหรับผู้ใช้ที่มีประสบการณ์อาจให้ข้อมูลกับฉัน (และตัวอย่างโค้ด R หรือลิงก์ไปยังตัวอย่างที่เป็นรูปธรรมยินดีต้อนรับแน่นอน)

15 r time-series var seasonality

1

ทำไมฉันไม่สามารถจับคู่เอาต์พุต glmer (family = binomial) กับการใช้งานอัลกอริทึม Gauss-Newton ด้วยตนเองได้?

ฉันต้องการจับคู่ผลลัพธ์ของ lmer (ดูดีขึ้นจริง ๆ ) กับตัวอย่างของเล่นทวินาม ฉันอ่านบทความสั้น ๆ และเชื่อว่าฉันเข้าใจว่าเกิดอะไรขึ้น แต่เห็นได้ชัดว่าฉันทำไม่ได้ หลังจากติดขัดฉันได้แก้ไข "ความจริง" ในแง่ของเอฟเฟกต์แบบสุ่มและไปหลังจากประเมินค่าของผลกระทบคงที่เพียงอย่างเดียว ฉันรวมรหัสนี้ไว้ด้านล่าง หากต้องการดูว่าถูกต้องคุณสามารถแสดงความคิดเห็น+ Z %*% b.kและมันจะตรงกับผลลัพธ์ของ glm ปกติ ฉันหวังว่าจะยืมพลังสมองบางส่วนเพื่อหาสาเหตุที่ฉันไม่สามารถจับคู่ผลลัพธ์ของ lmer เมื่อรวมเอฟเฟกต์แบบสุ่ม # Setup - hard coding simple data set df <- data.frame(x1 = rep(c(1:5), 3), subject = sort(rep(c(1:3), 5))) df$subject <- factor(df$subject) # True coefficient values beta <- …

15 r mixed-model optimization lme4-nlme

1

วิธีที่ดีที่สุดในการแสดงความสัมพันธ์จากแบบจำลองเชิงเส้นหลายแบบ

ฉันมีโมเดลเชิงเส้นพร้อมตัวทำนายประมาณ 6 ตัวและฉันจะนำเสนอการประมาณค่า F ค่า p ฯลฯ ตัวแปรการตอบสนอง? scatterplot? พล็อตตามเงื่อนไข? พล็อตเอฟเฟกต์? etc? ฉันจะตีความพล็อตนั้นได้อย่างไร ฉันจะทำสิ่งนี้ใน R ดังนั้นอย่าลังเลที่จะให้ตัวอย่างถ้าคุณทำได้ แก้ไข: ฉันเกี่ยวข้องกับการนำเสนอความสัมพันธ์ระหว่างตัวทำนายที่ได้รับและตัวแปรการตอบสนองเป็นหลัก

15 r regression data-visualization multiple-regression partial-plot

4

สถิติ Ljung-Box สำหรับ ARIMA ที่เหลือใน R: ผลการทดสอบที่สับสน

ฉันมีอนุกรมเวลาที่ฉันพยายามคาดการณ์ซึ่งฉันใช้ ARIMA ตามฤดูกาล (0,0,0) (0,1,0) [12] โมเดล (= fit2) มันแตกต่างจากสิ่งที่ R แนะนำกับ auto.arima (R คำนวณ ARIMA (0,1,1) (0,1,0) [12] น่าจะเหมาะกว่าฉันตั้งชื่อมันว่า fit1) อย่างไรก็ตามในช่วง 12 เดือนสุดท้ายของซีรีส์เวลาของฉันโมเดลของฉัน (พอดี 2) ดูเหมือนจะดีกว่าเมื่อปรับแล้ว (มันมีอคติเรื้อรังฉันได้เพิ่มค่าเฉลี่ยที่เหลือ นี่คือตัวอย่างของ 12 เดือนล่าสุดและ MAPE สำหรับ 12 เดือนล่าสุดสำหรับทั้งสองพอดี: อนุกรมเวลามีลักษณะดังนี้: จนถึงตอนนี้ดีมาก ฉันทำการวิเคราะห์ที่เหลือสำหรับทั้งสองรุ่นและนี่คือความสับสน acf (ส่วนที่เหลือ (พอดี 1)) ดูดีมากเสียงดังมาก: อย่างไรก็ตามการทดสอบ Ljung-Box นั้นดูไม่ดีเช่น 20 lags: Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1) ฉันได้รับผลลัพธ์ต่อไปนี้: …

15 r time-series statistical-significance arima residuals

3

ทดสอบความแตกต่างที่สำคัญระหว่างค่าความชันสองค่า

ข้อมูลที่ฉันมีคือค่าความชันถดถอยของเวลา y ~, ข้อผิดพลาดมาตรฐาน, ค่า n และค่า ap, สำหรับสปีชีส์ที่เฉพาะเจาะจงในสองพื้นที่ที่แตกต่างกัน ฉันต้องการตรวจสอบว่าความชันถดถอยสำหรับหนึ่งพื้นที่นั้นแตกต่างจากความชันถดถอยสำหรับพื้นที่อื่น - เป็นไปได้ไหมที่มีข้อมูลเช่นนี้ ไม่มีใครมีข้อเสนอแนะใด ๆ ที่ฉันจะไปเกี่ยวกับเรื่องนี้? ฉันไม่สามารถเข้าถึงข้อมูลดิบได้อย่างน่าเสียดาย ... ขออภัยที่เป็นคำถามง่าย ๆ เช่นนี้!

15 r regression statistical-significance

2

จะทำการถดถอยด้วยเอฟเฟ็กต์โค้ดแทนที่จะใช้การจำลองแบบ dummy ใน R ได้อย่างไร

ขณะนี้ฉันกำลังทำงานกับตัวแบบการถดถอยที่ฉันมีตัวแปรเด็ดขาด / ตัวประกอบเป็นตัวแปรอิสระเท่านั้น ตัวแปรตามของฉันคืออัตราส่วนการแปลง logit มันค่อนข้างง่ายเพียงเรียกใช้การถดถอยปกติใน R เนื่องจาก R รู้วิธีการกำหนดรหัสโดยอัตโนมัติทันทีที่พวกมันอยู่ในประเภท "factor" อย่างไรก็ตามการเข้ารหัสประเภทนี้ก็หมายความว่าหนึ่งประเภทจากแต่ละตัวแปรนั้นถูกใช้เป็นพื้นฐานทำให้ยากต่อการตีความ อาจารย์ของฉันบอกให้ฉันใช้เอฟเฟ็กต์โค้ดแทน (-1 หรือ 1) เพราะนี่หมายถึงการใช้ความหมายที่ยิ่งใหญ่สำหรับการสกัดกั้น ไม่มีใครรู้วิธีจัดการกับสิ่งนั้น? จนถึงตอนนี้ฉันได้ลอง: gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + …

15 r regression categorical-data categorical-encoding

1

การหาฟังก์ชั่นความหนาแน่นในท้องถิ่นโดยใช้เส้นโค้ง

ฉันพยายามหาค่าสูงสุดในพื้นที่สำหรับฟังก์ชันความหนาแน่นของความน่าจะเป็น (พบได้โดยใช้densityวิธีของ R ) ฉันไม่สามารถใช้วิธี "ดูรอบ ๆ เพื่อนบ้าน" แบบง่าย ๆ (ที่จุดหนึ่งมองไปรอบ ๆ เพื่อดูว่าเป็นระดับสูงสุดในพื้นที่ที่เกี่ยวกับเพื่อนบ้าน) หรือไม่เนื่องจากมีข้อมูลจำนวนมาก นอกจากนี้ดูเหมือนว่ามีประสิทธิภาพและทั่วไปมากกว่าที่จะใช้การแก้ไข Spline แล้วค้นหารากของอนุพันธ์อันดับ 1 เมื่อเทียบกับการสร้าง "มองไปรอบ ๆ เพื่อนบ้าน" ด้วยการยอมรับข้อบกพร่องและพารามิเตอร์อื่น ๆ ดังนั้นคำถามของฉัน: เมื่อพิจารณาจากฟังก์ชันsplinefunจะหาค่าสูงสุดในท้องถิ่นได้อย่างไร มีวิธีง่าย ๆ / เป็นมาตรฐานในการค้นหาอนุพันธ์ของฟังก์ชันที่ส่งคืนโดยใช้ splinefunหรือไม่? มีวิธีที่ดีกว่า / มาตรฐานในการหาค่าสูงสุดในท้องถิ่นของฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่? สำหรับการอ้างอิงด้านล่างเป็นพล็อตของฟังก์ชั่นความหนาแน่นของฉัน ฟังก์ชั่นความหนาแน่นอื่น ๆ ที่ฉันทำงานด้วยนั้นคล้ายกันในรูปแบบ ฉันควรจะบอกว่าฉันใหม่กับ R แต่ไม่ใช่เรื่องใหม่สำหรับการเขียนโปรแกรมดังนั้นอาจมีไลบรารีหรือแพ็คเกจมาตรฐานสำหรับการบรรลุสิ่งที่ฉันต้องการ ขอบคุณสำหรับความช่วยเหลือของคุณ!!

15 r pdf splines maximum

4

การอัพเดตการถดถอยเชิงเส้นอย่างมีประสิทธิภาพเมื่อเพิ่มการสังเกตและ / หรือตัวทำนายใน R

ฉันสนใจที่จะหาวิธีใน R เพื่ออัปเดตโมเดลเชิงเส้นอย่างมีประสิทธิภาพเมื่อมีการเพิ่มการสังเกตหรือตัวทำนาย biglm มีความสามารถในการอัปเดตเมื่อเพิ่มการสังเกต แต่ข้อมูลของฉันมีขนาดเล็กพอที่จะอยู่ในหน่วยความจำ (แม้ว่าฉันจะมีอินสแตนซ์จำนวนมากที่ต้องอัปเดต) มีวิธีการทำเช่นนี้ด้วยมือเปล่าเช่นเพื่ออัปเดตการแยกตัวประกอบ QR (ดู "การอัปเดตการแยกตัวประกอบ QR และปัญหากำลังสองน้อยที่สุด" โดย Hammarling และ Lucas) แต่ฉันหวังว่าจะมีการใช้งานอยู่

15 r regression computational-statistics linear-model

2

ทำความเข้าใจกับความล่าช้าในการทดสอบเพิ่ม Dickey Fuller ของ R

ฉันเล่นรอบ ๆ ด้วยการทดสอบรูทยูนิตใน R และฉันไม่แน่ใจว่าจะทำอย่างไรกับพารามิเตอร์ k lag ฉันใช้การทดสอบเพิ่มDickey FullerและการทดสอบPhilipps Perronจากแพ็คเกจtseries เห็นได้ชัดว่าพารามิเตอร์เริ่มต้น(สำหรับ) ขึ้นอยู่กับความยาวของซีรีส์เท่านั้น ถ้าฉันเลือกk- ค่าต่างกันฉันจะได้ผลลัพธ์ที่แตกต่างกันมาก ปฏิเสธโมฆะ:kkkadf.testkkk Dickey-Fuller = -3.9828, Lag order = 4, p-value = 0.01272 alternative hypothesis: stationary # 103^(1/3)=k=4 Dickey-Fuller = -2.7776, Lag order = 0, p-value = 0.2543 alternative hypothesis: stationary # k=0 Dickey-Fuller = -2.5365, Lag order …

15 r time-series trend

2

อะไรคือ“ พื้นฐาน” ในกราฟการเรียกคืนที่แม่นยำ

ฉันพยายามเข้าใจเส้นโค้งการเรียกคืนที่แม่นยำฉันเข้าใจว่าความแม่นยำและการเรียกคืนคืออะไร แต่สิ่งที่ฉันไม่เข้าใจคือค่า "พื้นฐาน" ฉันอ่านลิงค์นี้ https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ และฉันไม่เข้าใจส่วนพื้นฐานดังที่แสดงใน "เส้นโค้งความแม่นยำ - การเรียกคืนของตัวจําแนกที่สมบูรณ์แบบ" มันทําอะไรได้บ้าง และเราจะคำนวณได้อย่างไร มันเป็นเพียงพื้นฐานแบบสุ่มที่เราเลือก? ตัวอย่างเช่นฉันมีข้อมูลตัวสั่นด้วยความตื่นเต้นเช่นคุณลักษณะretweet,status_countและอื่น ๆ และป้ายกำกับคลาสของฉันคือFavorited1 หากรายการโปรดและ 0 หากไม่ได้รับความโปรดปรานและฉันใช้ช่องทางที่ไร้เดียงสาและตอนนี้ฉันต้องการวาดเส้นโค้งการจำคืนความแม่นยำ ?

15 r machine-learning classification precision-recall

4

ตัวแปรใดอธิบายถึงส่วนประกอบ PCA และในทางกลับกัน

ใช้ข้อมูลนี้: head(USArrests) nrow(USArrests) ฉันสามารถทำ PCA เป็นเช่นนี้: plot(USArrests) otherPCA <- princomp(USArrests) ฉันสามารถรับส่วนประกอบใหม่ได้ otherPCA$scores และสัดส่วนของความแปรปรวนที่อธิบายโดยส่วนประกอบด้วย summary(otherPCA) แต่ถ้าฉันต้องการรู้ว่าตัวแปรใดที่อธิบายส่วนใหญ่โดยองค์ประกอบหลัก? และในทางกลับกัน: เป็นเช่น PC1 หรือ PC2 ส่วนใหญ่อธิบายโดยmurder? ฉันจะทำสิ่งนี้ได้อย่างไร ฉันสามารถพูดได้เช่นว่า PC1 นั้นสามารถอธิบายได้ 80% โดยmurderหรือassault? ฉันคิดว่าการโหลดช่วยฉันที่นี่ แต่พวกเขาแสดงทิศทางที่ไม่อธิบายความแปรปรวนตามที่ฉันเข้าใจเช่น otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974

15 r pca dimensionality-reduction regression-strategies

3

ทดสอบว่าการกระจายหลายมิติเหมือนกันหรือไม่

ให้บอกว่าฉันมีประชากรตัวอย่างสองตัวหรือมากกว่าของเวกเตอร์ที่มีมูลค่าต่อเนื่องแบบมิติ n มีวิธีที่ไม่ใช้พารามิเตอร์เพื่อทดสอบว่าตัวอย่างเหล่านี้มาจากการแจกแจงแบบเดียวกันหรือไม่? ถ้าเป็นเช่นนั้นจะมีฟังก์ชั่นใน R หรือหลามนี้หรือไม่?

15 r distributions nonparametric python

2

ทำไม lrtest () ไม่ตรงกับ anova (test =“ LRT”)

ฉันกำลังมองหาวิธีที่จะทำการทดสอบอัตราส่วนความน่าจะเป็นใน R เพื่อเปรียบเทียบแบบจำลองที่พอดี ฉันเขียนมันเองก่อนจากนั้นก็พบว่าทั้งanova()ฟังก์ชั่นเริ่มต้นและlrtest()ในlmtestแพ็คเกจ เมื่อฉันตรวจสอบanova()จะสร้างค่า p ที่แตกต่างกันเล็กน้อยจากอีกสองเสมอแม้ว่าพารามิเตอร์ 'test' จะถูกตั้งค่าเป็น "LRT" มีการanova()ปฏิบัติจริงบางอย่างที่แตกต่างกันการทดสอบอย่างละเอียดหรือฉันไม่เข้าใจว่าอะไร? แพลตฟอร์ม: R 3.2.0 ทำงานบน Linux Mint 17, lmtestรุ่น 0.9-33 รหัสตัวอย่าง: set.seed(1) # Reproducibility n=1000 y = runif(n, min=-1, max=1) a = factor(sample(1:5, size=n, replace=T)) b = runif(n) # Make y dependent on the other two variables y = y …

15 r anova likelihood-ratio

คำถามติดแท็ก r