สถิติและข้อมูลขนาดใหญ่ splines

1

ฉันเหมาะสมกับโมเดลเอฟเฟกต์ผสมกับคำที่เป็นอิสระในแอปพลิเคชันซึ่งมีแนวโน้มว่าเมื่อเวลาผ่านไปเป็นเส้นโค้งเชิงเส้น อย่างไรก็ตามสิ่งที่ฉันต้องการประเมินคือแนวโน้มของเส้นโค้งเชิงเส้นเกิดขึ้นเนื่องจากความเบี่ยงเบนของแต่ละบุคคลจากเส้นตรงหรือเป็นผลกระทบในระดับกลุ่มที่ทำให้ระดับกลุ่มพอดีปรากฏเป็นเส้นโค้ง ฉันให้ตัวอย่างที่ทำซ้ำได้ซึ่งน่าเบื่อชุดข้อมูลจากแพ็คเกจ JM library(nlme) library(JM) data(pbc2) fitLME1 <- lme(log(serBilir) ~ ns(year, 2), random = ~ year | id, data = pbc2) fitLME2 <- lme(log(serBilir) ~ year, random = ~ ns(year, 2) | id, data = pbc2) โดยพื้นฐานแล้วฉันต้องการทราบว่าหนึ่งในสิ่งเหล่านี้เหมาะกับข้อมูลของฉัน อย่างไรก็ตามการเปรียบเทียบโดยanovaให้คำเตือนเป็นลางไม่ดี: Model df AIC BIC logLik Test L.Ratio p-value fitLME1 1 7 …

9 r splines lme4-nlme

2

การทดสอบย้อนกลับหรือการตรวจสอบความถูกต้องข้ามเมื่อกระบวนการสร้างแบบจำลองเป็นแบบโต้ตอบ

ฉันมีตัวแบบทำนายผลซึ่งฉันต้องการทดสอบกลับ (เช่นนำชุดข้อมูลของฉัน "ย้อนกลับ" ไปยังจุดก่อนหน้าในเวลาและดูว่าตัวแบบนั้นจะทำแบบมุ่งหวังได้อย่างไร) ปัญหาคือว่าบางรุ่นของฉันถูกสร้างขึ้นผ่านกระบวนการโต้ตอบ ตัวอย่างเช่นทำตามคำแนะนำในกลยุทธ์การสร้างแบบจำลองการถดถอยของ Frank Harrell ในแบบจำลองหนึ่งฉันใช้ splines ลูกบาศก์แบบ จำกัด เพื่อจัดการความสัมพันธ์แบบไม่เชิงเส้นที่เป็นไปได้ระหว่างคุณลักษณะและการตอบสนอง ฉันจัดสรรระดับความเป็นอิสระของแต่ละอิสระขึ้นอยู่กับการรวมกันของความรู้ในโดเมนและการวัดความแข็งแกร่งของสมาคม แต่องศาอิสระที่ฉันต้องการอนุญาตให้แบบจำลองของฉันขึ้นอยู่กับขนาดของชุดข้อมูลซึ่งแตกต่างกันอย่างมากเมื่อทำการทดสอบย้อนหลัง หากฉันไม่ต้องการแยกองศาอิสระแยกจากกันในแต่ละครั้งที่รุ่นถูกทดสอบซ้ำตัวเลือกอื่นของฉันคืออะไร สำหรับตัวอย่างอื่นฉันกำลังตรวจจับค่าผิดปกติผ่านการหาจุดที่มีเลเวอเรจสูง ถ้าฉันมีความสุขที่จะทำสิ่งนี้ด้วยมือฉันจะดูที่จุดข้อมูลที่มีประโยชน์สูงแต่ละจุดตรวจสอบอย่างมีเหตุผลว่าข้อมูลนั้นสะอาดและกรองออกหรือทำความสะอาดด้วยมือ แต่สิ่งนี้ขึ้นอยู่กับความรู้เกี่ยวกับโดเมนจำนวนมากดังนั้นฉันจึงไม่ทราบวิธีการดำเนินการอัตโนมัติ ฉันขอขอบคุณคำแนะนำและวิธีแก้ปัญหาทั้งสอง (ก) ถึงปัญหาทั่วไปของการสร้างส่วนโต้ตอบอัตโนมัติของกระบวนการสร้างแบบจำลองหรือ (ข) คำแนะนำเฉพาะสำหรับสองกรณีนี้ ขอบคุณ!

9 cross-validation modeling outliers splines overfitting

3

การเลือก k knots ในการถดถอยเส้นโค้งที่ราบเรียบเทียบเท่ากับตัวแปรเด็ดขาด k?

ฉันกำลังทำงานกับแบบจำลองการคาดการณ์ที่อายุของผู้ป่วย (จำนวนเต็มวัดเป็นปี) เป็นหนึ่งในตัวแปรตัวทำนาย ความสัมพันธ์แบบไม่เชิงเส้นที่แข็งแกร่งระหว่างอายุและความเสี่ยงของการเข้าพักในโรงพยาบาลจะเห็นได้ชัด: ฉันกำลังพิจารณาว่าการทำให้เส้นโค้งการถดถอยเป็นไปอย่างราบรื่นสำหรับผู้ป่วยอายุ ตามองค์ประกอบของการเรียนรู้ทางสถิติ (Hastie et al, 2009, p.151) ตำแหน่งปมที่ดีที่สุดคือหนึ่งปมต่อค่าที่ไม่ซ้ำกันของอายุสมาชิก ระบุว่าฉันรักษาอายุเป็นจำนวนเต็มเป็น spline ปรับลงโทษให้เรียบเพื่อเรียกใช้สันเขาถดถอยหรือ lasso กับ 101 ตัวบ่งชี้ตัวแปรอายุที่แตกต่างกันหนึ่งค่าต่ออายุพบในชุดข้อมูล (ลบหนึ่งสำหรับการอ้างอิง)? การหลีกเลี่ยงค่าพารามิเตอร์มากเกินไปนั้นจะถูกหลีกเลี่ยงเนื่องจากค่าสัมประสิทธิ์ของตัวบ่งชี้อายุแต่ละตัวนั้นหดตัวลงไปเป็นศูนย์

9 nonlinear-regression lasso ridge-regression smoothing splines

3

Spline df selection ในปัญหาโมเดลเสริมปัวซองทั่วไป

ฉันได้รับการกระชับข้อมูลอนุกรมเวลาโดยใช้รูปแบบการเติมแต่งทั่วไป Poisson ใช้ PROC GAMSAS โดยทั่วไปฉันมีกระบวนการตรวจสอบข้ามแบบทั่วไปในตัวแล้วสร้าง "จุดเริ่มต้น" ที่ดีสำหรับเส้นโค้งเดี่ยวของฉันซึ่งเป็นฟังก์ชันที่ไม่ใช่เชิงเส้นของเวลาพร้อมกับคำพารามิเตอร์เดียว (อันที่ฉัน สนใจจริงๆ) จนถึงตอนนี้มันทำงานได้ค่อนข้างว่ายน้ำยกเว้นหนึ่งในชุดข้อมูลของฉัน มีการสังเกตในชุดข้อมูล 132 ชุดและ GCV แนะนำให้มีอิสระในระดับ 128 องศา ดูเหมือนว่า ... ผิด ผิดมาก ที่สำคัญมันยังไม่เสถียรเลย ฉันลองวิธีที่สองโดยใช้บางอย่างเช่น "เปลี่ยนค่าประมาณ" เพื่อหยุดเพิ่มองศาอิสระเมื่อการประมาณค่าพารามิเตอร์หยุดหยุดการเปลี่ยนแปลงเพราะเหตุใดจึงต้องเพิ่มการควบคุมหากไม่มีอะไรแตกต่างกัน ปัญหาคือว่าการประมาณการไม่เสถียรเลย ฉันลองใช้องศาอิสระดังต่อไปนี้และอย่างที่คุณเห็นคำศัพท์เกี่ยวกับพารามิเตอร์จะเด้งไปมาอย่างดุเดือด: DF: Parametric Estimate: 1 -0.76903 2 -0.56308 3 -0.47103 4 -0.43631 5 -0.33108 6 -0.1495 7 0.0743 8 0.33459 9 0.62413 10 …

9 time-series sas splines gam

2

คำนวณ ROC curve สำหรับข้อมูล

ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

คำถามติดแท็ก splines