สถิติและข้อมูลขนาดใหญ่ splines

2

ปัญหาของฉัน : เมื่อเร็ว ๆ นี้ฉันได้พบกับนักสถิติที่แจ้งให้ฉันทราบว่าเส้นโค้งนั้นมีประโยชน์สำหรับการสำรวจข้อมูลเท่านั้นและอาจมีการ overfitting ดังนั้นจึงไม่มีประโยชน์ในการทำนาย เขาชอบสำรวจด้วยพหุนามอย่างง่าย ๆ ... เนื่องจากฉันเป็นแฟนตัวยงของเส้นโค้งและสิ่งนี้ขัดกับสัญชาตญาณของฉันฉันสนใจที่จะค้นหาว่าข้อโต้แย้งเหล่านี้มีเหตุผลเพียงใดและถ้ามีกลุ่มต่อต้านจำนวนมาก - นักเคลื่อนไหวออกไปที่นั่น? ข้อมูลประกอบ : ฉันพยายามติดตาม Frank Harrell กลยุทธ์การสร้างแบบจำลองการถดถอย (1) เมื่อฉันสร้างแบบจำลอง เขาให้เหตุผลว่าลูกบาศก์ splines ที่ จำกัด เป็นเครื่องมือที่ถูกต้องสำหรับการสำรวจตัวแปรต่อเนื่อง นอกจากนี้เขายังระบุว่าชื่อพหุนามน่าสงสารในการสร้างแบบจำลองความสัมพันธ์บางอย่างเช่นเกณฑ์ลอการิทึม (2) สำหรับการทดสอบความเป็นเชิงเส้นของแบบจำลองเขาแนะนำการทดสอบ ANOVA สำหรับเส้นโค้ง: H0: β2= β3= … = βk - 1= 0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 ฉัน …

47 regression splines

1

สัญชาตญาณเบื้องหลังการโต้ตอบของผลิตภัณฑ์เทนเซอร์ในเกม (แพ็คเกจ MGCV ใน R)

ทั่วไปรุ่นสารเติมแต่งเป็นคนที่ ตัวอย่างเช่น ฟังก์ชั่นนั้นราบรื่นและสามารถประเมินได้ มักจะถูกลงโทษโดยเส้นโค้ง MGCV เป็นแพ็คเกจใน R ที่ทำเช่นนั้นและผู้แต่ง (Simon Wood) เขียนหนังสือเกี่ยวกับแพ็คเกจของเขาด้วยตัวอย่าง R Ruppert และคณะ (2003) เขียนหนังสือที่เข้าถึงได้ง่ายขึ้นเกี่ยวกับสิ่งที่เรียบง่ายกว่าในสิ่งเดียวกัน y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i คำถามของฉันเกี่ยวกับการโต้ตอบภายในแบบจำลองเหล่านี้ ถ้าฉันต้องการทำสิ่งต่อไปนี้: ถ้าเราอยู่ในดินแดน OLS (ที่เป็นเพียงเบต้า) ผมไม่มีปัญหากับการตีความ\หากเราประเมินผ่านเดอร์ไลน์ที่ถูกลงโทษฉันก็ไม่มีปัญหากับการตีความในบริบทเพิ่มเติม ฉฉ 3y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ffff^3f^3\hat{f}_3 แต่แพ็คเกจ MGCV ใน …

30 r nonparametric interaction splines intuition

2

เปรียบเทียบเส้นโค้งที่ราบเรียบเทียบกับเหลืองเพื่อให้เรียบ

ฉันต้องการเข้าใจข้อดีข้อเสียของการใช้เส้นเหลืองหรือเส้นโค้งที่ราบเรียบเพื่อให้เส้นโค้งเรียบขึ้น อีกรูปแบบของคำถามของฉันคือถ้ามีวิธีสร้าง spline ที่ปรับให้เรียบในลักษณะที่จะให้ผลลัพธ์เหมือนกับการใช้เหลือง ยินดีต้อนรับการอ้างอิงหรือข้อมูลเชิงลึกใด ๆ

25 regression splines loess

1

การตั้งค่านอตในลูกบาศก์ลูกบาศก์ธรรมชาติใน R

ฉันมีข้อมูลที่มีฟีเจอร์ที่สัมพันธ์กันมากมายและฉันต้องการเริ่มต้นด้วยการลดฟีเจอร์ด้วยฟังก์ชั่นพื้นฐานที่ราบรื่นก่อนใช้ LDA ฉันพยายามใช้ลูกบาศก์ธรรมชาติในsplinesแพคเกจกับnsฟังก์ชัน ฉันจะไปเกี่ยวกับการกำหนดปมได้อย่างไร นี่คือรหัส R พื้นฐาน: library(splines) lda.pred <- lda(y ~ ns(x, knots=5)) nsแต่ผมมีความคิดเกี่ยวกับวิธีการเลือกนอตไม่มี

23 r splines

6

ตัวอย่างการสร้างแบบจำลองการถดถอยขั้นสูง

ฉันกำลังมองหากรณีศึกษาการถดถอยเชิงเส้นขั้นสูงซึ่งแสดงขั้นตอนที่จำเป็นสำหรับการสร้างแบบจำลองที่ซับซ้อนความสัมพันธ์ที่ไม่ใช่เชิงเส้นหลาย ๆ แบบโดยใช้ GLM หรือ OLS มันเป็นเรื่องยากที่จะหาแหล่งข้อมูลที่นอกเหนือไปจากโรงเรียนตัวอย่าง: หนังสือส่วนใหญ่ที่ฉันอ่านจะไม่ไปไกลกว่าการแปลงบันทึกการตอบสนองควบคู่ไปกับ BoxCox ของผู้ทำนายหนึ่งคนหรือแนวความคิดตามธรรมชาติในกรณีที่ดีที่สุด นอกจากนี้ตัวอย่างทั้งหมดที่ฉันเห็นมาถึงปัญหาการแปลงข้อมูลในรูปแบบที่แยกต่างหากมักจะอยู่ในรูปแบบการทำนายเดียว ฉันรู้ว่าการแปลง BoxCox หรือ YeoJohnson คืออะไร สิ่งที่ฉันกำลังมองหาคือกรณีศึกษาในชีวิตจริงที่มีรายละเอียดซึ่งการตอบสนอง / ความสัมพันธ์ไม่ชัดเจน ตัวอย่างเช่นการตอบสนองไม่ได้เป็นเชิงบวกอย่างเคร่งครัด (ดังนั้นคุณจึงไม่สามารถใช้ log หรือ BoxCox) ผู้ทำนายมีความสัมพันธ์แบบไม่เป็นเส้นตรงระหว่างตัวเองและต่อการตอบสนองและการแปลงข้อมูลความน่าจะเป็นสูงสุดไม่ได้บ่งบอกถึงมาตรฐาน 0.33 หรือ 0.5 เลขยกกำลัง นอกจากนี้ความแปรปรวนที่เหลือพบว่าไม่คงที่ (ไม่เคยเป็น) ดังนั้นการตอบสนองจะต้องมีการเปลี่ยนแปลงเช่นกันและตัวเลือกจะต้องทำระหว่างการถดถอยครอบครัว GLM ที่ไม่ได้มาตรฐานหรือการเปลี่ยนแปลงการตอบสนอง นักวิจัยมีแนวโน้มที่จะตัดสินใจเลือกที่จะหลีกเลี่ยงการเก็บข้อมูลมากเกินไป แก้ไข จนถึงตอนนี้ฉันรวบรวมทรัพยากรต่อไปนี้: กลยุทธ์การสร้างแบบจำลองการถดถอย, F. Harrell อนุกรมเวลาเศรษฐมิติประยุกต์ว. วชิรเอนเดอร์ โมเดลเชิงเส้นไดนามิกพร้อม R, G. Petris การวิเคราะห์การถดถอยประยุกต์, D. Kleinbaum บทนำสู่การเรียนรู้เชิงสถิติ, …

22 multiple-regression generalized-linear-model data-transformation splines nonlinear

1

เส้นโค้งสามารถใช้ในการทำนายได้หรือไม่?

ฉันไม่สามารถระบุลักษณะของข้อมูลตามที่เป็นกรรมสิทธิ์ได้ แต่สมมติว่าเรามีข้อมูลเช่นนี้: ในแต่ละเดือนบางคนสมัครใช้บริการ จากนั้นในแต่ละเดือนถัดมาผู้คนเหล่านั้นอาจอัปเกรดบริการหยุดบริการหรือถูกปฏิเสธการบริการ (เช่นการไม่ชำระเงิน) สำหรับกลุ่มแรกสุดในข้อมูลของเราเรามีข้อมูลประมาณ 2 ปี (24 เดือน) จำนวนคนที่เข้าร่วมในแต่ละเดือนนั้นมีมาก (ในช่วง 100,000) และจำนวนที่ทำในสามสิ่งนั้นอยู่ในหลักพัน อย่างไรก็ตามเราไม่ได้ใช้ข้อมูลระดับบุคคล (ซึ่งจะเป็นล้านแถว) แต่ข้อมูลจะถูกรวบรวมตามเดือนและรุ่น (สัดส่วนของกลุ่มแต่ละรุ่นจะทำในแต่ละเดือน) เราได้รับการสร้างแบบจำลองข้อมูลที่มีอยู่โดยใช้เส้นโค้งการถดถอยแบบปรับตัวหลายตัวแปร (MARS) และค้นหาผลลัพธ์ที่น่าสนใจ อย่างไรก็ตามฉันกังวลเกี่ยวกับการใช้สิ่งเหล่านี้เพื่อคาดการณ์หรือทำนายอนาคต ความกังวลของฉันเป็นเพราะการคาดการณ์ในอนาคตจำเป็นต้องอยู่นอกพื้นที่ตัวอย่าง (ในแง่ของเวลา) และเส้นโค้งอาจไม่เสถียรสำหรับการคาดการณ์ นี่เป็นวิธีที่ถูกต้องหรือไม่? มีข้อกังวลอะไรบ้างและพวกเขาจะได้รับการจัดการอย่างไร

20 panel-data splines mars

3

การตีความผลลัพธ์ spline

ฉันกำลังพยายามที่จะทำให้เป็นเส้นโค้งสำหรับ GLM โดยใช้ R เมื่อฉันพอดีกับเส้นโค้งฉันต้องการที่จะสามารถใช้แบบจำลองที่เป็นผลลัพธ์ของฉันและสร้างไฟล์การสร้างแบบจำลองในสมุดงาน Excel ตัวอย่างเช่นสมมติว่าฉันมีชุดข้อมูลที่ y เป็นฟังก์ชันแบบสุ่มของ x และความชันจะเปลี่ยนทันทีที่จุดเฉพาะ (ในกรณีนี้ @ x = 500) set.seed(1066) x<- 1:1000 y<- rep(0,1000) y[1:500]<- pmax(x[1:500]+(runif(500)-.5)*67*500/pmax(x[1:500],100),0.01) y[501:1000]<-500+x[501:1000]^1.05*(runif(500)-.5)/7.5 df<-as.data.frame(cbind(x,y)) plot(df) ตอนนี้ฉันเหมาะกับการใช้ library(splines) spline1 <- glm(y~ns(x,knots=c(500)),data=df,family=Gamma(link="log")) และผลลัพธ์ของฉันแสดง summary(spline1) Call: glm(formula = y ~ ns(x, knots = c(500)), family = Gamma(link = "log"), data = df) …

20 splines

2

อะไรคือข้อดี / ข้อเสียของการใช้เส้นโค้ง, เส้นโค้งเรียบและตัวเลียนแบบกระบวนการ Gaussian?

ฉันสนใจที่จะเรียนรู้ (และการนำไปใช้) เป็นทางเลือกในการแก้ไขพหุนาม อย่างไรก็ตามฉันมีปัญหาในการหาคำอธิบายที่ดีเกี่ยวกับวิธีการทำงานของวิธีการที่เกี่ยวข้องและวิธีเปรียบเทียบ ฉันขอขอบคุณอินพุตของคุณเกี่ยวกับข้อดี / ข้อเสีย / เงื่อนไขซึ่งวิธีการหรือทางเลือกเหล่านี้จะมีประโยชน์ แต่การอ้างอิงที่ดีบางอย่างเกี่ยวกับข้อความสไลด์หรือพอดคาสต์ก็เพียงพอแล้ว

20 interpolation splines

4

ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?

ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

lmer () สามารถใช้ splines เป็นเอฟเฟกต์แบบสุ่มได้หรือไม่?

สมมติว่าเรากำลังทำงานกับโมเดลเอฟเฟกต์สุ่มของข้อมูลนับจำนวนหนึ่งเมื่อเวลาผ่านไปและเราต้องการควบคุมแนวโน้มบางอย่าง โดยปกติคุณจะทำสิ่งที่ชอบ: lmer(counts ~ dependent_variable + (1+t+I(t^2)|ID), family="poisson") tรวมถึงรูปร่างกำลังสองสำหรับ เป็นไปได้ไหมที่จะใช้เทคนิคการทำให้เรียบที่ซับซ้อนยิ่งขึ้นเช่นความนุ่มนวลหรือเส้นโค้งเพื่อสร้างความสัมพันธ์แบบนั้น

19 mixed-model lme4-nlme splines

2

การแสดงภาพเป็นเส้นโค้ง

โดยปกติแล้วหนังสือเรียนจะมีตัวอย่างที่ดีในเรื่องพื้นฐานของเส้นโค้งสม่ำเสมอเมื่ออธิบายหัวข้อ บางอย่างเช่นแถวของสามเหลี่ยมเล็ก ๆ สำหรับเส้นโค้งเชิงเส้นหรือแถวของ humps เล็ก ๆ สำหรับลูกบาศก์เส้นโค้ง นี่คือตัวอย่างทั่วไป: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introcom_a0000000525.htm ฉันสงสัยว่าถ้ามีวิธีง่ายๆในการสร้างพล็อตของพื้นฐาน spline โดยใช้ฟังก์ชั่น R มาตรฐาน (เช่น bs หรือ ns) ฉันเดาว่ามีบางส่วนของเลขคณิตเมทริกซ์ง่าย ๆ รวมกับโปรแกรม R เล็กน้อยซึ่งจะพ่นพล็อตพื้นฐานของเส้นโค้งในลักษณะที่สง่างาม ฉันคิดไม่ออกเลย!

18 data-visualization splines

3

เหมาะสมหลายตัวแปรลูกบาศก์ธรรมชาติ

หมายเหตุ: หากไม่มีคำตอบที่ถูกต้องหลังจากผ่านไปหนึ่งเดือนฉันได้โพสต์ข้อความใหม่เป็นSO พื้นหลัง ฉันมีแบบจำลองที่Y = f ( X )fffY=f(X)Y=f(X)Y=f(\textbf{X}) คือเมทริกซ์ n × mของตัวอย่างจากพารามิเตอร์ mและ Yคือ n × 1XX\textbf{X}n×mn×mn \times mmmmYYYn×1n×1n \times 1เวกเตอร์ของเอาต์พุตโมเดล มีการคำนวณอย่างเข้มข้นดังนั้นฉันจึงต้องการประมาณ fโดยใช้ลูกบาศก์หลายตัวแปรผ่านจุด ( X , Y )เพื่อให้ฉันสามารถประเมิน Yที่จุดจำนวนมากffffff(X,Y)(X,Y)(X,Y)YYY คำถาม มีฟังก์ชั่น R ที่จะคำนวณความสัมพันธ์โดยพลการระหว่าง X และ Y หรือไม่? โดยเฉพาะฉันกำลังมองหารุ่นหลายตัวแปรของsplinefunฟังก์ชั่นซึ่งสร้างฟังก์ชั่น spline สำหรับกรณี univariate เช่นนี้เป็นวิธีการsplinefunทำงานสำหรับกรณี univariate x <- 1:10 y <- runif(10) …

17 r multivariate-analysis splines interpolation gaussian-process

2

นิยามลูกบาศก์ธรรมชาติสำหรับการถดถอย

ฉันกำลังเรียนรู้เกี่ยวกับเส้นโค้งจากหนังสือ "องค์ประกอบของการทำเหมืองข้อมูลการเรียนรู้เชิงสถิติการอนุมานและการทำนาย" โดย Hastie et al ฉันพบในหน้า 145 ว่าเส้นโค้งลูกบาศก์ธรรมชาติเป็นเส้นตรงเหนือขอบนอต มีKKKนอตξ1,ξ2,...ξKξ1,ξ2,...ξK\xi_1, \xi_2, ... \xi_Kในเส้นโค้งและได้รับสิ่งต่อไปนี้เกี่ยวกับเส้นโค้งเช่นนี้ในหนังสือ คำถามที่ 1:เสรีภาพเพิ่มขึ้น 4 องศาอย่างไร ฉันไม่ได้รับส่วนนี้ คำถามที่ 2 : ในคำจำกัดความของเมื่อk = Kแล้วd K ( X ) = 0dk(X)dk(X)d_k(X)k=Kk=Kk=K . ผู้เขียนพยายามทำอะไรในสูตรนี้ สิ่งนี้ช่วยให้แน่ใจได้อย่างไรว่าเส้นโค้งนั้นเป็นเส้นตรงมากกว่านอตขอบdK(X)=00dK(X)=00d_K(X) = \frac 0 0

16 regression degrees-of-freedom splines constraint cubic

3

เส้นโค้งเทียบกับการถดถอยของกระบวนการแบบเกาส์เซียน

ฉันรู้ว่า Gaussian Process Regression (GPR) เป็นอีกทางเลือกหนึ่งในการใช้ splines สำหรับโมเดลที่ไม่ใช่เชิงเส้นที่มีความยืดหยุ่น ฉันอยากจะรู้ว่าสถานการณ์ใดจะเหมาะสมกว่าสถานการณ์อื่นโดยเฉพาะอย่างยิ่งในกรอบการถดถอยแบบเบย์ ฉันได้ดูไปแล้วข้อดี / ข้อเสียของการใช้ Splines, Spline ที่ราบรื่น, และตัวเลียนแบบกระบวนการ Gaussian คืออะไร? แต่ดูเหมือนจะไม่มีอะไรใน GPR ในโพสต์นี้

15 regression gaussian-process splines kriging

1

การหาฟังก์ชั่นความหนาแน่นในท้องถิ่นโดยใช้เส้นโค้ง

ฉันพยายามหาค่าสูงสุดในพื้นที่สำหรับฟังก์ชันความหนาแน่นของความน่าจะเป็น (พบได้โดยใช้densityวิธีของ R ) ฉันไม่สามารถใช้วิธี "ดูรอบ ๆ เพื่อนบ้าน" แบบง่าย ๆ (ที่จุดหนึ่งมองไปรอบ ๆ เพื่อดูว่าเป็นระดับสูงสุดในพื้นที่ที่เกี่ยวกับเพื่อนบ้าน) หรือไม่เนื่องจากมีข้อมูลจำนวนมาก นอกจากนี้ดูเหมือนว่ามีประสิทธิภาพและทั่วไปมากกว่าที่จะใช้การแก้ไข Spline แล้วค้นหารากของอนุพันธ์อันดับ 1 เมื่อเทียบกับการสร้าง "มองไปรอบ ๆ เพื่อนบ้าน" ด้วยการยอมรับข้อบกพร่องและพารามิเตอร์อื่น ๆ ดังนั้นคำถามของฉัน: เมื่อพิจารณาจากฟังก์ชันsplinefunจะหาค่าสูงสุดในท้องถิ่นได้อย่างไร มีวิธีง่าย ๆ / เป็นมาตรฐานในการค้นหาอนุพันธ์ของฟังก์ชันที่ส่งคืนโดยใช้ splinefunหรือไม่? มีวิธีที่ดีกว่า / มาตรฐานในการหาค่าสูงสุดในท้องถิ่นของฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่? สำหรับการอ้างอิงด้านล่างเป็นพล็อตของฟังก์ชั่นความหนาแน่นของฉัน ฟังก์ชั่นความหนาแน่นอื่น ๆ ที่ฉันทำงานด้วยนั้นคล้ายกันในรูปแบบ ฉันควรจะบอกว่าฉันใหม่กับ R แต่ไม่ใช่เรื่องใหม่สำหรับการเขียนโปรแกรมดังนั้นอาจมีไลบรารีหรือแพ็คเกจมาตรฐานสำหรับการบรรลุสิ่งที่ฉันต้องการ ขอบคุณสำหรับความช่วยเหลือของคุณ!!

15 r pdf splines maximum

คำถามติดแท็ก splines