คำถามติดแท็ก splines

เส้นโค้งเป็นฟังก์ชั่นที่ยืดหยุ่นถักด้วยกันจากชิ้นส่วนพหุนามใช้สำหรับการประมาณหรือการปรับให้เรียบ แท็กนี้มีไว้สำหรับเส้นโค้งทุกชนิด (เช่นเส้นโค้ง B, เส้นโค้งถดถอย, เส้นโค้งบางแผ่น, ฯลฯ )

2
เส้นโค้ง overfitting ข้อมูลหรือไม่
ปัญหาของฉัน : เมื่อเร็ว ๆ นี้ฉันได้พบกับนักสถิติที่แจ้งให้ฉันทราบว่าเส้นโค้งนั้นมีประโยชน์สำหรับการสำรวจข้อมูลเท่านั้นและอาจมีการ overfitting ดังนั้นจึงไม่มีประโยชน์ในการทำนาย เขาชอบสำรวจด้วยพหุนามอย่างง่าย ๆ ... เนื่องจากฉันเป็นแฟนตัวยงของเส้นโค้งและสิ่งนี้ขัดกับสัญชาตญาณของฉันฉันสนใจที่จะค้นหาว่าข้อโต้แย้งเหล่านี้มีเหตุผลเพียงใดและถ้ามีกลุ่มต่อต้านจำนวนมาก - นักเคลื่อนไหวออกไปที่นั่น? ข้อมูลประกอบ : ฉันพยายามติดตาม Frank Harrell กลยุทธ์การสร้างแบบจำลองการถดถอย (1) เมื่อฉันสร้างแบบจำลอง เขาให้เหตุผลว่าลูกบาศก์ splines ที่ จำกัด เป็นเครื่องมือที่ถูกต้องสำหรับการสำรวจตัวแปรต่อเนื่อง นอกจากนี้เขายังระบุว่าชื่อพหุนามน่าสงสารในการสร้างแบบจำลองความสัมพันธ์บางอย่างเช่นเกณฑ์ลอการิทึม (2) สำหรับการทดสอบความเป็นเชิงเส้นของแบบจำลองเขาแนะนำการทดสอบ ANOVA สำหรับเส้นโค้ง: H0: β2= β3= … = βk - 1= 0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 ฉัน …

1
สัญชาตญาณเบื้องหลังการโต้ตอบของผลิตภัณฑ์เทนเซอร์ในเกม (แพ็คเกจ MGCV ใน R)
ทั่วไปรุ่นสารเติมแต่งเป็นคนที่ ตัวอย่างเช่น ฟังก์ชั่นนั้นราบรื่นและสามารถประเมินได้ มักจะถูกลงโทษโดยเส้นโค้ง MGCV เป็นแพ็คเกจใน R ที่ทำเช่นนั้นและผู้แต่ง (Simon Wood) เขียนหนังสือเกี่ยวกับแพ็คเกจของเขาด้วยตัวอย่าง R Ruppert และคณะ (2003) เขียนหนังสือที่เข้าถึงได้ง่ายขึ้นเกี่ยวกับสิ่งที่เรียบง่ายกว่าในสิ่งเดียวกัน y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i คำถามของฉันเกี่ยวกับการโต้ตอบภายในแบบจำลองเหล่านี้ ถ้าฉันต้องการทำสิ่งต่อไปนี้: ถ้าเราอยู่ในดินแดน OLS (ที่เป็นเพียงเบต้า) ผมไม่มีปัญหากับการตีความ\หากเราประเมินผ่านเดอร์ไลน์ที่ถูกลงโทษฉันก็ไม่มีปัญหากับการตีความในบริบทเพิ่มเติม ฉฉ 3y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ffff^3f^3\hat{f}_3 แต่แพ็คเกจ MGCV ใน …

2
เปรียบเทียบเส้นโค้งที่ราบเรียบเทียบกับเหลืองเพื่อให้เรียบ
ฉันต้องการเข้าใจข้อดีข้อเสียของการใช้เส้นเหลืองหรือเส้นโค้งที่ราบเรียบเพื่อให้เส้นโค้งเรียบขึ้น อีกรูปแบบของคำถามของฉันคือถ้ามีวิธีสร้าง spline ที่ปรับให้เรียบในลักษณะที่จะให้ผลลัพธ์เหมือนกับการใช้เหลือง ยินดีต้อนรับการอ้างอิงหรือข้อมูลเชิงลึกใด ๆ

1
การตั้งค่านอตในลูกบาศก์ลูกบาศก์ธรรมชาติใน R
ฉันมีข้อมูลที่มีฟีเจอร์ที่สัมพันธ์กันมากมายและฉันต้องการเริ่มต้นด้วยการลดฟีเจอร์ด้วยฟังก์ชั่นพื้นฐานที่ราบรื่นก่อนใช้ LDA ฉันพยายามใช้ลูกบาศก์ธรรมชาติในsplinesแพคเกจกับnsฟังก์ชัน ฉันจะไปเกี่ยวกับการกำหนดปมได้อย่างไร นี่คือรหัส R พื้นฐาน: library(splines) lda.pred <- lda(y ~ ns(x, knots=5)) nsแต่ผมมีความคิดเกี่ยวกับวิธีการเลือกนอตไม่มี
23 r  splines 

6
ตัวอย่างการสร้างแบบจำลองการถดถอยขั้นสูง
ฉันกำลังมองหากรณีศึกษาการถดถอยเชิงเส้นขั้นสูงซึ่งแสดงขั้นตอนที่จำเป็นสำหรับการสร้างแบบจำลองที่ซับซ้อนความสัมพันธ์ที่ไม่ใช่เชิงเส้นหลาย ๆ แบบโดยใช้ GLM หรือ OLS มันเป็นเรื่องยากที่จะหาแหล่งข้อมูลที่นอกเหนือไปจากโรงเรียนตัวอย่าง: หนังสือส่วนใหญ่ที่ฉันอ่านจะไม่ไปไกลกว่าการแปลงบันทึกการตอบสนองควบคู่ไปกับ BoxCox ของผู้ทำนายหนึ่งคนหรือแนวความคิดตามธรรมชาติในกรณีที่ดีที่สุด นอกจากนี้ตัวอย่างทั้งหมดที่ฉันเห็นมาถึงปัญหาการแปลงข้อมูลในรูปแบบที่แยกต่างหากมักจะอยู่ในรูปแบบการทำนายเดียว ฉันรู้ว่าการแปลง BoxCox หรือ YeoJohnson คืออะไร สิ่งที่ฉันกำลังมองหาคือกรณีศึกษาในชีวิตจริงที่มีรายละเอียดซึ่งการตอบสนอง / ความสัมพันธ์ไม่ชัดเจน ตัวอย่างเช่นการตอบสนองไม่ได้เป็นเชิงบวกอย่างเคร่งครัด (ดังนั้นคุณจึงไม่สามารถใช้ log หรือ BoxCox) ผู้ทำนายมีความสัมพันธ์แบบไม่เป็นเส้นตรงระหว่างตัวเองและต่อการตอบสนองและการแปลงข้อมูลความน่าจะเป็นสูงสุดไม่ได้บ่งบอกถึงมาตรฐาน 0.33 หรือ 0.5 เลขยกกำลัง นอกจากนี้ความแปรปรวนที่เหลือพบว่าไม่คงที่ (ไม่เคยเป็น) ดังนั้นการตอบสนองจะต้องมีการเปลี่ยนแปลงเช่นกันและตัวเลือกจะต้องทำระหว่างการถดถอยครอบครัว GLM ที่ไม่ได้มาตรฐานหรือการเปลี่ยนแปลงการตอบสนอง นักวิจัยมีแนวโน้มที่จะตัดสินใจเลือกที่จะหลีกเลี่ยงการเก็บข้อมูลมากเกินไป แก้ไข จนถึงตอนนี้ฉันรวบรวมทรัพยากรต่อไปนี้: กลยุทธ์การสร้างแบบจำลองการถดถอย, F. Harrell อนุกรมเวลาเศรษฐมิติประยุกต์ว. วชิรเอนเดอร์ โมเดลเชิงเส้นไดนามิกพร้อม R, G. Petris การวิเคราะห์การถดถอยประยุกต์, D. Kleinbaum บทนำสู่การเรียนรู้เชิงสถิติ, …

1
เส้นโค้งสามารถใช้ในการทำนายได้หรือไม่?
ฉันไม่สามารถระบุลักษณะของข้อมูลตามที่เป็นกรรมสิทธิ์ได้ แต่สมมติว่าเรามีข้อมูลเช่นนี้: ในแต่ละเดือนบางคนสมัครใช้บริการ จากนั้นในแต่ละเดือนถัดมาผู้คนเหล่านั้นอาจอัปเกรดบริการหยุดบริการหรือถูกปฏิเสธการบริการ (เช่นการไม่ชำระเงิน) สำหรับกลุ่มแรกสุดในข้อมูลของเราเรามีข้อมูลประมาณ 2 ปี (24 เดือน) จำนวนคนที่เข้าร่วมในแต่ละเดือนนั้นมีมาก (ในช่วง 100,000) และจำนวนที่ทำในสามสิ่งนั้นอยู่ในหลักพัน อย่างไรก็ตามเราไม่ได้ใช้ข้อมูลระดับบุคคล (ซึ่งจะเป็นล้านแถว) แต่ข้อมูลจะถูกรวบรวมตามเดือนและรุ่น (สัดส่วนของกลุ่มแต่ละรุ่นจะทำในแต่ละเดือน) เราได้รับการสร้างแบบจำลองข้อมูลที่มีอยู่โดยใช้เส้นโค้งการถดถอยแบบปรับตัวหลายตัวแปร (MARS) และค้นหาผลลัพธ์ที่น่าสนใจ อย่างไรก็ตามฉันกังวลเกี่ยวกับการใช้สิ่งเหล่านี้เพื่อคาดการณ์หรือทำนายอนาคต ความกังวลของฉันเป็นเพราะการคาดการณ์ในอนาคตจำเป็นต้องอยู่นอกพื้นที่ตัวอย่าง (ในแง่ของเวลา) และเส้นโค้งอาจไม่เสถียรสำหรับการคาดการณ์ นี่เป็นวิธีที่ถูกต้องหรือไม่? มีข้อกังวลอะไรบ้างและพวกเขาจะได้รับการจัดการอย่างไร

3
การตีความผลลัพธ์ spline
ฉันกำลังพยายามที่จะทำให้เป็นเส้นโค้งสำหรับ GLM โดยใช้ R เมื่อฉันพอดีกับเส้นโค้งฉันต้องการที่จะสามารถใช้แบบจำลองที่เป็นผลลัพธ์ของฉันและสร้างไฟล์การสร้างแบบจำลองในสมุดงาน Excel ตัวอย่างเช่นสมมติว่าฉันมีชุดข้อมูลที่ y เป็นฟังก์ชันแบบสุ่มของ x และความชันจะเปลี่ยนทันทีที่จุดเฉพาะ (ในกรณีนี้ @ x = 500) set.seed(1066) x<- 1:1000 y<- rep(0,1000) y[1:500]<- pmax(x[1:500]+(runif(500)-.5)*67*500/pmax(x[1:500],100),0.01) y[501:1000]<-500+x[501:1000]^1.05*(runif(500)-.5)/7.5 df<-as.data.frame(cbind(x,y)) plot(df) ตอนนี้ฉันเหมาะกับการใช้ library(splines) spline1 <- glm(y~ns(x,knots=c(500)),data=df,family=Gamma(link="log")) และผลลัพธ์ของฉันแสดง summary(spline1) Call: glm(formula = y ~ ns(x, knots = c(500)), family = Gamma(link = "log"), data = df) …
20 splines 

2
อะไรคือข้อดี / ข้อเสียของการใช้เส้นโค้ง, เส้นโค้งเรียบและตัวเลียนแบบกระบวนการ Gaussian?
ฉันสนใจที่จะเรียนรู้ (และการนำไปใช้) เป็นทางเลือกในการแก้ไขพหุนาม อย่างไรก็ตามฉันมีปัญหาในการหาคำอธิบายที่ดีเกี่ยวกับวิธีการทำงานของวิธีการที่เกี่ยวข้องและวิธีเปรียบเทียบ ฉันขอขอบคุณอินพุตของคุณเกี่ยวกับข้อดี / ข้อเสีย / เงื่อนไขซึ่งวิธีการหรือทางเลือกเหล่านี้จะมีประโยชน์ แต่การอ้างอิงที่ดีบางอย่างเกี่ยวกับข้อความสไลด์หรือพอดคาสต์ก็เพียงพอแล้ว

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
lmer () สามารถใช้ splines เป็นเอฟเฟกต์แบบสุ่มได้หรือไม่?
สมมติว่าเรากำลังทำงานกับโมเดลเอฟเฟกต์สุ่มของข้อมูลนับจำนวนหนึ่งเมื่อเวลาผ่านไปและเราต้องการควบคุมแนวโน้มบางอย่าง โดยปกติคุณจะทำสิ่งที่ชอบ: lmer(counts ~ dependent_variable + (1+t+I(t^2)|ID), family="poisson") tรวมถึงรูปร่างกำลังสองสำหรับ เป็นไปได้ไหมที่จะใช้เทคนิคการทำให้เรียบที่ซับซ้อนยิ่งขึ้นเช่นความนุ่มนวลหรือเส้นโค้งเพื่อสร้างความสัมพันธ์แบบนั้น

2
การแสดงภาพเป็นเส้นโค้ง
โดยปกติแล้วหนังสือเรียนจะมีตัวอย่างที่ดีในเรื่องพื้นฐานของเส้นโค้งสม่ำเสมอเมื่ออธิบายหัวข้อ บางอย่างเช่นแถวของสามเหลี่ยมเล็ก ๆ สำหรับเส้นโค้งเชิงเส้นหรือแถวของ humps เล็ก ๆ สำหรับลูกบาศก์เส้นโค้ง นี่คือตัวอย่างทั่วไป: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introcom_a0000000525.htm ฉันสงสัยว่าถ้ามีวิธีง่ายๆในการสร้างพล็อตของพื้นฐาน spline โดยใช้ฟังก์ชั่น R มาตรฐาน (เช่น bs หรือ ns) ฉันเดาว่ามีบางส่วนของเลขคณิตเมทริกซ์ง่าย ๆ รวมกับโปรแกรม R เล็กน้อยซึ่งจะพ่นพล็อตพื้นฐานของเส้นโค้งในลักษณะที่สง่างาม ฉันคิดไม่ออกเลย!

3
เหมาะสมหลายตัวแปรลูกบาศก์ธรรมชาติ
หมายเหตุ: หากไม่มีคำตอบที่ถูกต้องหลังจากผ่านไปหนึ่งเดือนฉันได้โพสต์ข้อความใหม่เป็นSO พื้นหลัง ฉันมีแบบจำลองที่Y = f ( X )fffY=f(X)Y=f(X)Y=f(\textbf{X}) คือเมทริกซ์ n × mของตัวอย่างจากพารามิเตอร์ mและ Yคือ n × 1XX\textbf{X}n×mn×mn \times mmmmYYYn×1n×1n \times 1เวกเตอร์ของเอาต์พุตโมเดล มีการคำนวณอย่างเข้มข้นดังนั้นฉันจึงต้องการประมาณ fโดยใช้ลูกบาศก์หลายตัวแปรผ่านจุด ( X , Y )เพื่อให้ฉันสามารถประเมิน Yที่จุดจำนวนมากffffff(X,Y)(X,Y)(X,Y)YYY คำถาม มีฟังก์ชั่น R ที่จะคำนวณความสัมพันธ์โดยพลการระหว่าง X และ Y หรือไม่? โดยเฉพาะฉันกำลังมองหารุ่นหลายตัวแปรของsplinefunฟังก์ชั่นซึ่งสร้างฟังก์ชั่น spline สำหรับกรณี univariate เช่นนี้เป็นวิธีการsplinefunทำงานสำหรับกรณี univariate x <- 1:10 y <- runif(10) …

2
นิยามลูกบาศก์ธรรมชาติสำหรับการถดถอย
ฉันกำลังเรียนรู้เกี่ยวกับเส้นโค้งจากหนังสือ "องค์ประกอบของการทำเหมืองข้อมูลการเรียนรู้เชิงสถิติการอนุมานและการทำนาย" โดย Hastie et al ฉันพบในหน้า 145 ว่าเส้นโค้งลูกบาศก์ธรรมชาติเป็นเส้นตรงเหนือขอบนอต มีKKKนอตξ1,ξ2,...ξKξ1,ξ2,...ξK\xi_1, \xi_2, ... \xi_Kในเส้นโค้งและได้รับสิ่งต่อไปนี้เกี่ยวกับเส้นโค้งเช่นนี้ในหนังสือ คำถามที่ 1:เสรีภาพเพิ่มขึ้น 4 องศาอย่างไร ฉันไม่ได้รับส่วนนี้ คำถามที่ 2 : ในคำจำกัดความของเมื่อk = Kแล้วd K ( X ) = 0dk(X)dk(X)d_k(X)k=Kk=Kk=K . ผู้เขียนพยายามทำอะไรในสูตรนี้ สิ่งนี้ช่วยให้แน่ใจได้อย่างไรว่าเส้นโค้งนั้นเป็นเส้นตรงมากกว่านอตขอบdK(X)=00dK(X)=00d_K(X) = \frac 0 0

3
เส้นโค้งเทียบกับการถดถอยของกระบวนการแบบเกาส์เซียน
ฉันรู้ว่า Gaussian Process Regression (GPR) เป็นอีกทางเลือกหนึ่งในการใช้ splines สำหรับโมเดลที่ไม่ใช่เชิงเส้นที่มีความยืดหยุ่น ฉันอยากจะรู้ว่าสถานการณ์ใดจะเหมาะสมกว่าสถานการณ์อื่นโดยเฉพาะอย่างยิ่งในกรอบการถดถอยแบบเบย์ ฉันได้ดูไปแล้วข้อดี / ข้อเสียของการใช้ Splines, Spline ที่ราบรื่น, และตัวเลียนแบบกระบวนการ Gaussian คืออะไร? แต่ดูเหมือนจะไม่มีอะไรใน GPR ในโพสต์นี้

1
การหาฟังก์ชั่นความหนาแน่นในท้องถิ่นโดยใช้เส้นโค้ง
ฉันพยายามหาค่าสูงสุดในพื้นที่สำหรับฟังก์ชันความหนาแน่นของความน่าจะเป็น (พบได้โดยใช้densityวิธีของ R ) ฉันไม่สามารถใช้วิธี "ดูรอบ ๆ เพื่อนบ้าน" แบบง่าย ๆ (ที่จุดหนึ่งมองไปรอบ ๆ เพื่อดูว่าเป็นระดับสูงสุดในพื้นที่ที่เกี่ยวกับเพื่อนบ้าน) หรือไม่เนื่องจากมีข้อมูลจำนวนมาก นอกจากนี้ดูเหมือนว่ามีประสิทธิภาพและทั่วไปมากกว่าที่จะใช้การแก้ไข Spline แล้วค้นหารากของอนุพันธ์อันดับ 1 เมื่อเทียบกับการสร้าง "มองไปรอบ ๆ เพื่อนบ้าน" ด้วยการยอมรับข้อบกพร่องและพารามิเตอร์อื่น ๆ ดังนั้นคำถามของฉัน: เมื่อพิจารณาจากฟังก์ชันsplinefunจะหาค่าสูงสุดในท้องถิ่นได้อย่างไร มีวิธีง่าย ๆ / เป็นมาตรฐานในการค้นหาอนุพันธ์ของฟังก์ชันที่ส่งคืนโดยใช้ splinefunหรือไม่? มีวิธีที่ดีกว่า / มาตรฐานในการหาค่าสูงสุดในท้องถิ่นของฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่? สำหรับการอ้างอิงด้านล่างเป็นพล็อตของฟังก์ชั่นความหนาแน่นของฉัน ฟังก์ชั่นความหนาแน่นอื่น ๆ ที่ฉันทำงานด้วยนั้นคล้ายกันในรูปแบบ ฉันควรจะบอกว่าฉันใหม่กับ R แต่ไม่ใช่เรื่องใหม่สำหรับการเขียนโปรแกรมดังนั้นอาจมีไลบรารีหรือแพ็คเกจมาตรฐานสำหรับการบรรลุสิ่งที่ฉันต้องการ ขอบคุณสำหรับความช่วยเหลือของคุณ!!
15 r  pdf  splines  maximum 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.