คำถามติดแท็ก splines

เส้นโค้งเป็นฟังก์ชั่นที่ยืดหยุ่นถักด้วยกันจากชิ้นส่วนพหุนามใช้สำหรับการประมาณหรือการปรับให้เรียบ แท็กนี้มีไว้สำหรับเส้นโค้งทุกชนิด (เช่นเส้นโค้ง B, เส้นโค้งถดถอย, เส้นโค้งบางแผ่น, ฯลฯ )

1
GAM กับ LOESS และ splines
บริบท : ผมอยากจะวาดเส้นใน scatterplot ที่ไม่ปรากฏพาราดังนั้นฉันใช้geom_smooth()ในในggplot Rมันจะส่งคืนโดยอัตโนมัติที่geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.ฉันรวบรวม GAM มาสำหรับโมเดลเสริมทั่วไปและใช้ลูกบาศก์อิสระ การรับรู้ต่อไปนี้ถูกต้องหรือไม่ ดินเหลืองคาดการณ์การตอบสนองที่ค่าเฉพาะ เส้นโค้งเป็นการประมาณที่เชื่อมต่อฟังก์ชั่นที่แตกต่างกันที่เหมาะสมกับข้อมูล (ซึ่งประกอบเป็นแบบจำลองการเติมทั่วไป) และลูกบาศก์ Splines เป็นประเภทของเส้นโค้งที่ใช้เฉพาะที่นี่ ในที่สุดควรใช้ splines เมื่อใดควรใช้ LOESS เมื่อใด

3
ฉันจะใส่ข้อมูลที่มีค่าและอนุพันธ์อันดับที่ 1/2 ได้อย่างไร
ฉันมีชุดข้อมูลที่ประกอบด้วยกล่าวคือการวัดตำแหน่งความเร็วและความเร่ง ทั้งหมดมาจาก "การทำงาน" ที่เหมือนกัน ฉันสามารถสร้างระบบเชิงเส้นและพอดีกับพหุนามกับการวัดทั้งหมด แต่ฉันสามารถทำเช่นเดียวกันกับเส้นโค้ง? วิธี 'R' ในการทำเช่นนี้คืออะไร? นี่คือข้อมูลจำลองที่ฉันต้องการให้มี: f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- …

4
ฉันควรตรวจสอบสมมติฐานของ linearity กับ logit สำหรับตัวแปรอิสระอย่างต่อเนื่องในการวิเคราะห์การถดถอยโลจิสติกอย่างไร
ฉันสับสนกับข้อสมมติของความเป็นเชิงเส้นต่อ logit สำหรับตัวแปรทำนายอย่างต่อเนื่องในการวิเคราะห์การถดถอยโลจิสติก เราจำเป็นต้องตรวจสอบความสัมพันธ์เชิงเส้นในขณะที่คัดกรองผู้ทำนายที่มีศักยภาพโดยใช้การวิเคราะห์การถดถอยโลจิสติกที่ไม่เปลี่ยนแปลงหรือไม่? ในกรณีของฉันฉันใช้การวิเคราะห์การถดถอยโลจิสติกหลายครั้งเพื่อระบุปัจจัยที่เกี่ยวข้องกับภาวะโภชนาการ (ผลแบบคู่) ของผู้เข้าร่วม ตัวแปรอย่างต่อเนื่องรวมถึงอายุ, คะแนนการดูดซับของชาร์ลสัน, ดัชนีบาร์เทล, ความแข็งแรงของมือ, คะแนน GDS, ค่าดัชนีมวลกายเป็นต้นขั้นตอนแรกของฉันคือการคัดกรองตัวแปรที่สำคัญโดยใช้การถดถอยโลจิสติกอย่างง่าย ฉันต้องตรวจสอบสมมติฐานเชิงเส้นตรงในระหว่างการวิเคราะห์การถดถอยโลจิสติกอย่างง่ายสำหรับตัวแปรต่อเนื่องแต่ละตัวหรือไม่ หรือฉันควรตรวจสอบในรูปแบบการถดถอยโลจิสติกหลายขั้นสุดท้าย? นอกจากนี้เพื่อความเข้าใจของฉันเราต้องเปลี่ยนตัวแปรต่อเนื่องที่ไม่ใช่เชิงเส้นก่อนที่จะใส่ลงในโมเดล ฉันสามารถจัดหมวดหมู่ตัวแปรต่อเนื่องแบบไม่เชิงเส้นแทนการแปลงได้หรือไม่?

2
เส้นโค้งใน GLM และ GAM
ผิดหรือเปล่าที่เส้นโค้งนั้นมีเฉพาะในรุ่น GAM และไม่ใช่รุ่น GLM หรือไม่ ฉันได้ยินมาพักหนึ่งแล้วและสงสัยว่านี่เป็นเพียงความเข้าใจผิดหรือมีความจริงบางอย่างกับมัน นี่คือภาพประกอบ:

1
มีปัญหากับความสัมพันธ์แบบหลายค่าและการถดถอยเชิงเส้นหรือไม่
เมื่อใช้ลูกบาศก์ธรรมชาติ (เช่นถูก จำกัด ) Splines ฟังก์ชันพื้นฐานที่สร้างขึ้นนั้นมี collinear สูงและเมื่อใช้ในการถดถอยดูเหมือนจะสร้างสถิติ VIF สูง (ปัจจัยเงินเฟ้อแปรปรวน) สูงมากส่งสัญญาณความหลากหลายทางชีวภาพ เมื่อมีการพิจารณากรณีของแบบจำลองเพื่อการคาดการณ์นี่เป็นปัญหาหรือไม่ ดูเหมือนว่ามันจะเป็นอย่างนั้นเสมอเพราะธรรมชาติของโครงสร้างการสร้างเส้นโค้ง นี่คือตัวอย่างใน R: library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 …

1
วิธีการแปลเอาต์พุตจาก lm () ให้พอดีกับลูกบาศก์ spline เป็นสมการถดถอย
ฉันมีรหัสและผลลัพธ์และฉันต้องการสร้างแบบจำลอง ฉันไม่ทราบวิธีการสร้างแบบจำลองโดยใช้ผลลัพธ์นี้: require("splines") x <- c(0.2, 0.23, 0.26, 0.29, 0.33, 0.46, 0.53 ) y <- c(0.211, 0.2026, 0.2034, 0.2167, 0.2177, 0.19225, 0.182) fit <- lm(y ~ ns(x,3)) summary(fit) โปรดทราบว่าns()สร้างเมทริกซ์พื้นฐาน B-spline สำหรับลูกบาศก์ธรรมชาติ ดังนั้นรุ่นนี้ถอยหลังyกับ B-spline สำหรับการxใช้สามองศาอิสระ สมการสำหรับตัวแบบนั้นจะเป็นอย่างไร?
12 r  splines 

1
วิธีการทำนายข้อมูลใหม่ด้วยการถดถอยอิสระ
ใครสามารถช่วยอธิบายแนวคิดเกี่ยวกับวิธีการคาดการณ์สำหรับข้อมูลใหม่เมื่อใช้แบบเรียบ / เส้นโค้งสำหรับแบบจำลองการทำนายได้หรือไม่ ตัวอย่างเช่นเมื่อสร้างแบบจำลองที่ใช้gamboostในmboostแพ็คเกจใน R ด้วย p-splines การคาดการณ์สำหรับข้อมูลใหม่ทำอย่างไร ข้อมูลอะไรที่ใช้ในการฝึกอบรม? สมมติว่ามีค่าใหม่ของตัวแปรอิสระ x และเราต้องการทำนาย y สูตรสำหรับการสร้างอิสระถูกนำไปใช้กับค่าข้อมูลใหม่นี้โดยใช้ knots หรือ df ที่ใช้เมื่อทำการฝึกอบรมรูปแบบแล้วค่าสัมประสิทธิ์จากแบบจำลองที่ผ่านการฝึกอบรมจะถูกนำไปใช้ในการทำนายผลลัพธ์หรือไม่? นี่คือตัวอย่างของ R สิ่งที่คาดการณ์ว่าจะทำให้เกิดแนวคิดในการแสดงผล 899.4139 สำหรับข้อมูลใหม่ mean_radius = 15.99 #take the data wpbc as example library(mboost) data(wpbc) modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5)) test<-data.frame(mean_radius=15.99) …

1
เส้นโค้งลูกบาศก์ จำกัด และแตกต่างกันอย่างไร
ฉันอ่านมากเกี่ยวกับการใช้ splines ในปัญหาการถดถอยต่าง ๆ หนังสือบางเล่ม (เช่น Hodges Richly Parrameterized Linear Models ) แนะนำ splines ที่ถูกลงโทษ อื่น ๆ (เช่นกลยุทธ์การสร้างแบบจำลองการถดถอยของ Harrell ) เลือกใช้เส้นโค้งลูกบาศก์แบบ จำกัด ในทางปฏิบัติแล้วสิ่งเหล่านี้ต่างกันอย่างไร คุณมักจะได้รับผลลัพธ์ที่แตกต่างอย่างมากจากการใช้อย่างใดอย่างหนึ่งหรือไม่? ข้อใดข้อหนึ่งมีข้อดีเป็นพิเศษหรือไม่

5
เหตุใดจึงควรหลีกเลี่ยงการถูก Binning ที่ค่าใช้จ่ายทั้งหมด?
ดังนั้นผมจึงได้อ่านโพสต์ไม่กี่เกี่ยวกับสาเหตุที่ Binning ควรเสมอที่จะหลีกเลี่ยง ข้อมูลอ้างอิงยอดนิยมสำหรับการอ้างสิทธิ์ว่าเป็นลิงก์นี้ การหลบหลีกที่สำคัญคือจุดที่ binning (หรือจุดตัด) นั้นค่อนข้างมีข้อ จำกัด รวมถึงการสูญเสียข้อมูลที่เกิดขึ้นและเส้นโค้งนั้นควรเป็นที่ต้องการ อย่างไรก็ตามฉันกำลังทำงานกับ Spotify API ซึ่งมีมาตรการความเชื่อมั่นอย่างต่อเนื่องสำหรับคุณสมบัติหลายประการของพวกเขา ดูที่คุณลักษณะหนึ่ง "instrumentalness" สถานะอ้างอิง: ทำนายว่าแทร็กไม่มีเสียงร้องหรือไม่ เสียง“ Ooh” และ“ aah” นั้นถือเป็นเครื่องมือในบริบทนี้ แร็พหรือแทร็กคำพูดนั้นชัดเจนว่า "แกนนำ" ยิ่งมีค่าใกล้กับ 1.0 มากเท่าไหร่โอกาสที่แทร็กจะไม่มีเนื้อหาเสียงร้องก็ยิ่งมากขึ้นเท่านั้น ค่าที่สูงกว่า 0.5 มีวัตถุประสงค์เพื่อเป็นตัวแทนเครื่องมือแต่ความมั่นใจสูงกว่าเมื่อค่าเข้าใกล้ 1.0 ด้วยการกระจายข้อมูลที่เบ้ไปทางซ้ายอย่างมาก (ประมาณ 90% ของกลุ่มตัวอย่างแทบจะไม่สูงกว่า 0 ฉันพบว่าเหมาะสมที่จะเปลี่ยนคุณสมบัตินี้ให้เป็นคุณสมบัติสองประเภท: "เครื่องมือ" (ตัวอย่างทั้งหมดที่มีค่าสูงกว่า 0.5) และ "non_instrumental "(สำหรับตัวอย่างทั้งหมดที่มีค่าต่ำกว่า 0.5) มันผิดหรือเปล่า? และอะไรจะเป็นทางเลือกเมื่อข้อมูล (ต่อเนื่อง) เกือบทั้งหมดของฉันหมุนรอบค่าเดียว? จากสิ่งที่ฉันเข้าใจเกี่ยวกับเส้นโค้งพวกเขาจะไม่ทำงานกับปัญหาการจำแนกประเภท …

2
B-Splines VS พหุนามลำดับสูงในการถดถอย
ฉันไม่มีตัวอย่างหรืองานเฉพาะในใจ ฉันเพิ่งใหม่ในการใช้ b-splines และฉันต้องการทำความเข้าใจกับฟังก์ชันนี้ในบริบทการถดถอย สมมติว่าเราต้องการที่จะประเมินความสัมพันธ์ระหว่างตัวแปรตอบสนองและพยากรณ์บางx 1 , x 2 , . . , xพี ตัวทำนายประกอบด้วยตัวแปรตัวเลขบางตัวและตัวแปรบางตัวyyyx1,x2,...,xpx1,x2,...,xpx_1, x_2,...,x_p สมมติว่าหลังจากปรับโมเดลการถดถอยแล้วหนึ่งในตัวแปรตัวเลขเช่นนั้นมีความสำคัญ ตรรกะขั้นตอนหลังจากนั้นคือการประเมินว่าคำสั่งชื่อพหุนามที่สูงขึ้นเช่น: x 2 1และx 3 1จะต้องอธิบายความสัมพันธ์อย่างเพียงพอโดยไม่ต้อง overfittingx1x1x_1x21x12x_1^2x31x13x_1^3 คำถามของฉันคือ: คุณเลือกจุดไหนระหว่าง b-splines หรือพหุนามคำสั่งที่สูงขึ้นอย่างง่าย เช่นใน R: y ~ poly(x1,3) + x2 + x3 VS y ~ bs(x1,3) + x2 + x3 คุณจะใช้พล็อตเพื่อแจ้งการเลือกระหว่างสองสิ่งนี้กับสิ่งที่เกิดขึ้นได้อย่างไรหากไม่ชัดเจนจากพล็อต (เช่น: เนื่องจากจุดข้อมูลจำนวนมาก) คุณจะประเมินเงื่อนไขการโต้ตอบแบบสองทางระหว่างและสมมุติว่าx 3x2x2x_2x3x3x_3 …

1
เส้นโค้งเป็นระยะเพื่อให้พอดีกับข้อมูลเป็นระยะ
ในความคิดเห็นสำหรับคำถามนี้ผู้ใช้ @whuber อ้างถึงความเป็นไปได้ของการใช้เส้นโค้งรุ่นเป็นระยะเพื่อให้พอดีกับข้อมูลเป็นระยะ ฉันต้องการทราบเพิ่มเติมเกี่ยวกับวิธีนี้โดยเฉพาะอย่างยิ่งสมการที่กำหนดเส้นโค้งและวิธีการนำไปใช้ในทางปฏิบัติ (ส่วนใหญ่ฉันเป็นRผู้ใช้ แต่ฉันสามารถทำกับ MATLAB หรือ Python หากจำเป็นต้องเกิดขึ้น) นอกจากนี้ แต่นี่เป็น "ดีที่มี" มันจะเป็นการดีที่ได้ทราบเกี่ยวกับข้อดี / ข้อเสียที่เป็นไปได้เกี่ยวกับการปรับพอดีตรีโกณมิติเกี่ยวกับวิชาตรีโกณมิติซึ่งเป็นวิธีที่ฉันมักจะจัดการกับข้อมูลประเภทนี้ (เว้นแต่การตอบสนองจะไม่ราบรื่นมาก ในกรณีนี้ฉันสลับไปใช้กระบวนการ Gaussian ด้วยเคอร์เนลเป็นระยะ)

1
ฉันจะค้นหา p-value ของการถดถอยแบบอิสระ
ฉันมีตัวแปรบางอย่างและฉันสนใจที่จะค้นหาความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างพวกเขา ดังนั้นฉันจึงตัดสินใจใส่เดือยหรือดินเหลืองและพิมพ์พล็อตที่ดี (ดูรหัสด้านล่าง) แต่ฉันยังต้องการที่จะมีสถิติบางอย่างที่ทำให้ฉันมีความคิดว่าความสัมพันธ์นั้นเป็นเรื่องของการสุ่ม ... นั่นคือฉันต้องการค่า p โดยรวมบางอย่างเช่นฉันมีการถดถอยเชิงเส้น กล่าวอีกนัยหนึ่งฉันต้องรู้ว่าเส้นโค้งที่พอดีนั้นเหมาะสมหรือไม่เนื่องจากรหัสของฉันจะพอดีกับเส้นโค้งกับข้อมูลใด ๆ x <- rnorm(1000) y <- sin(x) + rnorm(1000, 0, 0.5) cor.test(x,y) plot(x, y, xlab = xlab, ylab = ylab) spl1 <- smooth.spline(x, y, tol = 1e-6, df = 8) lines(spl1, col = "green", lwd = 2) spl2 <- loess(y ~ …
10 r  regression  splines  loess 

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
การโต้ตอบของคำอิสระและไม่เป็นอิสระหมายความว่าอย่างไร
ถ้าฉันพอดีข้อมูลของฉันกับสิ่งที่ชอบlm(y~a*b)ในไวยากรณ์ R ซึ่งaเป็นตัวแปรไบนารีและbเป็นตัวแปรตัวเลขa:bคำศัพท์การโต้ตอบคือความแตกต่างระหว่างความชันของy~bที่a= 0 และที่a= 1 ตอนนี้สมมติว่าความสัมพันธ์ระหว่างyและbคือ curvilinear ถ้าตอนนี้ผมพอดีlm(y~a*poly(b,2))แล้วa:poly(b,2)1คือการเปลี่ยนแปลงในการเปลี่ยนแปลงที่y~bมีเงื่อนไขในระดับaดังกล่าวข้างต้นและa:poly(b,2)2การเปลี่ยนแปลงในเงื่อนไขในระดับของy~b^2 aต้องใช้การถักด้วยมือ แต่หากค่าสัมประสิทธิ์การโต้ตอบแตกต่างจากศูนย์อย่างใดอย่างหนึ่งฉันสามารถยืนยันได้ว่ามันหมายถึงaไม่เพียง แต่ส่งผลกระทบในแนวดิ่งyแต่ยังรวมถึงตำแหน่งของจุดสูงสุดและความชันของความy~b+b^2โค้ง แล้วถ้าฉันพอดีlm(y~a*bs(b,df=3))ล่ะ ฉันจะตีความอย่างไรa:bs(b,df=3)1, a:bs(b,df=3)2และa:bs(b,df=3)3เงื่อนไข? การกระจัดตามแนวดิ่งของyเส้นโค้งเหล่านี้เกิดจากaที่แต่ละส่วนในสามส่วนหรือไม่

1
ตัวกรองคาลมานกับเส้นโค้งที่ราบเรียบ
ถาม: ข้อมูลใดที่เหมาะสมที่จะใช้การสร้างแบบจำลองพื้นที่รัฐและตัวกรองคาลมานแทนที่จะเป็นเส้นโค้งที่ราบเรียบและในทางกลับกัน มีความสัมพันธ์ที่เท่าเทียมกันระหว่างสองคนนี้หรือไม่? ฉันพยายามทำความเข้าใจในระดับสูงว่าวิธีการเหล่านี้เข้ากันได้อย่างไร ฉันเรียกดูผ่านห์นสโตนใหม่ของการประมาณค่าแบบเกาส์: ลำดับและ multiresolution รุ่น มันน่าประหลาดใจที่ไม่มีใครกล่าวถึงโมเดลพื้นที่รัฐและตัวกรองคาลมาน ทำไมจะไม่อยู่ในนั้น? นั่นเป็นเครื่องมือมาตรฐานที่สุดสำหรับปัญหาเหล่านี้ใช่ไหม แทนที่จะมุ่งความสนใจไปที่เส้นโค้งและเวฟเล็ต ตอนนี้ฉันสับสนมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.