คำถามติดแท็ก loess

LOESS (หรือ LOWESS) ย่อมาจากการปรับให้เรียบของ scatterplot แบบถ่วงน้ำหนักในพื้นที่ เป็นรูปแบบหนึ่งของการถดถอยเคอร์เนลในพื้นที่ (k-near Neighbor)

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

7
ฉันจะตัดสินใจได้อย่างไรว่าจะใช้ช่วงใดในการถดถอยแบบ LOESS ใน R
ฉันใช้โมเดลการถดถอยแบบ LOESS ใน R และฉันต้องการเปรียบเทียบผลลัพธ์ของรุ่นที่แตกต่างกัน 12 แบบด้วยขนาดตัวอย่างที่แตกต่างกัน ฉันสามารถอธิบายรายละเอียดเพิ่มเติมของโมเดลจริง ๆ ได้ถ้ามันช่วยตอบคำถามได้ นี่คือขนาดตัวอย่าง: Fastballs vs RHH 2008-09: 2002 Fastballs vs LHH 2008-09: 2209 Fastballs vs RHH 2010: 527 Fastballs vs LHH 2010: 449 Changeups vs RHH 2008-09: 365 Changeups vs LHH 2008-09: 824 Changeups vs RHH 2010: 201 Changeups vs LHH 2010: …
26 r  regression  loess 

2
เปรียบเทียบเส้นโค้งที่ราบเรียบเทียบกับเหลืองเพื่อให้เรียบ
ฉันต้องการเข้าใจข้อดีข้อเสียของการใช้เส้นเหลืองหรือเส้นโค้งที่ราบเรียบเพื่อให้เส้นโค้งเรียบขึ้น อีกรูปแบบของคำถามของฉันคือถ้ามีวิธีสร้าง spline ที่ปรับให้เรียบในลักษณะที่จะให้ผลลัพธ์เหมือนกับการใช้เหลือง ยินดีต้อนรับการอ้างอิงหรือข้อมูลเชิงลึกใด ๆ

1
คำอธิบายของ Nate Silver ที่พูดถึงเหลือง
ในคำถามที่ฉันถามเมื่อเร็ว ๆ นี้ฉันได้รับการบอกว่ามันเป็นเรื่องใหญ่ "ไม่ห้าม" ในการคาดการณ์ด้วยเหลือง แต่ในบทความล่าสุดของ Nate Silver ใน FiveThirtyEight.comเขาได้พูดคุยกันโดยใช้คำทำนายการเลือกตั้ง เขากำลังพูดถึงลักษณะเฉพาะของการคาดการณ์ที่ก้าวร้าวและอนุรักษ์นิยมกับดินเหลือง แต่ฉันอยากรู้ว่าความถูกต้องของการคาดการณ์ในอนาคตจะเป็นอย่างไร ฉันยังสนใจในการสนทนานี้และมีทางเลือกอื่นที่อาจมีประโยชน์คล้ายกับเหลือง

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 


1
จะคำนวณระยะเวลาการทำนายสำหรับ LOESS ได้อย่างไร
ฉันมีข้อมูลบางส่วนที่ฉันใช้กับรุ่น LOESS ใน R ให้สิ่งนี้กับฉัน: ข้อมูลมีตัวทำนายหนึ่งตัวและคำตอบเดียวและเป็นแบบเฮเทอโรเซดีติก ฉันยังเพิ่มช่วงความมั่นใจ ปัญหาคือว่าช่วงเวลาเป็นช่วงความมั่นใจสำหรับสายในขณะที่ฉันสนใจในช่วงเวลาการทำนาย ตัวอย่างเช่นพาเนลด้านล่างเป็นตัวแปรมากกว่าจากนั้นจะเป็นพาเนลด้านบน แต่จะไม่ถูกบันทึกในช่วงเวลา คำถามนี้เป็นคำถามที่เกี่ยวข้องเล็กน้อย: การทำความเข้าใจวงความเชื่อมั่นจากการถดถอยพหุนามโดยเฉพาะอย่างยิ่งคำตอบโดย @AndyW แต่ในตัวอย่างของเขาที่เขาใช้ค่อนข้างตรงไปตรงมาinterval="predict"โต้แย้งที่มีอยู่ในแต่มันก็จะหายไปจากpredict.lmpredict.loess ดังนั้นฉันมีสองคำถามที่เกี่ยวข้องมาก: ฉันจะได้รับช่วงเวลาการทำนายแบบจุดตามจุดสำหรับ LOESS ได้อย่างไร ฉันจะทำนายค่าที่จะจับช่วงเวลานั้นได้อย่างไรเช่นสร้างตัวเลขสุ่มจำนวนมากซึ่งในที่สุดจะมีลักษณะคล้ายกับข้อมูลต้นฉบับ เป็นไปได้ว่าฉันไม่ต้องการมีน้ำหนักเกินและควรใช้อย่างอื่น แต่ฉันไม่คุ้นเคยกับตัวเลือกของฉัน โดยพื้นฐานแล้วมันควรจะพอดีกับบรรทัดที่ใช้การถดถอยท้องถิ่นหรือการถดถอยเชิงเส้นหลายเส้นให้ฉันประเมินข้อผิดพลาดสำหรับบรรทัดและนอกจากนี้ยังมีความแปรปรวนที่แตกต่างกันสำหรับตัวแปรอธิบายที่แตกต่างกันดังนั้นฉันสามารถทำนายการกระจายของตัวแปรตอบสนอง (y) .

2
หากความกว้างของเคอร์เนลตัวแปรมักจะดีสำหรับการถดถอยของเคอร์เนลทำไมพวกเขาถึงไม่ดีสำหรับการประมาณความหนาแน่นของเคอร์เนล?
คำถามนี้เป็นคำถามได้รับแจ้งจากที่อื่น ๆ การอภิปราย เมล็ดแปรผันมักใช้ในการถดถอยแบบท้องถิ่น ตัวอย่างเช่นเหลืองถูกนำมาใช้กันอย่างแพร่หลายและทำงานได้ดีเช่นเดียวกับการถดถอยนุ่มนวลและขึ้นอยู่กับเคอร์เนลของความกว้างของตัวแปรที่ปรับให้เหมาะกับข้อมูล sparsity ในทางตรงกันข้ามเมล็ดแปรผันมักจะคิดว่านำไปสู่การประมาณค่าที่ไม่ดีในการประมาณความหนาแน่นของเคอร์เนล (ดูTerrell and Scott, 1992 ) มีเหตุผลที่เข้าใจง่ายว่าทำไมพวกเขาจะทำงานได้ดีสำหรับการถดถอย แต่ไม่ใช่สำหรับการประเมินความหนาแน่น?

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
วิธีรับ R-squared เพื่อความพอดี?
จะคำนวณสถิติR-squared ( R2R2r^2 ) ใน R for loessและ / หรือpredictฟังก์ชั่นเอาต์พุตได้อย่างไร? ตัวอย่างเช่นสำหรับข้อมูลนี้: cars.lo <- loess(dist ~ speed, cars) cars.lp <- predict(cars.lo, data.frame(speed = seq(5, 30, 1)), se = TRUE) cars.lpมีสองอาร์เรย์fitสำหรับรุ่นและse.fitข้อผิดพลาดมาตรฐาน
15 r  r-squared  loess 

4
LOESS ที่ช่วยให้ไม่ต่อเนื่อง
มีเทคนิคการสร้างแบบจำลองเช่นLOESSที่อนุญาตให้มีศูนย์ไม่ต่อเนื่องหนึ่งหรือมากกว่านั้นซึ่งเวลาที่ไม่ต่อเนื่องไม่เป็นที่รู้จัก apriori? หากเทคนิคมีอยู่จะมีการนำไปใช้ใน R หรือไม่?

1
GAM กับ LOESS และ splines
บริบท : ผมอยากจะวาดเส้นใน scatterplot ที่ไม่ปรากฏพาราดังนั้นฉันใช้geom_smooth()ในในggplot Rมันจะส่งคืนโดยอัตโนมัติที่geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.ฉันรวบรวม GAM มาสำหรับโมเดลเสริมทั่วไปและใช้ลูกบาศก์อิสระ การรับรู้ต่อไปนี้ถูกต้องหรือไม่ ดินเหลืองคาดการณ์การตอบสนองที่ค่าเฉพาะ เส้นโค้งเป็นการประมาณที่เชื่อมต่อฟังก์ชั่นที่แตกต่างกันที่เหมาะสมกับข้อมูล (ซึ่งประกอบเป็นแบบจำลองการเติมทั่วไป) และลูกบาศก์ Splines เป็นประเภทของเส้นโค้งที่ใช้เฉพาะที่นี่ ในที่สุดควรใช้ splines เมื่อใดควรใช้ LOESS เมื่อใด

5
การหาจุดผันใน R จากข้อมูลที่ราบเรียบ
loessผมมีข้อมูลบางอย่างที่ผมเรียบใช้ ฉันต้องการหาจุดเบี่ยงเบนของเส้นที่เรียบ เป็นไปได้ไหม ฉันแน่ใจว่ามีคนทำวิธีแฟนซีเพื่อแก้ปัญหานี้ ... ฉันหมายถึง ... หลังจากทั้งหมดมันคือ R! ฉันพอใจกับการเปลี่ยนฟังก์ชั่นปรับให้เรียบที่ฉันใช้ ฉันเพิ่งใช้loessเพราะนั่นคือสิ่งที่ฉันเคยใช้ในอดีต แต่ฟังก์ชั่นการปรับให้เรียบนั้นใช้ได้ ฉันรู้ว่าจุดเปลี่ยนผันจะขึ้นอยู่กับฟังก์ชันการปรับให้เรียบที่ฉันใช้ ฉันไม่เป็นไร ฉันต้องการเริ่มต้นด้วยการมีฟังก์ชั่นการปรับให้เรียบซึ่งสามารถช่วยแยกจุดที่ทำให้เกิดการเว้าออกได้ นี่คือรหัสที่ฉันใช้: x = seq(1,15) y = c(4,5,6,5,5,6,7,8,7,7,6,6,7,8,9) plot(x,y,type="l",ylim=c(3,10)) lo <- loess(y~x) xl <- seq(min(x),max(x), (max(x) - min(x))/1000) out = predict(lo,xl) lines(xl, out, col='red', lwd=2)
14 r  smoothing  loess 

2
ทำไมฟังก์ชั่น stl จึงมีความแปรผันตามฤดูกาลอย่างมีนัยสำคัญด้วยข้อมูลแบบสุ่ม
ฉันพล็อตด้วยรหัสต่อไปนี้พร้อมฟังก์ชั่น stl (การสลายตามฤดูกาลของ Time Series by Loess): plot(stl(ts(rnorm(144), frequency=12), s.window="periodic")) มันแสดงให้เห็นถึงการเปลี่ยนแปลงตามฤดูกาลที่สำคัญกับข้อมูลสุ่มที่ใส่ไว้ในโค้ดด้านบน (ฟังก์ชัน rnorm) รูปแบบ Signficant จะเห็นทุกครั้งที่มีการเรียกใช้แม้ว่ารูปแบบจะแตกต่างกัน สองรูปแบบดังกล่าวจะแสดงด้านล่าง: เราจะพึ่งพาฟังก์ชั่น stl ในข้อมูลบางอย่างได้อย่างไรเมื่อมันแสดงการเปลี่ยนแปลงตามฤดูกาล ความแปรปรวนตามฤดูกาลนี้จำเป็นต้องเห็นในมุมมองของพารามิเตอร์อื่นหรือไม่? ขอบคุณสำหรับความเข้าใจของคุณ รหัสถูกนำมาจากหน้านี้: นี่เป็นวิธีที่เหมาะสมในการทดสอบผลกระทบตามฤดูกาลในข้อมูลการนับการฆ่าตัวตายหรือไม่?

1
ฉันจะค้นหา p-value ของการถดถอยแบบอิสระ
ฉันมีตัวแปรบางอย่างและฉันสนใจที่จะค้นหาความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างพวกเขา ดังนั้นฉันจึงตัดสินใจใส่เดือยหรือดินเหลืองและพิมพ์พล็อตที่ดี (ดูรหัสด้านล่าง) แต่ฉันยังต้องการที่จะมีสถิติบางอย่างที่ทำให้ฉันมีความคิดว่าความสัมพันธ์นั้นเป็นเรื่องของการสุ่ม ... นั่นคือฉันต้องการค่า p โดยรวมบางอย่างเช่นฉันมีการถดถอยเชิงเส้น กล่าวอีกนัยหนึ่งฉันต้องรู้ว่าเส้นโค้งที่พอดีนั้นเหมาะสมหรือไม่เนื่องจากรหัสของฉันจะพอดีกับเส้นโค้งกับข้อมูลใด ๆ x <- rnorm(1000) y <- sin(x) + rnorm(1000, 0, 0.5) cor.test(x,y) plot(x, y, xlab = xlab, ylab = ylab) spl1 <- smooth.spline(x, y, tol = 1e-6, df = 8) lines(spl1, col = "green", lwd = 2) spl2 <- loess(y ~ …
10 r  regression  splines  loess 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.