คำถามติดแท็ก curve-fitting

วิธีที่ใช้ในการปรับให้พอดีกับเส้นโค้ง (เช่นการถดถอยเชิงเส้นหรือไม่ใช่เชิงเส้น) กับข้อมูล

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
ข้อมูลมีสองแนวโน้ม วิธีแยกเส้นแนวโน้มอิสระ
ฉันมีชุดข้อมูลที่ไม่ได้เรียงลำดับ แต่อย่างใดเมื่อมีการวางแผนอย่างชัดเจนมีแนวโน้มที่แตกต่างกันสองอย่าง การถดถอยเชิงเส้นอย่างง่ายจะไม่เพียงพอที่นี่เพราะความแตกต่างที่ชัดเจนระหว่างสองชุด มีวิธีง่าย ๆ ในการรับเส้นแนวโน้มเชิงเส้นที่เป็นอิสระหรือไม่ สำหรับบันทึกที่ฉันใช้ Python และฉันรู้สึกสะดวกสบายกับการเขียนโปรแกรมและการวิเคราะห์ข้อมูลรวมถึงการเรียนรู้ของเครื่อง แต่ยินดีที่จะข้ามไปยัง R หากจำเป็นจริงๆ

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
การตีความความแตกต่างระหว่างการแจกแจงแบบปกติและกำลังไฟฟ้า (การแจกแจงระดับเครือข่าย)
ก่อนอื่นฉันไม่ใช่นักสถิติ อย่างไรก็ตามฉันได้ทำการวิเคราะห์เครือข่ายเชิงสถิติสำหรับปริญญาเอกของฉันแล้ว เป็นส่วนหนึ่งของการวิเคราะห์เครือข่ายฉันได้วางแผนฟังก์ชันการแจกแจงสะสมแบบสะสม (CCDF) ขององศาเครือข่าย สิ่งที่ฉันพบคือไม่เหมือนกับการกระจายเครือข่ายแบบเดิม (เช่น WWW) การกระจายนั้นเหมาะสมที่สุดโดยการกระจายแบบ lognormal ฉันพยายามปรับให้เข้ากับกฎหมายพลังงานและการใช้สคริปต์ Matlab ของ Clauset et al ฉันพบว่าหางของเส้นโค้งเป็นไปตามกฎหมายพลังงานโดยมีการตัดออก เส้นประหมายถึงความเหมาะสมของกฏหมายพลังงาน เส้นสีม่วงแสดงถึงการใส่แบบปกติ เส้นสีเขียวแสดงถึงความพอดีแบบเอ็กซ์โปเนนเชียล สิ่งที่ฉันพยายามจะเข้าใจคือทั้งหมดนี้หมายถึงอะไร ฉันได้อ่านเอกสารนี้โดยนิวแมนซึ่งสัมผัสกับหัวข้อนี้เล็กน้อย: http://arxiv.org/abs/cond-mat/0412004 ด้านล่างนี้เป็นสิ่งที่ฉันคาดเดา: หากการกระจายการศึกษาระดับปริญญาเป็นไปตามการกระจายของกฎหมายพลังงานฉันเข้าใจว่าหมายถึงมีสิ่งที่แนบมาเป็นพิเศษเชิงเส้นในการกระจายการเชื่อมโยงและระดับเครือข่าย (รวยได้รับผลกระทบยิ่งขึ้นหรือกระบวนการ Yules) ฉันพูดถูกหรือเปล่าว่าด้วยการแจกแจงแบบปกติที่ฉันเห็นมันมีสิ่งที่แนบมาแบบไม่เชิงเส้นตรงจุดเริ่มต้นของเส้นโค้งและกลายเป็นเส้นตรงไปยังหางที่สามารถใช้กฎหมายพลังงานได้หรือไม่? นอกจากนี้เนื่องจากการแจกแจงแบบบันทึกปกติเกิดขึ้นเมื่อลอการิทึมของตัวแปรสุ่ม (พูด X) กระจายตามปกติหมายความว่าในการแจกแจงแบบบันทึกปกติมีค่าน้อยกว่า X และค่าน้อยกว่า X ตัวแปรสุ่มที่ตามหลังการกระจายตัวของกฎหมายพลังงานจะมีอะไรบ้าง ที่สำคัญกว่านั้นเกี่ยวกับการกระจายระดับเครือข่ายไฟล์แนบที่มีสิทธิใช้งานปกติบันทึกยังแนะนำเครือข่ายที่ไม่มีสเกลหรือไม่? สัญชาตญาณของฉันบอกฉันว่าเนื่องจากหางของเส้นโค้งสามารถติดตั้งโดยกฎกำลังได้เครือข่ายจึงยังสามารถสรุปได้ว่าเป็นลักษณะที่แสดงขนาดฟรี

1
ชุดข้อมูล Anscombe ที่มีกล่องและพล็อตมัสสุเดียวกัน (หมายถึง / std / median / MAD / min / max)
แก้ไข: เนื่องจากคำถามนี้ได้ขยายออกไปแล้วบทสรุป: การค้นหาชุดข้อมูลที่มีความหมายและตีความได้ที่แตกต่างกันด้วยสถิติแบบผสมที่เหมือนกัน (หมายถึงค่ามัธยฐานค่ากลางและการกระจายตัวที่เกี่ยวข้องและการถดถอย) กลุ่ม Anscombe (ดูจุดประสงค์ในการแสดงข้อมูลมิติสูง? ) เป็นตัวอย่างที่โด่งดังของชุดข้อมูลสี่xxx , yyyพร้อมค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐาน / ส่วนเบี่ยงเบนมาตรฐานเดียวกัน (บนสี่xxxและสี่แยกyyy ) และOLSแบบเชิงเส้นเดียวกันการถดถอยและผลรวมที่เหลือของช่องสี่เหลี่ยมและค่าสัมประสิทธิ์สหสัมพันธ์R2R2R^2 2 ℓ2ℓ2\ell_2สถิติชนิด (ขอบและร่วมกัน) จึงเดียวกันในขณะที่ชุดข้อมูลที่แตกต่างกันค่อนข้าง EDIT (จากความคิดเห็น OP) ปล่อยให้ชุดข้อมูลขนาดเล็กแยกกันให้ฉันเสนอการตีความบางอย่าง ชุดที่ 1 สามารถมองเห็นได้เป็นความสัมพันธ์เชิงเส้นมาตรฐาน (เลียนแบบ, ถูกต้อง) ความสัมพันธ์กับเสียงรบกวนแบบกระจาย ชุดที่ 2 แสดงให้เห็นถึงความสัมพันธ์ที่สะอาดซึ่งอาจเป็นจุดศูนย์กลางของความพอดีระดับสูงกว่า ชุดที่ 3 แสดงให้เห็นถึงการพึ่งพาสถิติเชิงเส้นที่ชัดเจนด้วยหนึ่งในค่าผิดเพี้ยน ชุดที่ 4 เป็นเรื่องยุ่งยากมากขึ้น: ความพยายามในการ "ทำนาย" จากxดูเหมือนว่าจะผิดพลาด การออกแบบของxอาจเผยให้เห็นปรากฏการณ์ฮิสเทรีซิสที่มีค่าไม่เพียงพอ, ผลกระทบเชิงปริมาณ ( xอาจเป็นปริมาณมากเกินไป) หรือผู้ใช้เปลี่ยนตัวแปรตามและอิสระyyyxxxxxxxxx ดังนั้นคุณสมบัติสรุปจึงซ่อนพฤติกรรมที่แตกต่างกันมาก ชุดที่ 2 …

5
วิธีการปฏิวัติใหม่ของการขุดข้อมูล?
ข้อความที่ตัดตอนมาต่อไปนี้มาจากHedge Fund Market Wizzards ของ Schwager (พฤษภาคม 2012) สัมภาษณ์กับผู้จัดการกองทุน Hedge ที่ประสบความสำเร็จอย่างต่อเนื่อง Jaffray Woodriff: สำหรับคำถาม: "อะไรคือข้อผิดพลาดที่เลวร้ายที่สุดที่ผู้คนทำในการขุดข้อมูล?": ผู้คนจำนวนมากคิดว่าพวกเขาโอเคเพราะพวกเขาใช้ข้อมูลในตัวอย่างสำหรับการฝึกอบรมและข้อมูลนอกตัวอย่างสำหรับการทดสอบ จากนั้นพวกเขาเรียงลำดับโมเดลตามวิธีที่พวกเขาดำเนินการกับข้อมูลในตัวอย่างและเลือกคนที่ดีที่สุดในการทดสอบข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง แนวโน้มของมนุษย์คือการใช้แบบจำลองที่ยังคงทำได้ดีในข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างและเลือกแบบจำลองเหล่านั้นเพื่อการซื้อขาย กระบวนการประเภทนั้นเปลี่ยนข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างให้เป็นส่วนหนึ่งของข้อมูลการฝึกอบรมเพราะมันเลือกรูปแบบที่ทำได้ดีที่สุดในช่วงเวลาตัวอย่าง เป็นหนึ่งในข้อผิดพลาดที่พบบ่อยที่สุดที่ผู้คนทำและหนึ่งในสาเหตุที่การทำ data data เพราะโดยทั่วไปแล้วจะทำให้ได้ผลลัพธ์ที่แย่มาก ผู้สัมภาษณ์ถามมากกว่า: "คุณควรทำอะไรแทน" คุณสามารถมองหารูปแบบที่โมเดลโดยเฉลี่ยแล้วตัวอย่างทั้งหมดยังคงทำได้ดี คุณรู้ว่าคุณทำได้ดีถ้าค่าเฉลี่ยสำหรับโมเดลที่ไม่อยู่ในกลุ่มตัวอย่างนั้นเป็นเปอร์เซ็นต์ที่สำคัญของคะแนนในตัวอย่าง โดยทั่วไปแล้วคุณจะได้อยู่ที่ไหนสักแห่งจริง ๆ ถ้าผลลัพธ์นอกกลุ่มตัวอย่างมากกว่า 50 เปอร์เซ็นต์ของตัวอย่าง รูปแบบธุรกิจของ QIM จะไม่ทำงานถ้า SAS และ IBM กำลังสร้างซอฟต์แวร์การสร้างแบบจำลองการทำนายที่ยอดเยี่ยม คำถามของฉัน มันสมเหตุสมผลหรือไม่? เขาหมายถึงอะไร คุณมีเงื่อนงำหรือบางทีอาจเป็นชื่อของวิธีการที่เสนอและการอ้างอิงบางส่วน? หรือผู้ชายคนนี้พบจอกศักดิ์สิทธิ์ที่ไม่มีใครเข้าใจหรือไม่? เขายังกล่าวในการสัมภาษณ์ครั้งนี้ว่าวิธีการของเขาอาจปฏิวัติวิทยาศาสตร์ ...

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
อะไรคือวิธีที่ปราศจากความเจ็บปวดที่สุดในการปรับเส้นโค้งการเติบโตของโลจิสติกส์ใน R
นี่ไม่ใช่เรื่องง่ายสำหรับ Google เช่นเดียวกับสิ่งอื่น ๆ อย่างชัดเจนฉันไม่ได้พูดถึงการถดถอยแบบลอจิสติกในแง่ของการใช้การถดถอยเพื่อทำนายตัวแปรเด็ดขาด ฉันกำลังพูดถึงการปรับกราฟการเติบโตโลจิสติกให้เหมาะสมกับจุดข้อมูลที่กำหนด จะเฉพาะเจาะจง, เป็นปีที่ได้รับ 1958-2012 และปีคือประมาณ ppm CO2 ทั่วโลก (ส่วนต่อล้านส่วนของก๊าซคาร์บอนไดออกไซด์) ในเดือนพฤศจิกายนปีxxxxyyyxxx ตอนนี้มันกำลังเร่งความเร็ว แต่มันก็ต้องหยุดลงในบางจุด ดังนั้นฉันต้องการเส้นโค้งโลจิสติก ฉันยังไม่พบวิธีที่ตรงไปตรงมาในการทำเช่นนี้

4
การกำหนดฟังก์ชันการกระชับส่วนโค้งที่เหมาะสมที่สุดจากฟังก์ชันเชิงเส้น, เลขชี้กำลังและฟังก์ชันลอการิทึม
บริบท: จากคำถามเกี่ยวกับ Mathematics Stack Exchange (ฉันสามารถสร้างโปรแกรม)มีใครบางคนมีชุดของจุดและต้องการให้พอดีกับเส้นโค้งกับมันเส้นเชิงเส้นชี้แจงหรือลอการิทึม วิธีปกติคือการเริ่มต้นด้วยการเลือกหนึ่งในวิธีเหล่านี้ (ซึ่งระบุรุ่น) แล้วทำการคำนวณทางสถิติx - yx-Yx-y แต่สิ่งที่เป็นที่ต้องการจริงๆคือการหาเส้นโค้ง 'ที่ดีที่สุด' จากเส้นตรง, เลขชี้กำลังหรือลอการิทึม เห็นได้ชัดว่าใครจะลองทั้งสามและเลือกเส้นโค้งที่พอดีที่สุดของทั้งสามตามค่าสัมประสิทธิ์สหสัมพันธ์ที่ดีที่สุด แต่อย่างใดฉันรู้สึกว่านี่ไม่ใช่เพียว วิธีที่ได้รับการยอมรับโดยทั่วไปคือการเลือกแบบจำลองของคุณก่อนหนึ่งในสามนั้น (หรือฟังก์ชันการเชื่อมโยงอื่น ๆ ) จากนั้นข้อมูลจะคำนวณค่าสัมประสิทธิ์ และโพสต์พฤตินัยการเลือกที่ดีที่สุดของทั้งหมดคือการเก็บเชอร์รี่ แต่สำหรับฉันไม่ว่าคุณจะกำหนดฟังก์ชั่นหรือค่าสัมประสิทธิ์จากข้อมูลที่ยังคงเป็นสิ่งเดียวกันขั้นตอนของคุณคือการค้นพบสิ่งที่ดีที่สุด ... (สมมติว่าฟังก์ชันใดคือ คำถาม: เหมาะสมหรือไม่ที่จะเลือกแบบจำลองการกระชับที่ดีที่สุดจากแบบจำลองเชิงเส้นเอ็กซ์โพเนนเชียลและลอการิทึมตามการเปรียบเทียบสถิติแบบเต็ม? ถ้าเป็นเช่นนั้นวิธีที่เหมาะสมที่สุดในการทำเช่นนี้คืออะไร? หากการถดถอยช่วยค้นหาพารามิเตอร์ (สัมประสิทธิ์) ในฟังก์ชั่นเหตุใดจึงไม่มีพารามิเตอร์ที่แยกออกมาเพื่อเลือกว่าตระกูลใดในสามตระกูลที่ดีที่สุดมาจากไหน

2
ความแตกต่างระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้ง
ใครช่วยอธิบายความแตกต่างที่แท้จริงระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้งให้ฉันได้ไหมถ้าเป็นไปได้ ดูเหมือนว่าทั้งคู่พยายามค้นหาความสัมพันธ์ระหว่างสองตัวแปร (ขึ้นอยู่กับอิสระ) จากนั้นกำหนดพารามิเตอร์ (หรือสัมประสิทธิ์) ที่เกี่ยวข้องกับแบบจำลองที่เสนอ ตัวอย่างเช่นหากฉันมีชุดข้อมูลเช่น: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] ใครช่วยแนะนำสูตรสหสัมพันธ์ระหว่างตัวแปรทั้งสองนี้ได้ไหม ฉันมีปัญหาในการเข้าใจความแตกต่างระหว่างสองแนวทางนี้ หากคุณต้องการที่จะสนับสนุนคำตอบของคุณกับชุดข้อมูลอื่นมันก็โอเคเพราะชุดนั้นดูเหมือนจะยาก (อาจเป็นสำหรับฉันเท่านั้น) ชุดข้อมูลข้างต้นแสดงถึงแกนและของเส้นโค้งลักษณะการทำงานของตัวรับ (ROC) โดยที่คืออัตราบวกที่แท้จริง (TPR) และคืออัตราบวกเป็นบวก (FPR)xxxyyyyyyxxx ฉันกำลังพยายามหาเส้นโค้งหรือทำการวิเคราะห์การถดถอยตามคำถามเดิมของฉันยังไม่แน่ใจในจุดเหล่านี้เพื่อประเมิน TPR สำหรับ FPR ใด ๆ (หรือในทางกลับกัน) ข้อแรกเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นการปรับโค้งให้เหมาะสมระหว่างตัวแปรอิสระสองตัว (TPR และ FPR)? ประการที่สองมันเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นดังกล่าวถ้าฉันรู้ว่าการแจกแจงของลบจริงและกรณีบวกจริงไม่ปกติ?

3
R-squared เชิงลบหมายถึงอะไร
สมมติว่าฉันมีข้อมูลบางส่วนแล้วฉันก็พอดีกับข้อมูลด้วยแบบจำลอง (การถดถอยเชิงเส้น) จากนั้นฉันคำนวณ R-squared ( )R2R2R^2 เมื่อ R-squared เป็นลบนั่นหมายความว่าอย่างไร นั่นหมายความว่าแบบจำลองของฉันไม่ดีหรือไม่? ฉันรู้ว่าช่วงสามารถเป็น [-1,1] เมื่อเป็น 0 นั่นหมายความว่าอย่างไรR2R2R^2R2R2R^2

7
เส้นโค้ง (หรือรุ่น) ชนิดใดที่ฉันควรจะพอดีกับข้อมูลเปอร์เซ็นต์ของฉัน
ฉันพยายามสร้างรูปที่แสดงความสัมพันธ์ระหว่างสำเนาไวรัสและการครอบคลุมจีโนม (GCC) นี่คือข้อมูลของฉันที่มีลักษณะ: ตอนแรกฉันเพิ่งวางแผนการถดถอยเชิงเส้น แต่หัวหน้างานของฉันบอกฉันว่ามันไม่ถูกต้องและลองใช้เส้นโค้ง sigmoidal ดังนั้นฉันจึงใช้ geom_smooth: library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour = Virus)) + geom_point() + scale_x_continuous(trans = log10_trans(), breaks = trans_breaks("log10", function(x) 10^x), labels = trans_format("log10", math_format(10^.x))) + geom_smooth(method = "gam", formula = y ~ s(x), se = FALSE, size = 1) + …

1
ฉันจะตีความเมทริกซ์ความแปรปรวนร่วมได้อย่างไรจากเส้นโค้งที่พอดี
ฉันไม่ค่อยเก่งเรื่องสถิติดังนั้นขอโทษถ้านี่เป็นคำถามง่าย ๆ ฉันกำลังกระชับโค้งให้ข้อมูลบางส่วนและบางครั้งข้อมูลของฉันพอดีดีที่สุดชี้แจงเชิงลบในรูปแบบ* E ( - ข* x ) + Cและบางครั้งพอดีอยู่ใกล้กับ* E ( - ข* x 2 ) +ค อย่างไรก็ตามบางครั้งทั้งสองล้มเหลวและฉันต้องการที่จะถอยกลับไปเป็นแบบเชิงเส้น คำถามของฉันคือฉันจะทราบได้อย่างไรว่าแบบจำลองใดที่เหมาะกับข้อมูลชุดใดชุดหนึ่งที่ดีที่สุดจากเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมที่ส่งคืนจากa ∗ e( - b ∗ x )+ ca* * * *อี(-ข* * * *x)+คa * e^{(-b * x)} + ca ∗ e( - b ∗ x2)+ ca* …

3
ฉันจะตรวจจับเซ็กเมนต์ของชุดข้อมูลโดยทางโปรแกรมให้เหมาะสมกับเส้นโค้งที่ต่างกันได้อย่างไร
มีอัลกอริธึมที่มีเอกสารใด ๆ ในการแยกส่วนของชุดข้อมูลที่กำหนดเป็นส่วนโค้งที่แตกต่างกันของชุดข้อมูลที่เหมาะสมที่สุดหรือไม่? ตัวอย่างเช่นมนุษย์ส่วนใหญ่ที่ดูแผนภูมิข้อมูลนี้จะแบ่งออกเป็น 3 ส่วนอย่างง่าย: ส่วนของไซน์, ส่วนเชิงเส้นและส่วนอธิบายอินเวอร์ส อันที่จริงฉันสร้างสิ่งนี้ขึ้นมาด้วยคลื่นไซน์เส้นและสูตรเลขชี้กำลังแบบง่าย มีอัลกอริธึมที่มีอยู่สำหรับการค้นหาชิ้นส่วนเช่นนั้นซึ่งสามารถติดตั้งแยกกันกับส่วนโค้ง / เส้นต่าง ๆ เพื่อสร้างชุดข้อมูลเชิงประกอบที่เหมาะที่สุดกับชุดย่อยของข้อมูลหรือไม่? โปรดทราบว่าถึงแม้ว่าตัวอย่างจะมีส่วนท้ายของกลุ่มค่อนข้างมาก แต่ก็ไม่จำเป็นต้องเป็นอย่างนั้น นอกจากนี้ยังอาจมีการกระทุ้งฉับพลันในค่าที่ตัดส่วน บางทีกรณีเหล่านั้นจะง่ายต่อการตรวจจับ อัปเดต: นี่คือรูปภาพของข้อมูลจริงเล็กน้อย: อัปเดต 2: นี่คือชุดข้อมูลจริงขนาดเล็กผิดปกติ (มีเพียง 509 จุดข้อมูล): 4,53,53,53,53,58,56,52,49,52,56,51,44,39,39,39,37,33,27,21,18,12,19,30,45,66,92,118,135,148,153,160,168,174,181,187,191,190,191,192,194,194,194,193,193,201,200,199,199,199,197,193,190,187,176,162,157,154,144,126,110,87,74,57,46,44,51,60,65,66,90,106,99,87,84,85,83,91,95,99,101,102,102,103,105,110,107,108,135,171,171,141,120,78,42,44,52,54,103,128,82,103,46,27,73,123,125,77,24,30,27,36,42,49,32,55,20,16,21,31,78,140,116,99,58,139,70,22,44,7,48,32,18,16,25,16,17,35,29,11,13,8,8,18,14,0,10,18,2,1,4,0,61,87,91,2,0,2,9,40,21,2,14,5,9,49,116,100,114,115,62,41,119,191,190,164,156,109,37,15,0,5,1,0,0,2,4,2,0,48,129,168,112,98,95,119,125,191,241,209,229,230,231,246,249,240,99,32,0,0,2,13,28,39,15,15,19,31,47,61,92,91,99,108,114,118,121,125,129,129,125,125,131,135,138,142,147,141,149,153,152,153,159,161,158,158,162,167,171,173,174,176,178,184,190,190,185,190,200,199,189,196,197,197,196,199,200,195,187,191,192,190,186,184,184,179,173,171,170,164,156,155,156,151,141,141,139,143,143,140,146,145,130,126,127,127,125,122,122,127,131,134,140,150,160,166,175,192,208,243,251,255,255,255,249,221,190,181,181,181,181,179,173,165,159,153,162,169,165,154,144,142,145,136,134,131,130,128,124,119,115,103,78,54,40,25,8,2,7,12,25,13,22,15,33,34,57,71,48,16,1,2,0,2,21,112,174,191,190,152,153,161,159,153,71,16,28,3,4,0,14,26,30,26,15,12,19,21,18,53,89,125,139,140,142,141,135,136,140,159,170,173,176,184,180,170,167,168,170,167,161,163,170,164,161,160,163,163,160,160,163,169,166,161,156,155,156,158,160,150,149,149,151,154,156,156,156,151,149,150,153,154,151,146,144,149,150,151,152,151,150,148,147,144,141,137,133,130,128,128,128,136,143,159,180,196,205,212,218,222,225,227,227,225,223,222,222,221,220,220,220,220,221,222,223,221,223,225,226,227,228,232,235,234,236,238,240,241,240,239,237,238,240,240,237,236,239,238,235 นี่มันเป็นสถานที่เกิดเหตุด้วยappoximateตำแหน่งของบางองค์ประกอบโลกแห่งความจริงที่รู้จักกันขอบทำเครื่องหมายด้วยเส้นประหรูหราเราจะไม่ปกติมี: อย่างไรก็ตามความหรูหราอย่างหนึ่งที่เรามีคือการเข้าใจถึงปัญหาหลังเหตุการณ์ข้อมูลในกรณีของฉันไม่ใช่อนุกรมเวลา แต่มีความสัมพันธ์เชิงพื้นที่ มันสมเหตุสมผลแล้วที่จะวิเคราะห์ชุดข้อมูลทั้งหมด (โดยปกติคือจุดข้อมูล 5,000 - 15,000 จุด) ในคราวเดียวไม่ใช่อย่างต่อเนื่อง

5
วิธีปรับให้พอดีกับการแจกแจงแบบ Weibull กับข้อมูลอินพุตที่มีเลขศูนย์
ฉันกำลังพยายามสร้างอัลกอริทึมการทำนายที่มีอยู่โดยนักวิจัยที่เกษียณแล้ว ขั้นตอนแรกคือเพื่อให้พอดีกับข้อมูลที่สังเกตได้บางอย่างกับการแจกแจงแบบ Weibull เพื่อให้ได้รูปร่างและมาตราส่วนซึ่งจะใช้ในการทำนายค่าในอนาคต ฉันใช้ R เพื่อทำสิ่งนี้ นี่คือตัวอย่างของรหัสของฉัน: x<-c(23,19,37,38,40,36,172,48,113,90,54,104,90,54,157,51,77,78,144,34,29,45,16,15,37,218,170,44,121) f<-fitdistr(x, 'weibull') สิ่งนี้ทำงานได้ดียกเว้นว่ามีเลขศูนย์ใด ๆ ในอาร์เรย์อินพุตซึ่งทำให้มันล้มเหลวอย่างสมบูรณ์ สิ่งเดียวกันเกิดขึ้นใน SAS ดังที่ฉันเข้าใจแล้วนี่เป็นเพราะหนึ่งในขั้นตอนในการคำนวณการแจกแจงแบบ Weibull คือการบันทึกตามธรรมชาติซึ่งไม่ได้กำหนดไว้สำหรับ 0 มีวิธีที่เหมาะสมในการแก้ไขปัญหานี้หรือไม่? สิ่งที่ดีที่สุดที่ฉันเคยพบคือการเพิ่ม 1 ให้กับค่าอินพุตทั้งหมดของฉันให้พอดีกับเส้นโค้งแล้วลบหนึ่งค่าจากค่าที่คาดการณ์ไว้ของฉัน ("เลื่อน" เส้นโค้งขึ้นแล้วกลับลง 1) ซึ่งตรงกับข้อมูลที่คาดการณ์ไว้ก่อนหน้านี้ค่อนข้างดี แต่ดูเหมือนว่ามันจะต้องเป็นวิธีที่ผิดในการทำเช่นนั้น แก้ไข: ค่าในอาร์เรย์อินพุตจะถูกตรวจสอบข้อมูลในโลกแห่งความเป็นจริง (จำนวนการเกิดขึ้นของบางสิ่งบางอย่าง) เป็นระยะเวลาหลายปี ดังนั้นในบางปีจำนวนการเกิดขึ้นจึงเป็นศูนย์ ไม่ว่าจะเป็นวิธีที่ดีที่สุดหรือไม่ (ฉันยอมรับว่าอาจไม่ใช่) ผู้เขียนอัลกอริทึมดั้งเดิมอ้างว่าใช้การกระจาย Weibull และฉันต้องพยายามทำซ้ำกระบวนการของพวกเขา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.