คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
ผลรวมของต้นไม้ตัดสินใจสองอันนั้นเท่ากับต้นไม้ตัดสินใจเดี่ยวหรือไม่?
สมมติว่าเรามีต้นไม้สองถดถอย (ต้นไม้และต้นไม้ B) ที่ป้อนข้อมูลแผนที่การส่งออกปี ∈ R Let Y = F ( x )สำหรับต้นไม้และฉB ( x )ต้นไม้บีต้นไม้แต่ละต้นใช้ไบนารีแยกกับ hyperplanes เป็นฟังก์ชั่นแยกx ∈ Rdx∈Rdx \in \mathbb{R}^dY^∈ RY^∈R\hat{y} \in \mathbb{R}Y^= fA( x )Y^=ฉA(x)\hat{y} = f_A(x)ฉB( x )ฉB(x)f_B(x) ทีนี้สมมติว่าเรารับผลรวมถ่วงน้ำหนักของต้นไม้ออกมา: ฉค( x ) = wA ฉA( x ) + wB ฉB( x )ฉค(x)=WA ฉA(x)+WB ฉB(x)f_C(x) = w_A …

5
มันเป็นการโกงที่จะปล่อยค่าผิดปกติตาม boxplot ของ Mean Absolute Error เพื่อปรับปรุงตัวแบบการถดถอยหรือไม่
ฉันมีแบบจำลองการทำนายทดสอบด้วยวิธีการสี่วิธีดังที่คุณเห็นในรูปแบบกล่องด้านล่าง แอตทริบิวต์ที่ตัวแบบทำนายนั้นอยู่ในช่วง 0-8 คุณอาจสังเกตเห็นว่ามีค่าผิดปกติที่มีขอบบนหนึ่งค่าและค่าผิดปกติที่ต่ำกว่าสามค่าที่ระบุโดยวิธีการทั้งหมด ฉันสงสัยว่าเหมาะสมที่จะลบอินสแตนซ์เหล่านี้ออกจากข้อมูลหรือไม่ หรือนี่เป็นการโกงเพื่อปรับปรุงตัวแบบการทำนาย?

1
ตัวประมาณค่าที่เป็นอิสระของอัตราส่วนของสัมประสิทธิ์การถดถอยสองตัว?
สมมติว่าคุณพอดีกับเส้น / โลจิสติกการถดถอยโดยมีวัตถุประสงค์ของการประมาณการเป็นกลางของ1g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2 . คุณมีความมั่นใจมากว่าทั้งสอง1และ2เป็นบวกมากเมื่อเทียบกับเสียงในประมาณการของพวกเขาa1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 หากคุณมีความแปรปรวนร่วมกันของ1 , 2คุณสามารถคำนวณหรืออย่างน้อยจำลองคำตอบ มีวิธีใดที่ดีกว่าและในปัญหาชีวิตจริงที่มีข้อมูลจำนวนมากคุณมีปัญหามากเพียงใดในการประเมินอัตราส่วนหรือสำหรับครึ่งขั้นตอนและสมมติว่าสัมประสิทธิ์เป็นอิสระ?a1,a2a1,a2a_1, a_2

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
ทำความเข้าใจเกี่ยวกับการแยกส่วนประกอบ QR
ฉันมีตัวอย่างการทำงาน (ใน R) ว่าฉันพยายามที่จะเข้าใจเพิ่มเติม ฉันใช้ Limma เพื่อสร้างแบบจำลองเชิงเส้นและฉันพยายามที่จะเข้าใจสิ่งที่เกิดขึ้นทีละขั้นตอนในการคำนวณการเปลี่ยนแปลงการพับ ฉันส่วนใหญ่พยายามคิดว่าเกิดอะไรขึ้นกับการคำนวณค่าสัมประสิทธิ์ จากสิ่งที่ฉันสามารถหาได้พบว่าการย่อยสลาย QR ใช้เพื่อให้ได้ค่าสัมประสิทธิ์ดังนั้นฉันจึงต้องมองหาคำอธิบายหรือวิธีการดูสมการทีละขั้นตอนในการคำนวณหรือทีละขั้นตอนสำหรับรหัส qr () ใน R เพื่อติดตามตัวเอง ใช้ข้อมูลต่อไปนี้: expression_data <- c(1.27135202935009, 1.41816160331787, 1.2572772420417, 1.70943398046296, 1.30290218641586, 0.632660015122616, 1.73084258791384, 0.863826352944684, 0.62481665344628, 0.356064235030147, 1.31542028558644, 0.30549909383238, 0.464963176430548, 0.132181421105667, -0.284799809563931, 0.216198538884642, -0.0841133304341238, -0.00184472290008803, -0.0924271878885008, -0.340291804468472, -0.236829711453303, 0.0529690806587626, 0.16321956624511, -0.310513510587778, -0.12970035111176, -0.126398635780533, 0.152550803185228, -0.458542514769473, 0.00243517688116406, -0.0190192219685527, 0.199329876859774, …

1
ตัวประมาณที่ไม่ลำเอียงอื่น ๆ กว่า BLUE (โซลูชัน OLS) สำหรับแบบจำลองเชิงเส้น
สำหรับโมเดลเชิงเส้นโซลูชัน OLS ให้ตัวประมาณค่าแบบไม่เอนเอียงเชิงเส้นที่ดีที่สุดสำหรับพารามิเตอร์ แน่นอนว่าเราสามารถแลกเปลี่ยนอคติเพื่อลดความแปรปรวนได้เช่นการถดถอยของสัน แต่คำถามของฉันเกี่ยวกับการไม่มีอคติ มีตัวประมาณอื่น ๆ ที่ค่อนข้างใช้กันทั่วไปซึ่งไม่เอนเอียง แต่มีความแปรปรวนสูงกว่าพารามิเตอร์ประมาณ OLS หรือไม่ ถ้าฉันมีชุดข้อมูลขนาดใหญ่ฉันสามารถย่อยตัวอย่างและคาดการณ์พารามิเตอร์ด้วยข้อมูลน้อยลงและเพิ่มความแปรปรวน ฉันคิดว่านี่อาจเป็นประโยชน์ในเชิงสมมุติฐาน นี่เป็นคำถามเกี่ยวกับวาทศิลป์มากกว่าเพราะเมื่อฉันอ่านเกี่ยวกับตัวประมาณค่าสีน้ำเงินแล้วไม่มีตัวเลือกที่แย่กว่านี้ ฉันเดาว่าการให้ทางเลือกที่แย่กว่านั้นอาจช่วยให้ผู้คนเข้าใจพลังของตัวประมาณค่า BLUE ได้ดีขึ้น

2
คำถามเกี่ยวกับการแลกเปลี่ยนอคติแปรปรวน
ฉันพยายามที่จะเข้าใจการแลกเปลี่ยนอคติความแปรปรวนความสัมพันธ์ระหว่างอคติของตัวประมาณและอคติของตัวแบบและความสัมพันธ์ระหว่างความแปรปรวนของตัวประมาณและความแปรปรวนของตัวแบบ ฉันมาถึงข้อสรุปเหล่านี้: เรามีแนวโน้มที่จะทำให้ข้อมูลมีค่ามากเกินไปเมื่อเราละเลยอคติของตัวประมาณนั่นคือเมื่อเราตั้งเป้าหมายที่จะลดอคติของแบบจำลองให้น้อยที่สุดโดยละเลยความแปรปรวนของแบบจำลอง (กล่าวอีกนัยหนึ่งคือเรามุ่งที่จะลดความแปรปรวนของ ความเอนเอียงของตัวประมาณเช่นกัน) ในทางกลับกันเรามีแนวโน้มที่จะลดข้อมูลเมื่อเราเพิกเฉยความแปรปรวนของตัวประมาณนั่นคือเมื่อเรามุ่งที่จะลดความแปรปรวนของตัวแบบที่ละเลยความเอนเอียงของแบบจำลอง (กล่าวอีกนัยหนึ่งคือเรามุ่งที่จะลดอคติของ ตัวประมาณโดยไม่พิจารณาความแปรปรวนของตัวประมาณด้วย) ข้อสรุปของฉันถูกต้องหรือไม่?

1
การถดถอยในการตั้งค่า
ฉันพยายามดูว่าจะไปถดถอยสัน , เชือก , หลักถดถอยส่วนประกอบ (PCR) หรือสแควน้อยบางส่วน (PLS) ในสถานการณ์ที่มีจำนวนมากของตัวแปร / คุณสมบัติ ( ) และขนาดเล็กจำนวนตัวอย่าง ( n < p ) และเป้าหมายของฉันคือการทำนายpppn<pn<pn np>10np>10np>10n ตัวแปร ( และY ) มีความสัมพันธ์ซึ่งกันและกันด้วยองศาที่ต่างกันXXXYYY คำถามของฉันคือกลยุทธ์ใดที่ดีที่สุดสำหรับสถานการณ์นี้ ทำไม?

3
การทำนายความแปรปรวนของข้อมูล heteroscedastic
ฉันพยายามทำการถดถอยกับข้อมูลแบบเฮเทอโรเซสติกซึ่งฉันพยายามทำนายความแปรปรวนข้อผิดพลาดรวมถึงค่าเฉลี่ยในแง่ของตัวแบบเชิงเส้น บางสิ่งเช่นนี้ y(x,t)ξ(x,t)y¯(x,t)σ(x,t)=y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} ในคำพูดของข้อมูลที่ประกอบด้วยวัดซ้ำของที่ค่าต่างๆของxและเสื้อ ฉันถือว่าการวัดเหล่านี้ประกอบด้วยค่า "จริง" หมายถึงค่าˉ y ( x , t )ซึ่งเป็นฟังก์ชันเชิงเส้นของxและtพร้อมกับเสียงเกาส์แบบเติมadd ( x , t )ซึ่งค่าเบี่ยงเบนมาตรฐาน (หรือความแปรปรวนฉันไม่ได้ ตัดสินใจ) นอกจากนี้ยังขึ้นอยู่กับเส้นตรงกับx ,เสื้อ (ฉันอาจอนุญาตการพึ่งพาที่ซับซ้อนมากขึ้นในxและy(x,t)y(x,t)y(x,t)xxxttty¯(x,t)y¯(x,t)\bar{y}(x,t)xxxtttξ(x,t)ξ(x,t)\xi(x,t)x,tx,เสื้อx,txxx - ไม่มีแรงกระตุ้นเชิงทฤษฎีที่แข็งแกร่งสำหรับรูปแบบเชิงเส้น - แต่ฉันไม่อยากจะเข้าใจสิ่งต่าง ๆ ในตอนนี้)ttt ฉันรู้ว่าคำค้นหาที่นี่คือ "heteroscedasticity" แต่ทั้งหมดที่ฉันสามารถค้นหาได้คือการอภิปรายเกี่ยวกับวิธีการลด / ลบคำศัพท์เพื่อทำนายดีขึ้นแต่ไม่มีอะไรในแง่ของการพยายามทำนายσในแง่ของ ตัวแปรอิสระ. ฉันต้องการประมาณy 0 …

4
ข้อผิดพลาดที่ควรหลีกเลี่ยงเมื่อเปลี่ยนข้อมูล?
ฉันได้รับความสัมพันธ์เชิงเส้นตรงที่แข็งแกร่งระหว่างตัวแปรและหลังจากเปลี่ยนการตอบสนองเป็นสองเท่า แบบจำลองคือ แต่ฉันเปลี่ยนเป็น ปรับปรุงจาก. 19 เป็น. 76XXXYYYY∼XY∼XY\sim XYX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X}R2R2R^2 เห็นได้ชัดว่าฉันทำการผ่าตัดที่เหมาะสมกับความสัมพันธ์นี้ ทุกคนสามารถพูดถึงข้อผิดพลาดในการทำเช่นนี้เช่นอันตรายจากการเปลี่ยนแปลงมากเกินไปหรือการละเมิดหลักการทางสถิติที่เป็นไปได้หรือไม่?

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

4
ฉันจะดำเนินการถดถอยกับข้อมูลที่ไม่ปกติซึ่งยังคงไม่ปกติเมื่อเปลี่ยนเป็นอย่างไร
ฉันมีข้อมูล (158 ราย) ซึ่งได้มาจากคำตอบของ Likert ในการตอบแบบสอบถาม 21 ข้อ ฉันต้องการ / จำเป็นต้องทำการวิเคราะห์การถดถอยเพื่อดูว่ารายการใดในแบบสอบถามทำนายการตอบสนองต่อรายการโดยรวม (ความพึงพอใจ) คำตอบจะไม่กระจายตามปกติ (ตามการทดสอบของ KS) และฉันได้เปลี่ยนมันในทุก ๆ วิธีที่ฉันสามารถคิดได้ (ผกผัน, บันทึก, log10, sqrt, กำลังสอง) และมันก็ปฏิเสธที่จะกระจายตามปกติอย่างดื้อรั้น พล็อตที่เหลือดูทั่วทุกสถานที่ดังนั้นฉันเชื่อว่ามันไม่ถูกต้องตามกฎหมายที่จะทำการถดถอยเชิงเส้นและแกล้งทำเป็นว่ามันทำงานได้ตามปกติ (ไม่ใช่การกระจายปัวซอง) ฉันคิดว่าเป็นเพราะคำตอบมีการรวมกลุ่มอย่างใกล้ชิดมาก (ค่าเฉลี่ยคือ 3.91, 95% CI 3.88 ถึง 3.95) ดังนั้นฉันคิดว่าฉันต้องการวิธีใหม่ในการแปลงข้อมูลของฉันหรือต้องการการถดถอยแบบไม่ใช้พารามิเตอร์ แต่ฉันไม่รู้ว่าฉันสามารถทำได้ใน SPSS

2
ความหมายที่แม่นยำและการเปรียบเทียบระหว่างจุดที่มีอิทธิพลจุดยกระดับสูงและค่าผิดปกติ?
จากวิกิพีเดีย การสังเกตที่มีอิทธิพลคือการสังเกตที่มีผลกระทบค่อนข้างมากต่อการทำนายของตัวแบบการถดถอย จากวิกิพีเดีย คะแนนการใช้ประโยชน์คือการสังเกตเหล่านั้นถ้าทำที่ค่าสุดขีดหรือค่าที่อยู่ภายนอกของตัวแปรอิสระเช่นการขาดการสังเกตที่อยู่ใกล้เคียงหมายความว่าแบบจำลองการถดถอยที่เหมาะสมจะผ่านเข้าใกล้การสังเกตนั้น ทำไมการเปรียบเทียบดังต่อไปนี้จาก Wikipedia แม้ว่าจะเป็นจุดที่มีอิทธิพลโดยทั่วไปแล้วจะมีการยกระดับสูงซึ่งเป็นจุดที่ยกระดับสูงไม่จำเป็นต้องเป็นจุดที่มีอิทธิพล

1
จะตีความค่าสัมประสิทธิ์จากการถดถอยเบต้าได้อย่างไร?
ฉันมีข้อมูลบางอย่างที่ถูกล้อมรอบระหว่าง 0 และ 1 ฉันได้ใช้betaregแพคเกจใน R เพื่อให้พอดีกับรูปแบบการถดถอยกับข้อมูลที่ถูกผูกไว้เป็นตัวแปรตาม คำถามของฉันคือฉันจะตีความสัมประสิทธิ์จากการถดถอยได้อย่างไร

4
มี "การถดถอยแบบไม่มีผู้ดูแล" หรือไม่?
หากฉันถูกต้อง "การจำแนกประเภทที่ไม่ได้รับการสำรอง" นั้นเหมือนกับการทำคลัสเตอร์ ถ้าเช่นนั้นจะมี "การถดถอยที่ไม่ได้รับอนุญาต" ขอบคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.