คำถามติดแท็ก multiple-regression

การถดถอยที่มีตัวแปรอิสระไม่คงที่สองตัวหรือมากกว่า

3
เหตุใดการถดถอยพหุนามจึงถือว่าเป็นกรณีพิเศษของการถดถอยเชิงเส้นหลายเส้น
หากแบบจำลองพหุนามถดถอยความสัมพันธ์แบบไม่เชิงเส้นจะพิจารณาเป็นกรณีพิเศษของการถดถอยเชิงเส้นหลายแบบได้อย่างไร วิกิพีเดียตั้งข้อสังเกตว่า "แม้ว่าการถดถอยพหุนามจะเหมาะกับโมเดลที่ไม่เป็นเชิงเส้นกับข้อมูล แต่เป็นปัญหาการประมาณเชิงสถิติมันเป็นเชิงเส้นในแง่ที่ว่าฟังก์ชันการถดถอยเป็นเส้นตรงในพารามิเตอร์ที่ไม่รู้จักซึ่งประมาณจากข้อมูล "E(y|x)E(y|x)\mathbb{E}(y | x) การถดถอยเชิงเส้นพหุนามเป็นอย่างไรในพารามิเตอร์ที่ไม่รู้จักหากพารามิเตอร์เป็นค่าสัมประสิทธิ์สำหรับคำที่มีคำสั่ง 2≥≥\ge

2
การถดถอยหลายครั้งหรือสัมประสิทธิ์สหสัมพันธ์บางส่วน? และความสัมพันธ์ระหว่างคนทั้งสอง
ฉันไม่รู้ด้วยซ้ำว่าคำถามนี้สมเหตุสมผลหรือไม่ แต่อะไรคือความแตกต่างระหว่างการถดถอยหลายครั้งและสหสัมพันธ์บางส่วน (นอกเหนือจากความแตกต่างที่ชัดเจนระหว่างสหสัมพันธ์และการถดถอยซึ่งไม่ใช่สิ่งที่ฉันกำลังตั้งเป้าไว้) ฉันต้องการหาข้อมูลต่อไปนี้: ฉันมีตัวแปรอิสระสองตัว ( , ) และอีกหนึ่งตัวแปรขึ้นอยู่กับ ( ) ตอนนี้ทีละตัวแปรอิสระไม่ได้มีความสัมพันธ์กับตัวแปรตาม แต่สำหรับกำหนดจะลดลงเมื่อลดลง ดังนั้นฉันจะวิเคราะห์ว่าโดยวิธีการถดถอยหลายครั้งหรือความสัมพันธ์บางส่วน ?x1x1x_1x2x2x_2yyyx1x1x_1 yyyx2x2x_2 แก้ไขเพื่อหวังปรับปรุงคำถามของฉัน: ฉันพยายามเข้าใจความแตกต่างระหว่างการถดถอยหลายครั้งและสหสัมพันธ์บางส่วน ดังนั้นเมื่อลดลงสำหรับกำหนดเมื่อลดลงนั่นเป็นเพราะผลรวมของและต่อ (การถดถอยหลายครั้ง) หรือเป็นเพราะการลบผลกระทบของ (ความสัมพันธ์บางส่วน)?yyyx1x1x_1x2x2x_2x1x1x_1x2x2x_2yyyx1x1x_1

7
การเลือกตัวแปรที่จะรวมไว้ในโมเดลการถดถอยเชิงเส้นหลายแบบ
ฉันกำลังทำงานเพื่อสร้างแบบจำลองโดยใช้การถดถอยเชิงเส้นหลายครั้ง หลังจากเล่นซอกับโมเดลของฉันฉันไม่แน่ใจว่าจะกำหนดตัวแปรที่จะเก็บได้ดีที่สุดและควรลบอย่างไร แบบจำลองของฉันเริ่มต้นด้วยตัวพยากรณ์ 10 ตัวสำหรับ DV เมื่อใช้ตัวทำนายทั้ง 10 ตัวสี่คนถือว่ามีนัยสำคัญ หากฉันลบตัวพยากรณ์ที่ไม่ถูกต้องออกไปบางตัวเท่านั้นตัวพยากรณ์บางตัวที่ไม่ได้มีนัยสำคัญในตอนแรกจะกลายเป็นสิ่งสำคัญ สิ่งใดทำให้ฉันมีคำถามของฉัน: ใครจะไปพิจารณาตัวทำนายที่จะรวมในแบบจำลอง สำหรับฉันแล้วคุณควรใช้แบบจำลองนี้กับผู้ทำนายทุกคนเอาสิ่งที่ไม่สำคัญออกแล้วจึงรันใหม่อีกครั้ง แต่ถ้าการลบตัวพยากรณ์เหล่านี้ออกไปทำให้ผู้อื่นมีความสำคัญฉันก็ยังสงสัยว่าฉันกำลังใช้วิธีการที่ผิดทั้งหมดหรือไม่ ผมเชื่อว่านี้ด้ายคล้ายกับคำถามของฉัน แต่ฉันไม่แน่ใจว่าฉันกำลังตีความอภิปรายได้อย่างถูกต้อง บางทีนี่อาจเป็นหัวข้อการออกแบบเชิงทดลอง แต่อาจมีบางคนมีประสบการณ์ที่พวกเขาสามารถแบ่งปันได้

3
ความขัดแย้งที่มีนัยสำคัญในการถดถอยเชิงเส้น: t-test อย่างมีนัยสำคัญสำหรับสัมประสิทธิ์เทียบกับ F-statistic โดยรวมที่ไม่สำคัญ
ฉันเหมาะสมกับโมเดลการถดถอยเชิงเส้นหลายแบบระหว่างตัวแปรเด็ดขาด 4 อัน (แต่ละระดับมี 4 ระดับ) และเอาต์พุตตัวเลข ชุดข้อมูลของฉันมีข้อสังเกต 43 ข้อ การถดถอยทำให้ผมมีดังต่อไปนี้ -values จาก -test สำหรับทุกค่าสัมประสิทธิ์ความลาดชัน:0.02 ดังนั้นสัมประสิทธิ์สำหรับตัวทำนายที่ 4 จึงมีนัยสำคัญที่ระดับความเชื่อมั่นpppttt.15,.67,.27,.02.15,.67,.27,.02.15, .67, .27, .02α=.05α=.05\alpha = .05 ในทางกลับกันการถดถอยให้จากการทดสอบโดยรวมของสมมติฐานว่างที่สัมประสิทธิ์ความชันของฉันทั้งหมดเท่ากับศูนย์ สำหรับชุดข้อมูลของฉันนี้คือ.pppFFFppp.11.11.11 คำถามของฉัน: ฉันจะตีความผลลัพธ์เหล่านี้ได้อย่างไร ซึ่ง -value ฉันควรใช้และทำไม? สัมประสิทธิ์สำหรับตัวแปรที่ 4 แตกต่างจากที่ระดับความเชื่อมั่นหรือไม่?ppp000α=.05α=.05\alpha = .05 ผมเคยเห็นคำถามที่เกี่ยวข้อง,และสถิติในการถดถอยแต่มีสถานการณ์ตรงข้าม: สูง -test -values และต่ำ -test -value จริง ๆ แล้วฉันไม่เข้าใจว่าทำไมเราถึงต้องการการทดสอบแบบนอกเหนือจากการทดสอบแบบเพื่อดูว่าสัมประสิทธิ์การถดถอยเชิงเส้นแตกต่างจากศูนย์อย่างมีนัยสำคัญหรือไม่FFFttttttpppFFFpppFFFttt

5
จะหาค่าตัวประมาณกำลังสองน้อยที่สุดสำหรับการถดถอยเชิงเส้นหลายเส้นได้อย่างไร
ในกรณีที่เรียบง่ายเชิงเส้นถดถอยy=β0+β1xy=β0+β1xy=\beta_0+\beta_1xคุณสามารถได้รับมาอย่างน้อยประมาณตารางβ 1 = Σ ( x ฉัน - ˉ x ) ( Y ฉัน - ˉ Y )β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}เช่นที่คุณไม่จำเป็นต้องรู้ β 0เพื่อประเมิน β 1β^0β^0\hat\beta_0β^1β^1\hat\beta_1 สมมติว่าฉันมีy=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2 , วิธีการที่ฉันไม่ได้รับมาβ 1โดยไม่ต้องประเมินβ 2 ? หรือเป็นไปไม่ได้?β^1β^1\hat\beta_1β^2β^2\hat\beta_2

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
เหตุใดค่า p จึงทำให้เข้าใจผิดหลังจากทำการเลือกตามลำดับขั้นตอน
ลองพิจารณาตัวอย่างเช่นโมเดลการถดถอยเชิงเส้น ฉันได้ยินมาว่าในการขุดข้อมูลหลังจากทำการเลือกตามขั้นตอนตามเกณฑ์ AIC มันทำให้เข้าใจผิดว่าการดูค่า p เพื่อทดสอบสมมติฐานว่างว่าสัมประสิทธิ์การถดถอยจริงแต่ละตัวมีค่าเป็นศูนย์ ฉันได้ยินมาว่าควรพิจารณาตัวแปรทั้งหมดที่เหลือในตัวแบบว่ามีสัมประสิทธิ์การถดถอยที่แท้จริงแตกต่างจากศูนย์แทน มีใครอธิบายได้ไหม ขอขอบคุณ.

1
แบบจำลองการถดถอยไม่ถูกต้องอย่างไรเมื่อไม่ตรงตามสมมติฐาน?
เมื่อติดตั้งโมเดลการถดถอยจะเกิดอะไรขึ้นถ้าข้อสันนิษฐานของผลลัพธ์ไม่เป็นไปตามที่ระบุ: จะเกิดอะไรขึ้นถ้าสิ่งที่เหลืออยู่ไม่เป็นเนื้อเดียวกัน? หากส่วนที่เหลือแสดงรูปแบบที่เพิ่มขึ้นหรือลดลงในส่วนที่เหลือกับพล็อตที่ติดตั้ง จะเกิดอะไรขึ้นหากส่วนที่เหลือไม่ได้ถูกแจกจ่ายและล้มเหลวในการทดสอบ Shapiro-Wilk การทดสอบตามปกติของชาปิโร่วิลค์เป็นการทดสอบที่เข้มงวดมากและบางครั้งแม้ว่าพล็อตปกติ -QQ จะดูสมเหตุสมผล แต่ข้อมูลก็ล้มเหลวในการทดสอบ จะเกิดอะไรขึ้นถ้าตัวทำนายหนึ่งตัวหรือมากกว่านั้นไม่ได้ถูกกระจายโดยทั่วไปอย่ามองไปที่พล็อตปกติ -QQ หรือถ้าข้อมูลล้มเหลวในการทดสอบ Shapiro-Wilk? ฉันเข้าใจว่าไม่มีการแบ่งสีดำและสีขาวอย่างหนักว่า 0.94 ถูกต้องและ 0.95 ไม่ถูกต้องและในคำถามฉันต้องการทราบว่า: ความล้มเหลวของภาวะปกตินั้นหมายถึงอะไรสำหรับแบบจำลองที่เหมาะสมตามค่า R-Squared มันเชื่อถือได้น้อยลงหรือไร้ประโยชน์อย่างสมบูรณ์หรือไม่? การเบี่ยงเบนนั้นยอมรับได้หรือว่ายอมรับได้ในระดับใด? เมื่อใช้การแปลงข้อมูลเพื่อให้เป็นไปตามเกณฑ์ปกติแบบจำลองจะดีขึ้นหรือไม่ถ้าข้อมูลเป็นปกติมากขึ้น (ค่า P-value ที่สูงกว่าในการทดสอบ Shapiro-Wilk, ดูดีขึ้นในแผน QQ ปกติ) หรือมันไร้ประโยชน์ (เท่าเทียมกันดีหรือ ไม่ดีเมื่อเทียบกับต้นฉบับ) จนกว่าข้อมูลจะผ่านการทดสอบตามปกติ?

6
ทำไมเราต้องมีการถดถอยหลายตัวแปร (ซึ่งต่างจากการถดถอยหลายตัวแปร)
ฉันเพียงแค่เรียกดูผ่านหนังสือที่ยอดเยี่ยมนี้: การประยุกต์ใช้การวิเคราะห์ทางสถิติหลายตัวแปรโดยจอห์นสันและ Wichern การประชดคือฉันยังคงไม่สามารถเข้าใจแรงจูงใจในการใช้แบบจำลองหลายตัวแปร (การถดถอย) แทนที่จะเป็นแบบจำลองแบบ univariate (การถดถอย) ที่แยกต่างหาก ฉันผ่าน stats.statexchange โพสต์ที่1และ2ที่อธิบาย (ก) ความแตกต่างระหว่างการถดถอยแบบหลายตัวแปรและหลายตัวแปรและ (b) การตีความผลการถดถอยหลายตัวแปร แต่ฉันไม่สามารถปรับแต่งการใช้แบบจำลองสถิติหลายตัวแปรจากข้อมูลทั้งหมดที่ฉัน ออนไลน์เกี่ยวกับพวกเขา คำถามของฉันคือ: ทำไมเราต้องมีการถดถอยหลายตัวแปร? อะไรคือข้อได้เปรียบของการพิจารณาผลลัพธ์พร้อมกันมากกว่าแต่ละรายการเพื่อที่จะทำการอนุมาน เมื่อใดจึงควรใช้แบบจำลองหลายตัวแปรและเมื่อใดจึงจะใช้แบบจำลองหลายตัวแปร (สำหรับหลายผลลัพธ์) ยกตัวอย่างที่ได้รับจากเว็บไซต์ของ UCLAด้วยผลลัพธ์สามประการ: สถานที่ควบคุม, แนวคิดของตัวเองและแรงจูงใจ ด้วยความเคารพต่อ 1 และ 2 เราสามารถเปรียบเทียบการวิเคราะห์เมื่อเราทำการถดถอยแบบหลายตัวแปรที่ไม่ซ้ำกันสามตัวเปรียบเทียบกับการถดถอยหลายตัวแปรแบบหลายตัวแปรได้หรือไม่ วิธีที่จะพิสูจน์ความชอบธรรมมากกว่ากันได้อย่างไร ฉันยังไม่ได้เจอกับเอกสารทางวิชาการมากมายที่ใช้ตัวแบบสถิติหลายตัวแปร นี่เป็นเพราะข้อสันนิษฐานของตัวแปรหลายตัวแปรความซับซ้อนของการปรับ / ตีความแบบจำลองหรือเหตุผลเฉพาะอื่น ๆ ?

3
วิธีจัดการกับความหลากสีเมื่อทำการเลือกตัวแปร?
ฉันมีชุดข้อมูลที่มีตัวแปรอิสระต่อเนื่อง 9 ตัว ฉันกำลังพยายามเลือกระหว่างตัวแปรเหล่านี้เพื่อให้พอดีกับแบบจำลองกับตัวแปรเปอร์เซ็นต์ (ขึ้นอยู่) เดียว, Score. น่าเสียดายที่ฉันรู้ว่าจะมีความร่วมมือกันอย่างจริงจังระหว่างตัวแปรหลายตัว ฉันได้ลองใช้stepAIC()ฟังก์ชั่นใน R เพื่อเลือกตัวแปร แต่วิธีการนั้นดูแปลกไปตามลำดับที่ตัวแปรถูกแสดงในสมการ ... นี่คือรหัส R ของฉัน (เนื่องจากเป็นข้อมูลเปอร์เซ็นต์ฉันใช้การแปลง logit สำหรับคะแนน): library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = …

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
จะบอกความแตกต่างระหว่างตัวแบบการถดถอยเชิงเส้นและแบบไม่เชิงเส้นได้อย่างไร?
ผมอ่านลิงค์ต่อไปนี้ไม่ใช่การถดถอยเชิงเส้นSAS องค์กรไม่เชิงเส้น ความเข้าใจของฉันจากการอ่านส่วนแรก "การถดถอยเชิงเส้นกับการถดถอยเชิงเส้น" คือว่าสมการด้านล่างนี้เป็นจริงแล้วการถดถอยเชิงเส้นนั้นถูกต้องหรือไม่ ถ้าเป็นเช่นนั้นทำไม y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c ฉันต้องเข้าใจด้วยหรือไม่ว่าในการถดถอยเชิงเส้นพหุสัมพันธ์ไม่ใช่ปัญหา? ฉันรู้ว่า multicollinearity สามารถเป็นปัญหาในการถดถอยเชิงเส้นได้ดังนั้นหากโมเดลข้างต้นเป็นจริงแล้วการถดถอยเชิงเส้นจะมีความหลากหลายทางชีวภาพหรือไม่

2
การแปลงตัวแปรสำหรับการถดถอยหลายครั้งใน R
ฉันพยายามทำการถดถอยหลายRครั้ง อย่างไรก็ตามตัวแปรตามของฉันมีพล็อตต่อไปนี้: นี่คือเมทริกซ์ scatterplot พร้อมตัวแปรทั้งหมดของฉัน ( WARเป็นตัวแปรตาม): ฉันรู้ว่าฉันต้องทำการเปลี่ยนแปลงในตัวแปรนี้ (และอาจเป็นตัวแปรอิสระหรือไม่?) แต่ฉันไม่แน่ใจว่าจำเป็นต้องมีการแปลงที่แน่นอนหรือไม่ ใครบางคนชี้ให้ฉันในทิศทางที่ถูกต้อง? ฉันยินดีที่จะให้ข้อมูลเพิ่มเติมเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม กราฟิกการวินิจฉัยจากการถดถอยของฉันมีลักษณะดังนี้: แก้ไข หลังจากเปลี่ยนตัวแปรตามและอิสระโดยใช้การแปลง Yeo-Johnson แผนการวินิจฉัยมีลักษณะดังนี้: ถ้าฉันใช้ GLM กับลิงค์ล็อกกราฟิกวินิจฉัยคือ:

4
การจัดลำดับความสำคัญของตัวแปรมีประโยชน์อย่างไร
ฉันกลายเป็นผู้ทำลายล้างบ้างเมื่อพูดถึงการจัดลำดับความสำคัญที่แปรผัน (ในบริบทของแบบจำลองหลายตัวแปรทุกชนิด) บ่อยครั้งในการทำงานของฉันฉันถูกขอให้ช่วยทีมอื่นสร้างการจัดลำดับความสำคัญของตัวแปรหรือสร้างการจัดลำดับความสำคัญของตัวแปรจากงานของฉันเอง ในการตอบสนองต่อคำขอเหล่านี้ฉันถามคำถามต่อไปนี้ คุณต้องการให้อันดับความสำคัญของตัวแปรนี้คืออะไร คุณหวังว่าจะเรียนรู้อะไรจากมัน? คุณต้องการใช้การตัดสินใจประเภทใด คำตอบที่ฉันได้รับมักจะตกอยู่ในหนึ่งในสองหมวดหมู่ ฉันต้องการทราบความสำคัญของตัวแปรต่าง ๆ ในแบบจำลองของฉันในการทำนายการตอบสนอง ฉันต้องการใช้สำหรับการเลือกคุณสมบัติโดยลบตัวแปรที่มีความสำคัญต่ำ คำตอบแรกคือ tautological (ฉันต้องการอันดับความสำคัญของตัวแปรเพราะฉันต้องการอันดับความสำคัญของตัวแปร) ฉันต้องสมมติว่าการจัดอันดับเหล่านี้เติมความต้องการทางด้านจิตใจเมื่อบริโภคผลลัพธ์ของแบบจำลองหลายตัวแปร ฉันมีเวลายากที่จะเข้าใจสิ่งนี้เนื่องจากการจัดอันดับตัวแปร "ความสำคัญ" เป็นรายบุคคลดูเหมือนจะปฏิเสธธรรมชาติหลายมิติของแบบจำลองในคำถาม การตอบสนองครั้งที่สองจะลดการเลือกย้อนหลังอย่างไม่เป็นทางการซึ่งเป็นความผิดทางสถิติซึ่งได้รับการบันทึกไว้อย่างดีในส่วนอื่น ๆ ของ ฉันยังต่อสู้กับธรรมชาติของการจัดอันดับความสำคัญที่กำหนดไว้อย่างไม่ดี ดูเหมือนจะมีข้อตกลงเล็ก ๆ น้อย ๆ เกี่ยวกับแนวคิดพื้นฐานที่การจัดอันดับควรวัดผล มีหลายวิธีในการกำหนดคะแนนความสำคัญหรือการจัดอันดับและโดยทั่วไปแล้วพวกเขาต้องทนทุกข์ทรมานจากข้อบกพร่องและคำเตือน: พวกเขาสามารถขึ้นอยู่กับอัลกอริทึมสูงเช่นเดียวกับในการจัดอันดับความสำคัญในป่าสุ่มและ gbms พวกเขาสามารถมีความแปรปรวนสูงมากเปลี่ยนไปอย่างมากกับการก่อกวนข้อมูลพื้นฐาน พวกเขาสามารถทนทุกข์ทรมานอย่างมากจากความสัมพันธ์ในการทำนายอินพุต ดังนั้นทั้งหมดที่กล่าวว่าคำถามของฉันคืออะไรการใช้การจัดอันดับความสำคัญของตัวแปรที่ถูกต้องคืออะไรหรืออะไรคือข้อโต้แย้งที่น่าเชื่อถือ (สำหรับนักสถิติหรือฆราวาส) สำหรับความไร้ประโยชน์ของความปรารถนาดังกล่าว? ฉันสนใจทั้งข้อโต้แย้งเชิงทฤษฎีทั่วไปและกรณีศึกษาแล้วแต่อย่างใดจะมีประสิทธิภาพมากขึ้นในการทำให้จุด

3
วิธีการจำลองการกระจายตัวที่มีรูปร่างแปลก ๆ นี้ (เกือบจะเป็น reverse-J)
ตัวแปรตามของฉันที่แสดงด้านล่างไม่ตรงกับการกระจายหุ้นใด ๆ ที่ฉันรู้ การถดถอยเชิงเส้นทำให้เกิดการตกค้างที่ไม่ปกติและเอียงไปทางขวาซึ่งสัมพันธ์กับการทำนาย Y ในวิธีที่แปลก (พล็อตที่ 2) คำแนะนำสำหรับการเปลี่ยนแปลงหรือวิธีอื่น ๆ เพื่อให้ได้ผลลัพธ์ที่ถูกต้องที่สุดและแม่นยำที่สุดในการคาดการณ์? หากเป็นไปได้ฉันต้องการหลีกเลี่ยงการจัดหมวดหมู่ที่เงอะงะพูดว่า 5 ค่า (เช่น 0, lo%, med%, hi%, 1)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.