คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
สองวิธีในการใช้ bootstrap เพื่อประเมินช่วงความมั่นใจของสัมประสิทธิ์ในการถดถอย
ฉันกำลังใช้โมเดลเชิงเส้นกับข้อมูลของฉัน: yi=β0+β1xi+ϵi,ϵi∼N(0,σ2).yi=β0+β1xi+ϵi,ϵi∼N(0,σ2). y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}). ฉันต้องการประเมินช่วงความมั่นใจ (CI) ของสัมประสิทธิ์ ( , ) โดยใช้วิธี bootstrap มีสองวิธีที่ฉันสามารถใช้วิธี bootstrap:β0β0\beta_{0}β1β1\beta_{1} ตัวอย่างการตอบสนอง - ทำนายการจับคู่: สุ่มสุ่มคู่ของและนำการถดถอยเชิงเส้นไปใช้กับการวิ่งแต่ละครั้ง หลังจากที่วิ่งเราได้รับคอลเลกชันของสัมประสิทธิ์ประมาณเมตร สุดท้ายคำนวณ quantile ของ{J}}}yi−xiyi−xiy_{i}-x_{i}mmmβj^,j=1,...mβj^,j=1,...m{\hat{\beta_{j}}}, j=1,...mβj^βj^{\hat{\beta_{j}}} ข้อผิดพลาดตัวอย่าง: ครั้งแรกที่ใช้การถดถอยเชิงเส้นกับข้อมูลที่สังเกตเดิมจากรุ่นนี้เราได้รับและข้อผิดพลาด{i} หลังจากนั้นให้สุ่มข้อผิดพลาดอีกครั้งและคำนวณข้อมูลใหม่ด้วยและ {i} ใช้การถดถอยเชิงเส้นอีกครั้ง หลังจากที่วิ่งเราได้รับคอลเลกชันของ coefficeints ประมาณม. สุดท้ายคำนวณ quantile ของ{J}}}βo^βo^\hat{\beta_{o}}ϵiϵi\epsilon_{i}ϵ∗iϵi∗\epsilon^{*}_{i}βo^βo^\hat{\beta_{o}}y∗i=βo^xi+ϵ∗iyi∗=βo^xi+ϵi∗y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}mmmβj^,j=1,...,mβj^,j=1,...,m{\hat{\beta_{j}}}, j=1,...,mβj^βj^{\hat{\beta_{j}}} คำถามของฉันคือ: วิธีการทั้งสองนี้แตกต่างกันอย่างไร ภายใต้สมมติฐานสองข้อใดที่ให้ผลลัพธ์เหมือนกัน

3
วิธีการคำนวณความดีของความพอดีใน glm (R)
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 6 ปีที่แล้ว ฉันมีผลลัพธ์ต่อไปนี้จากการเรียกใช้ฟังก์ชัน glm ฉันจะตีความค่าต่อไปนี้ได้อย่างไร: ความเบี่ยงเบนว่างเปล่า ความเบี่ยงเบนตกค้าง AIC พวกเขามีบางสิ่งที่เกี่ยวข้องกับความดีงามของร่างกายหรือไม่? ฉันสามารถคำนวณความพอดีที่ได้จากผลลัพธ์เหล่านี้เช่น R-square หรือการวัดอื่น ๆ ได้หรือไม่? Call: glm(formula = tmpData$Y ~ tmpData$X1 + tmpData$X2 + tmpData$X3 + as.numeric(tmpData$X4) + tmpData$X5 + tmpData$X6 + tmpData$X7) Deviance Residuals: Min 1Q Median 3Q Max -0.52628 -0.24781 -0.02916 0.25581 0.48509 Coefficients: …

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

5
ความหมายเชิงสัญชาตญาณของการมีความสัมพันธ์เชิงเส้นระหว่างบันทึกของตัวแปรสองตัวคืออะไร?
ฉันมีตัวแปรสองตัวที่ไม่แสดงความสัมพันธ์มากนักเมื่อพล็อตต่อกันอย่างที่เป็นอยู่ แต่ความสัมพันธ์เชิงเส้นที่ชัดเจนมากเมื่อฉันพล็อตบันทึกของตัวแปรแต่ละตัวจะมีความสัมพันธ์กัน ดังนั้นฉันจะจบลงด้วยรูปแบบของประเภท: log(Y)=alog(X)+blog⁡(Y)=alog⁡(X)+b\log(Y) = a \log(X) + bซึ่งยอดเยี่ยมในเชิงคณิตศาสตร์ แต่ดูเหมือนจะไม่มีค่าที่อธิบายได้ของตัวแบบเชิงเส้นปกติ ฉันจะตีความรูปแบบดังกล่าวได้อย่างไร

1
การถดถอยสำหรับตัวแปรอิสระอย่างเด็ดขาดและขึ้นอยู่กับอย่างต่อเนื่อง
ฉันเพิ่งรู้ว่าฉันได้ทำงานเสมอปัญหาการถดถอยที่ตัวแปรอิสระเป็นตัวเลขเสมอ ฉันสามารถใช้การถดถอยเชิงเส้นในกรณีที่ตัวแปรอิสระทั้งหมดจัดหมวดหมู่ได้หรือไม่?

1
ทำไม LASSO ถึงไม่หาคู่ทำนายที่สมบูรณ์แบบของฉันในมิติที่สูง?
ฉันใช้การทดลองเล็ก ๆ กับ LASSO regression ใน R เพื่อทดสอบว่ามันสามารถหาคู่ทำนายที่สมบูรณ์แบบได้หรือไม่ ทั้งคู่มีการกำหนดดังนี้: f1 + f2 = result ผลลัพธ์ที่ได้คือเวกเตอร์ที่กำหนดไว้ล่วงหน้าที่เรียกว่า 'อายุ' F1 และ f2 ถูกสร้างขึ้นโดยใช้เวกเตอร์อายุครึ่งหนึ่งและตั้งค่าที่เหลือเป็น 0 ตัวอย่างเช่น: age = [1,2,3,4,5,6], f1 = [1,2,3, 0,0,0] และ f2 = [0,0,0,4,5,6] ฉันรวมคู่ทำนายนี้กับจำนวนที่เพิ่มขึ้นของตัวแปรที่สร้างแบบสุ่มโดยการสุ่มตัวอย่างจากการแจกแจงปกติ N (1,1) สิ่งที่ฉันเห็นคือเมื่อฉันกด 2 ^ 16 ตัวแปร LASSO ไม่พบคู่ของฉันอีกต่อไป ดูผลลัพธ์ด้านล่าง ทำไมสิ่งนี้จึงเกิดขึ้น คุณสามารถทำซ้ำผลลัพธ์ด้วยสคริปต์ด้านล่าง ฉันสังเกตว่าเมื่อฉันเลือกเวกเตอร์อายุที่แตกต่างกันเช่น: [1: 193] ดังนั้น …

1
จาก Bayesian Networks ไปยัง Neural Networks: วิธีการถดถอยหลายตัวแปรสามารถเปลี่ยนเป็นเครือข่ายหลายเอาท์พุทได้อย่างไร
ฉันกำลังจัดการกับโมเดลเชิงเส้นลำดับชั้นแบบเบย์ที่นี่เครือข่ายอธิบาย YYYหมายถึงยอดขายสินค้ารายวันในซูเปอร์มาร์เก็ต (ปฏิบัติตาม) XXXเป็นเมทริกซ์ที่รู้จักกันดีของผู้ถดถอยซึ่งรวมถึงราคาโปรโมชั่นวันของสัปดาห์สภาพอากาศวันหยุด 1SSSคือระดับสินค้าคงคลังแฝงที่ไม่รู้จักของแต่ละผลิตภัณฑ์ซึ่งทำให้เกิดปัญหามากที่สุดและฉันพิจารณาเวกเตอร์ของตัวแปรไบนารีหนึ่งรายการสำหรับแต่ละผลิตภัณฑ์ที่มีบ่งบอกถึงการออกจากสต็อคและดังนั้นความไม่พร้อมใช้งานของผลิตภัณฑ์ แม้ว่าในทางทฤษฎีไม่ทราบว่าฉันประเมินมันผ่าน HMM สำหรับแต่ละผลิตภัณฑ์ดังนั้นจึงถือได้ว่าเป็นที่รู้จักกันในชื่อ X.ฉันเพิ่งตัดสินใจปลดมันเพื่อพิธีการที่เหมาะสม111 ηη\etaเป็นพารามิเตอร์เอฟเฟกต์แบบผสมสำหรับผลิตภัณฑ์ใด ๆ ก็ตามที่พิจารณาถึงผลกระทบแบบผสมคือราคาผลิตภัณฑ์โปรโมชั่นและสต็อกสินค้า b 1 b 2ββ\betaคือเวกเตอร์ของสัมประสิทธิ์การถดถอยคงที่ในขณะที่และเป็นเวกเตอร์ของสัมประสิทธิ์ผลกระทบผสม กลุ่มหนึ่งบ่งบอกถึงแบรนด์และอีกกลุ่มระบุถึงรสชาติ (นี่คือตัวอย่างในความเป็นจริงฉันมีหลายกลุ่ม แต่ที่นี่ฉันรายงานเพียง 2 เพื่อความชัดเจน)ข1ข1b_1ข2ข2b_2 Σ ข1 Σ ข2ΣηΣη\Sigma_{\eta} ,และเป็นเหนือเอฟเฟกต์ผสมΣข1Σข1\Sigma_{b_1}Σข2Σข2\Sigma_{b_2} เนื่องจากฉันมีข้อมูลจำนวนมากสมมติว่าฉันปฏิบัติต่อยอดขายแต่ละครั้งเนื่องจาก Poisson กระจายเงื่อนไขบน Regressors (แม้ว่าสำหรับผลิตภัณฑ์บางอย่างการประมาณเชิงเส้นจะถือและสำหรับคนอื่นแบบจำลองที่สูงเกินศูนย์จะดีกว่า) ในกรณีเช่นนี้ฉันจะมีผลิตภัณฑ์ ( นี่เป็นเพียงสำหรับผู้ที่สนใจในแบบจำลอง Bayesian เองข้ามไปที่คำถามหากคุณพบว่ามันไม่น่าสนใจหรือไม่สำคัญ :) ):YYY Ση∼ ฉันW( α0, γ0)Ση~ผมW(α0,γ0)\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0) Σข1∼ ฉันW( α1, γ1)Σข1~ผมW(α1,γ1)\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1) …

5
ข้อสันนิษฐานของการถดถอยพหุคูณ: สมมติฐานเชิงบรรทัดฐานแตกต่างจากสมมติฐานความแปรปรวนคงที่อย่างไร
ฉันอ่านว่าสิ่งเหล่านี้เป็นเงื่อนไขสำหรับการใช้แบบจำลองการถดถอยหลายแบบ: รูปแบบที่เหลือเกือบปกติ ความแปรปรวนของส่วนที่เหลือเกือบคงที่ ส่วนที่เหลือมีความเป็นอิสระและ แต่ละตัวแปรมีความสัมพันธ์เชิงเส้นตรงกับผลลัพธ์ 1 และ 2 แตกต่างกันอย่างไร คุณสามารถดูได้ที่นี่: กราฟข้างบนบอกว่าส่วนที่เหลือซึ่งคือ 2 ส่วนเบี่ยงเบนมาตรฐานอยู่ 10 ห่างจาก Y-hat นั่นหมายความว่าส่วนที่เหลือจะเป็นไปตามการแจกแจงแบบปกติ คุณไม่สามารถอนุมาน 2 จากนี้ได้ใช่ไหม ความแปรปรวนของค่าคงที่เกือบคงที่หรือไม่

2
พิสูจน์ว่าสถิติ F ตามการกระจายตัวของ F
ในแง่ของคำถามนี้: พิสูจน์ว่าสัมประสิทธิ์ในแบบจำลอง OLS เป็นไปตามการแจกแจงแบบ t- ด้วย (nk) องศาอิสระ ฉันชอบที่จะเข้าใจว่าทำไม F=(TSS−RSS)/(p−1)RSS/(n−p),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, โดยที่คือจำนวนพารามิเตอร์โมเดลและจำนวนการสังเกตและความแปรปรวนรวม,ค่าความแปรปรวนที่เหลือตามการกระจายn T S S R S S F พี- 1 , n - พีpppnnnTSSTSSTSSRSSRSSRSSFp−1,n−pFp−1,n−pF_{p-1,n-p} ฉันต้องยอมรับว่าฉันไม่ได้พยายามพิสูจน์มันเพราะฉันไม่รู้ว่าจะเริ่มจากตรงไหน

1
Howlers เกิดจากการใช้การถดถอยแบบขั้นตอน
ฉันตระหนักดีถึงปัญหาของการเลือกตามขั้นตอน / ไปข้างหน้า / ถอยหลังในตัวแบบการถดถอย มีหลายกรณีที่นักวิจัยประนามวิธีและชี้ทางเลือกที่ดีกว่า ฉันอยากรู้ว่ามีเรื่องราวใดบ้างที่มีอยู่ที่การวิเคราะห์ทางสถิติ: ใช้การถดถอยแบบขั้นตอน ทำข้อสรุปที่สำคัญบางประการตามโมเดลสุดท้าย ข้อสรุปนั้นผิดส่งผลลบต่อบุคคลการวิจัยหรือองค์กรของพวกเขา ความคิดของฉันเกี่ยวกับเรื่องนี้หากวิธีการแบบขั้นตอนไม่ดีแล้วก็ควรจะมีผลตามมาใน "โลกแห่งความจริง" สำหรับการใช้มัน

1
การพิสูจน์ค่าสัมประสิทธิ์การหดตัวโดยใช้การถดถอยแบบสันผ่าน“ การสลายตัวของสเปกตรัม”
ฉันเข้าใจว่าการถดถอยของสันเขาลดค่าสัมประสิทธิ์ไปสู่ศูนย์ทางเรขาคณิต ยิ่งไปกว่านั้นฉันรู้วิธีที่จะพิสูจน์ว่าในกรณีพิเศษ "Orthonormal" แต่ฉันสับสนว่ามันทำงานอย่างไรในกรณีทั่วไปผ่าน "การสลายตัวทางสเปกตรัม"

5
เรายังต้องเลือกคุณสมบัติในขณะใช้อัลกอริทึม
ฉันมีคำถามหนึ่งข้อที่ต้องใช้วิธีการเลือกคุณลักษณะ (สุ่มป่าคุณลักษณะค่าความสำคัญหรือวิธีการเลือกคุณสมบัติแบบไม่รวมตัวแปร) ก่อนใช้อัลกอริทึมการเรียนรู้เชิงสถิติ เรารู้ว่าเพื่อหลีกเลี่ยงการ overfitting เราสามารถแนะนำการปรับความสม่ำเสมอในเวกเตอร์น้ำหนัก ดังนั้นถ้าฉันต้องการทำการถดถอยเชิงเส้นจากนั้นฉันสามารถแนะนำ L2 หรือ L1 หรือแม้แต่พารามิเตอร์การทำให้เป็นมาตรฐานสุทธิยืดหยุ่น ในการรับโซลูชันที่กระจัดกระจายการลงโทษ L1 จะช่วยในการเลือกคุณลักษณะ ถ้าอย่างนั้นก็ยังต้องเลือกคุณสมบัติก่อนใช้การถดถอยปกติของ L1 เช่น Lasso? ในทางเทคนิค Lasso ช่วยฉันลดฟีเจอร์ด้วยการลงโทษ L1 แล้วทำไมต้องเลือกฟีเจอร์ก่อนใช้งาน algo? ฉันอ่านบทความวิจัยที่บอกว่าการทำ Anova จากนั้น SVM ให้ประสิทธิภาพที่ดีกว่าการใช้ SVM เพียงอย่างเดียว ตอนนี้คำถามคือ: SVM ทำการทำให้เป็นมาตรฐานโดยใช้ L2 เป็นประจำ เพื่อให้ได้มาร์จิ้นที่มากที่สุดก็คือการลดขนาดของเวกเตอร์น้ำหนัก ดังนั้นมันจึงทำให้เป็นมาตรฐานในฟังก์ชันวัตถุประสงค์ ถ้าเช่นนั้นอัลกอริทึมทางเทคนิคเช่น SVM ไม่ควรกังวลเกี่ยวกับวิธีการเลือกคุณสมบัติหรือไม่ แต่รายงานยังคงกล่าวว่าการเลือกคุณลักษณะ Univariate ก่อน SVM ปกติจะมีประสิทธิภาพมากกว่า ใครที่มีความคิด

1
วิธีการใช้วิธีเดลต้าสำหรับข้อผิดพลาดมาตรฐานของผลกระทบเล็กน้อย?
ฉันสนใจที่จะเข้าใจวิธีการเดลต้าในการประมาณข้อผิดพลาดมาตรฐานของผลกระทบส่วนเพิ่มโดยเฉลี่ยของตัวแบบการถดถอยซึ่งรวมถึงคำศัพท์การโต้ตอบ ฉันได้ดูคำถามที่เกี่ยวข้องภายใต้วิธีเดลต้าแต่ไม่มีผู้ใดได้ให้สิ่งที่ฉันกำลังมองหา พิจารณาข้อมูลตัวอย่างต่อไปนี้เป็นตัวอย่างที่สร้างแรงบันดาลใจ: set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) ฉันสนใจในผลกระทบที่ขอบเฉลี่ย (อาเมส) ของและx1 x2ในการคำนวณเหล่านี้ฉันทำต่อไปนี้: cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of …

1
วิธีรับค่าของ Mean squared error ในการถดถอยเชิงเส้นใน R
ปล่อยให้โมเดลการถดถอยเชิงเส้นที่ได้รับจากฟังก์ชัน R ต้องการทราบว่าเป็นไปได้ที่จะได้รับจากคำสั่ง Mean Squared Error ฉันมีตัวอย่างผลลัพธ์ต่อไปนี้ > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 156.3466 5.5123 28.36 <2e-16 *** Age -1.1900 …
20 r  regression  error 

3
ค่าสัมประสิทธิ์แบบทดสอบ (ความชันถดถอย) เทียบกับค่าบางค่า
ใน R เมื่อฉันมี (ทั่วไป) โมเดลเชิงเส้นตรง ( lm, glm, gls, glmm, ... ) วิธีที่ฉันสามารถทดสอบค่าสัมประสิทธิ์ (ถดถอยลาด) กับค่าอื่น ๆ ที่ไม่ใช่ 0? ในบทสรุปของแบบจำลองนั้นมีการรายงานผลการทดสอบค่าสัมประสิทธิ์ t-test โดยอัตโนมัติ แต่สำหรับการเปรียบเทียบกับ 0 ฉันต้องการเปรียบเทียบกับค่าอื่น ฉันรู้ว่าฉันสามารถใช้เคล็ดลับที่มี reparametrizing y ~ xเป็นy - T*x ~ xที่Tเป็นค่าการทดสอบและใช้รูปแบบ reparametrized นี้ แต่ฉันหาทางออกที่ง่ายที่จะเป็นไปได้ที่การทำงานในรูปแบบเดิม
20 r  regression  t-test 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.