คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
การอนุมานในตัวแบบเชิงเส้นที่มีความต่างกันแบบเชิงเงื่อนไข
สมมติว่าฉันสังเกตเวกเตอร์ตัวแปรอิสระ x⃗ x→\vec{x} และ Z⃗ z→\vec{z} และตัวแปรตาม Yyy. ฉันต้องการให้พอดีกับรูปแบบของแบบฟอร์ม: Y=x⃗ ⊤β1→+ σก.(Z⃗ ⊤β2→) ϵ,y=x→⊤β1→+σg(z→⊤β2→)ϵ,y = \vec{x}^{\top}\vec{\beta_1} + \sigma g\left(\vec{z}^{\top} \vec{\beta_2}\right) \epsilon, ที่ไหน ก.gg เป็นฟังก์ชันที่มีค่าเป็นบวกสองเท่า σσ\sigma เป็นพารามิเตอร์การปรับขนาดที่ไม่รู้จักและ εϵ\epsilon เป็นหน่วยสุ่มแปรปรวนแบบเกาส์ค่าศูนย์ค่าเฉลี่ย (สันนิษฐานว่าเป็นอิสระจาก x⃗ x→\vec{x} และ Z⃗ z→\vec{z}) นี่คือการตั้งค่าการทดสอบของ heteroskedasticity ของ Koenker (อย่างน้อยก็เท่าที่ฉันเข้าใจ) ฉันมี nnn จากการสังเกตของ x⃗ ,Z⃗ x→,z→\vec{x}, \vec{z} และ Yyyและฉันต้องการประเมิน β1→β1→\vec{\beta_1} และ …

2
ในการตั้งค่าใดที่คุณคาดว่ารุ่นที่พบโดย LARS จะแตกต่างจากรุ่นที่พบโดยการค้นหาแบบละเอียด
ข้อมูลเพิ่มเติมอีกเล็กน้อย สมมติว่า คุณทราบมาก่อนแล้วว่ามีตัวแปรให้เลือกจำนวนเท่าใดและคุณได้ตั้งค่าการลงโทษที่ซับซ้อนในขั้นตอน LARS เช่นมีตัวแปรหลายตัวที่มีค่าสัมประสิทธิ์ไม่ใช่ 0 ค่าใช้จ่ายในการคำนวณไม่ใช่ปัญหา (จำนวนตัวแปรทั้งหมดมีค่าน้อยพูด 50) ตัวแปรทั้งหมด (y, x) นั้นต่อเนื่อง แบบจำลอง LARS ในการตั้งค่าแบบใด (เช่น OLS พอดีของตัวแปรที่มีค่าสัมประสิทธิ์ไม่ใช่ศูนย์ใน LARS พอดี) จะแตกต่างจากแบบจำลองที่มีค่าสัมประสิทธิ์จำนวนเท่ากัน แต่พบได้จากการค้นหาแบบละเอียด (a la regsubsets ()) แก้ไข: ฉันใช้ 50 ตัวแปรและ 250 การสังเกตด้วยสัมประสิทธิ์จริงที่ดึงมาจาก Gaussian มาตรฐานยกเว้น 10 ตัวแปรที่มีค่าสัมประสิทธิ์ 'ของจริง' เป็น 0 (และคุณลักษณะทั้งหมดที่มีความสัมพันธ์กันอย่างมาก) เห็นได้ชัดว่าการตั้งค่าเหล่านี้ไม่ดีเนื่องจากความแตกต่างระหว่างชุดตัวแปรที่เลือกสองชุดคือนาที นี่เป็นคำถามเกี่ยวกับประเภทของการกำหนดค่าข้อมูลที่ควรจำลองเพื่อให้ได้ความแตกต่างมากที่สุด

2
จะทดสอบว่าสัมประสิทธิ์การถดถอยนั้นมีการควบคุมโดยตัวแปรการจัดกลุ่มหรือไม่?
ฉันได้ทำการถดถอยกับกลุ่มตัวอย่างสองกลุ่มโดยใช้ตัวแปรตัวควบคุม (พูดเพศ) ฉันกำลังทำการทดสอบอย่างง่ายสำหรับเอฟเฟกต์การตรวจสอบโดยการตรวจสอบว่าความสำคัญของการถดถอยนั้นหายไปในหนึ่งชุดขณะที่ยังคงอยู่ในอีกชุดหนึ่งหรือไม่ Q1: วิธีการข้างต้นถูกต้องใช่ไหม Q2: ระดับความมั่นใจในการวิจัยของฉันตั้งไว้ที่ 95% สำหรับกลุ่มหนึ่งการถดถอยมีนัยสำคัญที่. 000 สำหรับคนอื่น ๆ มันมีความสำคัญที่ 0.038 ดังนั้นฉันเชื่อว่าฉันต้องยอมรับการถดถอยทั้งสองอย่างมีนัยสำคัญและไม่มีผลการกลั่นกรอง โดยการยอมรับการถดถอยมีความสำคัญในขณะที่มันพิสูจน์แล้วว่าไม่ได้อยู่ที่ 0.01 น. ฉันทำให้เกิดข้อผิดพลาด Type I (ยอมรับอาร์กิวเมนต์ที่ผิดพลาด)?

2
เหตุใด R จึงวางแผนส่วนที่เหลือเป็นมาตรฐานเทียบกับปริมาณเชิงทฤษฎีในพล็อต QQ
ใน R ทำไมการตั้งค่าเริ่มต้นของการqqplot(linear model)ใช้ค่ามาตรฐานในแกน y? เหตุใด R จึงไม่ใช้ส่วนที่เหลือ "ปกติ"

1
พหุนามถดถอยพหุคูณหลายตัวแปร?
ในฐานะที่เป็นวิธีการสร้างแรงจูงใจคำถามพิจารณาปัญหา regresison ที่เราพยายามที่จะประเมินโดยใช้ตัวแปรสังเกตYYY{ a , b }{a,ข}\{ a, b \} เมื่อทำการรวมหลายตัวแปรพหุนามกลับมาอีกครั้งฉันพยายามค้นหาการหาค่าพารามิเตอร์ที่เหมาะสมที่สุดของฟังก์ชัน ฉ( y) =ค1a +ค2b +ค3a2+ค4a b +ค5ข2+ ⋯ฉ(Y)=ค1a+ค2ข+ค3a2+ค4aข+ค5ข2+⋯f(y)=c_{1}a+c_{2}b+c_{3}a^{2}+c_{4}ab+c_{5}b^{2}+\cdots ซึ่งเหมาะสมกับข้อมูลในแง่ที่น้อยที่สุด อย่างไรก็ตามปัญหาเกี่ยวกับสิ่งนี้คือพารามิเตอร์ไม่ได้เป็นอิสระ มีวิธีการถดถอยในเวกเตอร์ "พื้นฐาน" ที่แตกต่างกันซึ่งเป็นมุมฉากหรือไม่? การทำเช่นนี้มีข้อดีที่ชัดเจนมากมายคผมคผมc_i 1) สัมประสิทธิ์ไม่มีความสัมพันธ์กันอีกต่อไป 2) ค่าของนั้นไม่ขึ้นอยู่กับระดับของสัมประสิทธิ์อีกต่อไป 3) สิ่งนี้ยังมีข้อได้เปรียบในการคำนวณของความสามารถในการวางเงื่อนไขการสั่งซื้อที่สูงขึ้นสำหรับ coarser แต่ยังคงการประมาณที่ถูกต้องกับข้อมูลคผมคผมc_i สิ่งนี้สามารถทำได้อย่างง่ายดายในกรณีตัวแปรเดี่ยวโดยใช้พหุนาม orthogonal โดยใช้ชุดการศึกษาที่ดีเช่น Chebyshev Polynomials อย่างไรก็ตามมันก็ไม่ชัดเจน (สำหรับฉัน) วิธีการพูดคุยเรื่องนี้! มันเกิดขึ้นกับฉันที่ฉันสามารถพหุนาม chebyshev polynomials เป็นคู่ แต่ฉันไม่แน่ใจว่าเป็นสิ่งที่ถูกต้องทางคณิตศาสตร์ที่ต้องทำ ความช่วยเหลือของคุณได้รับการชื่นชม

1
จำเป็นต้องมีการนับศูนย์สำหรับการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลปัวซอง / loglinear หรือไม่
หากมี 0 อยู่ในตารางฉุกเฉินและเรากำลังจัดวางแบบจำลอง Poisson / loglinear ที่ซ้อนกัน (ใช้glmฟังก์ชั่นR ) สำหรับการทดสอบอัตราส่วนความน่าจะเป็นเราจำเป็นต้องปรับข้อมูลก่อนที่จะติดตั้งแบบจำลอง glm (เช่นเพิ่ม 1/2 ลงในทั้งหมด จำนวน) เห็นได้ชัดว่าบางพารามิเตอร์ไม่สามารถประมาณได้หากไม่มีการปรับ แต่การปรับ / ขาดการปรับมีผลต่อการทดสอบ LR อย่างไร

4
ลำดับของตัวแปรมีความสำคัญในการถดถอยเชิงเส้นหรือไม่
ฉันกำลังตรวจสอบความสัมพันธ์ระหว่างตัวแปรสองตัว (x1x1x_1 และ x2x2x_2) มีความสัมพันธ์เชิงเส้นตรงมากระหว่างตัวแปรเหล่านี้ด้วยr > 0.9r>0.9r>0.9. จากลักษณะของปัญหาฉันไม่สามารถพูดอะไรเกี่ยวกับสาเหตุได้ (ไม่ว่าจะเป็นx1x1x_1 สาเหตุ x2x2x_2หรือวิธีอื่น ๆ ) ฉันต้องการศึกษาการเบี่ยงเบนจากเส้นการถดถอยเพื่อตรวจหาค่าผิดปกติ ในการทำเช่นนี้ฉันสามารถสร้างการถดถอยเชิงเส้นของx1x1x_1 เป็นหน้าที่ของ x2x2x_2หรือวิธีอื่น ๆ การเลือกคำสั่งผันแปรของฉันมีผลต่อผลลัพธ์ของฉันหรือไม่

1
การทดสอบการเปลี่ยนแปลงแบบสุ่มสำหรับการเลือกคุณสมบัติ
ฉันสับสนเกี่ยวกับการวิเคราะห์การเปลี่ยนแปลงสำหรับการเลือกคุณสมบัติในบริบทการถดถอยโลจิสติก คุณสามารถให้คำอธิบายที่ชัดเจนเกี่ยวกับการทดสอบการเปลี่ยนรูปแบบสุ่มและนำไปใช้กับการเลือกคุณสมบัติได้อย่างไร อาจเป็นไปได้ด้วยอัลกอริทึมและตัวอย่างที่แน่นอน ในที่สุดมันเปรียบเทียบกับวิธีการหดตัวแบบอื่นเช่น Lasso หรือ LAR อย่างไร

4
โซลูชันการวิเคราะห์การประมาณค่าสัมประสิทธิ์การถดถอยเชิงเส้น
ฉันพยายามที่จะเข้าใจสัญลักษณ์ของเมทริกซ์และทำงานกับเวกเตอร์และเมทริกซ์ ตอนนี้ฉันต้องการที่จะเข้าใจว่าเวกเตอร์ของการประมาณค่าสัมประสิทธิ์ในการคำนวณหลายถดถอยβ^β^\hat{\beta} สมการพื้นฐานดูเหมือนจะเป็น ddβ(y−Xβ)′(y−Xβ)=0.ddβ(y−Xβ)′(y−Xβ)=0. \frac{d}{d\boldsymbol{\beta}} (\boldsymbol{y}-\boldsymbol{X\beta})'(\boldsymbol{y}-\boldsymbol{X\beta}) = 0 \>. ตอนนี้ฉันจะแก้ปัญหาสำหรับ vector ββ\betaที่นี่ได้อย่างไร แก้ไข : เดี๋ยวก่อนฉันติดอยู่ ฉันมาที่นี่แล้วและไม่รู้จะทำอย่างไรต่อ: ddβ⎛⎝⎜(y1y2⋮yn)−⎛⎝⎜11⋮1x11x21xn1x12x22xn2………x1px2p⋮xnp⎞⎠⎟⎛⎝⎜β0β1⋮βp⎞⎠⎟⎞⎠⎟′⎛⎝⎜(y1y2⋮yn)−⎛⎝⎜11⋮1x11x21xn1x12x22xn2………x1px2p⋮xnp⎞⎠⎟⎛⎝⎜β0β1⋮βp⎞⎠⎟⎞⎠⎟ddβ((y1y2⋮yn)−(1x11x12…x1p1x21x22…x2p⋮⋮1xn1xn2…xnp)(β0β1⋮βp))′((y1y2⋮yn)−(1x11x12…x1p1x21x22…x2p⋮⋮1xn1xn2…xnp)(β0β1⋮βp)) \frac{d}{d{\beta}} \left( \left(\begin{smallmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{smallmatrix}\right) - \left(\begin{smallmatrix} 1 & x_{11} & x_{12} & \dots & x_{1p} \\ 1 & x_{21} & x_{22} & \dots & x_{2p} \\ …

1
การใช้สัมประสิทธิ์การกำหนดบางส่วน
ใครบ้างมีคำแนะนำหรือแพ็คเกจที่จะคำนวณค่าสัมประสิทธิ์ของการตัดสินใจบางส่วน? สัมประสิทธิ์ของการตัดสินใจบางส่วนสามารถกำหนดเป็นร้อยละของการเปลี่ยนแปลงที่ไม่สามารถอธิบายได้ในรูปแบบที่ลดลง แต่สามารถอธิบายได้โดยตัวทำนายที่ระบุไว้ในแบบจำลอง (เอ้อ) สัมประสิทธิ์นี้ใช้เพื่อให้เข้าใจว่าตัวทำนายเพิ่มเติมหนึ่งตัวหรือมากกว่านั้นอาจมีประโยชน์ในตัวแบบการถดถอยที่ระบุอย่างสมบูรณ์ การคำนวณสำหรับ r ^ 2 บางส่วนนั้นค่อนข้างตรงไปตรงมาหลังจากการประเมินสองโมเดลของคุณและสร้างตาราง ANOVA สำหรับพวกเขา การคำนวณสำหรับ r ^ 2 บางส่วนคือ: (SSEreduced - SSEfull) / SSEreduced ฉันได้เขียนฟังก์ชันที่ค่อนข้างง่ายซึ่งจะคำนวณสิ่งนี้สำหรับตัวแบบถดถอยเชิงเส้นหลายแบบ ฉันไม่คุ้นเคยกับโครงสร้างรุ่นอื่น ๆ ใน R ที่ฟังก์ชั่นนี้อาจทำงานได้ไม่ดี: partialR2 <- function(model.full, model.reduced){ anova.full <- anova(model.full) anova.reduced <- anova(model.reduced) sse.full <- tail(anova.full$"Sum Sq", 1) sse.reduced <- tail(anova.reduced$"Sum Sq", 1) pR2 <- …
9 r  regression  anova 

1
การใช้การสลายตัวของค่าเอกฐานเพื่อคำนวณความแปรปรวนร่วมแปรปรวนเมทริกซ์จากตัวแบบการถดถอยเชิงเส้น
ฉันมีเมทริกซ์การออกแบบของ p regressors, การสังเกต n และฉันพยายามคำนวณเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมตัวอย่างของพารามิเตอร์ ฉันพยายามคำนวณโดยตรงโดยใช้ svd ฉันใช้ R เมื่อฉันใช้เมทริกซ์การออกแบบฉันจะได้สามองค์ประกอบ: เมทริกซ์ ยูUU ซึ่งเป็น n × pn×pn \times pเมทริกซ์ DDD ซึ่งเป็น 1 × 31×31\times 3 (ค่าลักษณะเฉพาะน่าจะเป็น) และเมทริกซ์ VVV ซึ่งเป็น 3 × 33×33\times 3. ฉันทแยงมุมDDDทำให้มันเป็น 3 × 33×33\times 3 เมทริกซ์ที่มี 0 อยู่ในแนวทแยงมุม คาดคะเนสูตรการแปรปรวนร่วมคือ: VD2V'VD2V′V D^2 V'แต่เมทริกซ์ไม่ตรงและไม่เป็นมันได้ใกล้เคียงกับ R vcovที่สร้างขึ้นในฟังก์ชั่น ใครบ้างมีคำแนะนำ …
9 r  regression 

1
การถดถอยมุมน้อยทำให้ค่าสหสัมพันธ์ลดลงและโยงกัน?
ฉันพยายามที่จะแก้ปัญหาอย่างน้อยการถดถอยมุม (LAR) นี่เป็นปัญหา3.23ในหน้า97ของHastie et al., องค์ประกอบของการเรียนรู้ทางสถิติ, อันดับที่ 2 เอ็ด (พิมพ์ครั้งที่ 5) พิจารณาปัญหาการถดถอยกับตัวแปรทั้งหมดและการตอบสนองที่มีค่าเฉลี่ยเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานหนึ่ง สมมติว่าตัวแปรแต่ละตัวมีความสัมพันธ์แบบสัมบูรณ์เหมือนกันกับการตอบสนอง: 1ยังไม่มีข้อความ| ⟨xJ, y ⟩ | = λ , J = 1 , . . , p1N|⟨xj,y⟩|=λ,j=1,...,p \frac{1}{N} | \left \langle \bf{x}_j, \bf{y} \right \rangle | = \lambda, j = 1, ..., p ปล่อยเป็นสัมประสิทธิ์กำลังสองน้อยที่สุดของใน\ mathbf {X}และปล่อยให้\ mathbf {u} …

4
อะไรคือสมมติฐานสำหรับการใช้แบบจำลองการถดถอยของ Tobit?
ความรู้พื้นฐานของฉันเกี่ยวกับแบบจำลองการถดถอยของ Tobit ไม่ได้มาจากชั้นเรียนอย่างที่ฉันต้องการ แต่ฉันได้รับข้อมูลบางส่วนที่นี่และผ่านการค้นหาทางอินเทอร์เน็ตหลายครั้ง เดาที่ดีที่สุดของฉันที่สมมติฐานสำหรับการถดถอยที่ถูกตัดทอนคือพวกเขาจะคล้ายกับสมมติฐานน้อยที่สุดธรรมดา (OLS) ฉันไม่รู้ว่ามันถูกต้องมั้ย ดังนั้นคำถามของฉัน: อะไรคือสมมติฐานที่ฉันควรตรวจสอบเมื่อดำเนินการถดถอย Tobit? หมายเหตุ: รูปแบบดั้งเดิมของคำถามนี้เรียกว่าการถดถอยที่ถูกตัดทอนซึ่งไม่ใช่รูปแบบที่ฉันใช้หรือถาม ฉันแก้ไขคำถามแล้ว

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
จะทดสอบได้อย่างไรว่าค่าความชันในโมเดลเชิงเส้นเท่ากับค่าคงที่หรือไม่?
สมมติว่าเรามีรูปแบบการถดถอยเชิงเส้นอย่างง่ายและต้องการทดสอบสมมติฐานกับทางเลือกทั่วไปZ=aX+bYZ=aX+bYZ = aX + bYH0:a=b=12H0:a=b=12H_0: a=b=\frac{1}{2} ฉันคิดว่าหนึ่งสามารถใช้การประมาณการของและและต่อไปใช้Z -test ที่จะได้รับช่วงความเชื่อมั่นทั่ว\ frac {1} {2} ตกลงไหมa^a^\hat{a}SE(a^)SE(a^)SE(\hat{a})ZZZ1212\frac{1}{2} คำถามอื่น ๆ ที่เกี่ยวข้องอย่างยิ่งกับคำถามนี้ สมมติว่าเรามีตัวอย่าง{(x1,y1,z1),…,(xn,yn,zn)}{(x1,y1,z1),…,(xn,yn,zn)}\{(x_1,y_1,z_1),\ldots ,(x_n,y_n,z_n) \}และเราคำนวณχ2χ2\chi^2สถิติ ∑i=1n(zi−xi+yi2)2xi+yi2.∑i=1n(zi−xi+yi2)2xi+yi2.\begin{equation} \sum_{i=1}^n \frac{(z_i-\frac{x_i+y_i}{2})^2}{\frac{x_i+y_i}{2}}. \end{equation} สามารถใช้สถิติเหล่านี้เพื่อทดสอบสมมติฐานว่างได้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.