คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
สัมประสิทธิ์มหาศาลในการถดถอยโลจิสติก - มันหมายความว่าอะไรและจะทำอย่างไร?
ฉันได้รับค่าสัมประสิทธิ์มหาศาลระหว่างการถดถอยโลจิสติกดูค่าสัมประสิทธิ์กับkrajULKV: > summary(m5) Call: glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + rok:obdobi:kraj, family = "quasibinomial") Deviance Residuals: Min 1Q Median 3Q Max -2.7796 -1.0958 -0.3101 1.0034 2.8370 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -486.72087 …

2
กำหนดอัตราการเรียนรู้ที่เหมาะสมที่สุดสำหรับการไล่ระดับสีในการถดถอยเชิงเส้น
เราจะกำหนดอัตราการเรียนรู้ที่เหมาะสมที่สุดสำหรับการไล่ระดับสีได้อย่างไร ฉันคิดว่าฉันสามารถปรับได้โดยอัตโนมัติหากฟังก์ชันต้นทุนส่งคืนค่าที่มากกว่าในการคำนวณซ้ำก่อนหน้านี้ (อัลกอริทึมจะไม่มาบรรจบกัน) แต่ฉันไม่แน่ใจว่าควรใช้มูลค่าใหม่แบบไหน

2
การถดถอย SVM พร้อมข้อมูลระยะยาว
ฉันมีตัวแปรประมาณ 500 ตัวต่อผู้ป่วยแต่ละตัวแปรมีหนึ่งค่าอย่างต่อเนื่องและวัดที่จุดเวลาที่ต่างกันสามจุด (หลังจาก 2 เดือนและหลังจาก 1 ปี) ด้วยการถดถอยฉันต้องการที่จะทำนายผลการรักษาสำหรับผู้ป่วยใหม่ เป็นไปได้ไหมที่จะใช้การถดถอย SVM กับข้อมูลตามยาว

4
การขยายการถดถอยโลจิสติกสำหรับผลลัพธ์ในช่วงระหว่าง 0 ถึง 1
ฉันมีปัญหาการถดถอยที่ผลจะไม่เคร่งครัด 0, 1 แต่ในช่วงของตัวเลขจริงทั้งหมด 0-1 รวม1]Y= [ 0 , 0.12 , 0.31 , . . , 1 ]Y=[0,0.12,0.31,...,1]Y = [ 0, 0.12, 0.31, ..., 1 ] ปัญหานี้ได้รับการกล่าวถึงในกระทู้นี้แล้วแม้ว่าคำถามของฉันจะแตกต่างกันเล็กน้อย ฉันไม่สามารถใช้การถดถอยเชิงเส้นด้วยเหตุผลเดียวกับที่ใช้การถดถอยแบบโลจิสติกส์ ในการถดถอยเชิงเส้น A) ค่า IV ที่มีขนาดใหญ่มากจะบิดเบือนผลลัพธ์ที่คาดการณ์ไว้ที่ 1 และ B) ผลลัพธ์ของการถดถอยเชิงเส้นจะไม่ถูกผูกไว้กับขีด จำกัด 0,1 ดูที่ฟังก์ชันต้นทุนโลจิสติกส์จากตำราฉันรวบรวมว่าสมการถูกออกแบบมาเพื่อคำนวณ ราคามากกว่า 0 ต่อเมื่อและไม่มีค่าเท่ากัน 0 หรือ 1ราคา= - yเข้าสู่ระบบ( h ( …

2
เรียนรู้จากข้อมูลเชิงสัมพันธ์
การตั้งค่า อัลกอริทึมจำนวนมากทำงานบนความสัมพันธ์หรือตารางเดียวในขณะที่ฐานข้อมูลในโลกแห่งความจริงจำนวนมากเก็บข้อมูลในหลายตาราง (Domingos, 2003) คำถาม อัลกอริทึมชนิดใดที่เรียนรู้ได้ดีจากหลาย ๆ ตาราง (เชิงสัมพันธ์) โดยเฉพาะอย่างยิ่งฉันสนใจในอัลกอริทึมที่ใช้กับงานการถดถอยและการจัดหมวดหมู่ (ไม่ใช่งานที่เน้นการวิเคราะห์เครือข่ายเช่นการคาดการณ์ลิงก์) ฉันตระหนักถึงวิธีการหลายอย่างที่ระบุไว้ด้านล่าง (แต่ฉันแน่ใจว่าฉันขาดบางอย่าง): การทำเหมืองข้อมูลแบบหลายสัมพันธ์ (MRDM) (Dzeroski, 2002) การเขียนโปรแกรมตรรกะอุปนัย (ILP) (Muggleton, 1992) การเรียนรู้เชิงสถิติ (SRL) (Getoor, 2007) Džeroski, S. (2003) การทำเหมืองข้อมูลหลายสัมพันธ์: การแนะนำ จดหมายข่าว ACM SIGKDD Explorations Getoor, Lise และ Ben Taskar, eds ความรู้เบื้องต้นเชิงสถิติเชิงสัมพันธ์ กด MIT, 2007 S. Muggleton และ C. Feng การเหนี่ยวนำที่มีประสิทธิภาพของโปรแกรมตรรกะ …

3
เข้าสู่ระบบพลิกเมื่อเพิ่มตัวแปรอีกหนึ่งตัวในการถดถอยและมีขนาดที่ใหญ่กว่ามาก
การตั้งค่าพื้นฐาน: แบบจำลองการถดถอย: โดยที่ C คือเวกเตอร์ของตัวแปรควบคุมY= ค่าคงที่+β1x1+β2x2+β3x3+β4x4+ α C+ ϵy=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵy = \text{constant} +\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\alpha C+\epsilon ฉันสนใจและคาดว่าและเป็นลบ อย่างไรก็ตามมีปัญหาความสัมพันธ์แบบหลายค่าในตัวแบบสัมประสิทธิ์สหสัมพันธ์โดย corr ( , 0.9345, corr ( , 0.1765, corr ( , 0.3019ββ\betaβ1β1\beta_1β2β2\beta_2x1x1x_1x2) =x2)=x_2)=x1x1x_1x3) =x3)=x_3)=x2x2x_2x3) =x3)=x_3)= ดังนั้นและมีความสัมพันธ์กันสูงและควรให้ข้อมูลเดียวกัน ฉันใช้การถดถอยสามครั้ง: x1x1x_1x2x2x_2 ยกเว้นตัวแปร ; 2. ยกเว้นตัวแปร3. รูปแบบเดิมที่มีทั้งและx_2x1x1x_1x2x2x_2x1x1x_1x2x2x_2 ผลลัพธ์: สำหรับการถดถอย 1 และ 2 จะให้สัญญาณที่คาดไว้สำหรับและตามลำดับและมีขนาดใกล้เคียงกัน และและมีความสำคัญในระดับ 10% ในทั้งสองรุ่นหลังจากฉันทำการแก้ไข HAC ในข้อผิดพลาดมาตรฐาน เป็นค่าบวก …

4
Box Cox Transforms สำหรับการถดถอย
ฉันกำลังพยายามปรับตัวแบบเชิงเส้นในข้อมูลบางส่วนด้วยตัวทำนายเพียงตัวเดียว (พูด (x, y)) ข้อมูลเป็นเช่นนั้นสำหรับค่าเล็ก ๆ ของ x ค่า y ให้พอดีกับเส้นตรงอย่างไรก็ตามเมื่อค่า x เพิ่มขึ้นค่า y จะกลายเป็นความผันผวนมากขึ้น นี่คือตัวอย่างของข้อมูลดังกล่าว (รหัส R) y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = seq(1,10,1) ฉันอยากรู้ว่ามีการแปลงพลังงานหรือไม่ (อาจเป็น Box cox?) ที่ช่วยให้ฉันได้รับข้อมูลที่ดีกว่าสำหรับการทำแบบพอดีเชิงเส้นดังที่แสดงด้านล่าง fit = lm(y ~ x)

2
การกำหนดผู้มีส่วนร่วมมากที่สุดในกลุ่ม
ฉันไม่รู้สถิติเกี่ยวกับตัวฉันมากนัก สมมติว่าฉันมีพนักงาน 1,000 คน ฉันต้องการทราบว่าใครคือคนงานที่ยากที่สุด แต่ฉันสามารถวัดปริมาณงานที่ต้องทำในกลุ่มที่ 1-100 มากกว่าหนึ่งชั่วโมงต่อการทำงาน สมมติว่าคนงานแต่ละคนทำงานในปริมาณที่เท่ากันเสมอกว่าการทดลองและการรวมกันเป็นจำนวนมากฉันจะจัดอันดับคนงานของฉันโดยใครที่ทำงานหนักที่สุด หมายเหตุ: นี่เป็นเพียงคำอุปมาจึงไม่ต้องกังวลกับการทดสอบจริง ๆ เพียงแค่สมมติว่าฉันมีชุดข้อมูลจำนวนมากแล้ว แก้ไข: เมื่อฉันพูดว่า "สมมติว่าคนงานแต่ละคนทำงานด้วยปริมาณงานที่เท่ากันเสมอ" ฉันหมายถึงแต่ละคนทำงานในปริมาณที่เท่ากันในแต่ละวัน ดังนั้นโจอี้จะทำงานประมาณ 100 หน่วยในแต่ละวันและเกร็กจะทำประมาณ 50 งานปัญหาคือฉันสามารถสังเกตจำนวนหน่วยของงานที่ทำโดยกลุ่มเท่านั้น การแก้ไขเพิ่มเติม: เกี่ยวกับจำนวนของคนงานที่ทำงานในคราวเดียวและความถี่ของพวกเขาที่ทำงาน อาจมีคนงานจำนวนเท่าใดก็ได้ที่ทำงานในเวลาเดียวกัน คนงานบางคนอาจจะจบลงด้วยการทำงานมากกว่าคนอื่น ๆ นั่นก็คือเราสามารถสันนิษฐานได้ว่าคนงานบางคนจะทำงานเกือบ 90% ของเวลาและคนอื่น ๆ แทบจะไม่เคยเลย ฉันรู้ว่ามันทำให้ยาก แต่ฉันจะมีชุดข้อมูลที่มีขนาดใหญ่มากหวังว่าจะทำให้ง่ายขึ้นเล็กน้อย ในแต่ละชั่วโมงเรารู้ว่าคนงานคนใดกำลังทำงานและทำงานเป็นจำนวนเท่าใด จากข้อมูลนั้นฉันต้องการทราบว่าใครทำผลงานได้ดีที่สุด หากข้อมูลอยู่ในรูปแบบ JSON จะมีลักษณะดังนี้: [ { "work_done": 12345, "Workers": [ "andy", "bob", "cameron", "david" ] …

1
ความมั่นใจและช่วงการทำนายของตัวแบบการถดถอยเชิงเส้น
ตกลงดังนั้นฉันพยายามทำความเข้าใจการถดถอยเชิงเส้น ฉันมีชุดข้อมูลและดูเหมือนว่าจะไม่เป็นไร แต่ฉันก็สับสน นี่คือสรุปโมเดลเชิงเส้นของฉัน: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.2068621 0.0247002 8.375 4.13e-09 *** temp 0.0031074 0.0004779 6.502 4.79e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.04226 on 28 degrees of freedom Multiple R-squared: 0.6016, …
9 r  regression 

4
ควรใช้การถดถอยแบบไม่อิงพารามิเตอร์เมื่อใด
ฉันใช้ PROC GLM ใน SAS เพื่อให้สมการถดถอยของแบบฟอร์มต่อไปนี้ Y=ข0+ข1X1+ข2X2+ข3X3+ข4เสื้อY=b0+b1X1+b2X2+b3X3+b4t Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t พล็อต QQ ของ redsiduals ที่เกิดขึ้นบ่งบอกถึงการเบี่ยงเบนจากปกติ การเปลี่ยนแปลงของใด ๆจะไม่เป็นประโยชน์ในการทำให้ส่วนที่เหลือเป็นปกติYYY ณ จุดนี้ฉันสามารถเปลี่ยนเป็นวิธีที่ไม่ใช่พารามิเตอร์อย่างปลอดภัยเช่น PROC LOESS ฉันใช้ PROC LOESS แล้วและแบบที่ดูดีกว่า PROC GLM แต่ฉันไม่มีความรู้มากนักในการถดถอยแบบไม่อิงพารามิเตอร์ ฉันไม่ทราบว่าเมื่อใดควรเลือกการถดถอยแบบไม่อิงพารามิเตอร์ในการถดถอยแบบพารามิเตอร์ มีคนช่วยฉันได้ไหม ฉันจะดำเนินการต่อและเพิ่มคำถามอื่น ต่อไปนี้เป็นคำอธิบายของตัวแปรของฉันในรูปแบบ บางครั้งฉันได้รับค่าใช้จ่ายคาดการณ์เชิงลบ สิ่งนี้ไม่สมเหตุสมผล ฉันจะแก้ไขปัญหานี้ได้อย่างไรY= ค่ารักษาพยาบาลX1= จำนวนการฉีดX2= จำนวนการผ่าตัดX3= จำนวนการบำบัดทางกายภาพt = เวลาY=cost of …

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

3
การแก้ไข Bonferroni ด้วยความสัมพันธ์ของ Pearson และการถดถอยเชิงเส้น
ฉันกำลังใช้งานสถิติใน 5 IVs (5 ลักษณะบุคลิกภาพ, การพาหิรวัฒน์, ความสอดคล้อง, ความมีสติ, ความมั่นคงทางอารมณ์, การเปิดกว้าง) กับ 3 DVs ทัศนคติต่อ PCT, ทัศนคติต่อ CBT, ทัศนคติต่อ PCT เทียบกับ CBT ฉันยังเพิ่มอายุและเพศเพื่อดูว่ามีเอฟเฟกต์อะไรอีกบ้าง ฉันกำลังทดสอบเพื่อดูว่าลักษณะบุคลิกภาพสามารถทำนายทัศนคติของ DV ได้หรือไม่ ฉันเริ่มใช้เพียร์สันสหสัมพันธ์สำหรับตัวแปรทั้งหมด (45 การทดสอบ) การค้นพบที่สำคัญคือการพาหิรวัฒน์สัมพันธ์กับทัศนคติของ PCT ที่ p = 0.05 แต่เมื่อฉันทำการทดสอบ 45 ครั้งฉันได้ทำการแก้ไข Bonferroni ที่ alpha = 0.05 / 45 = 0.001 ดังนั้นการค้นพบนี้จึงไม่มีนัยสำคัญ จากนั้นฉันก็ทำการถดถอยเชิงเส้นอย่างง่าย ๆ ในตัวแปรทั้งหมดอีกครั้งการพาหิรวัฒน์อีกครั้งสำคัญกับทัศนคติต่อ …

2
ตัวทำนายบางตัวของฉันอยู่ในสเกลที่แตกต่างกันมาก - ฉันต้องเปลี่ยนพวกมันก่อนที่จะปรับตัวแบบถดถอยเชิงเส้นหรือไม่?
ฉันต้องการรันการถดถอยเชิงเส้นบนชุดข้อมูลแบบหลายมิติ มีความแตกต่างระหว่างมิติต่าง ๆ ในแง่ของขนาดของระเบียบ ตัวอย่างเช่นโดยทั่วไปส่วนข้อมูล 1 มีช่วงค่า [0, 1] และส่วนข้อมูล 2 มีช่วงค่า [0, 1,000] ฉันจำเป็นต้องทำการแปลงใด ๆ เพื่อให้แน่ใจว่าช่วงข้อมูลสำหรับมิติข้อมูลที่แตกต่างกันอยู่ในระดับเดียวกันหรือไม่ ถ้ามีจะมีแนวทางใดสำหรับการเปลี่ยนแปลงเช่นนี้หรือไม่?

1
การสร้างแบบจำลองแนวโน้มเชิงพื้นที่โดยการถดถอยด้วย
ฉันวางแผนที่จะรวมพิกัดเป็น covariates ในสมการถดถอยเพื่อปรับสำหรับแนวโน้มเชิงพื้นที่ที่มีอยู่ในข้อมูล หลังจากนั้นฉันต้องการทดสอบเศษที่เหลือจากความสัมพันธ์เชิงพื้นที่ในรูปแบบสุ่ม ฉันมีคำถามหลายข้อ: ฉันควรทำการถดถอยเชิงเส้นซึ่งตัวแปรอิสระเพียงอย่างเดียวคือพิกัดและจากนั้นทดสอบส่วนที่เหลือในการเปลี่ยนแปลงเชิงพื้นที่สัมพันธ์หรือฉันควรจะรวมพิกัดไม่เพียงเป็น covariates แต่ยังรวมถึงตัวแปรอื่น ๆ แล้วทดสอบส่วนที่เหลือด้วยxxxYYy หากฉันคาดว่าจะมีแนวโน้มเป็นกำลังสองแล้วรวมไม่เพียงแต่ยัง ,และแต่แล้วบางส่วนของพวกเขา (และ ) มีค่าสูงกว่า threshold - ฉันควรแยกตัวแปรเหล่านั้นที่มีค่าสูงกว่าว่าไม่สำคัญหรือไม่? ฉันจะตีความแนวโน้มได้อย่างไรว่ามันไม่ได้เป็นกำลังสองอีกต่อไปแล้ว?x , yx,Yx,yx yxYxyx2x2x^2Y2Y2y^2x yxYxyY2Y2y^2พีพีpพีพีp ฉันเดาว่าฉันควรจะรักษาพิกัดและเป็น covariates อื่น ๆ และทดสอบพวกเขาในการมีความสัมพันธ์เชิงเส้นกับตัวแปรตามโดยการสร้างแปลงที่เหลือบางส่วน ... แต่เมื่อฉันเปลี่ยนพวกเขา (ถ้าพวกเขาต้องการการแปลง) ที่จะไม่ เป็นแนวโน้มแบบนั้นอีกต่อไป (โดยเฉพาะถ้าฉันรวม ,และสำหรับแนวโน้มกำลังสอง) มันอาจแสดงให้เห็นว่าเช่นต้องการการแปลงในขณะที่xxxYYyx yxYxyx2x2x^2Y2Y2y^2x2x2x^2xxxไม่ได้หรืออย่างนั้น? ฉันจะตอบสนองอย่างไรในสถานการณ์เหล่านี้? ขอบคุณ.

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.