คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
ต้นไม้การตัดสินใจและการถดถอย - ค่าที่ทำนายได้นั้นอาจอยู่นอกช่วงของข้อมูลการฝึกอบรมหรือไม่?
เมื่อพูดถึงต้นไม้ตัดสินใจค่าที่ทำนายได้จะอยู่นอกขอบเขตของข้อมูลการฝึกอบรมหรือไม่? ตัวอย่างเช่นหากช่วงชุดข้อมูลการฝึกอบรมของตัวแปรเป้าหมายคือ 0-100 เมื่อฉันสร้างแบบจำลองของฉันและนำไปใช้กับสิ่งอื่นค่าของฉันจะเป็น -5 หรือไม่ หรือ 150 เนื่องจากความเข้าใจของฉันเกี่ยวกับการตัดสินใจต้นไม้ถดถอยก็ยังคงเป็นกฎพื้นฐาน - ความก้าวหน้าทางซ้าย / ขวาและที่ด้านล่างของต้นไม้ในชุดฝึกอบรมไม่สามารถมองเห็นคุณค่านอกช่วงที่กำหนดได้มันจะไม่สามารถทำได้ ทำนายมันได้หรือ

3
ทรัพยากรเพื่อการเรียนรู้เกี่ยวกับเทคนิคหลายเป้าหมาย?
ฉันกำลังมองหาแหล่งข้อมูล (หนังสือบันทึกการบรรยายและอื่น ๆ ) เกี่ยวกับเทคนิคที่สามารถจัดการข้อมูลที่มีเป้าหมายหลายอย่าง (เช่นตัวแปรตามสามตัว: 2 แยกและ 1 ต่อเนื่อง) ใครบ้างมีทรัพยากร / ความรู้เกี่ยวกับเรื่องนี้? ฉันรู้ว่ามันเป็นไปได้ที่จะใช้โครงข่ายประสาทเทียมสำหรับสิ่งนี้

2
การรวมการสังเกตในกระบวนการเสียน
ฉันใช้กระบวนการ Gaussian (GP) สำหรับการถดถอย ในปัญหาของฉันมันเป็นเรื่องธรรมดาสำหรับจุดข้อมูลสองจุดหรือมากกว่าx⃗ ( 1 ), x⃗ ( 2 ), ...x→(1),x→(2),...\vec{x}^{(1)},\vec{x}^{(2)},\ldotsเพื่อให้ใกล้ชิดกันมากกว่าความยาวของปัญหา นอกจากนี้การสังเกตอาจมีเสียงดังมาก เพื่อเพิ่มความเร็วในการคำนวณและปรับปรุงความแม่นยำในการวัดดูเหมือนว่าเป็นธรรมชาติที่จะรวม / รวมกลุ่มของจุดที่อยู่ใกล้กันตราบใดที่ฉันสนใจการคาดการณ์ในระดับความยาวที่มากขึ้น ฉันสงสัยว่าอะไรคือวิธีที่รวดเร็ว แต่มีหลักการครึ่งหนึ่งในการทำสิ่งนี้ ถ้าสองจุดข้อมูลที่ดีที่สุดที่ทับซ้อนกันและเสียงการสังเกต (เช่นความน่าจะเป็น) เป็น Gaussian อาจ heteroskedastic แต่ที่รู้จักกัน , วิธีธรรมชาติของการดำเนินการต่อดูเหมือนจะรวมไว้ในจุดข้อมูลเดียวด้วย:x⃗ ( 1 )= x⃗ ( 2 )x→(1)=x→(2)\vec{x}^{(1)} = \vec{x}^{(2)} x¯⃗ ≡ x⃗ ( k )x¯→≡x→(k)\vec{\bar{x}} \equiv \vec{x}^{(k)}สำหรับkk = 1 , 2k=1,2k=1,2 ค่าที่สังเกตซึ่งเป็นค่าเฉลี่ยของค่าที่สังเกตได้ถ่วงน้ำหนักด้วยความแม่นยำสัมพัทธ์:{(2)} …

2
แบบจำลอง logit แบบเบส์ - คำอธิบายที่เข้าใจง่าย?
ฉันต้องยอมรับว่าก่อนหน้านี้ฉันไม่เคยได้ยินคำศัพท์นั้นในชั้นเรียนระดับปริญญาตรีหรือปริญญาโทเลย การถดถอยโลจิสติกหมายถึง Bayesian หมายความว่าอย่างไร ฉันกำลังมองหาคำอธิบายเกี่ยวกับการเปลี่ยนจากโลจิสติกส์ธรรมดาเป็นโลจิสติกส์แบบเบย์ดังต่อไปนี้: นี่คือสมการในรูปแบบการถดถอยเชิงเส้น:\E(y)=β0+β1x1+...+βnxnE(y)=β0+β1x1+...+βnxnE(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n นี่คือสมการในรูปแบบการถดถอยโลจิสติก:\ สิ่งนี้จะกระทำเมื่อ y เป็นหมวดหมู่LN( E( y)1 - E( y)) = β0+ β1x1+ . . . + βnxnln⁡(E(y)1−E(y))=β0+β1x1+...+βnxn\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n สิ่งที่เราทำคือการเปลี่ยนแปลงเพื่อ\ LN (\ frac {E (y)} {1-E (y)})ln ( E ( …

2
อะไรคือความแตกต่างระหว่างการถดถอยของแนวสันโดยใช้ glmnet ของ R และ Scikit-Learn ของ Python?
ฉันกำลังอ่านส่วน LAB §6.6เกี่ยวกับการถดถอยของสัน / Lasso ในหนังสือ'บทนำสู่การเรียนรู้เชิงสถิติด้วยแอปพลิเคชันใน R'โดย James, Witten, Hastie, Tibshirani (2013) โดยเฉพาะอย่างยิ่งฉันพยายามใช้โมเดล scikit-Learn Ridgeกับชุดข้อมูล 'Hitters' จากแพ็คเกจ R 'ISLR' ฉันสร้างฟีเจอร์ชุดเดียวกันตามที่แสดงในรหัส R แล้ว อย่างไรก็ตามฉันไม่สามารถใกล้เคียงกับผลลัพธ์จากglmnet()โมเดลได้ ฉันเลือกพารามิเตอร์การปรับแต่ง L2 หนึ่งพารามิเตอร์เพื่อทำการเปรียบเทียบ (อาร์กิวเมนต์ 'alpha' ใน scikit เรียนรู้) งูหลาม: regr = Ridge(alpha=11498) regr.fit(X, y) http://nbviewer.ipython.org/github/JWarmenhoven/ISL-python/blob/master/Notebooks/Chapter%206.ipynb R: โปรดทราบว่าการโต้แย้งalpha=0ในglmnet()หมายความว่าโทษ L2 ควรใช้ (Ridge ถดถอย) เอกสารเตือนไม่ให้ป้อนค่าเดียวlambdaแต่ผลลัพธ์จะเหมือนกับใน ISL ซึ่งมีการใช้เวกเตอร์ ridge.mod <- glmnet(x,y,alpha=0,lambda=11498) …

2
สัมประสิทธิ์ประมาณขึ้นเมื่อใดโดยประมาณการถดถอยโลจิสติกและโลจิสติกส์
เมื่อการสร้างแบบจำลองสัดส่วนอย่างต่อเนื่อง (เช่นพืชพรรณตามสัดส่วนที่ quadrats สำรวจหรือสัดส่วนของเวลาในกิจกรรม) การถดถอยโลจิสติกถือว่าไม่เหมาะสม (เช่นWarton & Hui (2011) Arcsine เป็น asinine: การวิเคราะห์สัดส่วนในระบบนิเวศ ) แต่การถดถอยของ OLS หลังจาก logit-transform สัดส่วนหรือบางทีการถดถอยเบต้ามีความเหมาะสมมากกว่า การประมาณค่าสัมประสิทธิ์ของการถดถอยแบบ logit-linear และ logistic regression แตกต่างกันอย่างไรเมื่อใช้ R's lmและglm? ใช้ชุดข้อมูลจำลองต่อไปนี้ซึ่งเราสามารถสันนิษฐานได้ว่าpเป็นข้อมูลดิบของเรา (เช่นสัดส่วนต่อเนื่องแทนที่จะแสดง ):nsuccessesntrialsnsuccessesntrials{n_{successes}\over n_{trials}} set.seed(1) x <- rnorm(1000) a <- runif(1) b <- runif(1) logit.p <- a + b*x + rnorm(1000, 0, 0.2) …
11 r  regression  logistic 

1
R - Lasso Regression - แลมบ์ดาที่แตกต่างกันต่อการถดถอย
ฉันต้องการทำสิ่งต่อไปนี้: 1) การถดถอย OLS (ไม่มีเงื่อนไขการลงโทษ) เพื่อรับค่าสัมประสิทธิ์เบต้า ; หมายถึงตัวแปรที่ใช้ในการถดถอย ฉันทำสิ่งนี้ด้วยb∗jbj∗b_{j}^{*}jjj lm.model = lm(y~ 0 + x) betas = coefficients(lm.model) 2) การถดถอยของ Lasso ที่มีเงื่อนไขการลงโทษเกณฑ์การคัดเลือกจะต้องเป็นเกณฑ์ข้อมูล Bayesian (BIC) ที่กำหนดโดย λj=log(T)T|b∗j|λj=log⁡(T)T|bj∗|\lambda _{j} = \frac{\log (T)}{T|b_{j}^{*}|} โดยที่หมายถึงหมายเลขตัวแปร / regressor,สำหรับจำนวนการสังเกตและสำหรับ betas เริ่มต้นที่ได้รับในขั้นตอนที่ 1) ฉันต้องการให้ผลลัพธ์การถดถอยสำหรับค่าเฉพาะเจาะจงซึ่งแตกต่างกันสำหรับ regressor แต่ละตัวที่ใช้ ดังนั้นถ้ามีสามตัวแปรจะมีสามค่าที่แตกต่างกัน\jjjTTTb∗jbj∗b_{j}^{*}λjλj\lambda_jλjλj\lambda_j จากนั้นปัญหาการปรับให้เหมาะสมของ OLS-Lasso minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}\underset{b\epsilon \mathbb{R}^{n} }{min} = \left \{ \sum_{t=1}^{T}(y_{t}-b^{\top} X_{t} …
11 r  regression  glmnet  lars 

1
การใช้ยาเกินขนาดและความไม่แน่นอนในการถดถอยแบบทวินาม / ปัวซอง
ฉันทำการถดถอยแบบปัวซงใน SAS และพบว่าค่าเพียร์สันไค - สแควร์หารด้วยองศาอิสระมีค่าประมาณ 5 แสดงว่ามีการกระจายตัวมากเกินไป ดังนั้นฉันพอดีกับโมเดลทวินามลบกับ proc genmod และพบว่าค่าเพียร์สันไค - สแควร์หารด้วยองศาอิสระเท่ากับ 0.80 ตอนนี้มีการพิจารณาว่ามีการด้อยค่าหรือไม่ ถ้าเป็นเช่นนั้นเราจะจัดการกับเรื่องนี้อย่างไร? ฉันได้อ่านมากมายเกี่ยวกับการกระจายเกินปกติและเชื่อว่าฉันรู้วิธีจัดการเรื่องนี้ แต่ข้อมูลเกี่ยวกับวิธีจัดการหรือตัดสินว่ามีการด้อยโอกาสน้อยหรือไม่ ใครช่วยได้บ้าง ขอบคุณ

1
อะไรคือความแตกต่างระหว่างการควบคุมตัวแปรในตัวแบบการถดถอยกับการควบคุมตัวแปรในการออกแบบการศึกษาของคุณ?
ฉันคิดว่าการควบคุมตัวแปรในการออกแบบการศึกษาของคุณนั้นมีประสิทธิภาพมากขึ้นในการลดข้อผิดพลาดได้มากกว่าการควบคุมมันในแบบจำลองการถดถอยของคุณ ใครบางคนจะอธิบายอย่างเป็นทางการว่า "การควบคุม" สองอย่างนี้มีความแตกต่างกันอย่างไร มีประสิทธิภาพอย่างไรเมื่อเปรียบเทียบกับการลดข้อผิดพลาดและให้การคาดการณ์ที่แม่นยำยิ่งขึ้น

1
การใช้เครื่องมือการเรียนรู้เครื่องมาตรฐานกับข้อมูลที่ตรวจสอบแล้ว
ฉันกำลังพัฒนาแอพพลิเคชั่นพยากรณ์ซึ่งมีวัตถุประสงค์เพื่อให้ผู้นำเข้าสามารถคาดการณ์ความต้องการผลิตภัณฑ์ของตนจากเครือข่ายลูกค้าของผู้จัดจำหน่าย ตัวเลขยอดขายเป็นตัวแทนที่ดีสำหรับความต้องการตราบใดที่มีสินค้าคงคลังเพียงพอที่จะเติมเต็มความต้องการ เมื่อสินค้าคงคลังถูกดึงลงมาที่ศูนย์แม้ว่า (สถานการณ์ที่เรากำลังมองหาเพื่อช่วยให้ลูกค้าหลีกเลี่ยง) เราไม่ทราบมากว่าเราพลาดเป้าหมายโดย ลูกค้าจะทำยอดขายได้เท่าใดพวกเขามีอุปทานเพียงพอหรือไม่ วิธีการ ML แบบอิงการถดถอยแบบมาตรฐานที่ใช้การขายเป็นตัวแปรเป้าหมายอย่างง่ายจะสร้างการประมาณที่ไม่สอดคล้องกันของความสัมพันธ์ระหว่างเวลาตัวแปรอธิบายของฉันและความต้องการ การสร้างแบบจำลองบิทเป็นวิธีที่เห็นได้ชัดที่สุดในการแก้ปัญหา: http://en.wikipedia.org/wiki/Tobit_model ฉันสงสัยเกี่ยวกับการปรับ ML ป่าสุ่ม, GBMS, SVM และเครือข่ายประสาทที่ยังบัญชีสำหรับโครงสร้างเซ็นเซอร์ข้อมูลด้านซ้ายมือ ในระยะสั้นฉันจะใช้เครื่องมือการเรียนรู้ของเครื่องกับข้อมูลการถดถอยที่ถูกเซ็นเซอร์ด้านซ้ายเพื่อรับการประมาณการที่สอดคล้องกันของความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระของฉันได้อย่างไร การตั้งค่าแรกจะเป็นโซลูชั่นที่มีอยู่ใน R ตามด้วย Python ไชโย แอรอน

2
การเขียนโปรแกรมกำลังสองและ Lasso
ฉันพยายามทำการ lasso ถดถอยซึ่งมีแบบฟอร์มต่อไปนี้: ย่อขนาดใน( Y - X w ) ′ ( Y - X w ) + λWww(Y−Xw)′(Y−Xw)+λ|w|1(Y−Xw)′(Y−Xw)+λ|w|1(Y - Xw)'(Y - Xw) + \lambda \;|w|_1 ได้รับฉันแนะนำให้หาดีที่สุดด้วยความช่วยเหลือของการเขียนโปรแกรมกำลังสองซึ่งใช้รูปแบบต่อไปนี้:wλλ\lambdawww ย่อในโดยขึ้นอยู่กับ1xxxx≤ข12x′Qx+c′x12x′Qx+c′x\frac{1}{2} x'Qx + c'xAx≤b.Ax≤b.Ax \le b. ตอนนี้ฉันรู้แล้วว่าควรเปลี่ยนเป็นเทอมซึ่งค่อนข้างตรงไปตรงมา อย่างไรก็ตามฉันไม่เห็นว่าฉันจะถ่ายโอนเทอมแรกของสมการแรกไปสู่เทอมแรกของสมการที่สองได้อย่างไร ฉันหาอะไรเกี่ยวกับมันไม่ได้ในเน็ตฉันเลยตัดสินใจถามที่นี่A x ≤ bλλ\lambdaAx≤bAx≤bAx \le b

1
ย้อนกลับเปลี่ยนผลลัพธ์การถดถอยเมื่อสร้างแบบจำลองบันทึก (y)
ฉันกระชับถดถอยใน(y) มันถูกต้องหรือไม่กับการประมาณค่าจุดเปลี่ยนกลับ (และช่วงความเชื่อมั่น / การทำนาย) โดยการยกกำลัง? ฉันไม่เชื่อเช่นนั้นเนื่องจากแต่ต้องการความคิดเห็นของผู้อื่นE [ f ( X ) ] ≠ f ( E [ X ] )เข้าสู่ระบบ( y)log⁡(y)\log(y)E[ f( X) ] ≠ f( E[ X] )E[f(X)]≠f(E[X])E[f(X)] \ne f(E[X]) ตัวอย่างด้านล่างของฉันแสดงความขัดแย้งกับการเปลี่ยนรูปด้านหลัง (.239 vs .219) set.seed(123) a=-5 b=2 x=runif(100,0,1) y=exp(a*x+b+rnorm(100,0,.2)) # plot(x,y) ### NLS Fit f <- function(x,a,b) {exp(a*x+b)} …

3
ปัญหาของการใช้เปอร์เซ็นต์ผลลัพธ์ในการถดถอยเชิงเส้นคืออะไร
ฉันมีการศึกษาที่ผลลัพธ์จำนวนมากแสดงเป็นเปอร์เซ็นต์และฉันใช้การถดถอยเชิงเส้นหลายครั้งเพื่อประเมินผลของตัวแปรหมวดหมู่ต่อผลลัพธ์เหล่านี้ ฉันสงสัยว่าเนื่องจากการถดถอยเชิงเส้นสันนิษฐานว่าผลลัพธ์คือการกระจายอย่างต่อเนื่องมีปัญหาเกี่ยวกับระเบียบวิธีในการใช้แบบจำลองดังกล่าวกับเปอร์เซ็นต์ซึ่งมีข้อ จำกัด ระหว่าง 0 ถึง 100

3
ฟังก์ชันการแทรกแซงการถ่ายโอน ARIMA - วิธีการแสดงผล
ฉันมีชุดเวลารายเดือนที่มีการแทรกแซงและฉันต้องการที่จะหาปริมาณผลกระทบของการแทรกแซงนี้ในผล ฉันรู้ว่าซีรี่ส์ค่อนข้างสั้นและยังไม่ได้สรุปผล ข้อมูล cds <- structure(c(2580L, 2263L, 3679L, 3461L, 3645L, 3716L, 3955L, 3362L, 2637L, 2524L, 2084L, 2031L, 2256L, 2401L, 3253L, 2881L, 2555L, 2585L, 3015L, 2608L, 3676L, 5763L, 4626L, 3848L, 4523L, 4186L, 4070L, 4000L, 3498L), .Dim=c(29L, 1L), .Dimnames=list(NULL, "CD"), .Tsp=c(2012, 2014.33333333333, 12), class="ts") วิธีการ 1) ซีรี่ส์ก่อนการแทรกแซง (จนถึงตุลาคม 2013) ถูกใช้กับauto.arimaฟังก์ชัน รูปแบบที่แนะนำคือ ARIMA …

1
ทดสอบว่าสัมประสิทธิ์การถดถอยสองตัวนั้นแตกต่างกันอย่างมีนัยสำคัญ (ในอุดมคติ R)
หากนี่เป็นคำถามที่ซ้ำกันโปรดชี้ไปที่วิธีที่ถูกต้อง แต่คำถามที่คล้ายกันที่ฉันพบที่นี่ยังไม่ได้คล้ายกันเพียงพอ สมมติว่าฉันประเมินโมเดลY= α + βX+ uY=α+βX+ยูY=\alpha + \beta X + u และพบว่า 0 แต่มันกลับกลายเป็นว่าX = X 1 + X 2และฉันสงสัยว่า∂ Y / ∂ X 1 ≠ ∂ Y / ∂ X 2และโดยเฉพาะอย่างยิ่งที่∂ Y / ∂ X 1 > ∂ Y / ∂ X 2 ดังนั้นฉันจึงประเมินโมเดลY = α + β …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.