คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
การถดถอยหลายครั้งพร้อมตัวแปรทำนายที่ขาดหายไป
สมมติว่าเราได้รับชุดข้อมูลของฟอร์มและ{n-1}) เราจะได้รับงานของการทำนายขึ้นอยู่กับค่าของxเราประเมินการถดถอยสองจุดโดยที่: (y,x1,x2,⋯,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n})(y,x1,x2,⋯,xn−1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})yyyxxxyy=f1(x1,⋯,xn−1,xn)=f2(x1,⋯,xn−1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} นอกจากนี้เรายังประเมินการถดถอยที่ทำนายค่าของตามค่าของนั่นคือ: xnxnx_{n}(x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1})xn=f3(x1,⋯,xn−1)(3)(3)xn=f3(x1,⋯,xn−1) x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3} สมมติว่าตอนนี้เราได้รับค่าของจากนั้นเราจะมีสองวิธีที่แตกต่างกันในการทำนาย :(x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1})yyy yy=f1(x1,⋯,xn−1,f3(x1,⋯,xn−1))=f2(x1,⋯,xn−1)(4)(5)(4)y=f1(x1,⋯,xn−1,f3(x1,⋯,xn−1))(5)y=f2(x1,⋯,xn−1) \begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align} โดยทั่วไปอันไหนดีกว่ากัน? ฉันเดาว่าสมการแรกจะดีกว่าเพราะใช้ข้อมูลจากจุดข้อมูลสองรูปแบบในขณะที่สมการที่สองใช้ข้อมูลจากจุดข้อมูลเฉพาะที่มีค่าตัวทำนายสถิติการฝึกอบรมของฉันมี จำกัด และฉันต้องการคำแนะนำจากผู้เชี่ยวชาญn−1n−1n-1 นอกจากนี้โดยทั่วไปแล้ววิธีการที่ดีที่สุดสำหรับข้อมูลที่มีข้อมูลไม่สมบูรณ์คืออะไร ในคำอื่น ๆ วิธีการที่เราสามารถดึงข้อมูลมากที่สุดจากข้อมูลที่ไม่ได้มีค่าในทุกมิติ?nnn

3
อคติการตอบสนองการกระจายขึ้นอยู่กับการถดถอยป่าแบบสุ่ม
ฉันใช้แพ็คเกจ randomForest ใน R (R เวอร์ชั่น 2.13.1, randomForest เวอร์ชัน 4.6-2) สำหรับการถดถอยและสังเกตเห็นอคติที่สำคัญในผลลัพธ์ของฉัน: ข้อผิดพลาดในการทำนายขึ้นอยู่กับค่าของตัวแปรการตอบสนอง ค่าสูงนั้นคาดการณ์ไม่ได้และค่าต่ำจะทำนายค่ามากเกินไป ตอนแรกฉันสงสัยว่านี่เป็นผลมาจากข้อมูลของฉัน แต่ตัวอย่างง่าย ๆ ดังต่อไปนี้แสดงให้เห็นว่านี่เป็นสิ่งที่เกิดขึ้นจากอัลกอริธึมการสุ่มป่า: n = 1000; x1 = rnorm(n, mean = 0, sd = 1) response = x1 predictors = data.frame(x1=x1) rf = randomForest(x=predictors, y=response) error = response-predict(rf, predictors) plot(x1, error) ฉันสงสัยว่าอคตินั้นขึ้นอยู่กับการกระจายตัวของการตอบสนองตัวอย่างเช่นหากx1กระจายอย่างสม่ำเสมอจะไม่มีอคติ ถ้าx1มีการแจกแจงแบบ exponential อคติคือด้านเดียว โดยพื้นฐานแล้วค่าของการตอบสนองที่ส่วนท้ายของการแจกแจงแบบปกติคือค่าผิดปกติ …

3
auto.arima เตือน NaNs เกิดจากข้อผิดพลาด std
ข้อมูลของฉันเป็นอนุกรมเวลาของประชากรที่มีงานทำ, L และช่วงเวลา, ปี n.auto=auto.arima(log(L),xreg=year) summary(n.auto) Series: log(L) ARIMA(2,0,2) with non-zero mean Coefficients: ar1 ar2 ma1 ma2 intercept year 1.9122 -0.9567 -0.3082 0.0254 -3.5904 0.0074 s.e. NaN NaN NaN NaN 1.6058 0.0008 sigma^2 estimated as 1.503e-06: log likelihood=107.55 AIC=-201.1 AICc=-192.49 BIC=-193.79 In-sample error measures: ME RMSE MAE MPE MAPE -7.285102e-06 …
9 r  regression  arima 

2
ใช้แบบจำลองการถดถอยเพื่อคาดการณ์: เมื่อใดจะหยุด?
ฉันคำนวณรูปแบบการถดถอยเชิงเส้นอย่างง่ายจากการทดลองของฉันเพื่อคาดการณ์ ฉันได้อ่านแล้วว่าคุณไม่ควรคำนวณการทำนายสำหรับคะแนนที่ออกไปไกลเกินไปจากข้อมูลที่มี อย่างไรก็ตามฉันไม่สามารถหาคำแนะนำใด ๆ เพื่อช่วยให้ฉันรู้ว่าฉันสามารถคาดการณ์ได้ไกลแค่ไหน ตัวอย่างเช่นหากฉันคำนวณความเร็วในการอ่านสำหรับขนาดดิสก์ 50GB ฉันเดาว่าผลลัพธ์จะใกล้เคียงกับความเป็นจริง ขนาดของดิสก์ 100GB, 500GB เป็นเท่าไหร่ ฉันจะรู้ได้อย่างไรว่าการทำนายของฉันใกล้เคียงกับความเป็นจริง? รายละเอียดของการทดสอบของฉันคือ: ฉันวัดความเร็วในการอ่านของซอฟต์แวร์โดยใช้ขนาดดิสก์ที่แตกต่างกัน จนถึงตอนนี้ฉันวัดด้วย 5GB ถึง 30GB โดยเพิ่มขนาดดิสก์ 5GB ระหว่างการทดลอง (ทั้งหมด 6 การวัด) ผลลัพธ์ของฉันเป็นเส้นตรงและข้อผิดพลาดมาตรฐานมีขนาดเล็กในความคิดของฉัน

1
วิธีการทำความเข้าใจมาตรฐานที่เหลืออยู่ในการวิเคราะห์การถดถอย
ตามการวิเคราะห์การถดถอยโดยตัวอย่างที่เหลือคือความแตกต่างระหว่างการตอบสนองและมูลค่าที่คาดการณ์จากนั้นจะกล่าวว่าทุกที่เหลือมีความแปรปรวนที่แตกต่างกันดังนั้นเราจึงต้องพิจารณาที่เหลือมาตรฐาน แต่ความแปรปรวนมีไว้สำหรับกลุ่มของค่าวิธีการที่ค่าเดียวอาจมีความแปรปรวนได้อย่างไร

1
ฉันจะพิสูจน์ได้อย่างไรว่าข้อมูลการทดสอบเป็นไปตามการกระจายแบบหางยาว
ฉันมีผลการทดสอบการตอบสนองของเซิร์ฟเวอร์ที่ล่าช้าหลายครั้ง จากการวิเคราะห์ทางทฤษฎีของเราการแจกแจงความล่าช้า (ฟังก์ชันการแจกแจงความน่าจะเป็นของความล่าช้าในการตอบกลับ) ควรมีพฤติกรรมแบบหางยาว แต่ฉันจะพิสูจน์ได้อย่างไรว่าผลการทดสอบมีการกระจายอย่างหนัก

4
อัลกอริธึมมาตรฐานสำหรับการทำการถดถอยเชิงเส้นแบบลำดับชั้น?
มีอัลกอริธึมมาตรฐาน (ตรงข้ามกับโปรแกรม) สำหรับการถดถอยเชิงเส้นแบบลำดับชั้นหรือไม่? คนมักจะทำเพียงแค่ MCMC หรือมีความเชี่ยวชาญมากขึ้นบางทีอาจจะเป็นรูปแบบปิดอัลกอริทึมบางส่วน?

3
การมีความสัมพันธ์ก่อนหรือหลังการเปลี่ยนแปลงของตัวแปร
มีหลักการทั่วไปหรือไม่ว่าควรจะคำนวณความสัมพันธ์ของเพียร์สันสำหรับตัวแปรสุ่มสองตัว X และ Y ก่อนที่จะทำการแปลงท่อนหรือไม่? มีขั้นตอนการทดสอบที่เหมาะสมกว่าหรือไม่ พวกมันให้ผลเหมือนกัน แต่มีค่าต่างกันเนื่องจากการแปลงไฟล์เป็นแบบไม่เป็นเชิงเส้น มันขึ้นอยู่กับว่า X หรือ Y ใกล้เคียงกับมาตรฐานหลังจากบันทึกหรือไม่? ถ้าเป็นเช่นนั้นทำไมมันถึงสำคัญ? และนั่นหมายความว่าเราควรทำการทดสอบ normality บน X และ Y กับ log (X) และ log (Y) และขึ้นอยู่กับการตัดสินใจว่า pearson (x, y) เหมาะสมกว่า pearson (log (x), log (หรือไม่) y))?

4
การลดจำนวนตัวแปรในการถดถอยหลายครั้ง
ฉันมีชุดข้อมูลขนาดใหญ่ซึ่งประกอบด้วยค่าของตัวแปรทางการเงินหลายร้อยตัวที่สามารถใช้ในการถดถอยหลายครั้งเพื่อทำนายพฤติกรรมของกองทุนดัชนีในช่วงเวลาหนึ่ง ฉันต้องการลดจำนวนของตัวแปรให้เหลือเพียงสิบหรือมากกว่านั้นในขณะที่ยังคงรักษาพลังการทำนายได้มากที่สุด เพิ่มเติม: ชุดของตัวแปรที่ลดลงจะต้องเป็นชุดย่อยของชุดตัวแปรดั้งเดิมเพื่อที่จะรักษาความหมายทางเศรษฐกิจของตัวแปรดั้งเดิมไว้ ตัวอย่างเช่นฉันไม่ควรลงท้ายด้วยชุดค่าผสมเชิงเส้นหรือมวลรวมของตัวแปรดั้งเดิม ความคิด (อาจไร้เดียงสา) บางอย่างเกี่ยวกับวิธีการทำเช่นนี้: ดำเนินการถดถอยเชิงเส้นที่เรียบง่ายกับตัวแปรแต่ละตัวและเลือกสิบมีขนาดใหญ่ที่สุดค่า แน่นอนไม่มีการรับประกันว่าตัวแปรที่ดีที่สุดสิบตัวที่รวมกันจะเป็นกลุ่มที่ดีที่สุดของสิบคนR2R2R^2 ทำการวิเคราะห์ส่วนประกอบหลักและลองค้นหาตัวแปรสิบตัวแรกที่มีความสัมพันธ์มากที่สุดกับแกนหลักสองสามตัวแรก ฉันไม่คิดว่าฉันสามารถทำการถดถอยแบบลำดับชั้นได้เนื่องจากตัวแปรนั้นไม่ซ้อนกันจริงๆ การลองชุดค่าผสมที่เป็นไปได้ทั้งหมดของตัวแปรสิบตัวนั้นเป็นไปไม่ได้เนื่องจากไม่มีชุดค่าผสมมากเกินไป มีวิธีการมาตรฐานในการจัดการกับปัญหานี้ในการลดจำนวนตัวแปรในการถดถอยหลายครั้งหรือไม่? ดูเหมือนว่านี่จะเป็นปัญหาที่พบได้บ่อยพอที่จะมีวิธีการมาตรฐาน คำตอบที่เป็นประโยชน์มากคือคำตอบที่ไม่เพียง แต่กล่าวถึงวิธีมาตรฐาน แต่ยังให้ภาพรวมของวิธีการและสาเหตุ อีกวิธีหนึ่งถ้าไม่มีวิธีการแบบมาตรฐาน แต่มีหลายวิธีที่มีจุดแข็งและจุดอ่อนที่แตกต่างกันคำตอบที่มีประโยชน์มากก็คือคำตอบที่เป็นประโยชน์ ความคิดเห็นของ whuber ด้านล่างแสดงว่าคำขอในย่อหน้าสุดท้ายนั้นกว้างเกินไป แต่ฉันจะยอมรับว่าเป็นคำตอบที่ดีสำหรับรายการของวิธีการที่สำคัญบางทีอาจมีคำอธิบายสั้น ๆ ของแต่ละวิธี เมื่อฉันมีเงื่อนไขฉันสามารถขุดรายละเอียดในแต่ละตัวเอง

2
วิธีปรับให้พอดีกับการถดถอยเช่นใน R?
ฉันมีข้อมูลอนุกรมเวลาที่ตัวแปรที่วัดได้นั้นเป็นจำนวนเต็มบวกแบบไม่ต่อเนื่อง (นับ) ฉันต้องการทดสอบว่ามีแนวโน้มสูงขึ้นเมื่อเวลาผ่านไป (หรือไม่) ตัวแปรอิสระ (x) อยู่ในช่วง 0-500 และตัวแปรที่ขึ้นต่อกัน (y) อยู่ในช่วง 0-8 ฉันคิดว่าฉันตอบคำถามนี้โดยปรับการถดถอยของแบบฟอร์มy = floor(a*x + b)โดยใช้กำลังสองน้อยที่สุดธรรมดา (OLS) ฉันจะทำสิ่งนี้โดยใช้ R (หรือ Python) ได้อย่างไร มีแพ็คเกจที่มีอยู่สำหรับมันหรือฉันดีกว่าที่จะเขียนอัลกอริทึมของตัวเอง? PS: ฉันรู้ว่านี่ไม่ใช่เทคนิคในอุดมคติ แต่ฉันต้องทำการวิเคราะห์ที่ค่อนข้างง่ายที่ฉันสามารถเข้าใจได้จริง - พื้นหลังของฉันคือชีววิทยาไม่ใช่คณิตศาสตร์ ฉันรู้ว่าฉันกำลังละเมิดสมมติฐานเกี่ยวกับข้อผิดพลาดในตัวแปรที่วัดได้และความเป็นอิสระของการวัดเมื่อเวลาผ่านไป
9 r  regression  python 

4
วิธีการใช้ตัวแปรจำลองโดยใช้ตัวแปร n-1
ถ้าฉันมีตัวแปรที่มี 4 ระดับในทางทฤษฎีฉันต้องใช้ตัวแปร 3 ตัว ในทางปฏิบัติสิ่งนี้เกิดขึ้นจริงได้อย่างไร? ฉันจะใช้ 0-3 ฉันจะใช้ 1-3 และปล่อยว่างไว้ที่ 4 หรือไม่? ข้อเสนอแนะใด ๆ หมายเหตุ: ฉันจะทำงานในอาร์ UPDATE: จะเกิดอะไรขึ้นถ้าฉันใช้คอลัมน์เดียวที่ใช้ 1-4 สอดคล้องกับโฆษณา มันจะทำงานหรือแนะนำปัญหาหรือไม่

1
การกระจายตัวของค่าสัมประสิทธิ์การถดถอย
สมมติว่าเรามีโมเดลเชิงเส้น Yผม=β0+β1xผม+εผมyi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_iที่ตรงตามสมมติฐานการถดถอยมาตรฐาน (Gauss-Markov) ทั้งหมด เราสนใจθ = 1 /β1θ=1/β1\theta = 1/\beta_1. คำถามที่ 1:ข้อสมมติฐานอะไรที่จำเป็นสำหรับการแจกแจงθ^θ^\hat{\theta} ที่จะกำหนดไว้อย่างดี? β1≠ 0β1≠0\beta_1 \neq 0 จะมีความสำคัญ --- คนอื่น ๆ ? คำถามที่ 2:เพิ่มการสันนิษฐานว่าข้อผิดพลาดเป็นไปตามการแจกแจงแบบปกติ เรารู้ว่าถ้าβ^1β^1\hat{\beta}_1 คือ MLE และ ก.( ⋅ )g(⋅)g(\cdot) เป็นฟังก์ชั่นโมโนโทน ก.(β^1)g(β^1)g\left(\hat{\beta}_1\right) เป็น MLE สำหรับ ก.(β1)g(β1)g(\beta_1). เป็นสิ่งที่จำเป็นต้องมีเพียงอย่างเดียวในพื้นที่ใกล้เคียงของβ1β1\beta_1? ในคำอื่น ๆ คือθ^= 1 /β^θ^=1/β^\hat{\theta} …

2
ฉันสามารถเชื่อถือการถดถอยได้หรือไม่หากตัวแปรเกี่ยวข้องอัตโนมัติ
ตัวแปรทั้งสอง (ขึ้นอยู่กับและเป็นอิสระ) แสดงผลของความสัมพันธ์อัตโนมัติ ข้อมูลเป็นอนุกรมเวลาและเครื่องเขียน เมื่อฉันเรียกใช้ส่วนที่เหลือถดถอยจะไม่สัมพันธ์ สถิติ Durbin-Watson ของฉันมีค่ามากกว่าค่าวิกฤตที่สำคัญดังนั้นจึงมีหลักฐานว่าข้อผิดพลาดไม่มีความสัมพันธ์เชิงบวก เมื่อฉันพล็อต ACF เพื่อหาข้อผิดพลาดดูเหมือนว่าไม่มีความสัมพันธ์กันและสถิติ Ljung-Box นั้นเล็กกว่าค่าวิกฤต ฉันสามารถไว้วางใจผลลัพธ์การถดถอยของฉันได้หรือไม่สถิติ t- เชื่อถือได้หรือไม่

2
การถดถอยประเภทใดที่จะใช้โดยพิจารณาหนึ่งตัวแปรที่มีขอบเขตสูงสุด?
ฉันไม่แน่ใจว่าวิธีการใดที่ใช้ในการสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรสองตัว (และ ) ในการทดลองที่อธิบายไว้ดังต่อไปนี้:xxxYyy มี 3 ตัวแปร ได้แก่ : ,และy ที่xฉันเมตรxaimx_{aim}xxxYyy ค่าของถูกตั้งค่าเมื่อใช้งานการทดสอบ อย่างไรก็ตามและอาจไม่เท่ากันเสมอไปxฉันเมตรxaimx_{aim}xxxxaimxaimx_{aim} สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันระหว่างถึงประมาณ 0.9xaimxaimx_{aim}xxx สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันระหว่างและน้อยกว่ามาก: ประมาณ 0.5xxxyyy yyyมีค่าสูงสุดที่เป็นไปได้ ( ) ซึ่งไม่สามารถเกินได้ymaxymaxy_{max} แต่ละจุดข้อมูลที่จะได้รับหลังจากการตั้งค่าและการอ่านและy ที่xaimxaimx_{aim}xxxyyy แม้ว่าค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันระหว่างและไม่ดีดูเหมือนว่ามีแนวโน้มที่จะเพิ่มขึ้นด้วยxxxxyyyyyyxxx หลังจากทำการวิเคราะห์เชิงเส้นอย่างง่ายของและ (และแปลงหลังเป็นเพื่อที่จะแสดงบนกราฟเดียวกันเช่นเช่น) ทั้งความชัน เป็นบวก แต่ความลาดชันของเป็นมากกว่าที่ฉy=f(x)y=f(x)y=f(x)x=g(y)x=g(y)x=g(y)g−1g−1g^{-1}fffg−1g−1g^{-1}fff มันสมเหตุสมผลไหมที่จะพูดว่าหรือ ? (จะถึงก่อนหน้าในกรณีที่สอง)xmax=f−1(ymax)xmax=f−1(ymax)x_{max} = f^{-1}(y_{max})xmax=g(ymax)xmax=g(ymax)x_{max} = g(y_{max})xmaxxmaxx_{max} เมื่อพิจารณาว่าถูกผูกไว้ด้วยสิ่งใดที่สามารถพูดได้เกี่ยวกับค่าสูงสุดที่เป็นไปได้ของที่สามารถเข้าถึงได้yyyymaxymaxy_{max}xxx เท่าที่ฉันเข้าใจมันทำให้รู้สึกถึงการถดถอยเชิงเส้นของรูปแบบเมื่อเป็นตัวแปรอิสระและเป็นตัวแปรตาม อย่างไรก็ตามในบริบทนี้ฉันไม่แน่ใจว่ามันสมเหตุสมผลหรือไม่ที่จะพิจารณาว่าเป็นอิสระและขึ้นอยู่กับy=f(x)y=f(x)y=f(x)xxxyyyxxxyyy การถดถอยกำลังสองน้อยที่สุดจะเหมาะสมกว่าหรือไม่ มีวิธีอื่นในการพิจารณาว่าค่าใดของสามารถเข้าถึงได้ (และโอกาสใดที่)xmaxxmaxx_{max} (หากเป็นกรณีนี้และดูเหมือนจะไม่เป็นไปตามการแจกแจงแบบปกติเนื่องจากมีความพยายามมากขึ้นในการพยายามเข้าถึงค่าที่สูงกว่าของ )xxxyyyxxx

1
ความแตกต่างระหว่างการควบคุมและการรักษาควรเป็นแบบอย่างชัดเจนหรือโดยปริยาย?
รับการตั้งค่าการทดลองต่อไปนี้: ตัวอย่างจำนวนมากนำมาจากหัวเรื่องและแต่ละตัวอย่างได้รับการปฏิบัติหลายวิธี (รวมถึงการรักษาควบคุม) สิ่งที่น่าสนใจที่สุดคือความแตกต่างระหว่างการควบคุมและการรักษาแต่ละครั้ง ฉันนึกถึงโมเดลง่าย ๆ สองแบบสำหรับข้อมูลนี้ ด้วยตัวอย่างรักษารักษา 0 ถูกควบคุมให้เป็นข้อมูลเป็นพื้นฐานสำหรับตัวอย่าง ,มีความแตกต่างในการรักษาญโมเดลแรกดูทั้งการควบคุมและความแตกต่าง:ผมiiJjjYฉันเจYijY_{ij}γผมγi\gamma_iผมiiδJδj\delta_jJjj Yฉันเจ=γผม+δJ+εฉันเจYij=γi+δj+ϵij Y_{ij}=\gamma_i+\delta_j+\epsilon_{ij} δ0= 0δ0=0 \delta_0=0 ในขณะที่รุ่นที่สองเท่านั้นที่ดูความแตกต่าง หากเราทำการล่วงหน้าล่วงหน้า ดังนั้น dฉันเจdijd_{ij}dฉันเจ=Yฉันเจ-Yฉัน0dij=Yij−Yi0 d_{ij}=Y_{ij}-Y_{i0} dฉันเจ=δJ+εฉันเจdij=δj+εij d_{ij}=\delta_j+\varepsilon_{ij} คำถามของฉันคืออะไรความแตกต่างพื้นฐานระหว่างการตั้งค่าทั้งสองนี้คืออะไร โดยเฉพาะอย่างยิ่งหากระดับนั้นไร้ความหมายในตัวเองและมีเพียงความแตกต่างเท่านั้นที่เป็นโมเดลแรกที่ทำมากเกินไปและอาจต่ำกว่าความเป็นจริง?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.