คำถามติดแท็ก residuals

ค่าคงที่ของโมเดลคือค่าจริงลบด้วยค่าที่ทำนาย แบบจำลองทางสถิติหลายอย่างตั้งสมมติฐานเกี่ยวกับข้อผิดพลาดซึ่งประเมินโดยค่าตกค้าง

1
สมมติฐาน LASSO
ในสถานการณ์การถดถอย LASSO ที่ ,y=Xβ+ϵy=Xβ+ϵy= X \beta + \epsilon และการประเมิน LASSO นั้นมาจากปัญหาการปรับให้เหมาะสมต่อไปนี้ นาทีβ| | Y- Xβ| | +τ| | β| |1นาทีβ||Y-Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 มีสมมติฐานการกระจายใด ๆ เกี่ยวกับการ ?εε\epsilon ในสถานการณ์ OLS ใครจะคาดหวังว่ามีความเป็นอิสระและกระจายตามปกติεε\epsilon มันสมเหตุสมผลหรือไม่ที่จะวิเคราะห์ส่วนที่เหลือในการถดถอยแบบ LASSO? ฉันรู้ว่าประมาณการ Lasso สามารถรับเป็นโหมดหลังภายใต้อิสระไพรเออร์ดับเบิลชี้แจงสำหรับเจ แต่ฉันไม่พบ "การตรวจสอบสมมติฐานขั้นตอน" มาตรฐานใด ๆβJβJ\beta_j ขอบคุณล่วงหน้า (:

1
รูปแบบที่เหลือโดยอัตโนมัติสัมพันธ์ยังคงอยู่แม้ในรูปแบบที่มีโครงสร้างความสัมพันธ์ที่เหมาะสมและวิธีการเลือกรูปแบบที่ดีที่สุด?
บริบท คำถามนี้ใช้ R แต่เกี่ยวกับปัญหาทางสถิติทั่วไป ฉันกำลังวิเคราะห์ผลกระทบของปัจจัยการเสียชีวิต (อัตราการตาย% เนื่องจากโรคและปรสิต) ต่ออัตราการเติบโตของประชากรมอดเมื่อเวลาผ่านไปโดยมีการสุ่มตัวอย่างประชากร 12 ตัวต่อปีเป็นเวลา 8 ปี ข้อมูลอัตราการเติบโตของประชากรแสดงแนวโน้มวัฏจักรที่ชัดเจน แต่ผิดปกติเมื่อเวลาผ่านไป ส่วนที่เหลือจากแบบจำลองเชิงเส้นแบบง่ายทั่วไป (อัตราการเจริญเติบโต ~% โรค +% ปรสิต + ปี) แสดงแนวโน้มวัฏจักรที่ชัดเจน แต่ผิดปกติตลอดเวลา ดังนั้นแบบจำลองกำลังสองน้อยที่สุดทั่วไปของรูปแบบเดียวกันจึงถูกนำไปใช้กับข้อมูลที่มีโครงสร้างความสัมพันธ์ที่เหมาะสมเพื่อจัดการกับความสัมพันธ์ระหว่างกาลชั่วคราวเช่นสมมาตรผสมคำสั่งกระบวนการอัตโนมัติ 1 และโครงสร้างความสัมพันธ์เฉลี่ยเคลื่อนที่อัตโนมัติ แบบจำลองทั้งหมดมีเอฟเฟกต์คงที่เหมือนกันถูกนำมาเปรียบเทียบโดยใช้ AIC และติดตั้งโดย REML (เพื่อให้สามารถเปรียบเทียบโครงสร้างความสัมพันธ์ที่แตกต่างกันโดย AIC) ฉันใช้ R package nlme และฟังก์ชัน gls คำถามที่ 1 ส่วนที่เหลือของแบบจำลอง GLS ยังคงแสดงรูปแบบวัฏจักรที่เหมือนกันเกือบทุกรูปแบบเมื่อเทียบกับเวลา รูปแบบดังกล่าวจะยังคงอยู่หรือไม่แม้จะอยู่ในรูปแบบที่มีความแม่นยำในโครงสร้างของความสัมพันธ์ ฉันได้จำลองข้อมูลที่เรียบง่าย แต่คล้ายกันใน R ด้านล่างคำถามที่สองของฉันซึ่งแสดงปัญหาตามความเข้าใจปัจจุบันของฉันเกี่ยวกับวิธีการที่จำเป็นในการประเมินรูปแบบที่สัมพันธ์กันแบบชั่วคราวในรูปแบบที่เหลือซึ่งตอนนี้ฉันรู้ว่าผิด คำถามที่ …

4
ยืนยันการกระจายตัวของสารตกค้างในการถดถอยเชิงเส้น
สมมติว่าเราใช้การถดถอยเชิงเส้นอย่างง่ายบันทึกเศษเหลือ^ u iและวาดฮิสโตแกรมของการกระจายตัวของเศษซาก หากเราได้สิ่งที่ดูเหมือนการแจกแจงที่คุ้นเคยเราสามารถสันนิษฐานได้ว่าข้อผิดพลาดของเรามีการกระจายตัวนี้หรือไม่? สมมติว่าถ้าเราพบว่าเศษเหลือคล้ายการแจกแจงแบบปกติมันสมเหตุสมผลหรือไม่ที่จะถือว่าความเป็นบรรทัดฐานของคำผิดพลาดในประชากร? ฉันคิดว่ามันสมเหตุสมผล แต่จะเป็นธรรมได้อย่างไรy=β0+β1x+uY=β0+β1x+ยูy=\beta_0+\beta_1x+uui^ยูผม^\hat{u_i}

2
ฉันจะตีความพล็อตส่วนที่เหลือเทียบกับส่วนที่เหลือนี้ได้อย่างไร
ฉันไม่เข้าใจความแตกต่างอย่างแท้จริง ฉันต้องการทราบว่าโมเดลของฉันเหมาะสมหรือไม่ตามพล็อตนี้

1
เพียร์สัน VS Deviance ตกค้างในการถดถอยโลจิสติก
ฉันรู้ว่าเพียร์สันที่เหลือมาตรฐานได้รับในความน่าจะเป็นแบบดั้งเดิม: ri=yi−πiπi(1−πi)−−−−−−−−√ri=yi−πiπi(1−πi) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} และ Deviance Residuals ได้มาจากวิธีการทางสถิติที่มากขึ้น (การสนับสนุนของแต่ละจุดสู่โอกาส): di=si−2[yilogπi^+(1−yi)log(1−πi)]−−−−−−−−−−−−−−−−−−−−−−−−−−√di=si−2[yilog⁡πi^+(1−yi)log⁡(1−πi)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} โดยที่sisis_i = 1 ถ้าyiyiy_i = 1 และsisis_i = -1 ถ้าyiyiy_i = 0 คุณสามารถอธิบายให้ฉันอย่างสังหรณ์ใจได้อย่างไรวิธีการตีความสูตรการเบี่ยงเบนที่เหลืออยู่? ยิ่งไปกว่านั้นถ้าฉันต้องการเลือกอันไหนอันไหนที่เหมาะกว่าและทำไม? BTW การอ้างอิงบางอย่างอ้างว่าเราได้รับค่าเบี่ยงเบนเหลืออยู่จากคำว่า −12ri2−12ri2-\frac{1}{2}{r_i}^2 ที่ถูกกล่าวถึงข้างต้นririr_i

2
เพียร์สันที่เหลือ
คำถามเริ่มต้นเกี่ยวกับส่วนที่เหลือของเพียร์สันในบริบทของการทดสอบไคสแควร์เพื่อความเหมาะสม: เช่นเดียวกับสถิติการทดสอบchisq.testฟังก์ชั่นของ R รายงานส่วนที่เหลือของเพียร์สัน: (obs - exp) / sqrt(exp) ฉันเข้าใจว่าทำไมการดูความแตกต่างที่แท้จริงระหว่างค่าที่สังเกตและค่าที่คาดหวังไม่ใช่ข้อมูลนั้นเนื่องจากตัวอย่างขนาดเล็กจะส่งผลให้เกิดความแตกต่างเล็กน้อย อย่างไรก็ตามฉันต้องการทราบเพิ่มเติมเกี่ยวกับผลกระทบของตัวหาร: ทำไมหารด้วยรากของค่าที่คาดไว้ นี่คือส่วนที่เหลือ 'มาตรฐาน' หรือไม่?

3
เป็นไปได้ไหมที่จะแบ่งชั้นข้อมูลที่กำหนดโดยขนาดของส่วนที่เหลือและทำการเปรียบเทียบสองตัวอย่าง?
นี่คือสิ่งที่ฉันเห็นทำในรูปแบบของการเฉพาะกิจและดูเหมือนว่าจะคาวมากสำหรับฉัน แต่บางทีฉันอาจขาดอะไรบางอย่าง ฉันเคยเห็นสิ่งนี้ทำในหลาย ๆ การถดถอย แต่ลองทำมันให้ง่าย: yi=β0+β1xi+εiyi=β0+β1xi+εi y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} ตอนนี้นำส่วนที่เหลือจากรุ่นที่ติดตั้ง ei=yi−(β^0+β^1xi)ei=yi−(β^0+β^1xi) e_{i} = y_{i} - \left( \hat{\beta}_{0} + \hat{\beta}_{1} x_{i} \right) และจัดกลุ่มตัวอย่างตามขนาดของสารตกค้าง ตัวอย่างเช่นสมมติว่าตัวอย่างแรกคือ 90% ด้านล่างของส่วนที่เหลือและตัวอย่างที่สองคือด้านบน 10% จากนั้นดำเนินการเปรียบเทียบสองตัวอย่าง - ฉันเคยเห็นสิ่งนี้ทำทั้งในตัวทำนายในโมเดลxxxและ เกี่ยวกับตัวแปรที่ไม่ได้อยู่ในแบบจำลอง ตรรกะที่ไม่เป็นทางการที่ใช้คือบางทีจุดที่มีค่าสูงกว่าสิ่งที่คุณคาดหวังภายใต้แบบจำลอง (เช่นส่วนที่เหลือขนาดใหญ่) จะแตกต่างกันในบางวิธีและมีการตรวจสอบความแตกต่างด้วยวิธีนี้ ความคิดของฉันเกี่ยวกับเรื่องนี้คือ: หากคุณเห็นความแตกต่าง 2 ตัวอย่างกับตัวทำนายในแบบจำลองนั้นจะมีผลกระทบของตัวทำนายที่ไม่ได้รับการพิจารณาโดยตัวแบบในสถานะปัจจุบัน (เช่นผลที่ไม่ใช่เชิงเส้น) หากคุณเห็นความแตกต่าง 2 ตัวอย่างในตัวแปรที่ไม่ได้อยู่ในแบบจำลองบางทีมันควรจะอยู่ในรูปแบบในตอนแรก สิ่งหนึ่งที่ฉันได้พบโดยสังเกตุ (ผ่านการจำลอง) คือถ้าคุณเปรียบเทียบค่าเฉลี่ยของตัวทำนายในโมเดลและแบ่งชั้นด้วยวิธีนี้เพื่อสร้างค่าเฉลี่ยตัวอย่างสองตัวอย่างคือ¯ …

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

2
ความเป็นมาของการแปลงสภาพให้เป็นมาตรฐานสำหรับ GLM
\newcommand{\E}{\mathbb{E}}วิธีการคือ normalizing เปลี่ยนสำหรับครอบครัวชี้แจง มา? A ( ⋅ ) = ∫ d uV 1 / 3 ( μ )A(⋅)=∫duV1/3(μ)A(\cdot) = \displaystyle\int\frac{du}{V^{1/3}(\mu)} โดยเฉพาะอย่างยิ่ง : ฉันพยายามติดตามภาพร่างการขยายตัวของเทย์เลอร์ในหน้า 3 เลื่อน 1 ที่นี่แต่มีคำถามหลายข้อ ด้วยXXXจากตระกูลชี้แจงการแปลงh ( X )h(X)h(X)และκ ฉันκi\kappa _iแสดงถึงฉันทีเอชithi^{th} cumulant สไลด์ยืนยันว่า: κ 3 ( h ( ˉ X ) ) ≈ h ′ ( μ ) …

3
การทำนายความแปรปรวนของข้อมูล heteroscedastic
ฉันพยายามทำการถดถอยกับข้อมูลแบบเฮเทอโรเซสติกซึ่งฉันพยายามทำนายความแปรปรวนข้อผิดพลาดรวมถึงค่าเฉลี่ยในแง่ของตัวแบบเชิงเส้น บางสิ่งเช่นนี้ y(x,t)ξ(x,t)y¯(x,t)σ(x,t)=y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} ในคำพูดของข้อมูลที่ประกอบด้วยวัดซ้ำของที่ค่าต่างๆของxและเสื้อ ฉันถือว่าการวัดเหล่านี้ประกอบด้วยค่า "จริง" หมายถึงค่าˉ y ( x , t )ซึ่งเป็นฟังก์ชันเชิงเส้นของxและtพร้อมกับเสียงเกาส์แบบเติมadd ( x , t )ซึ่งค่าเบี่ยงเบนมาตรฐาน (หรือความแปรปรวนฉันไม่ได้ ตัดสินใจ) นอกจากนี้ยังขึ้นอยู่กับเส้นตรงกับx ,เสื้อ (ฉันอาจอนุญาตการพึ่งพาที่ซับซ้อนมากขึ้นในxและy(x,t)y(x,t)y(x,t)xxxttty¯(x,t)y¯(x,t)\bar{y}(x,t)xxxtttξ(x,t)ξ(x,t)\xi(x,t)x,tx,เสื้อx,txxx - ไม่มีแรงกระตุ้นเชิงทฤษฎีที่แข็งแกร่งสำหรับรูปแบบเชิงเส้น - แต่ฉันไม่อยากจะเข้าใจสิ่งต่าง ๆ ในตอนนี้)ttt ฉันรู้ว่าคำค้นหาที่นี่คือ "heteroscedasticity" แต่ทั้งหมดที่ฉันสามารถค้นหาได้คือการอภิปรายเกี่ยวกับวิธีการลด / ลบคำศัพท์เพื่อทำนายดีขึ้นแต่ไม่มีอะไรในแง่ของการพยายามทำนายσในแง่ของ ตัวแปรอิสระ. ฉันต้องการประมาณy 0 …

4
สถิติ Ljung-Box สำหรับ ARIMA ที่เหลือใน R: ผลการทดสอบที่สับสน
ฉันมีอนุกรมเวลาที่ฉันพยายามคาดการณ์ซึ่งฉันใช้ ARIMA ตามฤดูกาล (0,0,0) (0,1,0) [12] โมเดล (= fit2) มันแตกต่างจากสิ่งที่ R แนะนำกับ auto.arima (R คำนวณ ARIMA (0,1,1) (0,1,0) [12] น่าจะเหมาะกว่าฉันตั้งชื่อมันว่า fit1) อย่างไรก็ตามในช่วง 12 เดือนสุดท้ายของซีรีส์เวลาของฉันโมเดลของฉัน (พอดี 2) ดูเหมือนจะดีกว่าเมื่อปรับแล้ว (มันมีอคติเรื้อรังฉันได้เพิ่มค่าเฉลี่ยที่เหลือ นี่คือตัวอย่างของ 12 เดือนล่าสุดและ MAPE สำหรับ 12 เดือนล่าสุดสำหรับทั้งสองพอดี: อนุกรมเวลามีลักษณะดังนี้: จนถึงตอนนี้ดีมาก ฉันทำการวิเคราะห์ที่เหลือสำหรับทั้งสองรุ่นและนี่คือความสับสน acf (ส่วนที่เหลือ (พอดี 1)) ดูดีมากเสียงดังมาก: อย่างไรก็ตามการทดสอบ Ljung-Box นั้นดูไม่ดีเช่น 20 lags: Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1) ฉันได้รับผลลัพธ์ต่อไปนี้: …

6
เหตุใดเศษที่เหลือในการถดถอยเชิงเส้นจึงรวมเป็นศูนย์เสมอเมื่อมีการสกัดกั้น?
ฉันกำลังเรียนหลักสูตรรูปแบบการถดถอยและหนึ่งในคุณสมบัติที่มีให้สำหรับการถดถอยเชิงเส้นคือส่วนที่เหลือจะรวมเป็นศูนย์เสมอเมื่อมีการสกัดกั้น ใครสามารถให้คำอธิบายที่ดีว่าทำไมถึงเป็นเช่นนี้

4
ทำไมเราถึงพูดว่า“ ข้อผิดพลาดมาตรฐานที่ตกค้าง”?
มีข้อผิดพลาดมาตรฐานคือประมาณค่าเบี่ยงเบนมาตรฐานσ ( θ )ของประมาณการθสำหรับพารามิเตอร์θσ^(θ^)σ^(θ^)\hat \sigma(\hat\theta)θ^θ^\hat\thetaθθ\theta ทำไมค่าเบี่ยงเบนมาตรฐานโดยประมาณของส่วนที่เหลือเรียกว่า "ข้อผิดพลาดมาตรฐานส่วนที่เหลือ" (เช่นในผลลัพธ์ของsummary.lmฟังก์ชันR ) และไม่ใช่ "ค่าเบี่ยงเบนมาตรฐานส่วนที่เหลือ"? เราประมาณค่าพารามิเตอร์ที่จัดให้มีข้อผิดพลาดมาตรฐานที่นี่? เราพิจารณาแต่ละค่าส่วนที่เหลือเป็นตัวประมาณสำหรับข้อผิดพลาด "ของ" และประเมินข้อผิดพลาดมาตรฐาน "รวม" ของตัวประมาณเหล่านี้ทั้งหมดหรือไม่

1
R: ทดสอบค่าปกติของส่วนที่เหลือของตัวแบบเชิงเส้น - ซึ่งส่วนที่เหลือที่จะใช้
ฉันต้องการทำการทดสอบ W ของ Shapiro Wilk และการทดสอบ Kolmogorov-Smirnov กับส่วนที่เหลือของแบบจำลองเชิงเส้นเพื่อตรวจสอบความเป็นไปได้ ฉันแค่สงสัยว่าสิ่งที่เหลือควรใช้สำหรับการนี้ - ส่วนที่เหลือดิบ, เพียร์สันที่เหลือ, นักเรียนที่เหลืออยู่หรือนักเรียนที่ได้มาตรฐาน? สำหรับการทดสอบ W ของ Shapiro-Wilk นั้นปรากฏว่าผลลัพธ์สำหรับส่วนที่เหลือและเพียร์สันดิบนั้นเหมือนกัน แต่ไม่ใช่สำหรับคนอื่น ๆ fit=lm(mpg ~ 1 + hp + wt, data=mtcars) res1=residuals(fit,type="response") res2=residuals(fit,type="pearson") res3=rstudent(fit) res4=rstandard(fit) shapiro.test(res1) # W = 0.9279, p-value = 0.03427 shapiro.test(res2) # W = 0.9279, p-value = 0.03427 shapiro.test(res3) # …

3
สิ่งที่เหลือตามปกติหมายถึงอะไรและสิ่งนี้บอกอะไรฉันเกี่ยวกับข้อมูลของฉัน
คำถามพื้นฐานสวย: การกระจายตัวตามปกติของเศษซากจากการถดถอยเชิงเส้นหมายความว่าอย่างไร ในแง่ของสิ่งนี้สะท้อนให้เห็นถึงข้อมูลเดิมของฉันจากการถดถอยอย่างไร ฉันนิ่งงันโดยสิ้นเชิงขอบคุณมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.