คำถามติดแท็ก residuals

ค่าคงที่ของโมเดลคือค่าจริงลบด้วยค่าที่ทำนาย แบบจำลองทางสถิติหลายอย่างตั้งสมมติฐานเกี่ยวกับข้อผิดพลาดซึ่งประเมินโดยค่าตกค้าง

1
คุณใช้การวิเคราะห์เศษซากแบบหลังพอดีชนิดใด
เมื่อดำเนินการถดถอยเชิงเส้นหลายครั้งของ OLS แทนที่จะวางแผนส่วนที่เหลือเทียบกับค่าติดตั้งฉันวางแผนส่วนที่เหลือแบบนักเรียน (ภายใน) กับค่าติดตั้ง (เหมือนกันสำหรับ covariates) ส่วนที่เหลือเหล่านี้ถูกกำหนดเป็น: อี* * * *ผม= eผมs2( 1 - ชมฉันฉัน)---------√อีผม* * * *=อีผมs2(1-ชั่วโมงผมผม)\begin{equation} e^*_i = \frac{e_i}{\sqrt{s^2 (1-h_{ii})}} \end{equation} โดยที่คือส่วนตกค้างและh i iเป็นองค์ประกอบในแนวทแยงของเมทริกซ์หมวก ในการรับค่าส่วนที่เหลือเป็นรายนักศึกษาเหล่านี้ใน R คุณสามารถใช้คำสั่งอีผมอีผมe_iชั่วโมงฉันฉันชั่วโมงผมผมh_{ii}rstandard คนประเภทใดที่ใช้เป็นประจำในบริบทนี้ ตัวอย่างเช่นคุณแค่ติดกับหรือคุณใช้ของเหลือของ jackknife หรืออย่างอื่นทั้งหมดอีผมอีผมe_i หมายเหตุ: ฉันไม่สนใจเอกสารที่กำหนดประเภทใหม่ของสารตกค้างที่ไม่มีใครเคยใช้

2
เหตุใดเราใช้เหลือเพื่อทดสอบสมมติฐานเกี่ยวกับข้อผิดพลาดในการถดถอย
สมมติว่าเรามีรูปแบบ Yi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiYi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiY_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i. การถดถอยมีข้อสมมติฐานหลายประการเช่นข้อผิดพลาด ϵiϵi\epsilon_iควรกระจายตามปกติด้วยค่าเฉลี่ยศูนย์และความแปรปรวนคงที่ ฉันได้รับการสอนให้ตรวจสอบสมมติฐานเหล่านี้โดยใช้พล็อต QQ ปกติเพื่อทดสอบความเป็นไปได้ของส่วนที่เหลือei=Yi−Y^iei=Yi−Y^ie_i = Y_i - \hat{Y}_i และส่วนที่เหลือเทียบกับพล็อตที่ติดตั้งเพื่อตรวจสอบว่าส่วนที่เหลือแตกต่างกันไปรอบ ๆ ศูนย์ด้วยความแปรปรวนคงที่ อย่างไรก็ตามการทดสอบเหล่านี้ทั้งหมดเกี่ยวกับส่วนที่เหลือไม่ใช่ข้อผิดพลาด จากสิ่งที่ฉันเข้าใจข้อผิดพลาดหมายถึงการเบี่ยงเบนของการสังเกตแต่ละครั้งจากค่าเฉลี่ยที่แท้จริงของพวกเขา ดังนั้นเราสามารถเขียนϵi=Yi−E[Yi]ϵi=Yi−E[Yi]\epsilon_i = Y_i - \mathbb{E}[Y_i]. เราไม่สามารถสังเกตเห็นข้อผิดพลาดเหล่านี้ได้ * * * * คำถามของฉันคือสิ่งนี้: สิ่งที่เหลืออยู่ของงานทำอย่างไรในการเลียนแบบข้อผิดพลาด? หากสมมติฐานปรากฏว่าพอใจในส่วนที่เหลือหมายความว่าพวกเขามีความพึงพอใจต่อข้อผิดพลาดด้วยหรือไม่? มีวิธีอื่น ๆ (ดีกว่า) ในการทดสอบสมมติฐานเช่นการปรับโมเดลให้เหมาะกับชุดข้อมูลการทดสอบและรับส่วนที่เหลือจากที่นั่นหรือไม่? * นอกจากนี้สิ่งนี้ไม่ต้องการให้มีการระบุรุ่นอย่างถูกต้องหรือไม่? นั่นคือการตอบสนองจะมีความสัมพันธ์กับผู้ทำนายX1,X2,X1,X2,X_1, X_2, ฯลฯ …

1
ความแตกต่างระหว่างค่าผิดปกติและค่าเริ่มต้น
ฉันสะดุดกับคำที่มาก่อนในการวัด LOF (Local Outlier Factor) ฉันคุ้นเคยกับเงื่อนไขของค่าผิดปกติ (โดยทั่วไปคือ liers - อินสแตนซ์ที่ไม่ทำงานเหมือนกับอินสแตนซ์อื่น ๆ ) 'Inliers' หมายถึงอะไรในบริบทของการตรวจจับความผิดปกติ และวิธีการที่เกี่ยวข้องกับ (แตกต่างจาก) ค่าผิดปกติ?

1
เป็นค่าเศษซากที่นักเรียนได้รับ v / s ที่เหลือเป็นค่ามาตรฐานในรูปแบบ lm
"เศษเหลือของนักเรียน" และ "เศษซากมาตรฐาน" เหมือนกันในแบบจำลองการถดถอยหรือไม่ ฉันสร้างแบบจำลองการถดถอยเชิงเส้นใน R และต้องการพล็อตกราฟของค่าติดตั้ง Studentized v / s ที่ติดตั้งไว้ แต่ไม่พบวิธีอัตโนมัติในการทำเช่นนี้ใน R สมมติว่าฉันมีรูปแบบ library(MASS) lm.fit <- lm(Boston$medv~(Boston$lstat)) จากนั้นการใช้plot(lm.fit)ไม่ได้ให้พล็อตใด ๆ ของค่าเศษ Studentized เทียบกับค่าติดตั้ง แต่ยังให้ค่าพล็อตค่ามาตรฐานกับค่าที่ติดตั้ง ฉันใช้plot(lm.fit$fitted.values,studres(lm.fit)แล้วมันจะพล็อตกราฟที่ต้องการดังนั้นเพียงแค่ต้องการยืนยันว่าฉันกำลังไปทางที่ถูกต้องและส่วนที่เหลือเป็นนักเรียนและมาตรฐานไม่ใช่สิ่งเดียวกัน หากพวกเขาแตกต่างกันโปรดให้คำแนะนำในการคำนวณพวกเขาและคำจำกัดความของพวกเขา ฉันค้นหาผ่านเน็ตและพบว่ามันสับสนเล็กน้อย

3
Bootstrapping residencies: ฉันทำถูกไหม?
ก่อนอื่น: จากสิ่งที่ฉันเข้าใจส่วนที่เหลือในการบูตสแตรปทำงานได้ดังนี้: ปรับโมเดลให้เหมาะสมกับข้อมูล คำนวณส่วนที่เหลือ ลองสุ่มดูส่วนที่เหลือแล้วเพิ่มลงใน 1 ปรับโมเดลให้เหมาะกับชุดข้อมูลใหม่จาก 3 ทำซ้ำnครั้ง แต่เพิ่มส่วนที่เหลือที่ถูก resampled ให้พอดีจาก 1 เสมอ ถูกต้องจนถึงตอนนี้หรือไม่ สิ่งที่ฉันต้องการจะทำคือสิ่งที่แตกต่างออกไปเล็กน้อย: ฉันต้องการประมาณค่าพารามิเตอร์และการทำนายความไม่แน่นอนสำหรับอัลกอริทึมที่ประมาณค่าตัวแปรสภาพแวดล้อม สิ่งที่ผมมีคือปราศจากข้อผิดพลาดอนุกรมเวลา (จากการจำลอง) ของตัวแปรที่x_trueซึ่งฉันจะเพิ่มเสียงบางอย่างในการสั่งซื้อเพื่อสร้างชุดข้อมูลที่สังเคราะห์x_noise xจากนั้นฉันพยายามค้นหาพารามิเตอร์ที่เหมาะสมโดยปรับอัลกอริธึมของฉันด้วยผลรวมของกำลังสองsum((x_estimate - x_true)^2)(! ไม่x_estimate - x!) เป็นฟังก์ชันวัตถุประสงค์ เพื่อที่จะดูว่าอัลกอริทึมของฉันทำงานอย่างไรและเพื่อสร้างตัวอย่างของการแจกแจงพารามิเตอร์ของฉันฉันต้องการที่จะ resample x_noiseเพิ่มให้x_trueพอดีกับแบบจำลองของฉันอีกครั้งล้างและทำซ้ำ นั่นเป็นวิธีที่ถูกต้องในการประเมินความไม่แน่นอนของพารามิเตอร์หรือไม่ ฉันสามารถแปลความพอดีกับชุดข้อมูล bootstrapped ว่าเป็นความไม่แน่นอนในการทำนายหรือฉันต้องทำตามขั้นตอนที่ฉันโพสต์ไว้ด้านบนหรือไม่ / แก้ไข: ฉันคิดว่าฉันยังไม่ได้ทำให้ชัดเจนว่าแบบจำลองของฉันทำอะไร คิดว่ามันเป็นสิ่งที่ต้องการวิธีลดเสียง มันไม่ใช่รูปแบบการทำนายมันเป็นอัลกอริทึมที่พยายามดึงสัญญาณต้นแบบของข้อมูลด้านสิ่งแวดล้อมที่มีเสียงดัง / edit ^ 2: สำหรับผู้ใช้ MATLAB ที่นั่นฉันได้เขียนตัวอย่างการถดถอยเชิงเส้นอย่างรวดเร็วและสกปรกของสิ่งที่ฉันหมายถึง นี่คือสิ่งที่ฉันเชื่อว่าการบู๊ตแบบธรรมดา "(โปรดแก้ไขฉันหากฉันผิด): http://pastebin.com/C0CJp3d1 นี่คือสิ่งที่ฉันต้องการทำ: …

2
สังเกตพบการกระจายตัวแบบเบ้ซ้ายและสมมาตร
มันค่อนข้างยากสำหรับฉันที่จะอธิบาย แต่ฉันจะพยายามทำให้ปัญหาของฉันเป็นที่เข้าใจได้ ก่อนอื่นคุณต้องรู้ว่าฉันได้ทำการถดถอยเชิงเส้นอย่างง่ายจนถึงตอนนี้ ก่อนที่ผมจะประมาณค่าสัมประสิทธิ์ฉันดูการกระจายของฉันYมันหนักไปทางซ้ายเบ้ หลังจากที่ฉันประเมินแบบจำลองแล้วฉันค่อนข้างแน่ใจว่าจะสังเกตสิ่งที่เหลืออยู่แบบเบ้ซ้ายในรูปแบบ QQ-Plot เป็น wel แต่ฉันไม่ได้ทำอย่างแน่นอน อะไรคือสาเหตุของการแก้ไขนี้? ความผิดพลาดอยู่ที่ไหน หรือมีการกระจายอะไรจะทำอย่างไรกับการกระจายของระยะข้อผิดพลาดหรือไม่YYyYYy

3
การถดถอยลอจิสติกส์การถดถอยที่เหลือจากการถดถอยอื่น ๆ
ด้วยการถดถอย OLS นำไปใช้กับการตอบสนองอย่างต่อเนื่องเราสามารถสร้างสมการการถดถอยแบบหลายสมการได้ คำถามของฉันคือมีวิธีทำเช่นนี้กับการถดถอยโลจิสติกผ่านเศษเหลือการถดถอยโลจิสติก ? นั่นคือถ้าฉันต้องการประมาณโดยใช้วิธีการสร้างแบบจำลองเชิงเส้นแบบมาตรฐานทั่วไปมีวิธีเรียกใช้การถดถอยแบบลอจิสติกกับxและรับ pseudo-residuals R_1จากนั้นถดถอยR_1บนzถึง รับตัวประมาณค่าสัมประสิทธิ์การถดถอยโลจิสติก การอ้างอิงถึงตำราหรือวรรณกรรมจะได้รับการชื่นชมPr ( Y= 1 | x , z)Pr(Y=1|x,z)\Pr(Y = 1 | x, z)xxxR1R1R_1R1R1R_1Zzz

4
เป็นไปได้หรือไม่ที่จะย่อยสลายส่วนตกค้างที่ติดตั้งให้เป็นอคติและความแปรปรวนหลังจากติดตั้งแบบจำลองเชิงเส้นแล้ว?
ฉันต้องการจัดประเภทจุดข้อมูลว่าต้องการโมเดลที่ซับซ้อนกว่าหรือไม่ต้องการโมเดลที่ซับซ้อนกว่านี้อีก ความคิดปัจจุบันของฉันคือการปรับข้อมูลทั้งหมดให้เป็นแบบจำลองเชิงเส้นอย่างง่ายและสังเกตขนาดของเศษเหลือเพื่อทำการจัดหมวดหมู่นี้ จากนั้นฉันก็อ่านเรื่องอคติและความแปรปรวนของข้อผิดพลาดและรู้ว่าถ้าฉันสามารถคำนวณอคติโดยตรงมันอาจเป็นการวัดที่ดีกว่าจากนั้นก็ทำงานกับข้อผิดพลาดทั้งหมด (ส่วนที่เหลือหรือส่วนที่เป็นมาตรฐาน) เป็นไปได้หรือไม่ที่จะประเมินความลำเอียงโดยตรงกับตัวแบบเชิงเส้น? มีหรือไม่มีข้อมูลทดสอบหรือไม่ การตรวจสอบข้ามจะช่วยได้ไหม ถ้าไม่เราสามารถใช้ bootstrapping ทั้งชุดแบบเส้นตรง (ฉันคิดว่ามันเรียกว่า bagging) เพื่อหาค่าอคติโดยประมาณได้หรือไม่?

2
สารตกค้างเกี่ยวข้องกับการรบกวนพื้นฐานอย่างไร
ในวิธีกำลังสองน้อยที่สุดเราต้องการประมาณค่าพารามิเตอร์ที่ไม่รู้จักในโมเดล: YJ= α + βxJ+εJ( j = 1 ... n )Yj=α+βxj+εj(j=1...n)Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n) เมื่อเราทำเช่นนั้น (สำหรับค่าที่สังเกตได้) เราจะได้เส้นการถดถอยที่พอดี: YJ=α^+β^x +อีJ( J = 1 , . . . n )Yj=α^+β^x+ej(j=1,...n)Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n) ตอนนี้เห็นได้ชัดว่าเราต้องการตรวจสอบบางแปลงเพื่อให้แน่ใจว่าสมมติฐานเป็นจริง สมมติว่าคุณต้องการตรวจสอบ homoscedasticity อย่างไรก็ตามในการทำเช่นนี้เรากำลังตรวจสอบเหลืออยู่ สมมติว่าคุณตรวจสอบพล็อตค่าที่ตกค้างเทียบกับที่คาดการณ์ไว้ถ้านั่นแสดงให้เราเห็นว่า heteroscedasticity นั้นชัดเจนแล้วสิ่งนั้นเกี่ยวข้องกับคำว่ารบกวนอย่างไร heteroscedasticity …

2
เหตุใดส่วนที่เหลือของ Pearson จากการถดถอยแบบทวินามเชิงลบจึงมีขนาดเล็กกว่าการถดถอยแบบปัวซอง
ฉันมีข้อมูลเหล่านี้: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) ฉันใช้การถดถอยปัวซอง poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") และการถดถอยแบบทวินามลบ require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) จากนั้นฉันคำนวณหาสถิติการกระจายตัวสำหรับการถดถอยปัวซอง: sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 และการถดถอยแบบทวินามลบ sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 มีใครที่สามารถอธิบายได้โดยไม่ต้องใช้เครื่องมือทำไมสถิติการกระจายตัวของการถดถอยแบบทวินามลบน้อยกว่าสถิติการกระจายตัวสำหรับการถดถอยปัวซอง

1
ทำไมความสัมพันธ์ของคนตกค้างจึงไม่สำคัญเมื่อทำการทดสอบความเป็นปกติ?
เมื่อไหร่ Y=AX+εY=AX+εY = AX + \varepsilon (เช่น YYY มาจากตัวแบบการถดถอยเชิงเส้น) ε∼N(0,σ2I)⇒e^=(I−H)Y∼N(0,(I−H)σ2)ε∼N(0,σ2I)⇒e^=(I−H)Y~ยังไม่มีข้อความ(0,(ผม-H)σ2)\varepsilon \sim \mathcal{N}(0, \sigma^2 I) \hspace{1em} \Rightarrow \hspace{1em} \hat{e} = (I - H) Y \sim \mathcal{N}(0, (I - H) \sigma^2_{}) และในกรณีที่เหลือ e^1,…,e^ne^1,…,e^n\hat{e}_1, \ldots, \hat{e}_nมีความสัมพันธ์และไม่เป็นอิสระ แต่เมื่อเราทำการวิเคราะห์การถดถอยและต้องการทดสอบสมมติฐาน ε∼N(0,σ2I)ε∼N(0,σ2I)\varepsilon \sim \mathcal{N}(0, \sigma^2 I)หนังสือเรียนทุกเล่มแนะนำให้ใช้แผนการถาม - ตอบและการทดสอบทางสถิติเกี่ยวกับส่วนที่เหลือ e^e^\hat{e} ที่ถูกออกแบบมาเพื่อทดสอบว่า e^∼N(0,σ2I)e^∼N(0,σ2I)\hat{e} \sim \mathcal{N}(0, \sigma^2 I) สำหรับบางคน σ2∈Rσ2∈R\sigma^2 …

2
ความสัมพันธ์ระหว่างหมวดหมู่ระหว่างตัวแปรระบุแน่ชัด
ฉันมีชุดข้อมูลที่มีตัวแปรระบุหมวดหมู่สองชุด ฉันต้องการทราบว่า (และวิธี) ฉันสามารถระบุความสัมพันธ์ที่เป็นไปได้ระหว่างหมวดหมู่จากตัวแปรทั้งสองนี้หรือไม่ กล่าวอีกนัยหนึ่งไม่ว่าตัวอย่างเช่นผลลัพธ์ของหมวดหมู่ ผมii ในตัวแปร 1 แสดงความสัมพันธ์ที่ดีกับหมวดหมู่เฉพาะ Jjj ในตัวแปร 2 เนื่องจากฉันมีสองตัวแปรที่มี 5 หมวดหมู่การวิเคราะห์สหสัมพันธ์ทั้งหมดสำหรับหมวดหมู่ทั้งหมดจะลดลงถึง 25 ผลลัพธ์ (อย่างน้อยถ้ามันทำงานตามที่ฉันหวัง / คาดหวังว่ามันจะทำงาน) ฉันได้พยายามกำหนดปัญหาให้เป็นคำถามที่เป็นรูปธรรม: คำถามที่ 1: สมมติว่าฉันโอนตัวแปรเด็ดขาดเป็นตัวแปรดัมมี่ 5 ตัวต่อค่า (หมวดหมู่) ขั้นตอนเดียวกันนี้ฉันใช้สำหรับตัวแปรที่สองเช่นกัน จากนั้นฉันต้องการหาความสัมพันธ์ระหว่าง dummy 1.i และ 2.i (ตัวอย่าง) มันถูกต้องทางสถิติหรือไม่ที่ฉันจะดำเนินการตามขั้นตอนนี้ด้วยวิธีการของสัมประสิทธิ์สหสัมพันธ์สามัญ? สัมประสิทธิ์สหสัมพันธ์ที่เกิดจากขั้นตอนนี้ให้ข้อมูลเชิงลึกที่เหมาะสมในความสัมพันธ์ระหว่างตัวแปรจำลองทั้งสองหรือไม่? คำถามที่ 2: หากกระบวนการที่อธิบายไว้ในคำถามที่หนึ่งเป็นกระบวนการที่ถูกต้องมีวิธีดำเนินการวิเคราะห์นี้สำหรับทุกหมวดหมู่ของ 2 (หรืออาจมากกว่า) ตัวแปรระบุหมวดหมู่ทั้งหมดในครั้งเดียวหรือไม่? โปรแกรมที่ฉันใช้คือ SPSS (20)

4
ควรใช้การถดถอยแบบไม่อิงพารามิเตอร์เมื่อใด
ฉันใช้ PROC GLM ใน SAS เพื่อให้สมการถดถอยของแบบฟอร์มต่อไปนี้ Y=ข0+ข1X1+ข2X2+ข3X3+ข4เสื้อY=b0+b1X1+b2X2+b3X3+b4t Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t พล็อต QQ ของ redsiduals ที่เกิดขึ้นบ่งบอกถึงการเบี่ยงเบนจากปกติ การเปลี่ยนแปลงของใด ๆจะไม่เป็นประโยชน์ในการทำให้ส่วนที่เหลือเป็นปกติYYY ณ จุดนี้ฉันสามารถเปลี่ยนเป็นวิธีที่ไม่ใช่พารามิเตอร์อย่างปลอดภัยเช่น PROC LOESS ฉันใช้ PROC LOESS แล้วและแบบที่ดูดีกว่า PROC GLM แต่ฉันไม่มีความรู้มากนักในการถดถอยแบบไม่อิงพารามิเตอร์ ฉันไม่ทราบว่าเมื่อใดควรเลือกการถดถอยแบบไม่อิงพารามิเตอร์ในการถดถอยแบบพารามิเตอร์ มีคนช่วยฉันได้ไหม ฉันจะดำเนินการต่อและเพิ่มคำถามอื่น ต่อไปนี้เป็นคำอธิบายของตัวแปรของฉันในรูปแบบ บางครั้งฉันได้รับค่าใช้จ่ายคาดการณ์เชิงลบ สิ่งนี้ไม่สมเหตุสมผล ฉันจะแก้ไขปัญหานี้ได้อย่างไรY= ค่ารักษาพยาบาลX1= จำนวนการฉีดX2= จำนวนการผ่าตัดX3= จำนวนการบำบัดทางกายภาพt = เวลาY=cost of …

1
วิธีการทำความเข้าใจมาตรฐานที่เหลืออยู่ในการวิเคราะห์การถดถอย
ตามการวิเคราะห์การถดถอยโดยตัวอย่างที่เหลือคือความแตกต่างระหว่างการตอบสนองและมูลค่าที่คาดการณ์จากนั้นจะกล่าวว่าทุกที่เหลือมีความแปรปรวนที่แตกต่างกันดังนั้นเราจึงต้องพิจารณาที่เหลือมาตรฐาน แต่ความแปรปรวนมีไว้สำหรับกลุ่มของค่าวิธีการที่ค่าเดียวอาจมีความแปรปรวนได้อย่างไร

2
เหตุใด R จึงวางแผนส่วนที่เหลือเป็นมาตรฐานเทียบกับปริมาณเชิงทฤษฎีในพล็อต QQ
ใน R ทำไมการตั้งค่าเริ่มต้นของการqqplot(linear model)ใช้ค่ามาตรฐานในแกน y? เหตุใด R จึงไม่ใช้ส่วนที่เหลือ "ปกติ"
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.