คำถามติดแท็ก residuals

ค่าคงที่ของโมเดลคือค่าจริงลบด้วยค่าที่ทำนาย แบบจำลองทางสถิติหลายอย่างตั้งสมมติฐานเกี่ยวกับข้อผิดพลาดซึ่งประเมินโดยค่าตกค้าง

1
วิธีการตีความสีที่เหลือในพล็อตโมเสค?
นี่คือพล็อตโมเสคของชุดข้อมูลตารางฉุกเฉินHairEyeColorอธิบายไว้ที่นี่ ฉันจะตีความสีที่แสดงถึงสิ่งตกค้างได้อย่างไร อะไรคือความแตกต่างระหว่างของเพียร์สันที่มีค่าสูงและค่าบวก (แสดงเป็นสีน้ำเงิน) เมื่อเทียบกับค่าต่ำและค่าลบที่แสดงเป็นสีแดง

1
Schoenfeld ตกค้าง
ในโมเดลอันตรายของ Cox ที่มีตัวแปรหลายตัวหากส่วนที่เหลือของ Schoenfeld นั้นไม่ราบเรียบสำหรับหนึ่งในตัวแปรสิ่งนี้จะทำให้รูปแบบทั้งหมดไม่ถูกต้องหรือเป็นเพียงตัวแปรที่มีประสิทธิภาพต่ำเท่านั้น นั่นคือตีความสัมประสิทธิ์สำหรับตัวแปรอื่น ๆ แต่อย่าตีความสัมประสิทธิ์ที่เกิดขึ้นสำหรับตัวแปรที่มีประสิทธิภาพต่ำ มีวิธีมาตรฐานหลายวิธีในการจัดการกับแบบจำลองที่ส่วนที่เหลือของ Schoenfeld ไม่แบน สมมติว่าเราไม่สามารถทำได้

7
มันเหมาะสมหรือไม่ที่จะศึกษาแปลงของเศษเหลือที่เกี่ยวกับตัวแปรตาม
ฉันอยากจะรู้ว่ามันเหมาะสมหรือไม่ที่จะศึกษาพล็อตเรื่องที่เกี่ยวข้องกับตัวแปรตามเมื่อฉันมีการถดถอยแบบไม่แปร ถ้ามันสมเหตุสมผลแล้วความสัมพันธ์เชิงเส้นแรงการเติบโตที่เพิ่มขึ้นระหว่างส่วนที่เหลือ (บนแกน y) และค่าประมาณของตัวแปรตาม (บนแกน x) คืออะไร?

2
จะทำการวิเคราะห์ส่วนที่เหลือสำหรับตัวทำนายอิสระไบนารี / คู่ในการถดถอยเชิงเส้นได้อย่างไร?
ฉันกำลังดำเนินการถดถอยเชิงเส้นหลายครั้งด้านล่างใน R เพื่อทำนายผลตอบแทนของกองทุนที่จัดการ reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) GRI & MBA เท่านั้นที่นี่เป็นตัวทำนายแบบไบนารี / สองขั้ว ตัวพยากรณ์ที่เหลืออยู่จะต่อเนื่อง ฉันใช้รหัสนี้เพื่อสร้างแปลงที่เหลือสำหรับตัวแปรไบนารี plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) คำถามของฉัน: ฉันรู้วิธีตรวจพล็อตที่เหลือสำหรับตัวทำนายอย่างต่อเนื่อง แต่คุณจะทดสอบสมมติฐานของการถดถอยเชิงเส้นเช่น homoscedasticity อย่างไรเมื่อตัวแปรอิสระเป็นไบนารี แปลงที่เหลือ:

4
เส้นตรงในแนวทแยงในส่วนที่เหลือเทียบกับพล็อตค่าติดตั้งสำหรับการถดถอยหลายครั้ง
ฉันกำลังสังเกตรูปแบบแปลก ๆ ที่เหลืออยู่สำหรับข้อมูลของฉัน: [แก้ไข] นี่คือพล็อตการถดถอยบางส่วนสำหรับตัวแปรสองตัว: [EDIT2] เพิ่มแผนการของ PP การกระจายดูเหมือนจะทำได้ดี (ดูด้านล่าง) แต่ฉันไม่มีเงื่อนงำที่เส้นตรงนี้อาจมาจาก ความคิดใด ๆ [อัพเดท 31.07] มันกลับกลายเป็นว่าคุณพูดถูกฉันมีหลายกรณีที่จำนวนทวีตซ้ำเป็น 0 อย่างแน่นอนและ 15 รายนี้ส่งผลให้มีรูปแบบที่เหลือแปลก ๆ ส่วนที่เหลือดูดีขึ้นมากในขณะนี้: ฉันได้รวมการถดถอยบางส่วนเข้ากับเส้นเหลือง

1
ประเภทใดที่เหลือและระยะทางของ Cook ที่ใช้สำหรับ GLM
ไม่มีใครรู้ว่าสูตรระยะทางของ Cook คืออะไร? สูตรระยะทางของ Cook ดั้งเดิมใช้ส่วนที่เหลือเป็นราย ๆ แต่ทำไม R จึงใช้ std เพียร์สันที่เหลือเมื่อคำนวณระยะทางพล็อตของ Cook สำหรับ GLM ฉันรู้ว่าเศษที่เหลือเป็นนักเรียนไม่ได้กำหนดไว้สำหรับ GLMs แต่สูตรคำนวณระยะทางของ Cook มีลักษณะอย่างไร สมมติตัวอย่างต่อไปนี้: numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) สูตรสำหรับระยะทางของ Cook คืออะไร กล่าวอีกนัยหนึ่งสูตรการคำนวณเส้นประสีแดงคืออะไร สูตรนี้สำหรับเพียร์สันที่เหลืออยู่นั้นมาจากที่ไหน?

5
สถิติการทดสอบของเดอร์บินวัตสัน
ฉันใช้การทดสอบ DW กับโมเดลการถดถอยของฉันใน R และฉันได้สถิติการทดสอบ DW ที่ 1.78 และค่า p เท่ากับ 2.2e-16 = 0 นี่หมายความว่าไม่มีความสัมพันธ์อัตโนมัติระหว่างส่วนที่เหลือเพราะสถิติอยู่ใกล้กับ 2 ด้วยค่า p เล็ก ๆ หรือหมายความว่าแม้ว่าสถิติใกล้เคียงกับ 2 ค่า p มีค่าน้อยดังนั้นเราจึงปฏิเสธสมมติฐานว่างที่มีอยู่ ไม่มีความสัมพันธ์อัตโนมัติ?

2
เหตุใดความชัน 1 เสมอเมื่อทำการถดถอยข้อผิดพลาดในส่วนที่เหลือโดยใช้ OLS
ฉันกำลังทดสอบความสัมพันธ์ระหว่างข้อผิดพลาดและส่วนที่เหลือโดยใช้การจำลองแบบง่าย ๆ ในอาร์สิ่งหนึ่งที่ฉันพบคือไม่ว่าขนาดตัวอย่างหรือความแปรปรวนข้อผิดพลาดฉันได้สำหรับความชันเสมอเมื่อคุณพอดีกับโมเดล111 e r r o r s ∼ β0+ β1× r e s i d u a l serrors∼β0+β1×residuals {\rm errors} \sim \beta_0 + \beta_1 \times {\rm residuals} นี่คือการจำลองที่ฉันทำ: n <- 10 s <- 2.7 x <- rnorm(n) e <- rnorm(n,sd=s) y <- 0.3 + 1.2*x + e …

2
การวินิจฉัยที่เหลือและความสม่ำเสมอของความแปรปรวนในตัวแบบผสมเชิงเส้น
ก่อนที่จะถามคำถามนี้ผมค้นหาเว็บไซต์ของเราและพบมากคำถามที่คล้ายกัน (เช่นที่นี่ , ที่นี่และที่นี่ ) แต่ฉันรู้สึกว่าคำถามที่เกี่ยวข้องนั้นไม่ได้รับการตอบสนองหรือพูดคุยอย่างดีดังนั้นจึงอยากจะถามคำถามนี้อีกครั้ง ฉันรู้สึกว่าควรมีผู้ชมจำนวนมากที่ต้องการอธิบายคำถามประเภทนี้อย่างชัดเจนยิ่งขึ้น สำหรับคำถามของฉันก่อนอื่นให้ลองพิจารณาโมเดลผสมผลกระทบเชิงเส้น โดยที่เป็นองค์ประกอบผลกระทบเชิงเส้นคงที่\ mathbf {Z}เป็นเมทริกซ์ออกแบบเพิ่มเติมที่สอดคล้องกันพารามิเตอร์สุ่มผล , \ boldsymbol \ และ\ boldsymbol \ epsilon \ \ sim \ N (\ mathbf {0, \ sigma ^ 2 I})เป็นข้อผิดพลาดทั่วไป X βy = X β + Z γ+ ϵY=Xβ+Zγ+ε \mathbf{y = X\boldsymbol \beta + Z \boldsymbol \gamma + …

1
ฉันบันทึกการแปลงตัวแปรตามของฉันฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นการเชื่อมโยงเข้าสู่ระบบ?
ฉันมีคำถามเกี่ยวกับโมเดลเชิงเส้นทั่วไป (GLM) ตัวแปรตามของฉัน (DV) นั้นต่อเนื่องและไม่ปกติ ดังนั้นฉันเข้าสู่ระบบเปลี่ยนมัน (ยังไม่ปกติ แต่ปรับปรุงมัน) ฉันต้องการเชื่อมโยง DV กับตัวแปรเด็ดขาดสองรายการและหนึ่งตัวแปรแปรปรวนต่อเนื่อง สำหรับสิ่งนี้ฉันต้องการดำเนินการ GLM (ฉันใช้ SPSS) แต่ฉันไม่แน่ใจว่าจะตัดสินใจเกี่ยวกับการกระจายและฟังก์ชั่นที่จะเลือกได้อย่างไร ฉันได้ทำการทดสอบแบบไม่มีพารามิเตอร์ของ Levene และฉันมีความแปรปรวนเหมือนกันดังนั้นฉันจึงอยากใช้การแจกแจงแบบปกติ ฉันได้อ่านว่าสำหรับการถดถอยเชิงเส้นข้อมูลไม่จำเป็นต้องเป็นปกติส่วนที่เหลือทำ ดังนั้นฉันได้พิมพ์ส่วนที่เหลือของเพียร์สันที่ได้มาตรฐานและค่าทำนายสำหรับตัวทำนายเชิงเส้นจากแต่ละ GLM แยกกัน (ฟังก์ชั่นประจำตัวปกติ GLM และฟังก์ชั่นบันทึกปกติ) ฉันได้ทำการทดสอบภาวะปกติ (ฮิสโตแกรมและชาปิโร - วิลค์) และวางแผนส่วนที่เหลือกับค่าที่คาดการณ์ไว้ (เพื่อตรวจสอบการสุ่มและความแปรปรวน) สำหรับทั้งสองแบบแยกกัน ส่วนที่เหลือจากฟังก์ชั่นตัวตนไม่ปกติ แต่ส่วนที่เหลือจากฟังก์ชั่นบันทึกเป็นเรื่องปกติ ฉันมีแนวโน้มที่จะเลือกปกติด้วยฟังก์ชั่นบันทึกการเชื่อมโยงเพราะเพียร์สันส่วนที่เหลือมีการกระจายตามปกติ ดังนั้นคำถามของฉันคือ: ฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นบันทึกการเชื่อมโยงใน DV ที่ได้รับการแปลงบันทึกได้หรือไม่? การทดสอบความสม่ำเสมอของความแปรปรวนเพียงพอที่จะพิสูจน์การใช้การแจกแจงแบบปกติหรือไม่? ขั้นตอนการตรวจสอบส่วนที่เหลือถูกต้องหรือไม่เพื่อปรับการเลือกรุ่นฟังก์ชั่นลิงก์? รูปภาพของการกระจาย DV ทางด้านซ้ายและส่วนที่เหลือจาก GLM ปกติพร้อมฟังก์ชั่นบันทึกลิงค์ทางด้านขวา

1
วิธีแยก / คำนวณเลเวอเรจและระยะทางของ Cook สำหรับโมเดลเอฟเฟกต์แบบผสมเชิงเส้น
ไม่มีใครรู้วิธีคำนวณ (หรือแยก) เลเวอเรจและระยะทางของ Cook สำหรับmerคลาสวัตถุ (ที่ได้รับจากlme4แพ็คเกจ) ฉันต้องการพล็อตพวกนี้สำหรับการวิเคราะห์เศษซาก

2
ส่วนที่เหลือที่มีอิทธิพลกับค่าผิดปกติ
อันดับแรกฉันควรระบุว่าฉันได้ค้นหาคำตอบในเว็บไซต์นี้ ฉันไม่พบคำถามที่ตอบคำถามหรือระดับความรู้ของฉันต่ำมากฉันไม่ทราบว่าฉันได้อ่านคำตอบแล้ว ฉันกำลังศึกษาเพื่อสอบสถิติ AP ฉันต้องเรียนรู้การถดถอยเชิงเส้นและหนึ่งในหัวข้อคือส่วนที่เหลือ ฉันมีสำเนาของข้อมูลเบื้องต้นเกี่ยวกับสถิติและการวิเคราะห์ข้อมูลในหน้า 253 จุดที่ผิดปกติในชุดข้อมูล bivariate คือจุดที่หลุดออกจากจุดอื่น ๆ ส่วนใหญ่ใน scatterplot ในทิศทางหรือทิศทางxxxyyy การสังเกตอาจเป็นการสังเกตที่มีอิทธิพลถ้ามันมีค่าที่อยู่ห่างจากข้อมูลที่เหลือ (แยกออกจากส่วนที่เหลือของข้อมูลในทิศทาง ) ในการตรวจสอบว่าการสังเกตนั้นมีอิทธิพลจริงหรือไม่เราประเมินว่าการลบการสังเกตนี้มีผลกระทบอย่างมากต่อมูลค่าของความชันหรือจุดตัดของเส้นที่มีกำลังสองน้อยที่สุดหรือไม่xxxxxx การสังเกตเป็นค่าผิดปกติหากมีสิ่งตกค้างขนาดใหญ่ การสังเกตการณ์ในระยะไกลอยู่ห่างจากเส้นที่มีกำลังสองน้อยที่สุดไปในทิศทางyyy Stattreck.comระบุสี่วิธีในการกำหนดค่าผิดพลาดจากสิ่งตกค้าง: จุดข้อมูลที่แตกต่างกันอย่างมากจากรูปแบบโดยรวมเรียกว่าค่าผิดปกติ มีสี่วิธีที่จุดข้อมูลอาจถูกพิจารณาว่าผิดปกติ มันอาจมีค่า X มากเมื่อเปรียบเทียบกับจุดข้อมูลอื่น มันอาจมีค่า Y มากเมื่อเปรียบเทียบกับจุดข้อมูลอื่น มันอาจมีค่า X และ Y มาก อาจอยู่ห่างจากข้อมูลที่เหลือแม้ไม่มีค่า X หรือ Y มาก แหล่งที่มาทั้งสองนี้ดูเหมือนจะขัดแย้งกัน ใครสามารถช่วยกำจัดความสับสนของฉัน นอกจากนี้หนึ่งจะกำหนดวิธีการที่รุนแรง สถิติ AP ใช้กฎหากจุดข้อมูลอยู่นอก (Q1-1.5IQR, Q3 + 1.5IQR) ซึ่งเป็นค่าที่ผิดปกติ …

2
“ เศษตกค้างที่นักเรียนเป็นนักเรียนภายใน” มีข้อดีอะไรบ้างเหนือสิ่งตกค้างที่ประเมินโดยประมาณในแง่ของการวินิจฉัยดาต้าพอยท์ที่มีอิทธิพล
เหตุผลที่ฉันถามนี้เพราะดูเหมือนว่าเศษที่เหลือเป็นนักเรียนภายในดูเหมือนจะมีรูปแบบเดียวกับของเหลือใช้โดยประมาณ มันจะดีถ้ามีคนเสนอคำอธิบาย
10 residuals 

1
ความถี่อัลลีลที่สังเกตเห็นมีค่าน้อยกว่าที่คาดการณ์ไว้หรือไม่
คำถาม : ฉันจะสร้างการทดสอบเพื่อตรวจสอบได้อย่างไรว่า "ภูเขา" - ความถี่ทั้งหมด (รูปที่ 1) ที่สังเกตได้นั้นลดลงอย่างมีนัยสำคัญในภูเขากลางถึงภาคใต้มากกว่าที่ทำนายไว้ (รูปที่ 2) โดยรูปแบบการเลือกเชิงนิเวศ ( ดูรายละเอียดด้านล่าง ) ปัญหา : ความคิดเริ่มต้นของฉันคือการถดถอยส่วนที่เหลือของแบบจำลองกับละติจูด: ลองจิจูดและระดับความสูง (ซึ่งส่งผลเฉพาะการทำงานร่วมกันระหว่างละติจูดและลองจิจูดเป็นสำคัญ) ปัญหาคือสิ่งที่เหลืออยู่ (รูปที่ 3) อาจสะท้อนถึงการเปลี่ยนแปลงที่ไม่ได้อธิบายโดยแบบจำลองและ / หรือว่าเป็นสิ่งที่เกิดขึ้นทางชีวภาพเช่นอัลลีลไม่มีเวลาที่จะแพร่กระจายไปทางทิศใต้ถึงศักยภาพหรือมีอุปสรรคบางอย่างต่อการไหลของยีน หากคุณเปรียบเทียบความถี่ที่สังเกตได้ (รูปที่ 1) กับที่คาดหวัง (รูปที่ 2) มีความแตกต่างอย่างชัดเจนโดยเฉพาะอย่างยิ่งในภาคกลางถึงภูเขาทางตอนใต้ของสวีเดนและนอร์เวย์ ฉันยอมรับว่าตัวแบบอาจไม่สามารถอธิบายการเปลี่ยนแปลงทั้งหมดได้ แต่ฉันสามารถทดสอบแบบมีเหตุผลเพื่อสำรวจความคิดที่ว่าอัลลีลภูเขาไม่ถึงศักยภาพในใจกลางภูเขาทางตอนใต้หรือไม่ พื้นหลัง: ฉันมีเครื่องหมาย AFLP bi-allelic ซึ่งการกระจายความถี่ดูเหมือนว่าเกี่ยวข้องกับภูเขา (และละติจูด: ลองจิจูด) เมื่อเทียบกับที่อยู่อาศัยระดับต่ำบนคาบสมุทรสแกนดิเนเวีย (รูปที่ 1) "ภูเขา" - อัลลีลเกือบคงที่ในภาคเหนือซึ่งเป็นภูเขา มันเกือบจะหายไปหรือคงที่สำหรับ "ที่ราบลุ่ม" …

3
ส่วนที่เหลือสำหรับการถดถอยโลจิสติกและระยะทางของคุก
มีข้อสมมติฐานเฉพาะใด ๆ เกี่ยวกับข้อผิดพลาดของการถดถอยโลจิสติกหรือไม่เช่นความแปรปรวนคงที่ของข้อผิดพลาดและค่าปกติของส่วนที่เหลือ? นอกจากนี้โดยทั่วไปเมื่อคุณมีคะแนนที่มีระยะทางของ Cook มากกว่า 4 / n คุณจะลบออกไหม หากคุณลบออกคุณจะทราบได้อย่างไรว่ารุ่นที่มีจุดลบนั้นดีกว่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.