คำถามติดแท็ก residuals

ค่าคงที่ของโมเดลคือค่าจริงลบด้วยค่าที่ทำนาย แบบจำลองทางสถิติหลายอย่างตั้งสมมติฐานเกี่ยวกับข้อผิดพลาดซึ่งประเมินโดยค่าตกค้าง

3
จะเกิดอะไรขึ้นถ้าการกระจายตัวของสารตกค้างเป็นปกติ แต่ y ไม่ใช่?
ฉันมีคำถามแปลก ๆ สมมติว่าคุณมีตัวอย่างขนาดเล็กที่ตัวแปรตามที่คุณจะวิเคราะห์ด้วยตัวแบบเชิงเส้นอย่างง่ายเอียงซ้ายอย่างมาก ดังนั้นคุณคิดว่าไม่ได้กระจายตามปกติเพราะนี้จะส่งผลให้การกระจายตามปกติYแต่เมื่อคุณคำนวณพล็อต QQ-Normal มีหลักฐานแสดงว่าส่วนที่เหลือจะกระจายตามปกติ ดังนั้นทุกคนสามารถสันนิษฐานได้ว่าคำว่าข้อผิดพลาดนั้นมีการแจกแจงแบบปกติแม้ว่าจะไม่ใช่ ดังนั้นมันหมายความว่าอย่างไรเมื่อคำว่าข้อผิดพลาดดูเหมือนว่าจะกระจายตามปกติ แต่ไม่ได้?uuuyyyyyyyyy

1
การตีความพล็อต. lm ()
ฉันมีคำถามเกี่ยวกับการตีความกราฟที่สร้างขึ้นโดยพล็อต (lm) ในอาร์ฉันสงสัยว่าพวกคุณจะบอกวิธีการตีความสเกลตำแหน่งและพล็อตที่เหลือ? ความคิดเห็นใด ๆ ที่จะได้รับการชื่นชม สมมติว่ามีความรู้พื้นฐานเกี่ยวกับสถิติการถดถอยและเศรษฐมิติ

4
พล็อตการวิเคราะห์สำหรับการนับถอยหลัง
แปลงวินิจฉัย (และการทดสอบอย่างเป็นทางการ) คุณพบว่าข้อมูลส่วนใหญ่สำหรับการถดถอยที่ผลเป็นตัวแปรนับ? ฉันสนใจเป็นพิเศษใน Poisson และแบบจำลอง Binomial เชิงลบเช่นเดียวกับ counterparts ที่สูงเกินจริงและกีดขวางของแต่ละ แหล่งที่มาส่วนใหญ่ที่ฉันได้พบเพียงแค่พล็อตส่วนที่เหลือเทียบกับค่าติดตั้งโดยไม่ต้องพูดคุยเกี่ยวกับสิ่งที่แปลงเหล่านี้ "ควร" ดูเหมือน ภูมิปัญญาและการอ้างอิงชื่นชมอย่างมาก เรื่องราวย้อนกลับไปในเหตุผลที่ผมถามนี้ถ้ามันมีความเกี่ยวข้องเป็นคำถามอื่น ๆ ของฉัน การอภิปรายที่เกี่ยวข้อง: การตีความแปลงการวินิจฉัยที่เหลือสำหรับรุ่น GLM? สมมติฐานของตัวแบบเชิงเส้นทั่วไป GLMs - การวินิจฉัยและครอบครัวใด

3
สิ่งที่เหลืออยู่ในการถดถอยโลจิสติกหมายถึงอะไร
ในการตอบคำถามนี้ John Christie แนะนำว่าแบบจำลองการถดถอยแบบโลจิสติกส์ควรได้รับการประเมินโดยการประเมินส่วนที่เหลือ ฉันคุ้นเคยกับวิธีการตีความส่วนที่เหลือใน OLS พวกเขาอยู่ในระดับเดียวกับ DV และความแตกต่างอย่างชัดเจนระหว่าง y และ y ที่ทำนายโดยโมเดล อย่างไรก็ตามสำหรับการถดถอยโลจิสติกส์ในอดีตที่ผ่านมาฉันมักจะตรวจสอบการประมาณการของแบบจำลองเช่น AIC เพราะฉันไม่แน่ใจว่าสิ่งที่เหลือจะหมายถึงการถดถอยโลจิสติก หลังจากดูไฟล์ช่วยเหลือของ Rแล้วฉันเห็นว่าใน R มี glm เหลืออยู่ห้าประเภท, c("deviance", "pearson", "working","response", "partial"). ไฟล์ช่วยเหลืออ้างถึง: Davison, AC และ Snell, EJ (1991) ส่วนที่เหลือและการวินิจฉัย ใน: ทฤษฎีสถิติและแบบจำลอง ในเกียรติของเซอร์เดวิดคอคส์ FRSชั้นเลิศ Hinkley, DV, Reid, N. และ Snell, EJ, Chapman & Hall ฉันไม่มีสำเนาของสิ่งนั้น มีวิธีสั้น …

3
ANOVA สมมติฐานปกติ / การแจกแจงปกติของสารตกค้าง
หน้าวิกิพีเดีย ANOVA แสดงรายการสามสมมติฐานคือ: ความเป็นอิสระของคดี - นี่คือสมมติฐานของรูปแบบที่ทำให้การวิเคราะห์ทางสถิติง่ายขึ้น Normality - การแจกแจงของค่าตกค้างเป็นเรื่องปกติ ความเสมอภาค (หรือ "ความเหมือนกัน") ของความแปรปรวนที่เรียกว่า homoscedasticity ... จุดที่น่าสนใจที่นี่คือข้อสมมติฐานที่สอง แหล่งที่มาหลายรายการระบุสมมติฐานแตกต่างกัน บางคนบอกว่าภาวะปกติของข้อมูลดิบบางคนอ้างว่าเหลืออยู่ มีคำถามหลายข้อปรากฏขึ้น: กฎเกณฑ์และการแจกแจงปกติของคนตกค้างเป็นคนคนเดียวกัน (จากรายการ Wikipedia ฉันจะอ้างว่า normality เป็นทรัพย์สินและไม่เกี่ยวข้องกับคนที่เหลือโดยตรง (แต่อาจเป็นสมบัติของคนตกค้าง (ข้อความที่ซ้อนกันลึกภายในวงเล็บประหลาด))) ถ้าไม่ใช่ข้อสันนิษฐานใดควรถืออยู่ หนึ่ง? ทั้งสอง? หากข้อสันนิษฐานของการกระจายที่เหลือตามปกติเป็นสิ่งที่ถูกต้องเราจะทำผิดพลาดร้ายแรงโดยการตรวจสอบฮิสโตแกรมของค่าดิบสำหรับความปกติ?

6
เศษซาก“ คาดการณ์ลบจริง” หรือ“ ลบจริงทำนาย”
ฉันเคยเห็น "ส่วนที่เหลือ" นิยามต่าง ๆ ว่าเป็น "คาดการณ์ลบค่าจริง" หรือ "ลบค่าคาดการณ์จริง" เพื่อวัตถุประสงค์ในการแสดงเพื่อแสดงว่ามีการใช้สูตรทั้งสองอย่างแพร่หลายให้เปรียบเทียบการค้นหาเว็บต่อไปนี้: ส่วนที่เหลือ "คาดการณ์ลบจริง" ส่วนที่เหลือ "ตามจริงลบด้วยคำทำนาย" ในทางปฏิบัติมันแทบไม่เคยสร้างความแตกต่างเลยเนื่องจากสัญญาณของสิ่งที่เหลือตามปกติไม่สำคัญ (เช่นถ้ามันถูกยกกำลังสองหรือค่าสัมบูรณ์ถูกใช้) อย่างไรก็ตามคำถามของฉันคือ: หนึ่งในสองเวอร์ชันนี้ (การคาดการณ์แรกและจริงก่อน) ถือเป็น "มาตรฐาน" หรือไม่ ฉันชอบที่จะสอดคล้องในการใช้งานของฉันดังนั้นหากมีมาตรฐานดั้งเดิมที่ดีขึ้นฉันต้องการที่จะปฏิบัติตาม อย่างไรก็ตามหากไม่มีมาตรฐานฉันยินดีที่จะยอมรับว่าเป็นคำตอบหากสามารถพิสูจน์ได้อย่างชัดเจนว่าไม่มีการประชุมมาตรฐาน

2
ทำไม Bayesian จึงไม่ได้รับอนุญาตให้ดูสิ่งตกค้าง
ในบทความ "การสนทนา: นักนิเวศวิทยาควรเป็นชาวเบย์หรือไม่?" ไบรอันเดนนิสให้มุมมองเชิงบวกและเชิงบวกที่น่าประหลาดใจของสถิติแบบเบย์เมื่อเป้าหมายของเขาดูเหมือนจะเตือนผู้คนเกี่ยวกับเรื่องนี้ อย่างไรก็ตามในวรรคหนึ่งโดยไม่มีการอ้างอิงหรือเหตุผลใด ๆ เขาพูดว่า: คุณเห็นไหมไม่ได้รับอนุญาตให้ดูสิ่งที่เหลืออยู่ของพวกเขา มันเป็นการละเมิดหลักการความน่าจะเป็นที่จะตัดสินผลลัพธ์โดยวิธีการที่รุนแรงภายใต้แบบจำลอง สำหรับชาวเบย์นั้นไม่มีรูปแบบที่ไม่ดี แต่เป็นความเชื่อที่ไม่ดี เหตุใดชาว Bayesian จึงไม่ได้รับอนุญาตให้ดูสิ่งตกค้าง การอ้างอิงที่เหมาะสมสำหรับสิ่งนี้คืออะไร (เขาคือใครอ้างอิง) เดนนิส, บี. อภิปราย: นักนิเวศวิทยาควรกลายเป็นชาวเบย์? การประยุกต์ใช้งานระบบนิเวศสังคมนิเวศวิทยาของอเมริกา , 1996 , 6, 1095-1103

5
การถดถอยเมื่อส่วนที่เหลือ OLS จะไม่กระจายตามปกติ
มีหลายเธรดในไซต์นี้ที่กล่าวถึงวิธีการตรวจสอบว่ามีการแจกแจงOLS แบบกระจายตามปกติหรือไม่ อีกวิธีหนึ่งในการประเมินความเป็นไปได้ของการใช้รหัส R ในคำตอบที่ยอดเยี่ยมนี้ นี่คือการอภิปรายเกี่ยวกับความแตกต่างในทางปฏิบัติระหว่างมาตรฐานและสารตกค้างที่สังเกตได้ แต่สมมุติว่าส่วนที่เหลือไม่ได้กระจายตามปกติอย่างในตัวอย่างนี้ ที่นี่เรามีการสังเกตหลายพันครั้งและชัดเจนว่าเราต้องปฏิเสธสมมติฐานที่กระจายตัวตามปกติ วิธีหนึ่งในการแก้ไขปัญหาคือการใช้ตัวประมาณค่าที่คาดเดายากบางรูปแบบตามที่อธิบายไว้ในคำตอบ อย่างไรก็ตามฉันไม่ได้ จำกัด เพียง OLS และในความเป็นจริงฉันต้องการเข้าใจประโยชน์ของวิธีการ glm อื่น ๆ หรือไม่ใช่เชิงเส้น วิธีที่มีประสิทธิภาพมากที่สุดในการสร้างแบบจำลองข้อมูลที่ละเมิดกฎเกณฑ์ OLS ของการคิดค่าคงที่คืออะไร หรืออย่างน้อยสิ่งที่ควรเป็นขั้นตอนแรกในการพัฒนาวิธีการวิเคราะห์การถดถอยที่ดี?

2
วิธีการอ่านแปลงระยะทางของ Cook?
ไม่มีใครรู้วิธีการทำงานว่าคะแนน 7, 16 และ 29 เป็นคะแนนที่มีอิทธิพลหรือไม่? ฉันอ่านบางที่เพราะระยะทางของ Cook ต่ำกว่า 1 พวกเขาไม่ใช่ ฉันถูกไหม?

3
ข้อผิดพลาดมาตรฐานที่เหลือคืออะไร
เมื่อรันโมเดลการถดถอยหลายแบบใน R เอาต์พุตหนึ่งในนั้นคือข้อผิดพลาดมาตรฐานที่เหลืออยู่ที่ 0.0589 กับองศาอิสระ 95,161 องศา ฉันรู้ว่าอิสรภาพ 95,161 ดีกรีนั้นมาจากความแตกต่างระหว่างจำนวนการสังเกตในตัวอย่างของฉันกับจำนวนตัวแปรในแบบจำลองของฉัน ข้อผิดพลาดมาตรฐานที่เหลือคืออะไร

3
R - สับสนในคำศัพท์ที่เหลือ
รูทหมายความว่าข้อผิดพลาดกำลังสอง ผลรวมที่เหลือของกำลังสอง ข้อผิดพลาดมาตรฐานที่เหลือ หมายถึงข้อผิดพลาดกำลังสอง ข้อผิดพลาดในการทดสอบ ฉันคิดว่าฉันเคยเข้าใจเงื่อนไขเหล่านี้ แต่ยิ่งฉันมีปัญหาทางสถิติมากเท่าไหร่ฉันก็ยิ่งสับสนมากขึ้น ฉันต้องการความมั่นใจอีกครั้ง & เป็นตัวอย่างที่ชัดเจน ฉันสามารถหาสมการได้อย่างง่ายดายพอออนไลน์ แต่ฉันมีปัญหาในการอธิบาย 'อธิบายเหมือนฉัน 5' ของคำศัพท์เหล่านี้เพื่อให้ฉันสามารถตกผลึกในหัวของฉันความแตกต่างและวิธีหนึ่งนำไปสู่อีก หากใครสามารถใช้รหัสนี้ด้านล่างและชี้ให้เห็นว่าฉันจะคำนวณเงื่อนไขเหล่านี้ได้อย่างไรฉันจะขอบคุณมัน รหัส R จะดีมาก .. ใช้ตัวอย่างนี้ด้านล่าง: summary(lm(mpg~hp, data=mtcars)) แสดงให้ฉันในรหัส R วิธีการค้นหา: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ คะแนนโบนัสสำหรับการอธิบายเช่นฉัน …

2
การตีความค่าส่วนที่เหลือเทียบกับค่าพล็อตที่ติดตั้งเพื่อตรวจสอบสมมติฐานของโมเดลเชิงเส้น
พิจารณารูปต่อไปนี้จากรุ่นเชิงเส้นของ Faraway ด้วย R (2005, p. 59) พล็อตแรกนั้นดูเหมือนว่าบ่งบอกว่าส่วนที่เหลือและค่าติดตั้งนั้นไม่ได้มีความสัมพันธ์กันเนื่องจากพวกมันควรอยู่ในโมเดลเชิงเส้น homoscedastic ที่มีข้อผิดพลาดกระจายตามปกติ ดังนั้นพล็อตที่สองและสามซึ่งดูเหมือนจะบ่งบอกถึงการพึ่งพาระหว่างค่าตกค้างและค่าติดตั้งแนะนำรูปแบบที่แตกต่างกัน แต่ทำไมพล็อตที่สองถึงแนะนำเช่น Faraway บันทึกเป็นโมเดลเชิงเส้นตรงแบบเฮเทอโรเซดีติกในขณะที่พล็อตที่สามแนะนำโมเดลที่ไม่ใช่เชิงเส้น? พล็อตที่สองดูเหมือนว่าจะแสดงให้เห็นว่าค่าสัมบูรณ์ของส่วนที่เหลือมีความสัมพันธ์เชิงบวกอย่างมากกับค่าติดตั้งในขณะที่ไม่มีแนวโน้มดังกล่าวปรากฏชัดในพล็อตที่สาม ดังนั้นหากเป็นกรณีที่การพูดเชิงทฤษฎีในแบบจำลองเชิงเส้นตรงแบบ heteroscedastic ที่มีข้อผิดพลาดกระจายทั่วไป Cor(e,y^)=⎡⎣⎢⎢1⋮1⋯⋱⋯1⋮1⎤⎦⎥⎥Cor(e,y^)=[1⋯1⋮⋱⋮1⋯1] \mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right] (ที่นิพจน์ทางซ้ายคือเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมระหว่างค่าตกค้างและค่าติดตั้ง) สิ่งนี้จะอธิบายว่าทำไมแปลงที่สองและสามเห็นด้วยกับการตีความของ Faraway แต่เป็นกรณีนี้หรือไม่ ถ้าไม่เช่นนั้นการตีความของ Faraway เกี่ยวกับแผนการแปลงที่สองและสามจะเป็นธรรมได้อย่างไร นอกจากนี้ทำไมพล็อตที่สามจำเป็นต้องระบุว่าไม่ใช่เชิงเส้น? เป็นไปได้หรือไม่ว่ามันเป็นแบบเส้นตรง แต่ความผิดพลาดนั้นไม่ได้กระจายตามปกติหรืออย่างอื่นที่พวกมันกระจายแบบปกติ …

3
ค่าปกติของตัวแปรตาม = ค่าปกติของเศษเหลือ?
ดูเหมือนว่าปัญหานี้จะทำให้หัวของมันน่าเกลียดอยู่ตลอดเวลาและฉันพยายามที่จะประหารชีวิตเพื่อความเข้าใจสถิติของตัวเอง (และมีสติ!) สมมติฐานของตัวแบบเชิงเส้นทั่วไป (t-test, ANOVA, การถดถอย ฯลฯ ) รวมถึง "สมมติฐานของความปกติ" แต่ฉันได้พบว่าสิ่งนี้ไม่ค่อยได้อธิบายอย่างชัดเจน ฉันมักจะเจอสถิติตำรา / คู่มือ / ฯลฯ เพียงแค่ระบุว่า "ข้อสันนิษฐานของภาวะปกติ" นำไปใช้กับแต่ละกลุ่ม (เช่นตัวแปร X เด็ดขาด) และเราเราควรจะตรวจสอบการออกเดินทางจากปกติสำหรับแต่ละกลุ่ม คำถาม : สมมติฐานนี้อ้างถึงค่าของ Y หรือค่าตกค้างของ Y หรือไม่ สำหรับกลุ่มใดเป็นไปได้ไหมที่จะมีการแจกแจงค่า Y ที่ไม่ปกติอย่างรุนแรง(เช่นเอียง) แต่การกระจายตัวของ Y ที่เหลืออยู่โดยประมาณ (หรืออย่างน้อยกว่าปกติ) แหล่งข้อมูลอื่น ๆ อธิบายว่าข้อสันนิษฐานที่เกี่ยวข้องกับส่วนที่เหลือของแบบจำลอง (ในกรณีที่มีกลุ่มเช่น t-tests / ANOVA) และเราควรตรวจสอบการออกจากภาวะปกติของสิ่งตกค้างเหล่านี้ (เช่นเพียง QQ plot / test …

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
การตีความแปลงการวินิจฉัยที่เหลือสำหรับรุ่น GLM?
ฉันกำลังมองหาแนวทางในการตีความพล็อตที่เหลือของแบบจำลอง GLM โดยเฉพาะปัวซอง, ทวินามลบ, โมเดลทวินาม เราคาดหวังอะไรจากแปลงเหล่านี้เมื่อแบบจำลองนั้น "ถูกต้อง"? (ตัวอย่างเช่นเราคาดว่าความแปรปรวนจะเพิ่มขึ้นเมื่อค่าที่คาดการณ์เพิ่มขึ้นเมื่อใช้กับแบบจำลองปัวซอง) ฉันรู้ว่าคำตอบนั้นขึ้นอยู่กับรุ่น การอ้างอิงใด ๆ (หรือประเด็นทั่วไปที่ควรพิจารณา) จะเป็นประโยชน์ / ได้รับการชื่นชม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.