วิธีตรวจสอบว่าแบบจำลองการถดถอยของฉันดีหรือไม่


10

วิธีหนึ่งในการค้นหาความแม่นยำของโมเดลการถดถอยโลจิสติกโดยใช้ 'glm' คือการค้นหาพล็อต AUC จะตรวจสอบสิ่งเดียวกันสำหรับแบบจำลองการถดถอยที่พบกับตัวแปรตอบสนองต่อเนื่อง (family = 'gaussian') ได้อย่างไร?

วิธีใดที่ใช้ในการตรวจสอบว่ารูปแบบการถดถอยของฉันเหมาะสมกับข้อมูลอย่างไร


คุณอาจต้องการดูที่r-squaredแท็กและgoodness-of-fitแท็ก ..
มาโคร

2
ตระกูล "เกาส์เซียน" ที่มีลิงก์เชิงเส้นเป็นเพียงการถดถอยกำลังสองน้อยที่สุด (OLS) วิธีการตรวจสอบความเหมาะสมดังกล่าวอาจมีการกล่าวถึงในพันคำถามในเว็บไซต์นี้ (ฉันไม่ได้พูดเกินจริง)
whuber

หัวข้อนี้มีความเกี่ยวข้อง: stats.stackexchange.com/q/414349/121522
mkt - Reinstate Monica

คำตอบ:


15

ฉันอยากจะแนะนำการค้นหาสั้น ๆ เกี่ยวกับ " การวินิจฉัยแบบจำลองการถดถอยเชิงเส้น " เป็นการเริ่มต้น แต่นี่คือบางส่วนที่ฉันอยากจะแนะนำให้คุณตรวจสอบ:

ตรวจสอบให้แน่ใจว่าสมมติฐานเป็นไปตามที่พอใจ

  • ใช้ scatterplot หรือส่วนประกอบบวกกับส่วนที่เหลือเพื่อตรวจสอบความสัมพันธ์เชิงเส้นระหว่างตัวทำนายอิสระและตัวแปรตาม

  • เขียนพล็อตที่มีค่ามาตรฐานที่ตกค้างเทียบกับค่าที่คาดการณ์ไว้และตรวจสอบให้แน่ใจว่าไม่มีจุดที่มากที่สุดที่มีค่าตกค้างสูงมากและการแพร่กระจายของส่วนที่เหลือจะคล้ายกันมากกับค่าที่คาดการณ์ไว้ ศูนย์.

  • นอกจากนี้คุณยังสามารถเปลี่ยนแกน y จะเหลือ 2 จุดนี้ช่วยระบุความแปรปรวนที่ไม่เท่ากัน2

  • ตรวจสอบการออกแบบการศึกษาเพื่อให้แน่ใจว่าสมมติฐานของความเป็นอิสระมีเหตุผล

  • ดึงข้อมูลปัจจัยความแปรปรวนเงินเฟ้อ (VIF) หรือสถิติความอดทนเพื่อตรวจสอบความเป็นไปได้ collinearity

ตรวจสอบจุดที่มีอิทธิพล

  • ตรวจสอบสถิติเช่น D, DFits หรือ DF Beta ของ Cook เพื่อดูว่าจุดข้อมูลบางจุดกำลังเปลี่ยนแปลงผลลัพธ์การถดถอยของคุณอย่างมากหรือไม่ ท่านสามารถหาข้อมูลเพิ่มเติมได้ที่นี่

ตรวจสอบการเปลี่ยนแปลงในสถิติและ AdjustedR2R2

  • เมื่อเป็นอัตราส่วนของผลรวมการถดถอยของกำลังสองต่อผลรวมของกำลังสองสามารถบอกคุณได้ว่าแบบจำลองความแปรปรวนของตัวแปรตามจำนวนของคุณเป็นเท่าใดR2
  • Adjustedสามารถใช้เพื่อตรวจสอบว่าผลรวมกำลังสองที่เพิ่มขึ้นมาจากตัวทำนายเพิ่มเติมของฉันนั้นคุ้มค่ากับระดับความเป็นอิสระของพวกเขาหรือไม่R2

ตรวจสอบการมีปฏิสัมพันธ์ที่จำเป็น

  • หากมีตัวทำนายอิสระหลักก่อนที่คุณจะตีความผลอิสระใด ๆ ให้ตรวจสอบว่ามันมีปฏิสัมพันธ์กับตัวแปรอิสระอื่น ๆ หรือไม่ การโต้ตอบหากปล่อยทิ้งไว้โดยไม่ได้ปรับอาจมีอคติกับการประมาณการของคุณ

ใช้โมเดลของคุณกับชุดข้อมูลอื่นและตรวจสอบประสิทธิภาพ

  • คุณยังสามารถใช้สูตรการถดถอยกับข้อมูลอื่น ๆ ที่แยกกันและดูว่ามันทำนายได้ดีเพียงใด กราฟเช่นพล็อตกระจายและสถิติเช่น% ความแตกต่างจากค่าที่สังเกตสามารถใช้เป็นการเริ่มต้นที่ดี

2
(+1): คำตอบที่สมบูรณ์มาก! หากคุณใช้ R plot.lmสามารถให้การวินิจฉัยส่วนใหญ่ Penguin_Knight ระบุไว้
ซัค

4

ฉันต้องการตรวจสอบความถูกต้องของโมเดลการถดถอยของฉันเพื่อดูว่าข้อมูลทั่วไปของพวกเขาดีขึ้นอย่างไร ตัวเลือกการเลือกของฉันหมายถึงข้อผิดพลาดแบบสัมบูรณ์ในข้อมูลที่ผ่านการตรวจสอบข้าม แต่ข้อผิดพลาดรากหมายความว่ากำลังสองเป็นเรื่องธรรมดาและมีประโยชน์เท่าเทียมกัน

ฉันไม่พบว่า R2 จะเป็นตัวชี้วัดที่ดีว่าโมเดลของคุณเหมาะสมกับข้อมูลการฝึกอบรมอย่างไรเนื่องจากตัวชี้วัดข้อผิดพลาดใด ๆ ที่คำนวณจากข้อมูลการฝึกอบรมนั้นมีแนวโน้มที่จะปรับตัวได้พอดี หากคุณต้องคำนวณ R2 ในชุดฝึกอบรมฉันแนะนำให้ใช้R2 ที่ปรับแล้ว


1

R2

ฉันขอแนะนำให้ใช้ RMSE (ข้อผิดพลาดรูตเฉลี่ยกำลังสอง) ของการคาดการณ์ของคุณในชุดทดสอบเมื่อเทียบกับค่าจริง นี่เป็นวิธีมาตรฐานในการรายงานข้อผิดพลาดการทำนายของตัวแปรต่อเนื่อง


1
@Macro แต่คำถามแรกถามหาตัวชี้วัดประสิทธิภาพการถดถอย OLS กับข้อผิดพลาด Gaussian เขามาจากการถดถอยโลจิสติก
Erik

R2R2R2

@Macro ผมเห็นด้วยกับความคิดเห็นของคุณ แต่กำลังเล็งหาคำอธิบายง่ายๆที่จะชี้ให้ OP ในทิศทางที่ถูกต้อง
BGreene

0

ฉันใช้ในการตรวจสอบรูปแบบการทำงานของตัวประมาณค่าพารามิเตอร์ของฉันโดยการวางแผนแบบไม่อิงพารามิเตอร์ (เช่นการถดถอยของเคอร์เนล) หรือการประมาณกึ่งพารามิเตอร์และเปรียบเทียบมันกับเส้นโค้งที่ติดตั้งพาราเมตริก ฉันคิดว่านี่เป็นขั้นตอนแรกมักจะเร็วกว่า (และอาจลึกซึ้งกว่า) กว่ารวมถึงข้อกำหนดการโต้ตอบหรือคำสั่งซื้อที่สูงขึ้น

แพคเกจ R np ให้ฟังก์ชั่นที่ไม่ใช่พารามิเตอร์และกึ่งพารามิเตอร์ที่ดีมากมายและ Vignette ของมันเขียนดี: http://cran.r-project.org/web/packages/np/vignettes/np.pdf

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.