อะไรคือความแตกต่างระหว่าง“ สัมประสิทธิ์การตัดสินใจ” และ“ หมายถึงข้อผิดพลาดกำลังสอง”?


32

สำหรับปัญหาการถดถอยฉันเคยเห็นผู้คนใช้ "สัมประสิทธิ์การตัดสินใจ" (aka R squared) เพื่อทำการเลือกแบบจำลองเช่นการค้นหาค่าสัมประสิทธิ์การลงโทษที่เหมาะสมสำหรับการทำให้เป็นมาตรฐาน

อย่างไรก็ตามมันเป็นเรื่องธรรมดาที่จะใช้ "mean squared error" หรือ "root Mean squared error" เป็นการวัดความแม่นยำในการถดถอย

แล้วความแตกต่างหลักระหว่างสองสิ่งนี้คืออะไร? พวกเขาสามารถใช้แทนกันได้สำหรับงาน "normalization" และ "ถดถอย" หรือไม่? และอะไรคือการใช้งานหลักของแต่ละอย่างในทางปฏิบัติเช่นในการเรียนรู้ของเครื่องจักรงานการขุดข้อมูล

คำตอบ:


40

SSESSTYR2=1SSESSTโดยที่คือผลรวมของข้อผิดพลาดกำลังสอง (ส่วนที่เหลือหรือส่วนเบี่ยงเบนจากเส้นถดถอย) และคือผลรวมของการเบี่ยงเบนกำลังสองจากค่าเฉลี่ยของผู้ขึ้นกับSSESSTY

MSE=SSEnmโดยที่คือขนาดตัวอย่างและคือจำนวนพารามิเตอร์ในรูปแบบ (รวมถึงการสกัดกั้นหากมี)nm

R2เป็นการวัดมาตรฐานของระดับการทำนายหรือพอดีในตัวอย่าง เป็นการประมาณค่าความแปรปรวนของค่าคงที่หรือไม่พอดีในประชากร การวัดทั้งสองเกี่ยวข้องกันอย่างชัดเจนดังที่เห็นในสูตรปกติที่สุดสำหรับการปรับ (ค่าประมาณสำหรับประชากร):MSE R 2R2R2

Radj2=1(1R2)n1nm=1SSE/(nm)SST/(n1)=1MSEσy22}


2
ฉันคิดว่า MSE เป็นข้อผิดพลาดเฉลี่ยซึ่งหมายถึง MSE = SSE / n เราใช้ MSE = SSE / (nm) ในโอกาสใดบ้าง กรุณาอธิบาย. ขอบคุณ
Sincole Brans

@SincoleBrans โปรดดูen.wikipedia.org/wiki/Mean_squared_errorส่วน "การถดถอย"
ttnphns

ฉันสับสนเล็กน้อย ผลลัพธ์ในmartin-thoma.com/regressionแสดงว่าแบบจำลองนั้นดี (เทียบกับรุ่นอื่น ๆ ) ด้วย R ^ 2 แต่ในเวลาเดียวกันก็ไม่ดีกับ MSE คุณอธิบายได้ไหม
Martin Thoma
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.