ฉันคิดว่าส่วนสำคัญที่ต้องพิจารณาในการตอบคำถามของคุณคือ
ฉันพยายามระบุรุ่นที่ดีที่สุดเพื่อทำนายราคารถยนต์
เพราะคำสั่งนี้บอกเป็นนัยถึงสาเหตุคุณต้องการใช้โมเดล ตัวเลือกรูปแบบและการประเมินผลควรเป็นไปตามสิ่งที่คุณต้องการเพื่อให้บรรลุด้วยค่าติดตั้งของคุณ
ก่อนอื่นให้สรุปสิ่งที่ทำR2 : คำนวณมาตราส่วนตามฟังก์ชั่นการสูญเสียกำลังสองซึ่งฉันแน่ใจว่าคุณทราบแล้ว ที่เห็นนี้กำหนดที่เหลือสำหรับที่ i ของคุณสังเกตY ฉันและสอดคล้องกับค่าติดตั้งYฉัน โดยใช้สัญกรณ์สะดวกS S R : = Σ N ฉัน= 1อี2 ฉัน , S S T : = Σei=yi−y^iyiy^iSSR:=∑Ni=1e2i,R2ถูกกำหนดให้เป็นเพียงR2=1-SSR/SSTSST:=∑Ni=1(yi−y¯)2R2R2=1−SSR/SST
ประการที่สองให้เราดูว่าการใช้สำหรับการเลือกรุ่น / การประเมินผลหมายถึงR2อะไร สมมติว่าเราเลือกจากชุดการทำนายที่สร้างขึ้นโดยใช้แบบจำลองM : M ∈ Mโดยที่Mคือชุดของแบบจำลองที่อยู่ในการพิจารณา (ในตัวอย่างของคุณการรวบรวมนี้จะมีเครือข่ายประสาทป่าสุ่มตาข่ายยืดหยุ่น ... ) ตั้งแต่S S Tจะยังคงอยู่อย่างต่อเนื่องในหมู่ทุกรุ่นถ้าการลดR 2คุณจะเลือกว่ารูปแบบที่ช่วยลดS S R คุณจะเลือกY¯MM:M∈MMSSTR2SSRที่ทำให้เกิดข้อผิดพลาดกำลังสองน้อยที่สุด!M∈M
ประการที่สามให้เราพิจารณาว่าทำไมR2หรือเท่าอาจจะน่าสนใจสำหรับการเลือกรูปแบบ ตามเนื้อผ้าการสูญเสียกำลังสอง ( L 2 norm) นั้นถูกใช้ด้วยเหตุผลสามประการ: (1) มันง่ายกว่าการคำนวณที่เบี่ยงเบนน้อยที่สุด (LAD, L 1 norm) เพราะไม่มีค่าสัมบูรณ์ปรากฏในการคำนวณ (2) มันลงโทษพอดี ค่าที่อยู่ไกลจากมูลค่าที่แท้จริงมากกว่า LAD (ในกำลังสองมากกว่าความรู้สึกสัมบูรณ์) และทำให้แน่ใจว่าเรามีค่าผิดปกติน้อยมาก (3) มันสมมาตร : - หรือประเมินราคารถยนต์ต่ำเกินไป ถือว่าเลวร้ายพอ ๆ กันSSR L2L1
R2Lp1⩽p<2p=1LpLp
โดยสรุปตัวเลือกรูปแบบ / การประเมินผลไม่สามารถพิจารณาได้อย่างอิสระจากจุดมุ่งหมายของโมเดล