แบบจำลองของฉันดีหรือไม่ขึ้นอยู่กับค่าการวินิจฉัยของเมตริก (


12

ฉันติดตั้งโมเดลของฉันแล้วและพยายามเข้าใจว่ามันดีหรือไม่ ฉันได้คำนวณตัวชี้วัดที่แนะนำเพื่อประเมิน ( ข้อผิดพลาด / AUC / ความถูกต้อง / การคาดการณ์ / ฯลฯ ) แต่ไม่ทราบว่าจะตีความได้อย่างไร ในระยะสั้นฉันจะบอกได้อย่างไรว่าแบบจำลองของฉันดีตามเมตริกหรือไม่ เป็น 0.6 (ตัวอย่าง) เพียงพอที่จะแจ้งให้เราดำเนินการวาดข้อสรุปหรือการตัดสินใจธุรกิจ / วิทยาศาสตร์ฐาน?R2R2


คำถามนี้ตั้งใจกว้างเพื่อครอบคลุมสถานการณ์ที่สมาชิกเผชิญบ่อยครั้ง คำถามดังกล่าวอาจถูกปิดซ้ำซ้อนกับคำถามนี้ การแก้ไขเพื่อขยายขอบเขตนอกเหนือจากตัวชี้วัดที่กล่าวถึงที่นี่ยินดีต้อนรับเช่นเดียวกับคำตอบเพิ่มเติมโดยเฉพาะอย่างยิ่งสิ่งที่ให้ข้อมูลเชิงลึกเกี่ยวกับเมตริกประเภทอื่น


1
ที่เกี่ยวข้อง: วิธีที่จะรู้ว่าปัญหาการเรียนรู้เครื่องของคุณจะสิ้นหวัง? เช่นเดียวกับใน "ฉันมีนั่นหมายความว่าฉันไม่สามารถปรับปรุงได้อีกหรือไม่" R2=0.6
เตฟาน Kolassa

2
Base-line สำหรับหรือตัวชี้วัดอื่น ๆ ที่ใช้? ไปๆมาๆถึงอาจเป็นการเพิ่มประสิทธิภาพที่น่าทึ่งในบางแอปพลิเคชัน นี่เป็นวิธีการทำงานของสิ่งพิมพ์ที่สมเหตุสมผลทั้งหมด เรามีรูปแบบที่เสนอเรามีชุดของตัวชี้วัดที่ได้รับการยอมรับเป็นอย่างดีเรามีความรู้เกี่ยวกับ "state-of-the-art" และเราเปรียบเทียบประสิทธิภาพ และนั่นคือวิธีที่เรารู้ว่าแบบจำลองของเราดีหรือไม่ R2R2=0.03R2=0.05
usεr11852

คำตอบ:


18

คำตอบนี้ส่วนใหญ่จะมุ่งเน้นไปที่แต่ตรรกะนี้ส่วนใหญ่ขยายไปถึงการวัดอื่น ๆ เช่น AUC และอื่น ๆR2

คำถามนี้ไม่สามารถตอบได้ดีสำหรับคุณโดยผู้อ่านที่ CrossValidated ไม่มีทางบริบทอิสระที่จะตัดสินใจว่าตัวชี้วัดรุ่นดังกล่าวเป็นR2เป็นสิ่งที่ดีหรือไม่ ที่สุดขั้วมักเป็นไปได้ที่จะได้รับฉันทามติจากผู้เชี่ยวชาญหลากหลาย:จากเกือบ 1 โดยทั่วไปบ่งบอกถึงแบบจำลองที่ดีและใกล้กับ 0 หมายถึงแย่มาก ในระหว่างช่วงที่การประเมินเป็นอัตนัยอยู่ ในช่วงนี้ต้องใช้ความเชี่ยวชาญทางสถิติมากกว่าเพื่อตอบว่าตัวชี้วัดแบบจำลองของคุณดีหรือไม่ ต้องใช้ความเชี่ยวชาญเพิ่มเติมในพื้นที่ของคุณซึ่งผู้อ่าน CrossValidated อาจไม่มีR2

ทำไมนี้ ให้ฉันแสดงตัวอย่างจากประสบการณ์ของฉันเอง (เปลี่ยนรายละเอียดเล็กน้อย)

ฉันเคยทำการทดลองทางจุลชีววิทยา ฉันจะตั้งขวดของเซลล์ในระดับความเข้มข้นของสารอาหารต่าง ๆ และวัดการเติบโตของความหนาแน่นของเซลล์ (เช่นความลาดชันของความหนาแน่นของเซลล์เทียบกับเวลาแม้ว่ารายละเอียดนี้จะไม่สำคัญ) เมื่อฉันทำแบบจำลองความสัมพันธ์ระหว่างการเจริญเติบโตและสารอาหารนี้มันเป็นเรื่องธรรมดาที่จะได้ค่า > 0.90R2

ตอนนี้ฉันเป็นนักวิทยาศาสตร์สิ่งแวดล้อม ฉันทำงานกับชุดข้อมูลที่มีการวัดจากธรรมชาติ หากฉันพยายามให้พอดีกับแบบจำลองเดียวกันกับที่อธิบายไว้ข้างต้นกับชุดข้อมูล 'field' เหล่านี้ฉันจะประหลาดใจถ้าฉันสูงถึง 0.4R2

ทั้งสองกรณีนี้เกี่ยวข้องกับพารามิเตอร์เดียวกันทั้งหมดด้วยวิธีการวัดที่คล้ายกันมากรุ่นที่เขียนและติดตั้งโดยใช้ขั้นตอนเดียวกัน - และแม้แต่คนคนเดียวกันที่ทำข้อต่อ! แต่ในกรณีหนึ่งค่าของ 0.7 จะต่ำลงอย่างน่ากังวลและอีกกรณีหนึ่งนั้นจะสูงอย่างน่าสงสัยR2

นอกจากนี้เราจะทำการวัดทางเคมีควบคู่ไปกับการวัดทางชีวภาพ รุ่นสำหรับเส้นโค้งมาตรฐานเคมีจะมีรอบ 0.99 และค่า 0.90 จะไม่แยแสต่ำR2


อะไรนำไปสู่ความแตกต่างใหญ่ ๆ เหล่านี้ในความคาดหวัง? บริบท. คำที่คลุมเครือนั้นครอบคลุมพื้นที่กว้างใหญ่ดังนั้นขอให้ฉันพยายามแยกมันออกเป็นปัจจัยเฉพาะเพิ่มเติมบางอย่าง (ซึ่งอาจไม่สมบูรณ์):

1. ผลตอบแทน / ผล / การสมัครคืออะไร?

นี่คือลักษณะของสนามของคุณที่มีความสำคัญที่สุด อย่างไรก็ตามสิ่งที่มีค่าฉันคิดว่างานของฉันคือการชนโมเดล s ด้วย 0.1 หรือ 0.2 จะไม่ปฏิวัติโลก แต่มีแอพพลิเคชั่นที่ขนาดของการเปลี่ยนแปลงจะเป็นเรื่องใหญ่! การปรับปรุงแบบจำลองการคาดการณ์หุ้นที่มีขนาดเล็กลงอาจหมายถึงเงินจำนวนหลายสิบล้านดอลลาร์ให้กับ บริษัท ที่พัฒนามันR2

นี่เป็นภาพประกอบที่ง่ายยิ่งขึ้นสำหรับตัวแยกประเภทดังนั้นฉันจะสลับการอภิปรายของตัวชี้วัดจากไปเป็นความแม่นยำสำหรับตัวอย่างต่อไปนี้ (ไม่สนใจจุดอ่อนของตัวชี้วัดความแม่นยำในขณะนี้) พิจารณาโลกที่แปลกประหลาดและมีกำไรของsexing ไก่ หลังจากผ่านการฝึกฝนมาหลายปีมนุษย์สามารถบอกความแตกต่างระหว่างลูกไก่ตัวผู้กับตัวเมียได้อย่างรวดเร็วเมื่ออายุเพียง 1 วัน เพศชายและเพศหญิงจะได้รับอาหารต่างกันเพื่อเพิ่มประสิทธิภาพการผลิตเนื้อสัตว์และไข่ดังนั้นความแม่นยำสูงจึงช่วยประหยัดเงินจำนวนมหาศาลในการลงทุนที่ไม่จัดสรรในพันล้านR2ของนก จนกระทั่งเมื่อไม่กี่สิบปีที่ผ่านมาความถูกต้องของ 85% ถือว่าสูงในสหรัฐอเมริกา ทุกวันนี้คุณค่าของการบรรลุความแม่นยำสูงสุดประมาณ 99%? เงินเดือนที่สามารถอยู่ในช่วงสูงถึง60,000ถึงอาจเป็น180,000ดอลลาร์ต่อปี (ขึ้นอยู่กับ googling อย่างรวดเร็ว) เนื่องจากมนุษย์ยังคงมีข้อ จำกัด ในความเร็วที่พวกเขาทำงานอัลกอริทึมการเรียนรู้ด้วยเครื่องจักรที่สามารถบรรลุความแม่นยำที่คล้ายกัน แต่อนุญาตให้เรียงลำดับที่เกิดขึ้นเร็วขึ้นอาจมีค่านับล้าน

(ฉันหวังว่าคุณจะเพลิดเพลินไปกับตัวอย่าง - ทางเลือกคือความตกต่ำเกี่ยวกับการระบุอัลกอริทึมที่น่าสงสัยของผู้ก่อการร้าย)

2. อิทธิพลของปัจจัยที่ไม่มีการยกเลิกในระบบของคุณแข็งแกร่งเพียงใด

R2

3. การวัดของคุณแม่นยำและแม่นยำแค่ไหน?

R2

4. แบบจำลองความซับซ้อนและลักษณะทั่วไป

R2R2

R2R2

IMO การ overfitting นั้นพบได้ทั่วไปในหลายสาขา วิธีที่ดีที่สุดในการหลีกเลี่ยงปัญหานี้เป็นหัวข้อที่ซับซ้อนและฉันขอแนะนำให้อ่านเกี่ยวกับขั้นตอนการทำให้เป็นมาตรฐานและการเลือกรูปแบบในเว็บไซต์นี้หากคุณสนใจสิ่งนี้

5. ช่วงข้อมูลและการคาดการณ์

R2

นอกเหนือจากนี้หากคุณใส่โมเดลให้พอดีกับชุดข้อมูลและต้องการทำนายค่าที่อยู่นอกช่วง X ของชุดข้อมูลนั้น (เช่นการประมาณค่า ) คุณอาจพบว่าประสิทธิภาพนั้นต่ำกว่าที่คุณคาดไว้ เนื่องจากความสัมพันธ์ที่คุณคาดไว้อาจเปลี่ยนแปลงไปนอกช่วงข้อมูลที่คุณติดตั้งไว้ ในภาพด้านล่างหากคุณทำการวัดเฉพาะในช่วงที่ระบุโดยกล่องสีเขียวคุณอาจจินตนาการว่าเส้นตรง (สีแดง) อธิบายข้อมูลได้ดี แต่ถ้าคุณพยายามทำนายค่าที่อยู่นอกช่วงนั้นด้วยเส้นสีแดงคุณจะไม่ถูกต้องนัก

ป้อนคำอธิบายรูปภาพที่นี่

[รูปนี้เป็นรุ่นที่แก้ไขของรูปนี้พบได้ผ่านการค้นหา google อย่างรวดเร็วสำหรับ 'Monod curve']

6. การวัดจะให้ภาพเพียงชิ้นเดียวกับคุณ

นี่ไม่ใช่การวิจารณ์ของตัวชี้วัด - เป็นบทสรุปซึ่งหมายความว่าพวกเขายังทิ้งข้อมูลด้วยการออกแบบ แต่มันหมายความว่าตัวชี้วัดใด ๆ ที่แยกออกจากข้อมูลที่มีความสำคัญต่อการตีความของมัน การวิเคราะห์ที่ดีคำนึงถึงมากกว่าตัวชี้วัดเดียว


ข้อเสนอแนะการแก้ไขและข้อเสนอแนะอื่น ๆ ยินดีต้อนรับ และคำตอบอื่น ๆ ด้วยแน่นอน


3
R2R2

@Lewian ขอขอบคุณสำหรับข้อเสนอแนะ ฉันคิดว่าฉันมีที่ครอบคลุมในจุด 2 และ 3 แต่ฉันเห็นว่ามันสามารถปรับปรุงได้ ฉันจะคิดถึงวิธีทำให้จุดนั้นชัดเจนยิ่งขึ้น
mkt - Reinstate Monica

1
ใช่ฉันคิดว่ามันครอบคลุมไปแล้วหรือยัง สิ่งที่มี 2 และ 3 คือพวกเขาให้เหตุผลที่เฉพาะเจาะจงว่าทำไมสิ่งนี้ถึงเกิดขึ้นได้ แต่มันเป็นปัญหาทั่วไป
Lewian

@Lewian เห็นด้วยฉันจะให้ความคิดบางอย่าง
mkt - Reinstate Monica

2

ปัญหานี้เกิดขึ้นในสาขาอุทกวิทยาของฉันเมื่อประเมินว่าแบบจำลองทำนายกระแสการไหลของน้ำฝนและข้อมูลสภาพภูมิอากาศได้ดีเพียงใด นักวิจัยบางคน ( Chiew and McMahon, 1993 ) ทำการสำรวจผู้เชี่ยวชาญด้านอุทกวิทยา 93 คน (ตอบกลับ 63 คน) เพื่อค้นหาแผนการวินิจฉัยและความดีของสถิติที่เหมาะสมซึ่งพวกเขาใช้ซึ่งสำคัญที่สุดและวิธีการใช้คุณภาพของแบบจำลอง . ผลลัพธ์ได้รับการลงวันที่แล้ว แต่แนวทางอาจยังคงเป็นที่สนใจ พวกเขานำเสนอผลลัพธ์ของแบบจำลองที่เหมาะสมกับคุณภาพที่หลากหลายและขอให้นักอุทกวิทยาจำแนกพวกมันออกเป็น 4 หมวดหมู่ (1) ผลที่ยอมรับได้อย่างสมบูรณ์ (2) ยอมรับได้ แต่ใช้กับการจอง (3) ยอมรับไม่ได้ใช้เฉพาะในกรณีที่ไม่มีทางเลือกอื่น และ (4) ไม่เคยใช้ภายใต้เงื่อนไขใด ๆ

กราฟการวินิจฉัยที่สำคัญที่สุดคือพล็อตชุดไทม์สและแผนการกระจายของโฟลว์จำลองและการบันทึกที่บันทึกไว้จากข้อมูลที่ใช้สำหรับการสอบเทียบ สัมประสิทธิ์ประสิทธิภาพของรูปแบบ R-squared และNash-Sutcliffe (E) เป็นสถิติที่ดีที่ได้รับความนิยม ตัวอย่างเช่นผลลัพธ์ถือว่าเป็นที่ยอมรับได้ถ้า E => 0.8

มีตัวอย่างอื่น ๆ ในวรรณคดี เมื่อทำการประเมินแบบจำลองระบบนิเวศในทะเลเหนือการจำแนกประเภทต่อไปนี้ใช้ E> 0.65 ดีมาก 0.5 ถึง 0.65 ดีมาก 0.2 ถึง 0.5 ดีและต่ำกว่า 0.2 (ยากจนและอื่น ๆ ( Allen et al., 2007 )

Moriasi et al., (2015)จัดทำตารางค่าที่ยอมรับได้สำหรับตัวชี้วัดสำหรับแบบจำลองประเภทต่างๆ

ผมได้สรุปข้อมูลและการอ้างอิงในบล็อกโพสต์

อัลเลน, J. , P. Somerfield, และ F. Gilbert (2007), การวัดปริมาณความไม่แน่นอนในรูปแบบอุทกพลศาสตร์ความคมชัดสูงคู่, J. Mar. Syst., 64 (1-4), 3–14, ดอย: 10.1016 /j.jmarsys.2006.02.010

Moriasi, D. , Gitau, M. Pai, N. และ Daggupati, P. (2015) แบบจำลองคุณภาพทางอุทกวิทยาและน้ำ: มาตรการการปฏิบัติงานและเกณฑ์การประเมินผลธุรกรรมของ ASABE (สังคมอเมริกันของวิศวกรเกษตรและชีวภาพ) 58 (6): 1763-1785


0

เพียงเพิ่มคำตอบที่ดีข้างต้น - จากประสบการณ์ของฉันการวัดผลการประเมินและเครื่องมือการวินิจฉัยนั้นดีและซื่อสัตย์เหมือนคนที่ใช้มัน นั่นคือถ้าคุณเข้าใจคณิตศาสตร์ที่อยู่ข้างหลังคุณก็น่าจะสามารถเพิ่มพวกเขาเพื่อทำให้แบบจำลองของคุณดูดีขึ้นโดยไม่เพิ่มอรรถประโยชน์ที่แท้จริง

R2=0.03R2=0.05

ฉันจะให้คำตอบสั้น ๆ เพราะข้างต้นทำหน้าที่ได้ดีในการให้คำอธิบาย / การอ้างอิง ฉันแค่อยากจะเพิ่มมุมมองในส่วนที่6 การวัดเท่านั้นให้ภาพของคุณโดยคำตอบของ mkt

หวังว่านี่จะช่วยได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.