สถิติและข้อมูลขนาดใหญ่ out-of-sample

8

ฉันจะช่วยให้มั่นใจได้อย่างไรว่าข้อมูลการทดสอบไม่รั่วไหลไปสู่ข้อมูลการฝึกอบรม?

สมมติว่าเรามีใครบางคนกำลังสร้างแบบจำลองการทำนาย แต่บางคนไม่จำเป็นต้องมีความรอบรู้ในหลักการทางสถิติหรือการเรียนรู้ของเครื่องที่เหมาะสม บางทีเราอาจช่วยคน ๆ นั้นขณะที่พวกเขากำลังเรียนรู้หรือบางทีคนนั้นก็กำลังใช้แพคเกจซอฟต์แวร์บางประเภทที่ต้องการความรู้น้อยที่สุดในการใช้งาน ตอนนี้บุคคลนี้อาจจำได้ดีว่าการทดสอบจริงมาจากความถูกต้อง (หรืออะไรก็ตามที่วัดอื่น ๆ ) จากข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง อย่างไรก็ตามความกังวลของฉันคือมีจำนวนมากรายละเอียดย่อยที่ต้องกังวลเกี่ยวกับ ในกรณีที่ง่ายพวกเขาสร้างแบบจำลองของพวกเขาและประเมินบนข้อมูลการฝึกอบรมและประเมินบนข้อมูลการทดสอบที่จัดขึ้น น่าเสียดายที่บางครั้งมันง่ายเกินไปที่จะย้อนกลับไปและปรับแต่งพารามิเตอร์การสร้างแบบจำลองและตรวจสอบผลลัพธ์ในข้อมูล "การทดสอบ" เดียวกันนั้น ณ จุดนี้ข้อมูลไม่ได้เป็นข้อมูลนอกตัวอย่างที่แท้จริงอีกต่อไปและการมีน้ำหนักเกินอาจกลายเป็นปัญหาได้ วิธีหนึ่งที่เป็นไปได้ในการแก้ไขปัญหานี้คือการแนะนำให้สร้างชุดข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างจำนวนมากซึ่งชุดทดสอบแต่ละชุดสามารถถูกทิ้งหลังการใช้งานและไม่ได้นำมาใช้ซ้ำเลย วิธีนี้ต้องใช้การจัดการข้อมูลจำนวนมากโดยเฉพาะอย่างยิ่งการแยกที่ต้องทำก่อนการวิเคราะห์ (ดังนั้นคุณจะต้องรู้จำนวนการแยกก่อนล่วงหน้า) บางทีวิธีการทั่วไปที่มากขึ้นก็คือการตรวจสอบความถูกต้องด้วย k-fold อย่างไรก็ตามในบางแง่ที่สูญเสียความแตกต่างระหว่างชุดข้อมูล "การฝึกอบรม" และ "การทดสอบ" ที่ฉันคิดว่าจะมีประโยชน์โดยเฉพาะอย่างยิ่งกับผู้ที่ยังคงเรียนรู้ นอกจากนี้ฉันไม่มั่นใจว่าสิ่งนี้เหมาะสมสำหรับแบบจำลองการทำนายทุกประเภท มีวิธีที่ฉันมองข้ามเพื่อช่วยเอาชนะปัญหาการ overfitting และการทดสอบการรั่วไหลในขณะที่ยังคงค่อนข้างชัดเจนกับผู้ใช้ที่ไม่มีประสบการณ์?

60 machine-learning classification predictive-models cross-validation out-of-sample

4

วารสารวิทยาศาสตร์ให้การรับรองเส้นทางการ์เด้นออฟฟอร์คกิ้งหรือไม่?

แนวคิดของการวิเคราะห์ข้อมูลแบบปรับตัวคือคุณปรับเปลี่ยนแผนสำหรับการวิเคราะห์ข้อมูลในขณะที่คุณเรียนรู้เพิ่มเติมเกี่ยวกับมัน ในกรณีของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) โดยทั่วไปเป็นความคิดที่ดี (คุณมักจะมองหารูปแบบที่ไม่คาดฝันในข้อมูล) แต่สำหรับการศึกษาเชิงยืนยันสิ่งนี้ได้รับการยอมรับอย่างกว้างขวางว่าเป็นวิธีการวิเคราะห์ที่มีข้อบกพร่องมาก ขั้นตอนมีการกำหนดไว้อย่างชัดเจนและวางแผนอย่างเหมาะสมในขั้นสูง) ดังที่ได้กล่าวไปแล้วการวิเคราะห์ข้อมูลที่ปรับตัวได้นั้นโดยทั่วไปแล้วมีนักวิจัยจำนวนเท่าใดที่ทำการวิเคราะห์จริง ๆ เช่นนี้หากใครสามารถทำได้ในลักษณะที่ถูกต้องทางสถิติมันจะปฏิวัติการปฏิบัติทางสถิติ บทความวิทยาศาสตร์ต่อไปนี้อ้างว่าได้พบวิธีในการทำเช่นนั้น (ฉันขอโทษสำหรับ paywall แต่ถ้าคุณอยู่ในมหาวิทยาลัยคุณน่าจะเข้าถึงได้): Dwork et al, 2015, holdout ที่นำมาใช้ใหม่ได้: รักษาความถูกต้องในการวิเคราะห์ข้อมูลแบบปรับตัว . โดยส่วนตัวฉันมักสงสัยเกี่ยวกับบทความสถิติที่ตีพิมพ์ในวิทยาศาสตร์และบทความนี้ก็ไม่ต่างกัน ในความเป็นจริงหลังจากอ่านบทความสองครั้งรวมถึงเนื้อหาเพิ่มเติมฉันไม่เข้าใจ (เลย) ทำไมผู้เขียนอ้างว่าวิธีการของพวกเขาป้องกันไม่ให้เกินความเหมาะสม ความเข้าใจของฉันคือพวกเขามีชุดข้อมูลแบบโฮลด์ซึ่งพวกเขาจะใช้ซ้ำ พวกเขาดูเหมือนจะเรียกร้องโดย "fuzzing" ผลลัพธ์ของการวิเคราะห์ยืนยันในชุดข้อมูลที่ไม่ยอมอ่อนข้อกว่ากระชับจะได้รับการป้องกัน (มันเป็นที่น่าสังเกตว่า fuzzing น่าจะเป็นเพียงการเพิ่มเสียงถ้าสถิติการคำนวณเกี่ยวกับข้อมูลการฝึกอบรมคือพอไกล จากสถิติที่คำนวณได้ในข้อมูลโฮลด์ ) เท่าที่ฉันสามารถบอกได้ว่าไม่มีเหตุผลจริงที่จะป้องกันไม่ให้มีความเหมาะสมมากเกินไป ฉันเข้าใจผิดในสิ่งที่ผู้เขียนเสนอหรือไม่? มีลักษณะพิเศษบางอย่างที่ฉันมองเห็นหรือไม่? หรือวิทยาศาสตร์ ได้รับรองการฝึกฝนทางสถิติที่เลวร้ายที่สุดจนถึงปัจจุบันหรือไม่?

29 hypothesis-testing overfitting eda out-of-sample differential-privacy

5

วิธีการปฏิวัติใหม่ของการขุดข้อมูล?

ข้อความที่ตัดตอนมาต่อไปนี้มาจากHedge Fund Market Wizzards ของ Schwager (พฤษภาคม 2012) สัมภาษณ์กับผู้จัดการกองทุน Hedge ที่ประสบความสำเร็จอย่างต่อเนื่อง Jaffray Woodriff: สำหรับคำถาม: "อะไรคือข้อผิดพลาดที่เลวร้ายที่สุดที่ผู้คนทำในการขุดข้อมูล?": ผู้คนจำนวนมากคิดว่าพวกเขาโอเคเพราะพวกเขาใช้ข้อมูลในตัวอย่างสำหรับการฝึกอบรมและข้อมูลนอกตัวอย่างสำหรับการทดสอบ จากนั้นพวกเขาเรียงลำดับโมเดลตามวิธีที่พวกเขาดำเนินการกับข้อมูลในตัวอย่างและเลือกคนที่ดีที่สุดในการทดสอบข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง แนวโน้มของมนุษย์คือการใช้แบบจำลองที่ยังคงทำได้ดีในข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างและเลือกแบบจำลองเหล่านั้นเพื่อการซื้อขาย กระบวนการประเภทนั้นเปลี่ยนข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างให้เป็นส่วนหนึ่งของข้อมูลการฝึกอบรมเพราะมันเลือกรูปแบบที่ทำได้ดีที่สุดในช่วงเวลาตัวอย่าง เป็นหนึ่งในข้อผิดพลาดที่พบบ่อยที่สุดที่ผู้คนทำและหนึ่งในสาเหตุที่การทำ data data เพราะโดยทั่วไปแล้วจะทำให้ได้ผลลัพธ์ที่แย่มาก ผู้สัมภาษณ์ถามมากกว่า: "คุณควรทำอะไรแทน" คุณสามารถมองหารูปแบบที่โมเดลโดยเฉลี่ยแล้วตัวอย่างทั้งหมดยังคงทำได้ดี คุณรู้ว่าคุณทำได้ดีถ้าค่าเฉลี่ยสำหรับโมเดลที่ไม่อยู่ในกลุ่มตัวอย่างนั้นเป็นเปอร์เซ็นต์ที่สำคัญของคะแนนในตัวอย่าง โดยทั่วไปแล้วคุณจะได้อยู่ที่ไหนสักแห่งจริง ๆ ถ้าผลลัพธ์นอกกลุ่มตัวอย่างมากกว่า 50 เปอร์เซ็นต์ของตัวอย่าง รูปแบบธุรกิจของ QIM จะไม่ทำงานถ้า SAS และ IBM กำลังสร้างซอฟต์แวร์การสร้างแบบจำลองการทำนายที่ยอดเยี่ยม คำถามของฉัน มันสมเหตุสมผลหรือไม่? เขาหมายถึงอะไร คุณมีเงื่อนงำหรือบางทีอาจเป็นชื่อของวิธีการที่เสนอและการอ้างอิงบางส่วน? หรือผู้ชายคนนี้พบจอกศักดิ์สิทธิ์ที่ไม่มีใครเข้าใจหรือไม่? เขายังกล่าวในการสัมภาษณ์ครั้งนี้ว่าวิธีการของเขาอาจปฏิวัติวิทยาศาสตร์ ...

21 data-mining curve-fitting out-of-sample

3

เราจำเป็นต้องมีชุดทดสอบเมื่อใช้การตรวจสอบความถูกต้องข้ามของ k-fold หรือไม่?

ฉันได้อ่านเกี่ยวกับการตรวจสอบ k-fold และฉันต้องการตรวจสอบให้แน่ใจว่าฉันเข้าใจวิธีการทำงาน ฉันรู้ว่าสำหรับวิธีการค้างไว้ข้อมูลจะถูกแบ่งออกเป็นสามชุดและชุดทดสอบนั้นจะถูกใช้ที่ส่วนท้ายสุดเพื่อประเมินประสิทธิภาพของรุ่นเท่านั้นในขณะที่ชุดการตรวจสอบใช้สำหรับการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ ฯลฯ ในวิธีการ k-fold เรายังคงจัดชุดการทดสอบสำหรับส่วนท้ายและใช้เฉพาะข้อมูลที่เหลือสำหรับการฝึกอบรมและการปรับจูนพารามิเตอร์เช่นเราแบ่งข้อมูลที่เหลือเป็น k เท่าแล้วใช้ความแม่นยำเฉลี่ยหลังจากการฝึกอบรม ด้วยการพับแต่ละครั้ง (หรือตัวชี้วัดประสิทธิภาพใดก็ตามที่เราเลือกเพื่อปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์) หรือเราไม่ได้ใช้ชุดทดสอบแยกเลยและแยกชุดข้อมูลทั้งหมดเป็น k เท่า (ถ้าเป็นกรณีนี้ฉันคิดว่าเราแค่พิจารณาความถูกต้องเฉลี่ยบน k เท่าเพื่อความถูกต้องสุดท้ายของเรา)?

21 cross-validation validation out-of-sample

1

ลีดเดอร์บอร์ดส่วนตัวของ Kaggle เป็นเครื่องทำนายผลการทำงานที่ดีของรุ่นที่ชนะหรือไม่?

ในขณะที่ผลลัพธ์ของชุดทดสอบส่วนตัวไม่สามารถใช้ในการปรับแต่งโมเดลเพิ่มเติมได้ แต่การเลือกรุ่นจากโมเดลจำนวนมากที่ดำเนินการตามผลลัพธ์ของชุดทดสอบส่วนตัวไม่ใช่หรือไม่ คุณจะไม่ผ่านกระบวนการนั้นเพียงอย่างเดียวจบลงด้วยการ overfitting ชุดทดสอบส่วนตัวหรือไม่? ตามที่"Pseudo-Mathematics และ Charlatanism การเงิน: ผลกระทบของการ Overtitting Backtest ต่อประสิทธิภาพออกตัวอย่าง" โดย Bailey et.al มันค่อนข้างง่ายที่จะ "overfit" เมื่อเลือกสิ่งที่ดีที่สุดจากโมเดลจำนวนมากที่ประเมินในชุดข้อมูลเดียวกัน นั่นไม่ได้เกิดขึ้นกับลีดเดอร์บอร์ดส่วนตัวของ Kaggle ใช่ไหม อะไรคือเหตุผลทางสถิติสำหรับโมเดลที่มีประสิทธิภาพดีที่สุดบนลีดเดอร์บอร์ดส่วนตัวซึ่งเป็นโมเดลที่สรุปข้อมูลที่ดีที่สุดออกมาจากตัวอย่าง? จริง ๆ แล้ว บริษัท ต่างๆใช้แบบจำลองที่ชนะหรือมีกระดานผู้นำส่วนตัวเพียงเพื่อให้ "กฎของเกม" และ บริษัท ต่าง ๆ ให้ความสนใจในข้อมูลเชิงลึกที่เกิดขึ้นจากการอภิปรายของปัญหาจริง ๆ หรือไม่

16 model-selection overfitting out-of-sample

4

ตัวแบบทำนายผล: สถิติไม่สามารถเอาชนะการเรียนรู้ของเครื่องได้? [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ขณะนี้ฉันกำลังติดตามโปรแกรมหลักที่เน้นเรื่องสถิติ / เศรษฐมิติ ในอาจารย์ของฉันนักเรียนทุกคนต้องทำวิจัย 3 เดือน สัปดาห์ที่แล้วทุกกลุ่มต้องนำเสนองานวิจัยของพวกเขากับนักศึกษาปริญญาโทคนอื่น ๆ เกือบทุกกลุ่มมีการสร้างแบบจำลองทางสถิติและแบบจำลองการเรียนรู้ของเครื่องสำหรับหัวข้อการวิจัยและการคาดการณ์นอกเวลาตัวอย่างทุกครั้งจะมาพูดคุยเกี่ยวกับแบบจำลองการเรียนรู้ของเครื่องอย่างง่าย ๆ เอาชนะแบบจำลองทางสถิติที่ซับซ้อนมาก เดือน ไม่ว่าแบบจำลองทางสถิติของทุกคนจะดีแค่ไหนป่าสุ่มที่เรียบง่ายก็มีข้อผิดพลาดน้อยกว่าตัวอย่างมาก ฉันสงสัยว่านี่เป็นข้อสังเกตที่ยอมรับกันโดยทั่วไปหรือไม่? ถ้ามันมาจากการพยากรณ์นอกตัวอย่างไม่มีวิธีใดที่จะเอาชนะรูปแบบป่าเรียบง่ายหรือรูปแบบการไล่ระดับสีที่รุนแรง ทั้งสองวิธีนี้ง่ายมากที่จะใช้งานโดยใช้แพ็คเกจ R ในขณะที่โมเดลสถิติทั้งหมดที่ทุกคนสร้างขึ้นนั้นต้องการทักษะความรู้และความพยายามในการประเมินค่อนข้างมาก คุณคิดอย่างไรกับเรื่องนี้? ประโยชน์เพียงอย่างเดียวของตัวแบบเชิงสถิติ / เศรษฐมิติที่คุณได้รับการตีความคืออะไร? หรือโมเดลของเราไม่ดีพอที่พวกเขาล้มเหลวที่จะมีประสิทธิภาพสูงกว่าการทำนายป่าแบบสุ่มอย่างง่ายหรือไม่? มีเอกสารใดบ้างที่ตอบปัญหานี้?

14 machine-learning forecasting predictive-models prediction out-of-sample

3

เหตุใดจึงไม่มีวิธีการพัก (การแยกข้อมูลเป็นการฝึกอบรมและการทดสอบ) ที่ใช้ในสถิติแบบดั้งเดิม

ในห้องเรียนของฉันเกี่ยวกับ data mining วิธี holdout ถูกนำเสนอเป็นวิธีการประเมินประสิทธิภาพของแบบจำลอง อย่างไรก็ตามเมื่อฉันเข้าชั้นเฟิสต์คลาสของฉันในโมเดลเชิงเส้นนี่ไม่ได้ถูกนำมาใช้เป็นวิธีการตรวจสอบความถูกต้องของแบบจำลอง การวิจัยออนไลน์ของฉันยังไม่แสดงจุดแยก เหตุใดจึงไม่ใช้วิธีการพักในสถิติแบบดั้งเดิม

12 regression validation model-evaluation out-of-sample

1

ความแตกต่างระหว่างการคาดการณ์“ ในตัวอย่าง” และ“ หลอกออกจากตัวอย่าง”

มีความแตกต่างอย่างชัดเจนระหว่างการคาดการณ์ในตัวอย่างและการคาดการณ์ออกจากตัวอย่างหลอก ทั้งสองมีความหมายในบริบทของการประเมินและเปรียบเทียบแบบจำลองการพยากรณ์

12 forecasting model-comparison out-of-sample in-sample

4

อะไรคือวิธีที่เหมาะสมกว่าในการสร้างชุดการค้างเอาไว้: เพื่อลบบางวิชาหรือเพื่อลบการสังเกตออกจากแต่ละวิชา

ฉันมีชุดข้อมูลที่มี 26 คุณสมบัติและ 31,000 แถว มันเป็นชุดข้อมูลของ 38 วิชา มันเป็นระบบไบโอเมตริกซ์ ดังนั้นฉันต้องการที่จะสามารถระบุวิชา เพื่อให้มีชุดทดสอบฉันรู้ว่าฉันต้องลบค่าบางอย่าง แล้วจะทำอย่างไรดีและทำไม (a) รักษา 30 ชุดของชุดฝึกอบรมและลบ 8 ชุดเป็นชุดทดสอบ (b) รักษาอาสาสมัคร 38 คน แต่ลบบางแถวออกจากกัน ในตอนท้ายฉันจะจบด้วยชุดฝึกอบรม: 24800 แถวจาก 38 วิชาและชุดทดสอบ: 6200 แถวจาก 38 วิชา

11 machine-learning cross-validation out-of-sample

1

การสร้างแบบจำลองด้วยป่าสุ่มต้องมีการตรวจสอบข้ามหรือไม่?

เท่าที่ฉันเคยเห็นความคิดเห็นมีแนวโน้มที่จะแตกต่างกันเกี่ยวกับเรื่องนี้ แนวปฏิบัติที่ดีที่สุดจะใช้การตรวจสอบข้าม (โดยเฉพาะอย่างยิ่งหากเปรียบเทียบ RF กับอัลกอริธึมอื่น ๆ ในชุดข้อมูลเดียวกัน) แหล่งที่มาดั้งเดิมระบุว่ามีการคำนวณข้อผิดพลาด OOB ข้อเท็จจริงระหว่างการฝึกอบรมแบบจำลองเพียงพอที่จะเป็นตัวบ่งชี้ประสิทธิภาพของชุดทดสอบ แม้แต่ Trevor Hastie ในการพูดคุยเมื่อไม่นานมานี้กล่าวว่า "Random Forest ให้การตรวจสอบข้ามฟรี" โดยสัญชาตญาณสิ่งนี้สมเหตุสมผลสำหรับฉันหากการฝึกอบรมและพยายามปรับปรุงโมเดล RF-based บนหนึ่งชุดข้อมูล ความคิดเห็นของคุณเกี่ยวกับเรื่องนี้คืออะไร?

10 cross-validation random-forest overfitting out-of-sample

2

'' ตัวแปรที่สำคัญ '' ที่ไม่ได้ปรับปรุงการพยากรณ์นอกตัวอย่าง - จะตีความได้อย่างไร

ฉันมีคำถามที่ฉันคิดว่าจะค่อนข้างพื้นฐานสำหรับผู้ใช้จำนวนมาก ฉันใช้ตัวแบบการถดถอยเชิงเส้นเพื่อ (i) ตรวจสอบความสัมพันธ์ของตัวแปรอธิบายหลายตัวและตัวแปรตอบสนองของฉันและ (ii) ทำนายตัวแปรตอบสนองของฉันโดยใช้ตัวแปรอธิบาย ตัวแปรอธิบายอย่างใดอย่างหนึ่ง X ดูเหมือนจะส่งผลกระทบต่อตัวแปรตอบกลับของฉันอย่างมาก เพื่อทดสอบมูลค่าเพิ่มของตัวแปรอธิบายนี้เพื่อวัตถุประสงค์ในการคาดการณ์นอกตัวอย่างของตัวแปรตอบสนองของฉันฉันใช้สองแบบจำลอง: model (a) ซึ่งใช้ตัวแปรอธิบายและแบบจำลองทั้งหมด (b) ซึ่งใช้ตัวแปรทั้งหมด ยกเว้นตัวแปร X สำหรับทั้งสองรุ่นฉันรายงานประสิทธิภาพนอกตัวอย่างเท่านั้น ปรากฏว่าทั้งสองรุ่นมีประสิทธิภาพเกือบเหมือนกัน กล่าวอีกนัยหนึ่งการเพิ่มตัวแปรอธิบาย X ไม่ได้ปรับปรุงการพยากรณ์นอกตัวอย่าง โปรดทราบว่าฉันยังใช้ model (a) เช่นโมเดลที่มีตัวแปรอธิบายทั้งหมดเพื่อค้นหาว่าตัวแปรอธิบาย X ส่งผลกระทบอย่างมากต่อตัวแปรตอบกลับของฉัน คำถามของฉันคือ: จะตีความการค้นพบนี้ได้อย่างไร? ข้อสรุปที่ตรงไปตรงมาคือแม้ว่าตัวแปร X ดูเหมือนจะมีอิทธิพลต่อตัวแปรตอบสนองของฉันอย่างมีนัยสำคัญโดยใช้แบบจำลองที่อนุมานได้ แต่ก็ไม่ได้ปรับปรุงการทำนายนอกตัวอย่าง อย่างไรก็ตามฉันมีปัญหาในการอธิบายการค้นพบนี้เพิ่มเติม สิ่งนี้จะเป็นไปได้อย่างไรและอะไรคือคำอธิบายสำหรับการค้นพบนี้ ขอบคุณล่วงหน้า! ข้อมูลเพิ่มเติม: ด้วย 'อิทธิพลอย่างมีนัยสำคัญ' ฉันหมายความว่า 0 ไม่รวมอยู่ในช่วงความหนาแน่นหลังสูงสุด 95% ของการประมาณพารามิเตอร์ (ฉันใช้วิธีเบส์) ในแง่บ่อยๆสิ่งนี้มีความสัมพันธ์กับการมีค่า p ต่ำกว่า 0.05 …

10 statistical-significance predictive-models p-value prediction out-of-sample

1

วิธีการคำนวณจากตัวอย่าง R กำลังสอง?

ฉันรู้ว่าอาจมีการพูดถึงที่อื่น แต่ฉันไม่สามารถหาคำตอบที่ชัดเจนได้ ฉันกำลังพยายามใช้สูตรเพื่อคำนวณ -ตัวอย่างของการถดถอยเชิงเส้นโดยที่คือผลรวมของส่วนที่เหลือกำลังสองและคือผลรวมของกำลังสองทั้งหมด สำหรับชุดฝึกอบรมนั้นเป็นที่ชัดเจนว่าR2=1−SSR/SSTR2=1−SSR/SSTR^2 = 1 - SSR/SSTR2R2R^2SSRSSRSSRSSTSSTSST SST=Σ(y−y¯train)2SST=Σ(y−y¯train)2 SST = \Sigma (y - \bar{y}_{train})^2 ชุดทดสอบมีอะไรบ้าง ฉันควรใช้สำหรับตัวอย่างหรือใช้แทนหรือไม่y¯trainy¯train\bar{y}_{train}yyyy¯testy¯test\bar{y}_{test} ฉันพบว่าถ้าฉันใช้ผลลัพธ์อาจเป็นลบได้ในบางครั้ง สิ่งนี้สอดคล้องกับคำอธิบายฟังก์ชั่นของ sklearn โดยที่พวกเขาใช้ (ซึ่งยังใช้โดยฟังก์ชันlinear_model ของพวกเขาสำหรับการทดสอบตัวอย่าง) พวกเขากล่าวว่า "แบบจำลองค่าคงที่ที่ทำนายค่า y ที่คาดไว้เสมอโดยไม่คำนึงถึงคุณลักษณะอินพุตจะได้รับคะแนน R ^ 2 เท่ากับ 0.0"y¯testy¯test\bar{y}_{test}R2R2R^2r2_score()y¯testy¯test\bar{y}_{test}score() อย่างไรก็ตามในที่อื่น ๆ ผู้คนใช้แบบนี้และที่นี่ (คำตอบที่สองโดย dmi3kno) ดังนั้นฉันสงสัยว่าสิ่งใดที่เหมาะสมกว่า ความคิดเห็นใด ๆ จะได้รับการชื่นชมอย่างมาก!y¯trainy¯train\bar{y}_{train}

10 regression machine-learning r-squared out-of-sample

คำถามติดแท็ก out-of-sample