เป็นไปได้หรือไม่ที่จะจัดโมเดลการถดถอยโลจิสติกให้มากเกินไป? ฉันเห็นวิดีโอที่บอกว่าหากพื้นที่ของฉันภายใต้เส้นโค้ง ROC สูงกว่า 95% ก็น่าจะติดตั้งได้มากกว่า แต่เป็นไปได้หรือไม่ที่จะปรับรูปแบบการถดถอยโลจิสติกให้เหมาะสม?
เป็นไปได้หรือไม่ที่จะจัดโมเดลการถดถอยโลจิสติกให้มากเกินไป? ฉันเห็นวิดีโอที่บอกว่าหากพื้นที่ของฉันภายใต้เส้นโค้ง ROC สูงกว่า 95% ก็น่าจะติดตั้งได้มากกว่า แต่เป็นไปได้หรือไม่ที่จะปรับรูปแบบการถดถอยโลจิสติกให้เหมาะสม?
คำตอบ:
ใช่คุณสามารถปรับโมเดลการถดถอยโลจิสติกให้เหมาะสมได้ แต่ก่อนอื่นฉันขอกล่าวถึงจุดที่เกี่ยวกับ AUC (พื้นที่ภายใต้เส้นโค้งลักษณะการดำเนินงานของผู้รับ): ไม่มีกฎสากลทั่วไปเกี่ยวกับ AUC ที่เคยมีมา
AUC คืออะไรความน่าจะเป็นที่การสุ่มตัวอย่างเชิงบวก (หรือกรณี) สุ่มจะมีค่าเครื่องหมายสูงกว่าค่าลบ (หรือการควบคุม) เนื่องจาก AUC มีค่าทางคณิตศาสตร์เทียบเท่ากับสถิติ U
สิ่งที่ AUC ไม่ได้เป็นตัวชี้วัดมาตรฐานของความแม่นยำในการทำนาย เหตุการณ์ที่กำหนดไว้อย่างสูงสามารถมีตัวพยากรณ์ AUCs เดียวที่ 95% หรือสูงกว่า (เช่นในเมคคาทรอนิกส์ควบคุมหุ่นยนต์หรือเลนส์) แบบจำลองการทำนายความเสี่ยงแบบหลายตัวแปรที่ซับซ้อนมี AUCs 64% หรือต่ำกว่าเช่นการพยากรณ์ความเสี่ยงมะเร็งเต้านม ระดับความแม่นยำในการทำนายขั้นสูง
ค่า AUC เหมาะสมเช่นเดียวกับการวิเคราะห์การใช้พลังงานเป็น prespecified โดยการรวบรวมความรู้เกี่ยวกับพื้นหลังและจุดมุ่งหมายของการศึกษาaPriori แพทย์ / วิศวกรอธิบายสิ่งที่พวกเขาต้องการและคุณนักสถิติแก้ไขค่า AUC เป้าหมายสำหรับแบบจำลองการทำนายของคุณ แล้วก็เริ่มการสอบสวน
เป็นไปได้ที่จะจัดโมเดลการถดถอยโลจิสติกให้มากเกินไป นอกเหนือจากการพึ่งพาเชิงเส้น (ถ้าเมทริกซ์โมเดลมีระดับไม่เพียงพอ) คุณสามารถมีความสอดคล้องที่สมบูรณ์แบบหรือนั่นคือพล็อตของค่าติดตั้งกับ Y ที่แยกแยะกรณีและการควบคุมได้อย่างสมบูรณ์แบบ ในกรณีที่พารามิเตอร์ของคุณยังไม่ได้แปรสภาพ แต่บางแห่งอาศัยอยู่เพียงแค่ในพื้นที่เขตแดนที่ให้โอกาสในการ∞อย่างไรก็ตามบางครั้ง AUC นั้นเป็น 1 โดยบังเอิญโดยลำพัง
มีอคติอีกประเภทหนึ่งที่เกิดจากการเพิ่มตัวทำนายลงในโมเดลมากเกินไปและนั่นก็คืออคติตัวอย่างเล็ก ๆ โดยทั่วไปอัตราส่วนอัตราต่อรองเข้าสู่ระบบของแบบจำลองการถดถอยโลจิสติกมีแนวโน้มไปสู่ปัจจัยลำเอียงที่เนื่องจากความไม่สามารถยุบตัวของอัตราส่วนอัตราต่อรองและจำนวนเซลล์เป็นศูนย์ ในการอนุมานสิ่งนี้จะถูกจัดการโดยใช้การถดถอยโลจิสติกแบบมีเงื่อนไขเพื่อควบคุมตัวแปรที่สับสนและแม่นยำในการวิเคราะห์แบบแบ่งชั้น อย่างไรก็ตามในการทำนายคุณคือ SooL ไม่มีการทำนาย generalizable เมื่อคุณมีคือP » n π ( 1 - π ) ( π = Prob ( Y = 1 )) เนื่องจากคุณรับประกันว่าจะได้สร้างแบบจำลอง "ข้อมูล" และไม่ใช่ "แนวโน้ม" ณ จุดนั้น มิติ (ใหญ่สูง ) การคาดการณ์ของผลไบนารีทำได้ดีกว่าด้วยวิธีการเรียนรู้ของเครื่อง การทำความเข้าใจกับการวิเคราะห์จำแนกเชิงเส้นสี่เหลี่ยมน้อยที่สุดบางส่วนการทำนายเพื่อนบ้านที่ใกล้ที่สุดการส่งเสริมและป่าสุ่มน่าจะเป็นจุดเริ่มต้นที่ดีมาก
ในคำง่ายๆ .... แบบจำลองการถดถอยโลจิสติกที่ติดตั้งมากเกินไปมีความแปรปรวนขนาดใหญ่หมายถึงการเปลี่ยนแปลงขอบเขตการตัดสินใจส่วนใหญ่สำหรับการเปลี่ยนแปลงขนาดเล็กในตัวแปร พิจารณาภาพต่อไปนี้รูปที่ถูกต้องที่สุดคือโมเดลโลจิสติกที่ติดตั้งมากเกินไปขอบเขตการตัดสินใจมีขนาดใหญ่มาก ของอัพและดาวน์ในขณะที่ middel หนึ่งพอดีมันมีความแปรปรวนปานกลางและอคติปานกลาง ด้านซ้ายมีความเอนเอียงต่ำ แต่มีความแปรปรวนน้อยกว่ามาก อีกอย่างหนึ่ง _ รุ่น regrresion ที่ติดตั้งเกินมีคุณสมบัติมากเกินไปในขณะที่รุ่น underfit มีน้อยกว่ามาก ของคุณสมบัติ
คุณสามารถใช้วิธีการใดก็ได้มากเกินไปแม้ว่าคุณจะพอดีกับประชากรทั้งหมด (ถ้าจำนวนประชากรมี จำกัด ) มีวิธีแก้ไขปัญหาทั่วไปสองประการ: (1) การประเมินความเป็นไปได้สูงสุดที่ถูกลงโทษ (การถดถอยสันเขาตาข่ายยืดยางยืดเชือก ฯลฯ ) และ (2) การใช้นักบวชที่มีข้อมูลกับแบบจำลองแบบเบย์
มีรูปแบบใดบ้างที่ทิ้งความถดถอยโลจิสติกไว้ซึ่งเป็นไปไม่ได้ที่จะทำให้เหมาะสมมากเกินไป?
การเกิดขึ้นมากเกินไปเป็นพื้นฐานเพราะคุณเหมาะสมกับตัวอย่างและไม่ใช่ประชากรทั้งหมด สิ่งประดิษฐ์ในตัวอย่างของคุณสามารถดูเหมือนคุณสมบัติของประชากรและพวกมันไม่ได้และด้วยเหตุนี้จึงทำให้เจ็บมากเกินไป
มันคล้ายกับคำถามของความถูกต้องภายนอก ใช้เฉพาะตัวอย่างที่คุณกำลังพยายามสร้างแบบจำลองที่ให้ประสิทธิภาพที่ดีที่สุดแก่ประชากรจริงที่คุณมองไม่เห็น
แน่นอนว่ารูปแบบหรือขั้นตอนแบบจำลองบางอย่างมีแนวโน้มที่จะมีน้ำหนักเกินกว่าแบบจำลองอื่น ๆ แต่ไม่มีแบบจำลองใดที่เคยได้รับการยกเว้นจากการให้ข้อมูลจริงเกินไป
แม้แต่การตรวจสอบความถูกต้องนอกขั้นตอนการทำให้เป็นมาตรฐานและอื่น ๆ สามารถป้องกันการปรับตัวที่เกินได้ แต่ไม่มีกระสุนเงิน ในความเป็นจริงหากมีใครประเมินความมั่นใจของตัวเองในการทำนายโลกแห่งความจริงตามแบบจำลองที่เหมาะสมเราจะต้องคิดเสมอว่าระดับการ overfitting บางอย่างเกิดขึ้นจริง
ขอบเขตอาจแตกต่างกันไป แต่ถึงแม้จะมีการตรวจสอบความถูกต้องของโมเดลบนชุดข้อมูลที่ถือเอาไว้ก็แทบจะไม่ได้ให้ประสิทธิภาพที่เทียบเท่ากับสิ่งที่ได้รับจากชุดข้อมูลที่ได้รับ และการมีน้ำหนักเกินเป็นปัจจัยเชิงสาเหตุที่ยิ่งใหญ่
สิ่งที่เราทำกับ Roc เพื่อตรวจสอบการ overfitting คือการแยกชุดข้อมูลแบบสุ่มในการฝึกอบรมและการประเมินค่าและเปรียบเทียบ AUC ระหว่างกลุ่มเหล่านั้น หาก AUC นั้น "มาก" (ไม่มีกฎง่ายๆ) ที่ใหญ่กว่าในการฝึกซ้อมนั่นอาจจะเป็นเรื่องที่มากเกินไป