การจำลองโมเดลการถดถอยโลจิสติก


28

เป็นไปได้หรือไม่ที่จะจัดโมเดลการถดถอยโลจิสติกให้มากเกินไป? ฉันเห็นวิดีโอที่บอกว่าหากพื้นที่ของฉันภายใต้เส้นโค้ง ROC สูงกว่า 95% ก็น่าจะติดตั้งได้มากกว่า แต่เป็นไปได้หรือไม่ที่จะปรับรูปแบบการถดถอยโลจิสติกให้เหมาะสม?


1
คุณสามารถพูดได้ว่าวิดีโอไหนหรืออย่างน้อยก็ให้บริบทมากกว่านี้หน่อย?
Glen_b -Reinstate Monica

2
แน่นอน @Glen_b วิดีโอนี้: ลิงก์ความคิดเห็นอยู่ที่ 40 นาที มันบอกว่าสิ่งนั้น: เมื่อ ROC มี AUC อยู่ระหว่าง 0,5 ถึง 0,6 มันก็แย่ ถ้าอยู่ระหว่าง 0,6 ถึง 0,7 ต่ำกว่าค่าเฉลี่ย ถ้าระหว่าง 0,7 ถึง 0,75 มันเป็นค่าเฉลี่ย / ดี มันมีค่าระหว่าง 0,75 และ 0,8 ดี ถ้าอยู่ระหว่าง 0,8 ถึง 0,9 มันจะเป็น Excelent ถ้าสูงกว่า 0,9 มันน่าสงสัยและถ้าสูงกว่า 0,95 มันก็เกินไป ฉันพบว่าคำอธิบายนั้นง่ายต่อการเข้าใจ แต่ใช่ไหม? เพราะฉันกำลังค้นหาบางสิ่งบางอย่างเพื่อสำรองข้อมูลที่คิด แต่ฉันไม่พบ
carlosedubarreto

และ Glen_B คำอธิบายที่ @AdamO ให้ดูเหมือนว่าคำอธิบายที่ฉันเห็นในวิดีโอนั้นไม่ถูกต้อง แต่บางทีฉันอาจเป็นคำอธิบายที่ผิดของ Adam สแตติสเหล่านี้มีความซับซ้อนมาก แต่ก็ยินดีอย่างยิ่งที่จะขุดลึกลงไปในนั้น :)
carlosedubarreto

ฉันคิดว่าคำอธิบายของ AdamO นั้นดี (ฉันยกมันขึ้นมา) แต่คำถามนั้นควรจะเป็นแหล่งข้อมูลถาวร ผู้อ่านในภายหลัง (เช่นคนที่มีคำถามคล้ายกัน) อาจต้องการบริบทของการรู้ว่าสิ่งที่พูดนั้นเป็นอย่างไร ฉันคิดว่าคำอธิบายของคุณในความคิดเห็นให้บริบทเพียงพอสำหรับคนส่วนใหญ่และลิงก์จะทำเพื่อส่วนที่เหลือ ขอบคุณมาก! คุณทำให้คำถามของคุณมีประโยชน์มากขึ้น
Glen_b -Reinstate Monica

ขอบคุณมาก @Glen_b ฉันได้เรียนรู้วิธีใช้เครื่องมือที่ยอดเยี่ยมนี้ที่เรามี (ฟอรัมนี้) ฉันจะเก็บเคล็ดลับไว้ในใจเมื่อถามคำถามใหม่
carlosedubarreto

คำตอบ:


35

ใช่คุณสามารถปรับโมเดลการถดถอยโลจิสติกให้เหมาะสมได้ แต่ก่อนอื่นฉันขอกล่าวถึงจุดที่เกี่ยวกับ AUC (พื้นที่ภายใต้เส้นโค้งลักษณะการดำเนินงานของผู้รับ): ไม่มีกฎสากลทั่วไปเกี่ยวกับ AUC ที่เคยมีมา

AUC คืออะไรความน่าจะเป็นที่การสุ่มตัวอย่างเชิงบวก (หรือกรณี) สุ่มจะมีค่าเครื่องหมายสูงกว่าค่าลบ (หรือการควบคุม) เนื่องจาก AUC มีค่าทางคณิตศาสตร์เทียบเท่ากับสถิติ U

สิ่งที่ AUC ไม่ได้เป็นตัวชี้วัดมาตรฐานของความแม่นยำในการทำนาย เหตุการณ์ที่กำหนดไว้อย่างสูงสามารถมีตัวพยากรณ์ AUCs เดียวที่ 95% หรือสูงกว่า (เช่นในเมคคาทรอนิกส์ควบคุมหุ่นยนต์หรือเลนส์) แบบจำลองการทำนายความเสี่ยงแบบหลายตัวแปรที่ซับซ้อนมี AUCs 64% หรือต่ำกว่าเช่นการพยากรณ์ความเสี่ยงมะเร็งเต้านม ระดับความแม่นยำในการทำนายขั้นสูง

ค่า AUC เหมาะสมเช่นเดียวกับการวิเคราะห์การใช้พลังงานเป็น prespecified โดยการรวบรวมความรู้เกี่ยวกับพื้นหลังและจุดมุ่งหมายของการศึกษาaPriori แพทย์ / วิศวกรอธิบายสิ่งที่พวกเขาต้องการและคุณนักสถิติแก้ไขค่า AUC เป้าหมายสำหรับแบบจำลองการทำนายของคุณ แล้วก็เริ่มการสอบสวน

เป็นไปได้ที่จะจัดโมเดลการถดถอยโลจิสติกให้มากเกินไป นอกเหนือจากการพึ่งพาเชิงเส้น (ถ้าเมทริกซ์โมเดลมีระดับไม่เพียงพอ) คุณสามารถมีความสอดคล้องที่สมบูรณ์แบบหรือนั่นคือพล็อตของค่าติดตั้งกับ Y ที่แยกแยะกรณีและการควบคุมได้อย่างสมบูรณ์แบบ ในกรณีที่พารามิเตอร์ของคุณยังไม่ได้แปรสภาพ แต่บางแห่งอาศัยอยู่เพียงแค่ในพื้นที่เขตแดนที่ให้โอกาสในการ∞อย่างไรก็ตามบางครั้ง AUC นั้นเป็น 1 โดยบังเอิญโดยลำพัง

มีอคติอีกประเภทหนึ่งที่เกิดจากการเพิ่มตัวทำนายลงในโมเดลมากเกินไปและนั่นก็คืออคติตัวอย่างเล็ก ๆ โดยทั่วไปอัตราส่วนอัตราต่อรองเข้าสู่ระบบของแบบจำลองการถดถอยโลจิสติกมีแนวโน้มไปสู่ปัจจัยลำเอียงที่เนื่องจากความไม่สามารถยุบตัวของอัตราส่วนอัตราต่อรองและจำนวนเซลล์เป็นศูนย์ ในการอนุมานสิ่งนี้จะถูกจัดการโดยใช้การถดถอยโลจิสติกแบบมีเงื่อนไขเพื่อควบคุมตัวแปรที่สับสนและแม่นยำในการวิเคราะห์แบบแบ่งชั้น อย่างไรก็ตามในการทำนายคุณคือ SooL ไม่มีการทำนาย generalizable เมื่อคุณมีคือP » n π ( 1 - π ) ( π = Prob ( Y = 1 )2βพี»nπ(1-π)π=prob(Y=1)) เนื่องจากคุณรับประกันว่าจะได้สร้างแบบจำลอง "ข้อมูล" และไม่ใช่ "แนวโน้ม" ณ จุดนั้น มิติ (ใหญ่สูง ) การคาดการณ์ของผลไบนารีทำได้ดีกว่าด้วยวิธีการเรียนรู้ของเครื่อง การทำความเข้าใจกับการวิเคราะห์จำแนกเชิงเส้นสี่เหลี่ยมน้อยที่สุดบางส่วนการทำนายเพื่อนบ้านที่ใกล้ที่สุดการส่งเสริมและป่าสุ่มน่าจะเป็นจุดเริ่มต้นที่ดีมากพี


Y

π

คุณจะกำหนดค่า AUC ที่เหมาะสมเพื่อตั้งเป้าหมายได้อย่างไร
Kevin H. Lin

1
@ KevinH.Lin มันขึ้นอยู่กับลักษณะของคำถาม ยิ่งคุณมีความรู้ที่เหมาะสมกับบริบทมากเท่าไหร่ก็ยิ่งดีเท่านั้น นี่จะเป็นความชุกพื้นฐานหรือภาระของโรคหรือเงื่อนไขที่โมเดลประเมินประสิทธิภาพของโมเดลที่มีอยู่ (แข่งขัน), การแลกเปลี่ยนความคุ้มทุนและนโยบายที่เกี่ยวข้องกับการยอมรับแนวทางปฏิบัติใหม่และ / หรือคำแนะนำ ไม่มีอะไรเกี่ยวกับมันเป็นสีดำและสีขาว แต่ก็เหมือนกับหลาย ๆ สิ่งคุณต้องเถียงอย่างถี่ถ้วนเพื่อโน้มน้าวใจและให้เหตุผลในความโปรดปรานของค่า AUC ที่คุณในฐานะนักสถิติ
AdamO

1
@ KevinH.Lin ฉันไม่คิดว่าคำตอบที่ถูกต้องจะชัดเจนและรัดกุมเท่าที่คุณต้องการ มันเหมือนกับถามว่า "ฉันควรซื้อรถคันไหนดี" :) ฉันขอแนะนำให้คุณตรวจสอบบทความที่มีการสำรวจ AUCs ในพื้นที่การวิจัยที่เกี่ยวข้องที่คุณสนใจ ฉันเคยทำงานในแบบจำลองการทำนายความเสี่ยงมะเร็งเต้านมและจากผลงานของ Tice, Gail และ Barlow ท่ามกลางคนอื่น ๆ เห็นว่า AUC 0.65 นั้นน่าสนใจมากสำหรับแบบจำลองการทำนายตามประชากรที่มีความชุกของกรณีน้อยกว่า 1-20 ต่อ 5,000 คนต่อปีที่มีความเสี่ยงโดยใช้ 7 ปัจจัยเสี่ยงที่มี RR btn 1.5 และ 3
AdamO

6

ในคำง่ายๆ .... แบบจำลองการถดถอยโลจิสติกที่ติดตั้งมากเกินไปมีความแปรปรวนขนาดใหญ่หมายถึงการเปลี่ยนแปลงขอบเขตการตัดสินใจส่วนใหญ่สำหรับการเปลี่ยนแปลงขนาดเล็กในตัวแปร พิจารณาภาพต่อไปนี้รูปที่ถูกต้องที่สุดคือโมเดลโลจิสติกที่ติดตั้งมากเกินไปขอบเขตการตัดสินใจมีขนาดใหญ่มาก ของอัพและดาวน์ในขณะที่ middel หนึ่งพอดีมันมีความแปรปรวนปานกลางและอคติปานกลาง ด้านซ้ายมีความเอนเอียงต่ำ แต่มีความแปรปรวนน้อยกว่ามาก อีกอย่างหนึ่ง _ รุ่น regrresion ที่ติดตั้งเกินมีคุณสมบัติมากเกินไปในขณะที่รุ่น underfit มีน้อยกว่ามาก ของคุณสมบัติ ภาพแสดงรูปแบบการต้านทานโลจิสติก underfit, justfit และ overfit  เครื่องหมายสีน้ำเงินที่มีการระบุขอบเขตการตัดสินใจ


8
กรุณาเพิ่มการอ้างอิงสำหรับภาพ (อันที่จริงหลักสูตรของ Andrew Ng)
Alexander Rodin

5

คุณสามารถใช้วิธีการใดก็ได้มากเกินไปแม้ว่าคุณจะพอดีกับประชากรทั้งหมด (ถ้าจำนวนประชากรมี จำกัด ) มีวิธีแก้ไขปัญหาทั่วไปสองประการ: (1) การประเมินความเป็นไปได้สูงสุดที่ถูกลงโทษ (การถดถอยสันเขาตาข่ายยืดยางยืดเชือก ฯลฯ ) และ (2) การใช้นักบวชที่มีข้อมูลกับแบบจำลองแบบเบย์

YYYY


4

มีรูปแบบใดบ้างที่ทิ้งความถดถอยโลจิสติกไว้ซึ่งเป็นไปไม่ได้ที่จะทำให้เหมาะสมมากเกินไป?

การเกิดขึ้นมากเกินไปเป็นพื้นฐานเพราะคุณเหมาะสมกับตัวอย่างและไม่ใช่ประชากรทั้งหมด สิ่งประดิษฐ์ในตัวอย่างของคุณสามารถดูเหมือนคุณสมบัติของประชากรและพวกมันไม่ได้และด้วยเหตุนี้จึงทำให้เจ็บมากเกินไป

มันคล้ายกับคำถามของความถูกต้องภายนอก ใช้เฉพาะตัวอย่างที่คุณกำลังพยายามสร้างแบบจำลองที่ให้ประสิทธิภาพที่ดีที่สุดแก่ประชากรจริงที่คุณมองไม่เห็น

แน่นอนว่ารูปแบบหรือขั้นตอนแบบจำลองบางอย่างมีแนวโน้มที่จะมีน้ำหนักเกินกว่าแบบจำลองอื่น ๆ แต่ไม่มีแบบจำลองใดที่เคยได้รับการยกเว้นจากการให้ข้อมูลจริงเกินไป

แม้แต่การตรวจสอบความถูกต้องนอกขั้นตอนการทำให้เป็นมาตรฐานและอื่น ๆ สามารถป้องกันการปรับตัวที่เกินได้ แต่ไม่มีกระสุนเงิน ในความเป็นจริงหากมีใครประเมินความมั่นใจของตัวเองในการทำนายโลกแห่งความจริงตามแบบจำลองที่เหมาะสมเราจะต้องคิดเสมอว่าระดับการ overfitting บางอย่างเกิดขึ้นจริง

ขอบเขตอาจแตกต่างกันไป แต่ถึงแม้จะมีการตรวจสอบความถูกต้องของโมเดลบนชุดข้อมูลที่ถือเอาไว้ก็แทบจะไม่ได้ให้ประสิทธิภาพที่เทียบเท่ากับสิ่งที่ได้รับจากชุดข้อมูลที่ได้รับ และการมีน้ำหนักเกินเป็นปัจจัยเชิงสาเหตุที่ยิ่งใหญ่


0

สิ่งที่เราทำกับ Roc เพื่อตรวจสอบการ overfitting คือการแยกชุดข้อมูลแบบสุ่มในการฝึกอบรมและการประเมินค่าและเปรียบเทียบ AUC ระหว่างกลุ่มเหล่านั้น หาก AUC นั้น "มาก" (ไม่มีกฎง่ายๆ) ที่ใหญ่กว่าในการฝึกซ้อมนั่นอาจจะเป็นเรื่องที่มากเกินไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.