การปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์นอกการตรวจสอบไขว้นั้นแย่แค่ไหน?

20

ฉันรู้ว่าการดำเนินการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์นอกการตรวจสอบข้ามสามารถนำไปสู่การประเมินความถูกต้องภายนอกที่มีความลำเอียงสูงเนื่องจากชุดข้อมูลที่คุณใช้ในการวัดประสิทธิภาพนั้นเป็นชุดเดียวกับที่คุณใช้ปรับคุณสมบัติ

สิ่งที่ฉันสงสัยคือปัญหานี้แย่ขนาดไหน ฉันสามารถเข้าใจได้ว่ามันจะไม่ดีจริง ๆ สำหรับการเลือกคุณลักษณะเนื่องจากสิ่งนี้จะให้คุณปรับพารามิเตอร์จำนวนมาก แต่ถ้าคุณใช้บางอย่างเช่น LASSO (ซึ่งมีเพียงพารามิเตอร์เดียว, ความแข็งแกร่งของการทำให้เป็นปกติ) หรือฟอเรสต์แบบสุ่มโดยไม่มีการเลือกคุณสมบัติ (ซึ่งสามารถมีพารามิเตอร์ไม่กี่ตัว

ในสถานการณ์เหล่านี้คุณคาดหวังว่าข้อผิดพลาดในการฝึกอบรมของคุณจะเป็นไปในแง่ดีเพียงใด

ฉันขอขอบคุณข้อมูลใด ๆ เกี่ยวกับเรื่องนี้ - กรณีศึกษา, เอกสาร, ข้อมูลเล็ก ๆ น้อย ๆ ฯลฯ ขอบคุณ!

แก้ไข:เพื่อชี้แจงฉันไม่ได้พูดเกี่ยวกับการประเมินประสิทธิภาพของแบบจำลองในข้อมูลการฝึกอบรม (กล่าวคือไม่ได้ใช้การตรวจสอบความถูกต้องทั้งหมด) โดย "การปรับค่าพารามิเตอร์หลายพารามิเตอร์นอกการตรวจสอบข้าม" ฉันหมายถึงการใช้การตรวจสอบข้ามเพื่อประเมินประสิทธิภาพของแต่ละรุ่นเท่านั้น แต่ไม่รวมลูปการตรวจสอบความถูกต้องภายนอกที่สองเพื่อแก้ไขสำหรับการกำหนดค่าภายในกระบวนการ overfitting ในระหว่างขั้นตอนการฝึกอบรม) ดูเช่นคำตอบที่นี่

cross-validation validation hyperparameter

— เบ็นคุห์น
แหล่งที่มา

17

ผลกระทบของอคตินี้อาจยอดเยี่ยมมาก การสาธิตที่ดีของสิ่งนี้ได้รับจากการแข่งขันการเรียนรู้ด้วยเครื่องแบบเปิดที่มีในการประชุมการเรียนรู้ของเครื่องบางอย่าง โดยทั่วไปจะมีชุดฝึกอบรมชุดตรวจสอบและชุดทดสอบ คู่แข่งไม่ได้เห็นฉลากสำหรับชุดการตรวจสอบหรือชุดทดสอบ (ชัดเจน) ชุดการตรวจสอบความถูกต้องใช้เพื่อกำหนดอันดับของคู่แข่งในกระดานผู้นำที่ทุกคนสามารถเห็นได้ในขณะที่การแข่งขันกำลังดำเนินอยู่ มันเป็นเรื่องธรรมดามากสำหรับผู้ที่อยู่ในหัวของกระดานผู้นำเมื่อสิ้นสุดการแข่งขันจะต่ำมากในการจัดอันดับสุดท้ายตามข้อมูลการทดสอบ นี่เป็นเพราะพวกเขาปรับพารามิเตอร์ไฮเปอร์สำหรับระบบการเรียนรู้ของพวกเขาเพื่อเพิ่มประสิทธิภาพของพวกเขาบนกระดานผู้นำและในการทำเช่นนั้นได้ติดตั้งข้อมูลการตรวจสอบมากเกินไปโดยการปรับโมเดลของพวกเขา ผู้ใช้ที่มีประสบการณ์มากขึ้นให้ความสนใจเพียงเล็กน้อยหรือไม่มีเลยในกระดานแต้มนำและใช้การประเมินประสิทธิภาพที่เป็นกลางที่เข้มงวดยิ่งขึ้นเพื่อเป็นแนวทางในการดำเนินการ

ตัวอย่างในบทความของฉัน (ที่กล่าวถึงโดย Jacques) แสดงให้เห็นว่าผลกระทบของอคติชนิดนี้อาจมีขนาดเท่ากันกับความแตกต่างระหว่างอัลกอริธึมการเรียนรู้ดังนั้นคำตอบสั้น ๆ จะไม่ใช้โปรโตคอลการประเมินประสิทธิภาพแบบเอนเอียง อย่างแท้จริงสนใจในการค้นหาสิ่งที่ทำงานและสิ่งที่ไม่ กฎพื้นฐานคือ "จัดการกับการเลือกแบบจำลอง (เช่นการปรับพารามิเตอร์แบบไฮเปอร์) เป็นส่วนหนึ่งของขั้นตอนการติดตั้งแบบจำลองและรวมไว้ในการตรวจสอบไขว้แต่ละครั้งที่ใช้สำหรับการประเมินประสิทธิภาพ)

ความจริงที่ว่าการทำให้เป็นปกตินั้นมีแนวโน้มที่จะไม่กระชับเกินกว่าการเลือกคุณสมบัตินั้นเป็นเหตุผลที่ LASSO ฯลฯ เป็นวิธีที่ดีในการเลือกคุณลักษณะ อย่างไรก็ตามขนาดของอคตินั้นขึ้นอยู่กับจำนวนของคุณสมบัติขนาดของชุดข้อมูลและลักษณะของงานการเรียนรู้ (เช่นมีองค์ประกอบที่ขึ้นอยู่กับชุดข้อมูลนั้น ๆ และจะแตกต่างกันไปตามแต่ละแอปพลิเคชัน) ธรรมชาติขึ้นอยู่กับข้อมูลของสิ่งนี้หมายความว่าคุณจะดีกว่าที่จะประเมินขนาดของอคติโดยใช้โปรโตคอลที่เป็นกลางและเปรียบเทียบความแตกต่าง (รายงานว่าวิธีการที่มีความทนทานในการเลือกรูปแบบมากเกินไปในกรณีนี้อาจเป็นเรื่องน่าสนใจ ในตัวของมันเอง).

GC Cawley และ NLC Talbot (2010), "การเลือกรุ่นที่มากเกินไปและความลำเอียงที่เลือกในการประเมินประสิทธิภาพ", การวิจัยการเรียนรู้ของเครื่องจักร, 11, p.2079, ส่วนที่ 5.2)

— Dikran Marsupial
แหล่งที่มา

7

อคติที่คุณพูดถึงนั้นส่วนใหญ่ยังคงเชื่อมโยงกับการมีส่วนร่วมมากเกินไป
คุณสามารถทำให้ความเสี่ยงอยู่ในระดับต่ำได้โดยการประเมินเพียงไม่กี่โมเดลสำหรับการแก้ไขพารามิเตอร์พารามิเตอร์การทำให้เป็นปกติและจะมีความซับซ้อนต่ำในตัวเลือกที่เป็นไปได้
@MarcClaesen ชี้ให้เห็นว่าคุณมีช่วงการเรียนรู้ที่เหมาะกับคุณซึ่งจะช่วยลดอคติได้บ้าง แต่โดยทั่วไปแล้วเส้นโค้งการเรียนรู้จะสูงชันเพียงไม่กี่กรณีเท่านั้นและจากนั้นการ overfitting ก็เป็นปัญหาอีกมาก

ในท้ายที่สุดฉันคาดหวังว่าอคติจะขึ้นอยู่กับ

ข้อมูล (ยากที่จะแก้ไขปัญหาที่ไม่ได้แก้ไข ... ) และ
ประสบการณ์และพฤติกรรมการสร้างแบบจำลองของคุณ : ฉันคิดว่าเป็นไปได้ที่คุณจะตัดสินใจเกี่ยวกับความซับซ้อนที่เหมาะสมสำหรับแบบจำลองของคุณหากคุณมีประสบการณ์เพียงพอกับทั้งประเภทของแบบจำลองและแอปพลิเคชันและถ้าคุณมีพฤติกรรมที่ดี สิ่งล่อใจสำหรับแบบจำลองที่ซับซ้อนมากขึ้น แต่แน่นอนเราไม่รู้จักคุณดังนั้นจึงไม่สามารถตัดสินได้ว่าการสร้างแบบจำลองของคุณจะอนุรักษ์นิยมอย่างไร
นอกจากนี้การยอมรับว่าแบบจำลองทางสถิติแฟนซีของคุณนั้นเป็นอัตวิสัยสูงและคุณไม่มีกรณีเหลือที่จะทำการตรวจสอบความถูกต้องไม่ใช่สิ่งที่คุณต้องการ (ไม่แม้แต่ในสถานการณ์ที่คาดว่าผลลัพธ์โดยรวมจะดีขึ้น)

ฉันไม่ได้ใช้ LASSO (เป็นการเลือกตัวแปรไม่สมเหตุสมผลสำหรับข้อมูลทางกายภาพของฉัน) แต่ PCA หรือ PLS มักจะทำงานได้ดี สันเขาจะเป็นทางเลือกที่ใกล้กับ LASSO และเหมาะสมกว่ากับชนิดของข้อมูล ด้วยข้อมูลเหล่านี้ฉันได้เห็นลำดับความสำคัญมากขึ้นเกี่ยวกับการตรวจสอบความถูกต้องของครอสโอเวอร์ ในสถานการณ์ที่รุนแรงเหล่านี้อย่างไรก็ตามประสบการณ์ของฉันบอกว่าการตรวจสอบทางลัดดูดีอย่างน่าสงสัยเช่น 2% misclassifications => 20% พร้อมการตรวจสอบความถูกต้องข้ามที่เหมาะสม

ฉันไม่สามารถให้ตัวเลขจริงที่ตรงกับคำถามของคุณได้โดยตรง:

จนถึงตอนนี้ฉันสนใจเกี่ยวกับ "ทางลัด" ประเภทอื่น ๆ ที่เกิดขึ้นในสาขาของฉันและนำไปสู่การรั่วไหลของข้อมูลเช่นการตรวจสอบข้าม spectra แทนที่จะเป็นผู้ป่วย (อคติใหญ่! ฉันสามารถแสดง 10% misclassification>> 70% = การคาดเดา 3 คลาส) หรือไม่รวม PCA ในการตรวจสอบไขว้ (2 - 5% -> 20 - 30%)
ในสถานการณ์ที่ฉันต้องตัดสินใจว่าควรใช้การตรวจสอบความถูกต้องแบบไขว้แบบเดียวกับการเพิ่มประสิทธิภาพของแบบจำลองหรือการตรวจสอบความถูกต้องฉันมักตัดสินใจตรวจสอบความถูกต้องและแก้ไขพารามิเตอร์ความซับซ้อนตามประสบการณ์ PCA และ PLS ทำงานได้ดีเนื่องจากเทคนิคการทำให้เป็นมาตรฐานนั้นเป็นที่เคารพเนื่องจากพารามิเตอร์ความซับซ้อน (# components) เกี่ยวข้องโดยตรงกับคุณสมบัติทางกายภาพ / เคมีของปัญหา (เช่นฉันอาจจะคาดเดาได้ดีว่ากลุ่มสารเคมีที่แตกต่างกันทางเคมี นอกจากนี้สำหรับเหตุผลทางเคมี - ฟิสิกส์ฉันรู้ว่าส่วนประกอบควรมีลักษณะเหมือน spectra และถ้ามันมีเสียงดัง แต่ประสบการณ์อาจทำให้ความซับซ้อนของโมเดลเหมาะสมกับชุดข้อมูลเก่าจากการทดลองก่อนหน้านี้ซึ่งมีความคล้ายคลึงกันโดยทั่วไปเพียงพอที่จะพิสูจน์การถ่ายโอนพารามิเตอร์ไฮเปอร์พารามิเตอร์แล้วใช้พารามิเตอร์ normalization สำหรับข้อมูลใหม่
ด้วยวิธีนี้ฉันไม่สามารถอ้างว่ามีโมเดลที่ดีที่สุด แต่ฉันสามารถอ้างได้ว่ามีการประเมินที่สมเหตุสมผลที่ฉันสามารถได้รับ
และด้วยจำนวนผู้ป่วยที่ฉันมีมันเป็นไปไม่ได้เลยที่จะทำการเปรียบเทียบแบบจำลองที่มีความหมายทางสถิติ (จำไว้ว่าจำนวนผู้ป่วยทั้งหมดของฉันต่ำกว่าขนาดตัวอย่างที่แนะนำสำหรับการประมาณสัดส่วนเดียว [ตามกฎของ thumb @FrankHarrell

ทำไมคุณไม่เรียกใช้การจำลองบางอย่างที่ใกล้เคียงที่สุดกับข้อมูลของคุณและแจ้งให้เราทราบว่าเกิดอะไรขึ้น

เกี่ยวกับข้อมูลของฉัน: ฉันทำงานกับข้อมูลสเปกโทรสโกปี โดยทั่วไปแล้วชุดข้อมูลจะมีความกว้าง: กรณีอิสระไม่กี่สิบ (ผู้ป่วย แต่โดยทั่วไปแล้วจะมีการวัดจำนวนมากต่อกรณี Ca. 10³แปรผันในข้อมูลดิบซึ่งฉันอาจจะลดลงถึง 250 โดยใช้ความรู้ในโดเมนเพื่อลดพื้นที่ที่ผิดปกติ จากสเปกตรัมของฉันและเพื่อลดความละเอียดสเปกตรัม

— cbeleites รองรับโมนิก้า
แหล่งที่มา

5

หากคุณเลือก hyperparameter สำหรับ LASSO เพียงอย่างเดียวไม่จำเป็นต้องใช้ CV ที่ซ้อนกัน การเลือกพารามิเตอร์ไฮเปอร์จะกระทำในการโต้ตอบ CV เดี่ยว / แบน

$\lambda$

$L_i$ $T_i$ $\lambda^*$ $T_i$ $L_i$

$\lambda^*$

(นี่ไม่ใช่วิธีเดียวในการเลือกพารามิเตอร์หลายตัว แต่เป็นวิธีที่พบมากที่สุด - นอกจากนี้ยังมีขั้นตอน "ค่ามัธยฐาน" ที่กล่าวถึงและวิพากษ์วิจารณ์โดยGC Cawley และ NLC Talbot (2010) "over-fitting ในการเลือกรูปแบบ ในการประเมินประสิทธิภาพ ", วารสารวิจัยการเรียนรู้ของเครื่อง, 11 , p.2079 , หัวข้อ 5.2.)

$\lambda^*$ $\lambda^*$

ฉันรู้ถึงผลการทดลองสองแบบในการวัดความเอนเอียงของการประเมินนี้ (เปรียบเทียบกับข้อผิดพลาดการวางนัยทั่วไปที่แท้จริงสำหรับชุดข้อมูลสังเคราะห์)

กระดาษ Cawley และ Talbot ด้านบน
Varna และ Simon (2006), "Bias ในการประมาณข้อผิดพลาดเมื่อใช้การตรวจสอบข้ามสำหรับการเลือกแบบจำลอง", BMC Bioinformatics , 7 , 91

ทั้งการเข้าถึงแบบเปิด

คุณต้องมีประวัติย่อซ้อนหาก:

ก) คุณต้องการเลือกระหว่าง LASSO และอัลกอริธึมอื่น ๆ โดยเฉพาะอย่างยิ่งหากพวกเขายังมีพารามิเตอร์

$\lambda^*$

$\lambda ^*$

ในที่สุด CV ที่ซ้อนกันไม่ได้เป็นวิธีเดียวในการคำนวณค่าประมาณที่ไม่ลำเอียงอย่างสมเหตุสมผลของข้อผิดพลาดการวางนัยทั่วไปที่คาดไว้ มีข้อเสนออื่น ๆ อย่างน้อยสามข้อ

Ding et al การแก้ไขความลำเอียงสำหรับการเลือกลักษณนามผิดพลาดน้อยที่สุดจากโมเดลการเรียนรู้ด้วยเครื่องจักรหลายเครื่อง BioInformatics 30 (22)มีข้อเสนอเดียวและเปรียบเทียบกับการแก้ไขค่าเฉลี่ยถ่วงน้ำหนักและกระบวนการ Tibshirani-Tibshirani อีกสองชุด (ดูเอกสารอ้างอิง)

— Jacques Wainer
แหล่งที่มา

2

คุณช่วยอธิบายความหมายของคำว่า "ไม่มี CV สำหรับการเลือกพารามิเตอร์ไฮเปอร์พารามิเตอร์" ได้หรือไม่? จากสิ่งที่คุณเขียนฉันไม่สามารถเข้าใจได้ว่าคุณต้องการเตือน OP ว่าพวกเขาไม่ได้ทำรังหรือว่าคุณระบุว่าโดยทั่วไปไม่มีสิ่งดังกล่าว

— cbeleites รองรับโมนิก้า

(+1) สำหรับคำอธิบายโดยย่อของปัญหา & การอ้างอิงที่ดี แต่ตามที่ @cbeleites ชี้ให้เห็นประโยคแรกค่อนข้างสับสน: ดูเหมือนว่ามีจุดประสงค์เพื่อแก้ไขความเข้าใจผิดที่ OP ไม่มี

— Scortchi - Reinstate Monica

@cbeleites (และ Scortchi) - ฉันกำลังตอบ OP "แก้ไข:" โดยที่ (ฉันเชื่อ) เขาอ้างว่าเขาใช้ CV เพื่อเลือกพารามิเตอร์ ("การตรวจสอบความถูกต้องข้ามเท่านั้นเพื่อประเมินประสิทธิภาพของแต่ละรุ่น") และ เขาเป็นห่วงว่าเขาไม่ได้ใช้ CV ที่ซ้อนกัน ("แต่ไม่รวมถึงการวนรอบการตรวจสอบความถูกต้องข้ามที่สองเพื่อแก้ไขการ overfitting ภายในกระบวนการปรับพารามิเตอร์ hyperparameter") ฉันพยายามบอกเขาว่าไม่มี CV ด้านนอกในการเลือกพารามิเตอร์

— Jacques Wainer

@JacquesWainer: ฉันเชื่อว่าเขาต้องการที่จะ "แก้ไขการ overfitting ภายในขั้นตอนการปรับพารามิเตอร์ hyperparameter" เมื่อประเมินประสิทธิภาพของกระบวนการตัวอย่าง (สถานการณ์ของคุณข ) แทนที่จะแก้ไขค่าที่เลือกของพารามิเตอร์ hyperparameter โดยใช้ CV ที่ซ้อนกัน การแก้ไขของคุณจะทำให้คำตอบของคุณชัดเจนขึ้น

— Scortchi - Reinstate Monica

ใช่ฉันหมายถึง "การแก้ไข [การประเมินประสิทธิภาพที่ไร้เดียงสา] สำหรับการ overfitting ภายในโพรซีเดอร์การปรับค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์" ไม่ใช่ "เพื่อแก้ไข [พารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ปรับค่าแล้วสำหรับการ overfitting" หรืออะไรทำนองนั้น ฉันขอโทษสำหรับความสับสน; ฉันควรระบุอย่างชัดเจนยิ่งขึ้นว่าฉันกังวลเกี่ยวกับการประเมินข้อผิดพลาดไม่ใช่การเลือกพารามิเตอร์

— Ben Kuhn

2

อัลกอริทึมการเรียนรู้ที่ซับซ้อนเช่น SVM, โครงข่ายประสาทเทียม, ฟอเรสต์แบบสุ่ม, ... สามารถบรรลุความถูกต้องในการฝึกอบรมได้ 100% หากคุณปล่อยให้พวกเขา (เช่นผ่านการทำให้อ่อนแอ / ไม่มีการทำให้เป็นมาตรฐาน) ด้วยประสิทธิภาพทั่วไป

$\kappa(\mathbf{x}_i,\mathbf{x}_j) = \exp(-\gamma\|\mathbf{x}_i-\mathbf{x}_j\|^2)$ $\gamma=\infty$ $100\%$

ในระยะสั้นคุณสามารถลงเอยด้วยตัวจําแนกที่สมบูรณ์แบบในชุดการฝึกอบรมที่เรียนรู้ว่าไม่มีอะไรที่เป็นประโยชน์ในชุดทดสอบอิสระ นั่นคือสิ่งที่เลวร้าย

— Marc Claesen
แหล่งที่มา

ฉันไม่ได้พูดถึงการฝึกอบรมรุ่นนอกการตรวจสอบข้าม ฉันกำลังพูดถึงการปรับพารามิเตอร์หลายตัว (และยังคงใช้การตรวจสอบความถูกต้องข้ามเพื่อประเมินประสิทธิภาพของพารามิเตอร์หลายชุดแต่ละชุด) ฉันจะแก้ไขโพสต์เพื่อชี้แจงเรื่องนี้

— Ben Kuhn

100 %

$100\%$

ทำไมคุณคิดว่าฉันกำลังพิจารณาที่จะไม่ใช้การตรวจสอบข้าม? ฉันกล่าวโดยเฉพาะว่า "... และยังคงใช้การตรวจสอบความถูกต้องข้ามเพื่อประเมินประสิทธิภาพของพารามิเตอร์หลายชุดแต่ละชุด"

— Ben Kuhn

1

γ = \infty

$\gamma = \infty$

γ

$\gamma$

γ

$\gamma$

2

ฉันเข้าใจผิดคำถามของคุณอย่างสมบูรณ์ ก่อนที่จะแก้ไขมันทำให้เกิดความสับสนอย่างมาก ความลำเอียงที่คุณสนใจไม่จำเป็นต้องเป็นไปในเชิงบวก เนื่องจากวิธีการมากมายให้รูปแบบที่ดีขึ้นอย่างมากเมื่อได้รับข้อมูลการฝึกอบรมมากขึ้นซึ่งมีความเกี่ยวข้องโดยเฉพาะอย่างยิ่งสำหรับชุดฝึกอบรมขนาดเล็ก + การตรวจสอบข้าม

— Marc Claesen