ความเอนเอียงและความแปรปรวนในการตรวจสอบแบบ cross-one-out เทียบกับการตรวจสอบความถูกต้องข้าม K-fold


83

วิธีการตรวจสอบข้ามที่แตกต่างกันอย่างไรเปรียบเทียบในแง่ของความแปรปรวนของโมเดลและอคติ

คำถามของฉันได้รับแรงบันดาลใจบางส่วนจากหัวข้อนี้: จำนวนการพับที่เหมาะสมที่สุดในการตรวจสอบความถูกต้องข้าม -fold: CV แบบปล่อยครั้งเดียวเป็นตัวเลือกที่ดีที่สุดเสมอหรือไม่ Kเค. คำตอบนั้นแสดงให้เห็นว่าแบบจำลองที่เรียนรู้ด้วยการตรวจสอบข้ามแบบลาหนึ่ง - ออกนั้นมีความแปรปรวนสูงกว่าแบบเรียนรู้ด้วยการตรวจสอบความถูกต้องแบบเท่าปกติK

อย่างไรก็ตามสัญชาตญาณของฉันบอกฉันว่าใน CV แบบปล่อยครั้งเดียวควรเห็นความแปรปรวนค่อนข้างต่ำระหว่างแบบจำลองกว่าใน -fold CV เนื่องจากเราเปลี่ยนจุดข้อมูลเพียงจุดเดียวในส่วนการพับและดังนั้นชุดการฝึกอบรมK

หรือไปในอีกทางหนึ่งถ้าต่ำใน -fold CV ชุดการฝึกอบรมจะแตกต่างกันมากในโฟลด์และโมเดลที่ได้จะมีความแตกต่างกันมากขึ้น (ดังนั้นความแปรปรวนที่สูงขึ้น)เคKK

หากอาร์กิวเมนต์ข้างต้นถูกต้องทำไมรูปแบบการเรียนรู้ที่มีประวัติย่อแบบลาออกมีความแปรปรวนสูงกว่า


2
สวัสดี Amelio โปรดทราบว่าแบบจำลองที่ระบุไว้ในคำตอบใหม่โดยซาเวียร์และในการนี้ Q เก่าโดยเจคเวสท์stats.stackexchange.com/questions/280665ทั้งแสดงให้เห็นว่าความแปรปรวนลดลงด้วยKสิ่งนี้ขัดแย้งกับคำตอบที่ยอมรับในปัจจุบันโดยตรงและเป็นคำตอบที่ upvoted ที่สุด (ซึ่งเป็นที่ยอมรับก่อนหน้านี้) ฉันไม่ได้เห็นการจำลองใด ๆ ที่จะสนับสนุนการอ้างว่าความแปรปรวนเพิ่มขึ้นด้วยและสูงสุดสำหรับ LOOCV เคKK
อะมีบา

2
ขอบคุณ @amoeba ฉันกำลังดูความคืบหน้าของทั้งสองคำตอบ ฉันจะทำให้ดีที่สุดเพื่อให้แน่ใจว่าคำตอบที่ได้รับการยอมรับนั้นมีประโยชน์และถูกต้องที่สุด
Amelio Vazquez-Reina

1
@amoeba ดูresearchgate.net/profile/Francisco_Martinez-Murcia/publication/…ซึ่งแสดงให้เห็นการเพิ่มขึ้นของความแปรปรวนกับ k
Hanan Shteingart

มันน่าสนใจที่จะดูว่าเขาได้กราฟมาจากที่ใดในตอนแรกที่ทำวิทยานิพนธ์ดูเหมือนว่ามันถูกสร้างขึ้นมาเพื่อให้เหมาะกับคำอธิบายของเขาในส่วนแนะนำ อาจเป็นการจำลองที่แท้จริง แต่ไม่ได้อธิบายและแน่นอนว่าไม่ใช่ผลจากการทดลองจริงของเขาที่ต่ำกว่า ...
Xavier Bourret Sicotte

คำตอบ:


51

เหตุใดโมเดลที่เรียนรู้จาก CV แบบลาก่อนออกจะมีความแปรปรวนสูงกว่า

[TL: DR] บทสรุปของโพสต์และการอภิปรายล่าสุด (กรกฎาคม 2018)

หัวข้อนี้มีการพูดคุยกันอย่างกว้างขวางทั้งในเว็บไซต์นี้และในวรรณคดีทางวิทยาศาสตร์ที่มีมุมมองที่ขัดแย้งกัน, สัญชาติญาณและข้อสรุป กลับไปในปี 2013 เมื่อคำถามนี้ถูกถามครั้งแรกที่ดูโดดเด่นเป็นที่ LOOCV นำไปสู่ความแปรปรวนขนาดใหญ่ของข้อผิดพลาดทั่วไปคาดว่าขั้นตอนวิธีการฝึกอบรมการผลิตรุ่นที่ออกมาจากกลุ่มตัวอย่างที่มีขนาด Kn(K1)/K

อย่างไรก็ตามมุมมองนี้ดูเหมือนจะเป็นลักษณะทั่วไปที่ไม่ถูกต้องของกรณีพิเศษและฉันจะยืนยันว่าคำตอบที่ถูกต้องคือ: "มันขึ้นอยู่กับ ... "

การถอดความYves Grandvaletผู้เขียนบทความ 2004ในหัวข้อที่ฉันจะสรุปข้อโต้แย้งที่ใช้งานง่ายดังนี้

  1. หากการตรวจสอบความถูกต้องเป็นการเฉลี่ยโดยอิสระ : จากนั้น CV-out-one-out ควรจะเห็นความแปรปรวนที่ค่อนข้างต่ำกว่าแบบจำลองเนื่องจากเราเปลี่ยนจุดข้อมูลเพียงจุดเดียวข้ามส่วนเท่าและชุดการฝึกอบรมระหว่างส่วนซ้อนทับกันอย่างมาก
  2. สิ่งนี้ไม่เป็นความจริงเมื่อชุดการฝึกอบรมมีความสัมพันธ์กันสูง : สหสัมพันธ์อาจเพิ่มขึ้นเมื่อ K และการเพิ่มขึ้นนี้มีหน้าที่รับผิดชอบในการเพิ่มความแปรปรวนโดยรวมในสถานการณ์ที่สอง โดยสังเขปในสถานการณ์นั้น CV แบบลาก่อนออกอาจจะตาบอดไปถึงความไม่มั่นคงที่มีอยู่ แต่อาจไม่ถูกกระตุ้นโดยการเปลี่ยนจุดเดียวในข้อมูลการฝึกอบรมซึ่งทำให้ตัวแปรนั้นมีความแตกต่างอย่างมากต่อชุดการฝึกอบรม

การจำลองการทดลองจากตัวเองและคนอื่น ๆในเว็บไซต์นี้รวมถึงนักวิจัยในเอกสารที่เชื่อมโยงด้านล่างจะแสดงให้คุณเห็นว่าไม่มีความจริงสากลในหัวข้อ การทดลองส่วนใหญ่ได้ monotonically ลดลงหรือความแปรปรวนอย่างต่อเนื่องกับแต่บางกรณีพิเศษแสดงเพิ่มขึ้นโดยขัดกับKเคKK

ส่วนที่เหลือของคำตอบนี้นำเสนอการจำลองในตัวอย่างของเล่นและการทบทวนวรรณกรรมอย่างไม่เป็นทางการ

[Update] คุณสามารถหาที่นี่จำลองทางเลือกสำหรับรูปแบบที่ไม่แน่นอนในการปรากฏตัวของค่าผิดปกติ

แบบจำลองจากตัวอย่างของเล่นแสดงความแปรปรวนลดลง / คงที่

ลองพิจารณาตัวอย่างของเล่นต่อไปนี้เมื่อเราใส่พหุนามดีกรี 4 กับเส้นโค้งไซน์ที่มีเสียงดัง เราคาดหวังว่ารูปแบบนี้จะมีราคาไม่ดีสำหรับชุดข้อมูลขนาดเล็กเนื่องจาก overfitting ดังที่แสดงในกราฟการเรียนรู้

ป้อนคำอธิบายรูปภาพที่นี่

โปรดทราบว่าเราพล็อต 1 - MSE ที่นี่เพื่อทำซ้ำภาพประกอบจาก ESLII หน้า 243

 ระเบียบวิธี

คุณสามารถค้นหารหัสสำหรับการจำลองนี้ที่นี่ วิธีการดังต่อไปนี้:

  1. สร้าง 10,000 จุดจากการกระจายที่แปรปรวนที่แท้จริงของเป็นที่รู้จักกันϵsin(x)+ϵϵ
  2. ทำซ้ำครั้ง (เช่น 100 หรือ 200 ครั้ง) ในการวนซ้ำแต่ละครั้งให้เปลี่ยนชุดข้อมูลโดยการสุ่มจุดจากการแจกแจงดั้งเดิมยังไม่มีข้อความiN
  3. สำหรับชุดข้อมูลแต่ละชุด : i
    • ดำเนินการตรวจสอบความถูกต้องข้าม K-fold สำหรับหนึ่งค่าของK
    • เก็บค่าเฉลี่ย Mean Square Error (MSE) ข้าม K-fold
  4. เมื่อวนรอบเสร็จสมบูรณ์ให้คำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของ MSE ในชุดข้อมูลสำหรับค่าฉันเคiiK
  5. ทำซ้ำขั้นตอนข้างต้นสำหรับทั้งหมดที่อยู่ในช่วงไปจนถึง CV (LOOCV){ 5 , . . , N }K{5,...,N}

ผลกระทบของต่ออคติและความแปรปรวนของ MSE ในชุดข้อมูลฉันKi

ด้านซ้ายมือ : Kfolds สำหรับจุดข้อมูล 200 จุด ด้านขวามือ : Kfolds สำหรับจุดข้อมูล 40 จุด

ป้อนคำอธิบายรูปภาพที่นี่

ค่าเบี่ยงเบนมาตรฐานของ MSE (ในชุดข้อมูล i) เทียบกับ Kfolds

ป้อนคำอธิบายรูปภาพที่นี่

จากการจำลองนี้ดูเหมือนว่า:

  • สำหรับดาต้าพอยน์ขนาดเล็กจำนวนการเพิ่มจนกระทั่งหรือมากกว่านั้นจะปรับปรุงทั้งอคติและความแปรปรวนอย่างมีนัยสำคัญ สำหรับใหญ่ขึ้นจะไม่มีผลกับความเอนเอียงหรือความแปรปรวนK K = 10 KN=40KK=10K
  • สัญชาตญาณคือว่าสำหรับขนาดการฝึกอบรมที่มีประสิทธิภาพน้อยเกินไปโมเดลพหุนามนั้นไม่เสถียรมากโดยเฉพาะสำหรับK5
  • สำหรับมีขนาดใหญ่ขึ้น -เพิ่มขึ้นไม่มีผลกระทบต่อทั้งความเอนเอียงและความแปรปรวนKN=200K

การทบทวนวรรณกรรมอย่างไม่เป็นทางการ

เอกสารสามฉบับต่อไปนี้จะตรวจสอบอคติและความแปรปรวนของการตรวจสอบข้าม

Kohavi 1995

บทความนี้มักจะอ้างถึงว่าเป็นแหล่งที่มาของการโต้แย้งว่า LOOC มีความแปรปรวนสูงกว่า ในส่วนที่ 1:

“ ยกตัวอย่างเช่นการลาออกจากครั้งเดียวนั้นไม่เอนเอียง แต่มันมีความแปรปรวนสูงซึ่งนำไปสู่การประมาณการที่ไม่น่าเชื่อถือ (Efron 1983) "

คำพูดนี้เป็นที่มาของความสับสนมากเพราะมันดูเหมือนว่ามาจาก Efron ในปี 1983 ไม่ใช่ Kohavi ทั้งข้อโต้แย้งเชิงทฤษฎีและผลการทดลองของ Kohavi ขัดแย้งกับข้อความนี้:

ข้อ 2 (ความแปรปรวนใน CV)

รับชุดข้อมูลและตัวบ่งชี้ หากตัวเหนี่ยวนำมีความเสถียรภายใต้การก่อกวนที่เกิดจากการลบอินสแตนซ์การทดสอบสำหรับการพับใน k-fold CV สำหรับค่าต่างๆของดังนั้นค่าความแปรปรวนของการประมาณจะเท่ากันk

การทดลอง ในการทดลองของเขา Kohavi เปรียบเทียบอัลกอริธึมสองอย่าง: แผนภูมิการตัดสินใจ C4.5 และตัวจําแนก Naive Bayes ข้ามชุดข้อมูลหลายชุดจากที่เก็บ UC Irvine ผลลัพธ์ของเขาอยู่ด้านล่าง: LHS คือความแม่นยำเทียบกับการพับ (เช่นอคติ) และ RHS คือค่าเบี่ยงเบนมาตรฐานเทียบกับการพับ

ป้อนคำอธิบายรูปภาพที่นี่

ในความเป็นจริงมีเพียงต้นไม้ตัดสินใจในชุดข้อมูลสามชุดเท่านั้นที่มีความแปรปรวนสูงกว่าสำหรับการเพิ่มเคผลการค้นหาอื่นแสดงการลดลงหรือความแปรปรวนคงที่

ในที่สุดแม้ว่าข้อสรุปอาจใช้คำพูดมากขึ้น แต่ก็ไม่มีข้อโต้แย้งใด ๆ สำหรับ LOO ที่มีความแปรปรวนสูงกว่าค่อนข้างตรงกันข้าม จากส่วนที่ 6 สรุป

"การตรวจสอบความถูกต้องข้ามของ k-fold ด้วยค่า k ปานกลาง (10-20) ลดความแปรปรวน ... เนื่องจาก k-ลดลง (2-5) และกลุ่มตัวอย่างมีขนาดเล็กลงจึงมีความแปรปรวนเนื่องจากความไม่แน่นอนของการฝึกอบรม

จางและหยาง

ผู้เขียนใช้มุมมองที่แข็งแกร่งในหัวข้อนี้และระบุไว้อย่างชัดเจนในหัวข้อ 7.1

ในความเป็นจริงอย่างน้อยกำลังสองการถดถอยเชิงเส้น, Burman (1989) แสดงให้เห็นว่าในหมู่ k-fold CVs ในการประเมินข้อผิดพลาดการทำนาย LOO (เช่น CV-n-fold) มีอคติและความแปรปรวนที่น้อยที่สุด ...

... จากนั้นการคำนวณเชิงทฤษฎี ( Lu , 2007) แสดงให้เห็นว่า LOO มีอคติและความแปรปรวนน้อยที่สุดในเวลาเดียวกันในบรรดา CV-delete ทั้งหมดที่มีการพิจารณาการลบ n_v ที่เป็นไปได้ทั้งหมด

ผลการทดลอง ในทำนองเดียวกันการทดลองของจางชี้ไปในทิศทางของการลดความแปรปรวนด้วย K ดังที่แสดงด้านล่างสำหรับโมเดลทรูและโมเดลผิดสำหรับรูปที่ 3 และรูปที่ 5

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

การทดลองเพียงอย่างเดียวที่ความแปรปรวนเพิ่มขึ้นกับสำหรับรุ่น Lasso และ SCAD นี่คือคำอธิบายดังต่อไปนี้ในหน้า 31:K

อย่างไรก็ตามหากมีการเลือกรูปแบบที่เกี่ยวข้องประสิทธิภาพของ LOO แย่ลงในความแปรปรวนเนื่องจากความไม่แน่นอนในการเลือกรูปแบบสูงขึ้นเนื่องจากพื้นที่ของแบบจำลองขนาดใหญ่สัมประสิทธิ์บทลงโทษเล็ก ๆ และ / หรือการใช้ค่าสัมประสิทธิ์บทลงโทษที่ขับเคลื่อนด้วยข้อมูล


11
11! ในที่สุดคำตอบด้วยการจำลองที่ชัดเจน! และมันก็ตรงข้ามกับบทสรุปของคำตอบที่ได้รับการยอมรับในปัจจุบัน เกี่ยวกับข้อสรุปของคุณ: ถ้าแน่นอน "ความมั่นคงรูปแบบเป็นปัจจัยสำคัญ" จากนั้นหนึ่งควรจะสามารถตั้งค่าการจำลองที่แปรปรวนจะเพิ่มขึ้นด้วยKผมเคยเห็นการจำลองสอง: คุณนี่และหนึ่งในนี้และทั้งสองแสดงให้เห็นว่าความแปรปรวนอย่างใดอย่างหนึ่งหรือลดลงอยู่อย่างต่อเนื่องกับKจนกว่าฉันจะเห็นการจำลองที่มีความแปรปรวนเพิ่มขึ้นฉันจะยังคงสงสัยอย่างที่เคยทำ เคKK
อะมีบา

4
@ amoeba ต่อไปนี้เป็นกรณีที่ LOOCV ล้มเหลว: พิจารณาจุดข้อมูล n และพหุนามการประมาณระดับ n ตอนนี้สองเท่าของจำนวนจุดข้อมูลโดยการเพิ่มที่ซ้ำกันในแต่ละจุดที่มีอยู่ LOOCV กล่าวว่าข้อผิดพลาดเป็นศูนย์ คุณต้องลดการพับลงเพื่อรับข้อมูลที่เป็นประโยชน์ใด ๆ
พอล

2
สำหรับผู้ที่สนใจในการสนทนานี้ - ให้ดำเนินการต่อในการแชท: chat.stackexchange.com/rooms/80281/ …
Xavier Bourret Sicotte Sic

1
คุณเคยพิจารณาความจริงที่ว่าด้วยเช่นอนุญาตการทำซ้ำหรือไม่? นี่ไม่ใช่ตัวเลือกสำหรับ LOOCV และควรนำมาพิจารณาด้วย k = 10kfoldk=10
D1X

1
@ amoeba: Kohavi / LOO อีกครั้งและความแปรปรวน ฉันพบว่า LOO สำหรับแบบจำลองบางประเภทอาจไม่เสถียร (น่าประหลาดใจ) นี่เป็นตัวอย่างขนาดเล็กที่ชัดเจนโดยเฉพาะอย่างยิ่งและฉันคิดว่ามันเกี่ยวข้องกับกรณีทดสอบที่เป็นของชั้นเรียนที่มักจะเป็นตัวแทน ตัวอย่างทั้งหมด: ในการจำแนกประเภทไบนารีแบ่งออก -2 ดูเหมือนจะไม่ได้มีปัญหานี้ (แต่ฉันไม่ได้ทดสอบอย่างกว้างขวาง) ความไม่แน่นอนนี้จะเพิ่มความแปรปรวนที่สังเกตได้ทำให้ LOO ติดอยู่กับตัวเลือกอื่นของ k IIRC นี้สอดคล้องกับข้อค้นพบของ Kohavi
cbeleites

45

ในเท่าการตรวจสอบข้ามเราพาร์ทิชันชุดข้อมูลลงในขนาดเท่า ๆ กันไม่ทับซ้อนกันส่วนย่อยSสำหรับแต่ละพับ , รูปแบบที่ได้รับการฝึกฝนในซึ่งได้รับการประเมินจากนั้นในS_iตัวประมาณการตรวจสอบความถูกต้องของตัวอย่างเช่นข้อผิดพลาดการทำนายถูกกำหนดเป็นค่าเฉลี่ยของข้อผิดพลาดการทำนายที่ได้รับในแต่ละครั้งkkSSiSSiSi

ในขณะที่ไม่มีการเหลื่อมกันระหว่างชุดการทดสอบที่แบบจำลองจะถูกประเมิน แต่มีการทับซ้อนกันระหว่างชุดการฝึกสำหรับทั้งหมด ส่วนที่ทับซ้อนกันมีขนาดใหญ่ที่สุดสำหรับการตรวจสอบความถูกต้องแบบข้ามครั้งเดียว ซึ่งหมายความว่าแบบจำลองที่เรียนรู้มีความสัมพันธ์นั่นคือขึ้นอยู่กับและความแปรปรวนของผลรวมของตัวแปรที่สัมพันธ์กันจะเพิ่มขึ้นตามปริมาณความแปรปรวนร่วม ( ดูวิกิพีเดีย ):k>2

Var(i=1NXi)=i=1Nj=1NCov(Xi,Xj)

ดังนั้นปล่อยให้ใครออกตรวจสอบข้ามมีความแปรปรวนขนาดใหญ่ในการเปรียบเทียบกับ CV ที่มีขนาดเล็กkk

อย่างไรก็ตามโปรดทราบว่าในขณะที่การตรวจสอบข้ามแบบสองเท่าไม่ได้มีปัญหาของชุดการฝึกอบรมที่ทับซ้อนกัน แต่บ่อยครั้งก็มีความแปรปรวนขนาดใหญ่เนื่องจากชุดการฝึกอบรมมีขนาดเพียงครึ่งเดียวของตัวอย่างดั้งเดิม การประนีประนอมที่ดีคือการตรวจสอบข้ามสิบเท่า

เอกสารที่น่าสนใจบางฉบับที่เกี่ยวข้องกับหัวข้อนี้ (จากอีกมากมาย):


5
+1 (นานมาแล้ว) แต่อ่านคำตอบของคุณใหม่ตอนนี้ฉันสับสนโดยบิตต่อไปนี้ คุณบอกว่า CV แบบสองเท่า "มักจะมีความแปรปรวนขนาดใหญ่เนื่องจากชุดฝึกอบรมมีขนาดเพียงครึ่งเดียว" ฉันเข้าใจว่าการมีชุดการฝึกอบรมที่เล็กกว่าสองเท่าเป็นปัญหา แต่ทำไมมันถึงทำให้ "ความแปรปรวนขนาดใหญ่"? ไม่ควรเป็น "อคติขนาดใหญ่" แทนใช่หรือไม่ จากนั้นปัญหาทั้งหมดของการเลือกจำนวนเท่าจะกลายเป็นการแลกเปลี่ยนความแปรปรวนแบบอคติซึ่งเป็นวิธีที่นำเสนอบ่อยครั้ง
อะมีบา

1
@ เซบาสเตียนฉันคิดว่า "ความแปรปรวน" ในบริบทนี้หมายถึงความแปรปรวนของประสิทธิภาพการทำงานแบบ "สะสม" (รวมทั้งหมดเท่า) และไม่แปรปรวนของรอยพับเองตามที่คุณพูดถึงในสองประโยคสุดท้าย k
อะมีบา

3
แค่มองวรรณกรรมบางเล่ม ที่น่าสนใจในรู้เบื้องต้นเกี่ยวกับสถิติการเรียนรู้ James, Witten, Hastie & Tibshirani กล่าวว่า LOOCV "เป็นตัวแปรที่มีความผันแปรสูงเนื่องจากมีพื้นฐานจากการสังเกตการณ์เพียงครั้งเดียว (x1, y1)" และในองค์ประกอบของการเรียนรู้ทางสถิติ Hastie & Tibshirani & Friedman กล่าวว่า LOOCV "สามารถมีความแปรปรวนได้สูงเนื่องจากชุดฝึกอบรม N มีความคล้ายคลึงกันมาก"

2
สิ่งนี้ไม่ถูกต้อง ความแปรปรวนควรจะ = 2 คุณคิดถูกว่าตัวแจงนับนั้นใหญ่กว่า แต่ตัวหารก็ใหญ่ขึ้นเช่นกัน var[Σxi/n]ΣΣcov(xi,xj)/n2
พลเมืองของภาคเหนือ

3
ไม่นั่นไม่ใช่ "จุดรวม" จริงๆ ผู้คนใช้ k-fold CV เพื่อรับการประเมินทั่วโลกเพียงครั้งเดียวตลอดเวลา แน่นอนคุณสามารถลองใช้การประมาณหลายเท่าด้วยวิธีอื่นได้ แต่การรวมเข้าด้วยกันเป็นหนึ่งในวิธีที่พบได้บ่อยที่สุดในการประเมินประสิทธิภาพการจัดเก็บข้อมูลของเทคนิคการสร้างแบบจำลอง และนั่นคือสิ่งที่ ESQ 7.48 ของ ESL ทำอยู่
พอล

27

[... ] สัญชาตญาณของฉันบอกฉันว่าใน CV แบบปล่อยครั้งเดียวควรเห็นความแปรปรวนที่ค่อนข้างต่ำกว่าระหว่างรุ่นต่างๆกว่าใน -fold CV เนื่องจากเราเปลี่ยนจุดข้อมูลเพียงจุดเดียวในส่วนเท่าและดังนั้นการฝึกอบรมจึงกำหนดไว้ระหว่างครึ่ง ทับซ้อนกันอย่างมากK

ฉันคิดว่าสัญชาตญาณของคุณนั้นสมเหตุสมผลถ้าคุณกำลังคิดเกี่ยวกับการทำนายของแบบจำลองในแต่ละครั้งที่ลาแบบหนึ่งครั้ง พวกเขาอยู่บนพื้นฐานของข้อมูลที่มีความสัมพันธ์ / คล้ายกันมาก (ชุดข้อมูลเต็มลบหนึ่งจุดข้อมูล) และจะทำให้การคาดการณ์ที่คล้ายกัน - นั่นคือความแปรปรวนต่ำ

แหล่งที่มาของความสับสนคือเมื่อผู้คนพูดถึง LOOCV ที่นำไปสู่ความแปรปรวนสูงพวกเขาไม่ได้พูดถึงการทำนายที่เกิดขึ้นจากหลาย ๆ โมเดลที่สร้างขึ้นในระหว่างการวนรอบการตรวจสอบความถูกต้องของชุด holdout แต่พวกเขากำลังพูดถึงความผันแปรของรุ่นสุดท้ายที่คุณเลือก (รูปแบบที่เลือกผ่าน LOOCV) จะมีหากคุณฝึกรูปแบบ / พารามิเตอร์ที่แน่นอนในชุดการฝึกอบรมใหม่ - ชุดฝึกที่คุณไม่เคยเห็นมาก่อน ในกรณีนี้ความแปรปรวนจะสูง

ทำไมความแปรปรวนจึงสูง ลองลดความซับซ้อนลงหน่อย ลองนึกภาพว่าแทนที่จะใช้ LOOCV เพื่อเลือกแบบจำลองคุณเพิ่งมีชุดฝึกอบรมหนึ่งชุดจากนั้นคุณทดสอบแบบจำลองที่สร้างขึ้นโดยใช้ข้อมูลการฝึกอบรมนั้นพูด 100 ครั้งใน 100 จุดข้อมูลการทดสอบเดียว (จุดข้อมูลไม่ได้เป็นส่วนหนึ่งของชุดการฝึกอบรม) . หากคุณเลือกรูปแบบและชุดพารามิเตอร์ที่มีประสิทธิภาพดีที่สุดในการทดสอบ 100 ครั้งคุณจะต้องเลือกชุดที่จะช่วยให้ชุดการฝึกอบรมนี้ดีมากในการทำนายข้อมูลการทดสอบ คุณสามารถเลือกรูปแบบที่รวบรวมความสัมพันธ์ 100% ระหว่างชุดข้อมูลการฝึกอบรมนั้นและข้อมูลการพัก น่าเสียดายที่บางส่วนของความสัมพันธ์เหล่านั้นระหว่างชุดข้อมูลการฝึกอบรมและการทดสอบจะเป็นเสียงรบกวนหรือการเชื่อมโยงปลอมเนื่องจากแม้ว่าชุดทดสอบจะเปลี่ยนไปและคุณสามารถระบุเสียงรบกวนได้ทางด้านนี้ ชุดข้อมูลการฝึกอบรมไม่ได้และคุณไม่สามารถระบุความแปรปรวนที่อธิบายได้เนื่องจากเสียงรบกวน กล่าวอีกนัยหนึ่งความหมายนี้คือสิ่งที่มีความเหมาะสมกับการคาดการณ์ของคุณไปยังชุดข้อมูลการฝึกอบรมนี้โดยเฉพาะ

ตอนนี้ถ้าคุณต้องฝึกโมเดลนี้ใหม่ด้วยพารามิเตอร์เดียวกันหลาย ๆ ครั้งในชุดการฝึกอบรมใหม่จะเกิดอะไรขึ้น แบบจำลองที่มีความเหมาะสมกับชุดข้อมูลการฝึกอบรมจะนำไปสู่ความแปรปรวนในการทำนายเมื่อชุดการฝึกอบรมเปลี่ยนแปลง (เช่นเปลี่ยนชุดการฝึกอบรมเล็กน้อยและตัวแบบจะเปลี่ยนการทำนายอย่างมีนัยสำคัญ)

เนื่องจากการพับทั้งหมดใน LOOCV นั้นมีความสัมพันธ์กันสูงจึงคล้ายกับกรณีข้างต้น (ชุดการฝึกอบรมเดียวกันคะแนนการทดสอบที่แตกต่างกัน) กล่าวอีกนัยหนึ่งถ้าชุดการฝึกอบรมนั้นมีความสัมพันธ์แบบหลอกๆกับคะแนนการทดสอบเหล่านั้นคุณเป็นแบบจำลองจะมีปัญหาในการพิจารณาว่าสหสัมพันธ์ใดเป็นของจริงและเป็นของปลอมเพราะถึงแม้ว่าชุดการทดสอบจะเปลี่ยนไป

ในทางตรงกันข้ามการฝึกอบรมที่สัมพันธ์กันน้อยลงหมายความว่าแบบจำลองนั้นจะพอดีกับชุดข้อมูลที่ไม่ซ้ำใครหลายชุด ดังนั้นในสถานการณ์เช่นนี้หากคุณฝึกแบบจำลองกับชุดข้อมูลใหม่อีกชุดหนึ่งมันจะนำไปสู่การทำนายที่คล้ายกัน (เช่นความแปรปรวนเล็กน้อย)


4
ฉันคิดว่าคำตอบนี้ให้ความกระจ่างมากกว่าคำตอบที่ยอมรับและอธิบายคำตอบที่ได้รับการยอมรับโดยเฉพาะ
D1X

คุณหมายถึงอะไร> "ตอนนี้ถ้าคุณต้องฝึกโมเดลนี้ใหม่ด้วยพารามิเตอร์เดียวกันหลายครั้งในชุดการฝึกอบรมใหม่จะเกิดอะไรขึ้น" การฝึกอบรมหมายถึงการค้นหาพารามิเตอร์ใช่มั้ย คุณหมายถึงไฮเปอร์พารามิเตอร์หรือไม่
MiloMinderbinder

14

แม้ว่าคำถามนี้ค่อนข้างเก่า แต่ฉันต้องการเพิ่มคำตอบเพิ่มเติมเพราะฉันคิดว่ามันคุ้มค่าที่จะอธิบายเพิ่มเติมอีกเล็กน้อย

คำถามของฉันได้รับแรงบันดาลใจบางส่วนจากหัวข้อนี้: จำนวนการพับที่เหมาะสมที่สุดในการตรวจสอบความถูกต้องข้ามแบบ K-fold: CV แบบปล่อยครั้งเดียวเป็นตัวเลือกที่ดีที่สุดเสมอหรือไม่ . คำตอบนั้นแสดงให้เห็นว่าแบบจำลองที่เรียนรู้ด้วยการตรวจสอบข้ามแบบลาหนึ่งวันมีความแปรปรวนสูงกว่าแบบเรียนรู้ด้วยการตรวจสอบข้ามแบบปกติของ K-fold

คำตอบนั้นไม่ได้แนะนำว่าและไม่ควร ลองทบทวนคำตอบที่ให้ไว้:

การตรวจสอบความถูกต้องแบบข้ามครั้งเดียวไม่ได้นำไปสู่ประสิทธิภาพที่ดีกว่า K-fold และมีแนวโน้มที่จะแย่ลงเนื่องจากมีความแปรปรวนค่อนข้างสูง (เช่นค่าของมันเปลี่ยนแปลงมากกว่าสำหรับตัวอย่างข้อมูลที่แตกต่างกันกว่าค่าสำหรับ การตรวจสอบความถูกต้องข้ามแบบ K-fold)

มันมีการพูดคุยเกี่ยวกับผลการดำเนินงาน นี่คือผลการดำเนินงานจะต้องเข้าใจว่าเป็นประสิทธิภาพการทำงานของประมาณการผิดพลาดรุ่น สิ่งที่คุณกำลังประเมินด้วย k-fold หรือ LOOCV คือประสิทธิภาพของโมเดลทั้งเมื่อใช้เทคนิคเหล่านี้ในการเลือกแบบจำลองและเพื่อให้การประเมินข้อผิดพลาดในตัวเอง นี่ไม่ใช่ความแปรปรวนของแบบจำลอง แต่เป็นความแปรปรวนของตัวประมาณความผิดพลาด (ของตัวแบบ) ดูตัวอย่าง (*)ตะโกน

อย่างไรก็ตามสัญชาตญาณของฉันบอกฉันว่าใน CV แบบปล่อยครั้งเดียวควรเห็นความแปรปรวนที่ค่อนข้างต่ำระหว่างแบบจำลองกว่าใน K-fold CV เนื่องจากเราเปลี่ยนจุดข้อมูลเพียงจุดเดียวในส่วนการพับและดังนั้นชุดการฝึกอบรม

แน่นอนว่ามีความแปรปรวนต่ำกว่าระหว่างแบบจำลองพวกเขาได้รับการฝึกฝนด้วยชุดข้อมูลที่มีข้อสังเกตเหมือนกัน! ในฐานะที่เป็นการเพิ่มขึ้นของพวกเขากลายเป็นความจริงรูปแบบเดียวกัน (สมมติว่าไม่มี stochasticity)n2n

มันเป็นความแปรปรวนที่ต่ำกว่านี้และความสัมพันธ์ที่สูงขึ้นระหว่างตัวแบบที่ทำให้ตัวประมาณที่ฉันพูดถึงมีความแปรปรวนมากขึ้นเพราะตัวประมาณนั้นเป็นค่าเฉลี่ยของปริมาณที่สัมพันธ์กันเหล่านี้และความแปรปรวนของค่าเฉลี่ยของข้อมูลที่สัมพันธ์กันนั้นสูงกว่า . นี่มันก็แสดงให้เห็นว่าทำไม: ความแปรปรวนของค่าเฉลี่ยของข้อมูลความสัมพันธ์และไม่มีความ

หรือไปในอีกทางหนึ่งถ้า K ต่ำใน K-fold CV ชุดการฝึกอบรมจะแตกต่างกันมากในโฟลด์และโมเดลผลลัพธ์ที่ได้จะแตกต่างกันมากขึ้น (ดังนั้นความแปรปรวนที่สูงขึ้น)

จริง

หากอาร์กิวเมนต์ข้างต้นถูกต้องทำไมรูปแบบการเรียนรู้ที่มีประวัติย่อแบบลาออกมีความแปรปรวนสูงกว่า

อาร์กิวเมนต์ข้างต้นถูกต้อง ตอนนี้คำถามนั้นผิด ความแปรปรวนของแบบจำลองเป็นหัวข้อที่แตกต่างกันโดยสิ้นเชิง มีความแปรปรวนที่มีตัวแปรสุ่ม ในการเรียนรู้ของเครื่องคุณต้องจัดการกับตัวแปรสุ่มจำนวนมากโดยเฉพาะอย่างยิ่งและไม่ จำกัด : การสังเกตแต่ละครั้งเป็นตัวแปรสุ่ม ตัวอย่างเป็นตัวแปรสุ่ม รูปแบบเนื่องจากได้รับการฝึกฝนจากตัวแปรสุ่มจึงเป็นตัวแปรสุ่ม ตัวประมาณของข้อผิดพลาดที่แบบจำลองของคุณจะสร้างเมื่อเผชิญหน้ากับประชากรนั้นเป็นตัวแปรสุ่ม และสุดท้าย แต่ไม่ท้ายสุดข้อผิดพลาดของแบบจำลองเป็นตัวแปรสุ่มเนื่องจากมีแนวโน้มว่าจะมีเสียงรบกวนในประชากร (นี่เรียกว่าข้อผิดพลาดลดลง) นอกจากนี้ยังอาจมีการสุ่มมากขึ้นหากมีการสุ่มเกี่ยวข้องกับกระบวนการเรียนรู้รูปแบบ มันมีความสำคัญยิ่งที่จะแยกแยะระหว่างตัวแปรเหล่านี้ทั้งหมด


(*) ตัวอย่าง : สมมติว่าคุณมีรูปแบบที่มีความผิดพลาดจริงที่คุณควรจะเข้าใจว่าเป็นข้อผิดพลาดที่รูปแบบการผลิตมากกว่าประชากรทั้งหมด เนื่องจากคุณมีตัวอย่างมาจากประชากรกลุ่มนี้คุณใช้เทคนิคการตรวจสอบข้ามตัวอย่างที่คำนวณประมาณการของซึ่งเราสามารถตั้งชื่อ{} เป็นประจำทุกประมาณการ,เป็นตัวแปรสุ่มซึ่งหมายความว่ามันมีความแปรปรวนของตัวเอง , และอคติของตัวเอง,-ERR) คือสิ่งที่สูงกว่าเมื่อใช้ LOOCV ในขณะที่ LOOCV เป็นตัวประมาณค่าเอนเอียงน้อยกว่าด้วยerrerrEerr~err~var(err~)E(err~err)var(err~)kfoldk<nมันมีความแปรปรวนมากขึ้น เพื่อเพิ่มเติมความเข้าใจว่าทำไมประนีประนอมระหว่างอคติและความแปรปรวนเป็นที่ต้องการ , สมมติว่าและที่คุณมีสองตัวประมาณ:และ\คนแรกคือการผลิตผลลัพธ์นี้err=10err~1err~2

err~1=0,5,10,20,15,5,20,0,10,15...
ในขณะที่อันที่สองกำลังสร้าง
err~2=8.5,9.5,8.5,9.5,8.75,9.25,8.8,9.2...

คนสุดท้ายแม้ว่ามันจะมีอคติมากขึ้นควรเป็นที่ต้องการตามที่มีความแปรปรวนมากน้อยและได้รับการยอมรับอคติเช่นการประนีประนอม ( อคติแปรปรวนค้าปิด ) โปรดทราบว่าคุณไม่ต้องการความแปรปรวนที่ต่ำมากหากมีความลำเอียงสูง!


หมายเหตุเพิ่มเติม : ในคำตอบนี้ฉันพยายามที่จะอธิบาย (สิ่งที่ฉันคิดว่า) ความเข้าใจผิดที่ล้อมรอบหัวข้อนี้และโดยเฉพาะอย่างยิ่งพยายามที่จะตอบทีละจุดและสงสัยข้อสงสัยได้อย่างแม่นยำ โดยเฉพาะอย่างยิ่งฉันพยายามที่จะทำให้ชัดเจนว่าเรากำลังพูดถึงความแปรปรวนซึ่งเป็นสิ่งที่มันถูกถามเป็นหลักที่นี่ คือฉันอธิบายคำตอบที่เชื่อมโยงโดย OP

ที่ถูกกล่าวว่าในขณะที่ฉันให้เหตุผลทางทฤษฎีที่อยู่เบื้องหลังการเรียกร้องเรายังไม่พบหลักฐานเชิงประจักษ์สรุปที่สนับสนุนมัน ดังนั้นโปรดระวังให้มาก

เป็นการดีที่คุณควรอ่านโพสต์นี้ก่อนจากนั้นอ้างอิงคำตอบโดย Xavier Bourret Sicotte ซึ่งให้การอภิปรายที่ลึกซึ้งเกี่ยวกับแง่มุมเชิงประจักษ์

สุดท้าย แต่ไม่ท้ายสุดสิ่งอื่น ๆ ที่ต้องนำมาพิจารณา: แม้ว่าความแปรปรวนในขณะที่คุณเพิ่มยังคงไม่เปลี่ยนแปลง (ในขณะที่เรายังไม่ได้รับการพิสูจน์เชิงประจักษ์)กับเล็กพอที่อนุญาตให้ทำซ้ำ ( ซ้ำ k-fold ) ซึ่งแน่นอนควรจะทำเช่น10 สิ่งนี้จะช่วยลดความแปรปรวนได้อย่างมีประสิทธิภาพและไม่ใช่ตัวเลือกเมื่อดำเนินการ LOOCVkkfoldk10 × 10 - f o l d10 × 10fold


2
โปรดทราบจำลองที่ระบุไว้ในคำตอบใหม่โดยซาเวียร์และนอกจากนี้ยังมีในเรื่องนี้ Q เก่าโดยเจคเวสท์ทั้งแสดงให้เห็นว่าความแปรปรวนลดลงด้วยKสิ่งนี้ขัดแย้งกับคำตอบของคุณโดยตรง จนถึงตอนนี้ฉันยังไม่เห็นการจำลองใด ๆ ที่จะสนับสนุนการกล่าวอ้างว่าความแปรปรวนเพิ่มขึ้นด้วยและสูงสุดสำหรับ LOOCV เคKK
อะมีบา

3
พวกเขาแสดงให้เห็นถึงความแปรปรวนลดลงเมื่อถึงจุดหนึ่งซึ่งยังคงแบน มันแสดงให้เห็นในทางทฤษฎีว่าค่าเฉลี่ยของตัวอย่างที่มีความสัมพันธ์มีความแปรปรวนมากขึ้นดังนั้นการแสดงผลในทางทฤษฎี ที่ถูกกล่าวว่าคุณมีสิทธิการทดลองที่เกิดขึ้นจริงซึ่งแสดงให้เห็นนี้จะหายไป ฉันจะทำให้ดีที่สุดเพื่อสร้างมันขึ้นมา kN
D1X

ใช่การลดลงของจากถึงเกิดจากข้อผิดพลาดในคำตอบของซาเวียร์ ตอนนี้มันคงที่และความแปรปรวนยังคงเหมือนเดิมในช่วงนี้ เนื่องจากการจำลองสองแบบที่แสดงผลเหมือนกันฉันยังคงสงสัยว่า LOOCV สามารถคาดหวังว่าจะมีความแปรปรวนสูงกว่า การถกเถียงทางทฤษฎีของคุณนั้นโบกมือมาก ค่าเฉลี่ยของตัวอย่างที่มีความสัมพันธ์กันจะมีความแปรปรวนสูงกว่าก็ต่อเมื่อทุกอย่างเหมือนกัน ไม่ชัดเจนว่าทุกอย่างจะเหมือนกันสำหรับ 10-fold เทียบกับ N-fold CV รอคอยที่จะจำลองของคุณ K = 10 K = NKK=10K=N
อะมีบา

1
ยังไม่ได้ดูเอกสารเหล่านั้นฉันจะได้ดูพวกเขาเมื่อฉันมีเวลา ยังรุ่น OLS เชิงเส้นเป็นรุ่นที่ง่ายมากแน่นอนตัวเองกับความแปรปรวนต่ำ ไม่เพียงแค่นั้นพวกเขายังปิดสูตรสำหรับการตรวจสอบข้าม
D1X

1
+1 การแก้ไขของคุณทำให้คำตอบชัดเจนยิ่งขึ้น - เราได้รับการปรับให้สอดคล้องกับผลกระทบของความสัมพันธ์ระหว่างชุดการฝึกอบรม -> ความแปรปรวนที่สูงขึ้น ในทางปฏิบัติแม้ว่า (ทดลอง) ดูเหมือนว่าชุดการฝึกอบรมนั้นไม่ได้มีความสัมพันธ์กันเสมอไป
Xavier Bourret Sicotte

12

ปัญหานั้นลึกซึ้งจริงๆ แต่ไม่เป็นความจริงที่ LOOCV มีความแปรปรวนโดยทั่วไปมากขึ้น บทความเมื่อเร็ว ๆ นี้กล่าวถึงประเด็นสำคัญบางประการและกล่าวถึงความเข้าใจผิดที่เกิดขึ้นอย่างกว้างขวางเกี่ยวกับการตรวจสอบข้าม

Yongli Zhang และ Yuhong Yang (2015) การตรวจสอบความถูกต้องไขว้สำหรับการเลือกขั้นตอนการเลือกแบบ วารสารเศรษฐมิติ 187, 95-112

ความเข้าใจผิดต่อไปนี้มักพบเห็นได้ทั่วไปในวรรณกรรมแม้กระทั่งตอนนี้:

"CV แบบลาก่อนออก (LOO) มีอคติน้อยกว่า แต่มีความแปรปรวนมากกว่า CV แบบไม่เหลือ"

มุมมองนี้ค่อนข้างเป็นที่นิยม ตัวอย่างเช่น Kohavi (1995, Section 1) กล่าวว่า: "ยกตัวอย่างเช่นการลาออกหนึ่งครั้งนั้นแทบไม่มีอคติ แต่มีความแปรปรวนสูงทำให้เกิดการประมาณการที่ไม่น่าเชื่อถือ" อย่างไรก็ตามแถลงการณ์ไม่เป็นความจริงโดยทั่วไป

รายละเอียดเพิ่มเติม:

ในวรรณคดีแม้รวมถึงสิ่งตีพิมพ์เมื่อเร็ว ๆ นี้ยังมีข้อเสนอแนะมากเกินไป คำแนะนำทั่วไปของ Kohavi (1995) ในการใช้ CV แบบ 10 เท่าได้รับการยอมรับอย่างกว้างขวาง ตัวอย่างเช่น Krstajic et al (2014, หน้า 11) สถานะ: "Kohavi [6] และ Hastie et al [4] แสดงให้เห็นว่าสังเกตุการตรวจสอบข้ามแบบ V-fold เมื่อเทียบกับการตรวจสอบความถูกต้องแบบ cross-one-out พวกเขาจึงใช้คำแนะนำของ CV 10 เท่า (พร้อมการทำซ้ำ) สำหรับการตรวจสอบเชิงตัวเลขทั้งหมด ในมุมมองของเราการปฏิบัติเช่นนี้อาจทำให้เข้าใจผิด อันดับแรกไม่ควรมีคำแนะนำทั่วไปที่ไม่ได้คำนึงถึงเป้าหมายของการใช้ CV โดยเฉพาะอย่างยิ่ง, การตรวจสอบความลำเอียงและความแปรปรวนของการประมาณค่าความถูกต้องของ CV ของโมเดล / ขั้นตอนการสร้างแบบจำลองอาจเป็นเรื่องที่แตกต่างกันมากจากการเลือกแบบจำลองที่เหมาะสมที่สุด ประการที่สองแม้ จำกัด บริบทการประมาณความแม่นยำข้อความไม่ถูกต้องโดยทั่วไป สำหรับโมเดล / ขั้นตอนการสร้างแบบจำลองที่มีความไม่เสถียรต่ำ LOO มักมีความแปรปรวนน้อยที่สุด นอกจากนี้เรายังได้แสดงให้เห็นว่าสำหรับขั้นตอนที่ไม่แน่นอนสูง (เช่น LASSO ที่มีค่า pn มากกว่า n) CV-10-fold หรือ 5-fold ในขณะที่ลดความแปรปรวนสามารถมี MSE ที่ใหญ่กว่าอย่างมีนัยสำคัญเนื่องจากการเพิ่มอคติแย่ลง สำหรับโมเดล / ขั้นตอนการสร้างแบบจำลองที่มีความไม่เสถียรต่ำ LOO มักมีความแปรปรวนน้อยที่สุด นอกจากนี้เรายังได้แสดงให้เห็นว่าสำหรับขั้นตอนที่ไม่แน่นอนสูง (เช่น LASSO ที่มีค่า pn มากกว่า n) CV-10-fold หรือ 5-fold ในขณะที่ลดความแปรปรวนสามารถมี MSE ที่ใหญ่กว่าอย่างมีนัยสำคัญเนื่องจากการเพิ่มอคติแย่ลง สำหรับโมเดล / ขั้นตอนการสร้างแบบจำลองที่มีความไม่เสถียรต่ำ LOO มักมีความแปรปรวนน้อยที่สุด นอกจากนี้เรายังได้แสดงให้เห็นว่าสำหรับขั้นตอนที่ไม่แน่นอนสูง (เช่น LASSO ที่มีค่า pn มากกว่า n) CV-10-fold หรือ 5-fold ในขณะที่ลดความแปรปรวนสามารถมี MSE ที่ใหญ่กว่าอย่างมีนัยสำคัญเนื่องจากการเพิ่มอคติแย่ลง

โดยรวมแล้วจากตัวเลข 3-4, LOO และ CV 50- และ 20 เท่าที่ทำซ้ำที่ดีที่สุดที่นี่ 10 เท่านั้นแย่ลงอย่างเห็นได้ชัดและ k ≤ 5 นั้นแย่มาก สำหรับการประมาณประสิทธิภาพการคาดการณ์เรามักจะเชื่อว่า LOO เป็นแบบที่ดีที่สุดหรือดีที่สุดสำหรับแบบจำลองแบบคงที่หรือขั้นตอนการสร้างแบบจำลองที่เสถียรมาก (เช่น BIC ในบริบทของเรา) ทั้งในอคติและความแปรปรวนหรือใกล้เคียงที่สุด MSE สำหรับขั้นตอนที่ไม่เสถียรมากขึ้น (เช่น AIC หรือ LASSO ที่มี p≫ n) ในขณะที่ CV 10 เท่า (ด้วยการทำซ้ำ) อาจเป็นสิ่งที่ดีที่สุดบางครั้ง แต่บ่อยครั้งมากขึ้นมันอยู่ในตำแหน่งที่น่าอึดอัดใจ: มันมีความเสี่ยงกว่า LOO (เนื่องจากปัญหาความลำเอียง) สำหรับการคาดการณ์ข้อผิดพลาดและมักจะแย่กว่าการลบ -n / 2 CV สำหรับการระบุผู้สมัครที่ดีที่สุด


4
เป็นไปได้ไหมที่คำตอบนี้จะขยายออกไปเล็กน้อยบางทีอาจจะสรุปประเด็นสำคัญบางประการที่เกิดขึ้นในกระดาษ?
Silverfish

3
กระดาษที่น่าสนใจมาก ในการทบทวน Kohavi (1995) ฉันรู้สึกว่ามีหลายข้อความที่เป็นไปไม่ได้ มันเป็นกระดาษภูมิปัญญาพื้นบ้านที่มีการสอบสวนที่สำคัญเกินกำหนดเป็นเวลานาน
พอล

3

ก่อนที่จะพูดคุยเกี่ยวกับอคติและความแปรปรวนคำถามแรกคือ:

ประเมินโดยการตรวจสอบข้ามคืออะไร?

ในบ้านเรากระดาษ 2,004 JMLRเรายืนยันว่าไม่มีสมมติฐานเพิ่มเติมใด ๆเท่าการตรวจสอบข้ามประมาณการข้อผิดพลาดทั่วไปที่คาดหวังของขั้นตอนวิธีการฝึกอบรมการผลิตรุ่นที่ออกมาจากกลุ่มตัวอย่างที่มีขนาด K ที่นี่ความคาดหวังนั้นเกี่ยวกับตัวอย่างการฝึกอบรม ด้วยมุมมองนี้การเปลี่ยนหมายถึงการเปลี่ยนปริมาณโดยประมาณ: การเปรียบเทียบอคติและความแปรปรวนสำหรับค่าต่าง ๆ ของควรได้รับการปฏิบัติด้วยความระมัดระวังn ( K - 1 ) / K K KKn(K1)/KKK

ดังที่กล่าวไว้เราให้ผลการทดลองที่แสดงว่าความแปรปรวนอาจลดลงแบบโมโนโพนิกส์ด้วยหรืออาจจะน้อยที่สุดสำหรับค่ากลาง เราคาดการณ์ว่าสถานการณ์แรกควรพบกับอัลกอริทึมที่เสถียร (สำหรับการกระจายข้อมูลปัจจุบัน) และอีกอันสำหรับอัลกอริธึมที่ไม่เสถียรK

สัญชาตญาณของฉันบอกฉันว่าใน CV แบบปล่อยครั้งเดียวควรเห็นความแปรปรวนที่ค่อนข้างต่ำกว่าระหว่างแบบจำลองใน -fold CV เนื่องจากเราเปลี่ยนจุดข้อมูลเพียงจุดเดียวในส่วนการพับและดังนั้นชุดการฝึกอบรมK

สัญชาตญาณนี้จะเป็นที่ถูกต้องหากตรวจสอบข้ามค่าเฉลี่ยประมาณการอิสระ แต่พวกเขาสามารถมีความสัมพันธ์สูงและความสัมพันธ์นี้อาจเพิ่มขึ้นด้วยKการเพิ่มขึ้นนี้รับผิดชอบการเพิ่มขึ้นของความแปรปรวนโดยรวมในสถานการณ์ที่สองที่กล่าวถึงข้างต้น โดยสังเขปในสถานการณ์นั้น CV แบบลาก่อนออกอาจจะตาบอดไปถึงความไม่เสถียรที่มีอยู่ แต่อาจไม่ถูกกระตุ้นโดยการเปลี่ยนจุด siongle ในข้อมูลการฝึกอบรมซึ่งทำให้ตัวแปรนั้นเป็นชุดการฝึกอบรมK


4
+1 ยินดีต้อนรับสู่ CrossValidated! ดีใจที่ได้เห็นคุณเข้าร่วมการสนทนา ฉันควรอ่านกระดาษ 2004 ของคุณอีกครั้งเพื่อรีเฟรชในหน่วยความจำ แต่ฉันสงสัยว่าอัลกอริทึมที่ผู้คนใช้ในทางปฏิบัติกับ CV นั้นมีแนวโน้มที่จะมีเสถียรภาพหรือไม่เสถียรหรือไม่ ผมเคยเห็นการจำลองสองที่นี่: หนึ่งใช้เหมาะสมพหุนามและอื่นโดยใช้การถดถอย ในทั้งสองกรณีความแปรปรวนลดลงเมื่อเพิ่มขึ้นจนถึง LOOCV อัลกอริทึมแบบใดที่ควรใช้เพื่อสังเกตผลลัพธ์ที่แตกต่าง K
อะมีบา

0

ฉันคิดว่ามีคำตอบที่ตรงไปตรงมามากขึ้น หากคุณเพิ่ม k ชุดทดสอบจะเล็กลงเรื่อย ๆ เนื่องจากการสุ่มการสุ่มจะสามารถเกิดขึ้นได้กับชุดการทดสอบขนาดเล็ก แต่ไม่น่าจะเป็นชุดที่มีขนาดใหญ่กว่าซึ่งพวกเขาไม่ได้เป็นตัวแทนของการสุ่มแบบสุ่ม ชุดทดสอบหนึ่งชุดอาจบรรจุระเบียนที่คาดเดาได้ยากและชุดทดสอบที่ง่ายทั้งหมด ดังนั้นความแปรปรวนจะสูงเมื่อคุณทำนายชุดการทดสอบที่เล็กมากต่อการพับหนึ่งครั้ง


Xi

4
ดูเหมือนว่าคุณกำลังพูดถึงความแปรปรวนในการทำนายตัวแบบทั่วทั้งชุดที่มีการถือออกระหว่างการตรวจสอบข้าม ฉันไม่คิดว่านี่เป็นเรื่องที่น่าสนใจมาก อะไรคือสิ่งที่น่าสนใจก็คือไม่ว่าจะเป็นรูปแบบการปรับขั้นสุดท้ายของคุณจะแตกต่างกันมากในการคาดการณ์ก็จะทำให้ถ้ามันจะได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่แตกต่างกัน (เช่นประมาณการรูปแบบของคุณของความจริงก็คือตัวแปรมันขึ้นอยู่กับการตั้งค่าการฝึกอบรม)
captain_ahab

และคุณจะประเมินความแปรปรวนที่คาดหวังของข้อมูลที่ยังไม่สามารถมองเห็นได้อย่างไรหากไม่ผ่านการเปลี่ยนแปลงที่สังเกตได้จากชุดข้อมูลที่คาดการณ์อย่างต่อเนื่องที่ไม่ทราบเวลา ฉันเข้าใจประเด็นของคุณแล้วความแปรปรวนที่เกิดจากการตั้งค่าการทดลองเพียงอย่างเดียวนั้นไม่น่าสนใจ การตอบสนองของฉัน: ดังนั้นเราต้องเลือกการตั้งค่าการทดลองที่ไม่ได้แนะนำความแปรปรวนชนิดใหม่ หากมีการทำเช่นนั้นความแปรปรวนสองชนิดไม่สามารถบอกแยกได้และมันก็ยากที่จะประเมินการขยายประเภทที่น่าสนใจ
David Ernst

1
คุณสามารถแสดงสิ่งนี้ด้วยแบบจำลอง (ฉันจะมองหากระดาษ) ฉันไม่แน่ใจว่าเรากำลังพูดถึงคนอื่นในอดีตหรือไม่ แต่เมื่อคนเร่งรีบและผู้คนกำลังพูดถึงความสัมพันธ์ที่สูงระหว่างชุดการฝึกอบรมใน LOOCV พวกเขาเน้นย้ำว่าคุณมักจะฝึกฝนแบบจำลองของคุณ ซึ่งนำไปสู่การ overfitting ไปยังชุดข้อมูลการฝึกอบรมนั้น เปลี่ยนชุดข้อมูลการฝึกอบรมคุณจำลองการคาดการณ์สำหรับตัวอย่างการทดสอบ X จะเปลี่ยนไปมาก ในทางตรงกันข้ามถ้าชุดการฝึกของคุณมีความสัมพันธ์น้อยกว่าคุณสามารถใช้ชุดการฝึกอบรมใหม่ทั้งหมดและคุณจะได้รับการทำนายที่คล้ายกันสำหรับตัวอย่างการทดสอบ X
Captain_ahab

ฉันคิดว่ามีสองประเด็นแยกกันที่เกี่ยวข้อง การเพิ่ม k นำไปสู่การทับซ้อนกันมากขึ้นระหว่างชุดการฝึกอบรมซึ่งมีผลกระทบที่คุณพูดถึง (ฉันไม่ได้โต้เถียงกับเรื่องนั้น) ในขณะเดียวกันการเพิ่ม k นำไปสู่ชุดทดสอบที่เล็กลงต่อเท่าซึ่งหมายความว่าระเบียนมีแนวโน้มที่จะถูกสับในลักษณะที่ไม่ต้องการในชุดเหล่านั้น ฉันคิดว่าสำหรับคำถามเฉพาะที่ถามมานี่เป็นเหตุผลหลัก อาจมีส่วนร่วมจากชุดการฝึกอบรมที่ทับซ้อนกันเช่นกัน (มีปัญหาที่สามเมื่อคุณใช้การทำซ้ำเพราะชุดทดสอบมีการทับซ้อนกันเช่นกัน)
David Ernst
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.