ความแปรปรวนของการประเมินการตรวจสอบความถูกต้องข้าม


37

TL, DR:ดูเหมือนว่าตรงกันข้ามกับคำแนะนำซ้ำ ๆ การตรวจสอบความถูกต้องแบบข้ามครั้งเดียว (LOO-CV) - นั่นคือK -fold CV กับK (จำนวนเท่า) เท่ากับยังไม่มีข้อความ (จำนวนเท่า)ของการสังเกตการฝึกอบรม) - ให้ค่าประมาณของข้อผิดพลาดในการวางนัยทั่วไปซึ่งเป็นตัวแปรที่น้อยที่สุดสำหรับใด ๆKไม่ใช่ตัวแปรมากที่สุดโดยสมมติว่ามีความมั่นคงในรูปแบบ / อัลกอริทึมชุดข้อมูลหรือทั้งสองอย่าง ถูกต้องเนื่องจากฉันไม่เข้าใจเงื่อนไขความมั่นคงนี้จริงๆ)

  • บางคนสามารถอธิบายได้อย่างชัดเจนว่าเงื่อนไขความมั่นคงนี้คืออะไร?
  • มันเป็นความจริงหรือไม่ที่การถดถอยเชิงเส้นเป็นหนึ่งในอัลกอริทึม "เสถียร" ซึ่งหมายความว่าในบริบทนั้น LOO-CV เป็นทางเลือกที่ดีที่สุดของ CV อย่างเคร่งครัดเท่าที่ความลำเอียงและความแปรปรวนของความคลาดเคลื่อนของการประมาณ

ภูมิปัญญาดั้งเดิมคือทางเลือกของKในK -fold CV ตามการแลกเปลี่ยนความแปรปรวนแบบอคติเช่นค่าที่ต่ำกว่าของK (ใกล้ถึง 2) นำไปสู่การประมาณการข้อผิดพลาดของการวางนัยทั่วไปที่มีอคติในแง่ร้ายมากขึ้น ของK (ใกล้ยังไม่มีข้อความ ) นำไปสู่การประมาณการที่มีอคติน้อยกว่า แต่มีความแปรปรวนมากขึ้น คำอธิบายทั่วไปสำหรับปรากฏการณ์ของความแปรปรวนที่เพิ่มขึ้นด้วยKอาจได้รับความเด่นชัดที่สุดในองค์ประกอบของการเรียนรู้ทางสถิติ (หัวข้อ 7.10.1):

ด้วย K = N ตัวประมาณค่าการตรวจสอบความถูกต้องไขว้กันนั้นมีความเป็นกลางโดยประมาณสำหรับข้อผิดพลาดการคาดการณ์ที่แท้จริง (คาดว่า) แต่อาจมีความแปรปรวนสูงเนื่องจาก N "ชุดการฝึกอบรม" มีความคล้ายคลึงกัน

ความหมายที่เป็นไปได้ว่าข้อผิดพลาดในการตรวจสอบความถูกต้องยังไม่มีข้อความมีความสัมพันธ์สูงมากขึ้นเพื่อให้ผลรวมของพวกเขาเป็นตัวแปรมากขึ้น สายของเหตุผลนี้ได้รับการทำซ้ำในหลายคำตอบในเว็บไซต์นี้ (เช่นที่นี่ , ที่นี่ , ที่นี่ , ที่นี่ , ที่นี่ , ที่นี่และที่นี่ ) เช่นเดียวกับบล็อกต่างๆและอื่น ๆ แต่การวิเคราะห์รายละเอียดแทบจะไม่เคยได้รับแทน เป็นเพียงแค่สัญชาติญาณหรือร่างสั้น ๆ ของการวิเคราะห์ที่อาจมีลักษณะ

อย่างไรก็ตามเราสามารถค้นหาข้อความที่ขัดแย้งกันโดยปกติแล้วจะอ้างถึงเงื่อนไข "เสถียรภาพ" บางอย่างที่ฉันไม่เข้าใจจริงๆ ตัวอย่างเช่นคำตอบที่ขัดแย้งกันนี้เสนอราคาสองย่อหน้าจากบทความปี 2558 ซึ่งกล่าวว่า "สำหรับรุ่น / ขั้นตอนการสร้างแบบจำลองที่มีความไม่มั่นคงต่ำ LOO มักมีความแปรปรวนน้อยที่สุด" (เน้นการเพิ่ม) บทความนี้ (ส่วนที่ 5.2) ดูเหมือนจะยอมรับว่า LOO เป็นตัวเลือกตัวแปรที่น้อยที่สุดของKตราบใดที่โมเดล / อัลกอริทึมนั้น "เสถียร" ใช้จุดยืนอีกประเด็นหนึ่งในเรื่องนี้นอกจากนี้ยังมีรายงานฉบับนี้ (ข้อ 2) ซึ่งกล่าวว่า "ความแปรปรวนของการตรวจสอบความถูกต้องด้วยการพับแบบkพับ [... ] ไม่ได้ขึ้นอยู่กับk, "อ้างถึงเงื่อนไข" เสถียรภาพ "อีกครั้ง

คำอธิบายเกี่ยวกับสาเหตุที่ LOO อาจเป็นตัวแปรK -fold CV ส่วนใหญ่นั้นใช้งานง่าย แต่มีการตอบโต้ การประมาณการ CV สุดท้ายของข้อผิดพลาดกำลังสองเฉลี่ย (MSE) คือค่าเฉลี่ยของการประมาณค่า MSE ในแต่ละครั้ง ดังนั้นเมื่อKเพิ่มขึ้นเป็นยังไม่มีข้อความประมาณการ CV คือค่าเฉลี่ยของตัวแปรสุ่มที่เพิ่มขึ้น และเรารู้ว่าความแปรปรวนของค่าเฉลี่ยลดลงด้วยจำนวนตัวแปรที่เฉลี่ย ดังนั้นเพื่อให้ LOO เป็นตัวแปรK -fold CV มากที่สุดมันจะต้องเป็นจริงที่การเพิ่มขึ้นของความแปรปรวนเนื่องจากความสัมพันธ์ที่เพิ่มขึ้นในหมู่การประเมินของ MSE เมื่อเทียบกับการลดลงของความแปรปรวนเนื่องจากจำนวนของการพับมากกว่าโดยเฉลี่ย. และไม่ชัดเจนเลยว่านี่เป็นเรื่องจริง

หลังจากคิดสับสนเกี่ยวกับสิ่งเหล่านี้อย่างถี่ถ้วนฉันจึงตัดสินใจจำลองสถานการณ์เล็กน้อยสำหรับกรณีการถดถอยเชิงเส้น ฉันจำลอง 10,000 ชุดข้อมูลที่มี = 50 และ 3 ตัวทำนาย uncorrelated แต่ละครั้งประมาณข้อผิดพลาดทั่วไปโดยใช้Kเท่า CV กับK = 2, 5, 10, หรือ 50 = N รหัส R อยู่ที่นี่ นี่คือค่าเฉลี่ยและผลต่างของการประมาณการ CV ในชุดข้อมูลทั้งหมด 10,000 ชุด (ในหน่วย MSE):ยังไม่มีข้อความKKยังไม่มีข้อความ

         k = 2 k = 5 k = 10 k = n = 50
mean     1.187 1.108  1.094      1.087
variance 0.094 0.058  0.053      0.051

ผลลัพธ์เหล่านี้แสดงรูปแบบที่คาดหวังว่าค่าที่สูงกว่าของจะนำไปสู่การมองโลกในแง่ร้ายน้อยกว่า แต่ก็ดูเหมือนจะยืนยันว่าความแปรปรวนของการประมาณ CV นั้นต่ำที่สุดไม่ใช่สูงที่สุดในกรณี LOOK

ดังนั้นจึงปรากฏว่าการถดถอยเชิงเส้นเป็นหนึ่งในกรณี "เสถียร" ที่กล่าวถึงในเอกสารข้างต้นซึ่งการเพิ่มเกี่ยวข้องกับการลดลงมากกว่าการเพิ่มความแปรปรวนในการประมาณการ CV แต่สิ่งที่ฉันยังไม่เข้าใจคือ:K

  • เงื่อนไข "เสถียรภาพ" นี้คืออะไร? มันใช้กับโมเดล / อัลกอริทึมชุดข้อมูลหรือทั้งสองอย่างบ้างไหม?
  • มีวิธีที่ใช้งานง่ายที่จะคิดเกี่ยวกับความมั่นคงนี้หรือไม่?
  • ตัวอย่างอื่น ๆ ของโมเดลอัลกอริทึมหรือชุดข้อมูลหรือชุดข้อมูลที่เสถียรและไม่เสถียรมีอะไรบ้าง
  • มันค่อนข้างปลอดภัยหรือไม่ที่จะสมมติว่าตัวแบบ / อัลกอริธึมหรือชุดข้อมูลส่วนใหญ่เป็น "เสถียร" ดังนั้นจึงควรเลือกโดยทั่วไปให้สูงที่สุดเท่าที่จะทำได้K

1
+1 "หมายความว่า" ในผลลัพธ์การจำลองของคุณคืออะไร? ค่าเฉลี่ย CV ของข้อผิดพลาดการวางนัยทั่วไป (หมายถึงชุดข้อมูล 10,000 ชุด) หรือไม่ แต่เราควรเปรียบเทียบกับอะไร มันจะมีความหมายมากกว่าที่จะแสดงอคตินั่นคือรูต - เฉลี่ย - สแควร์ - เบี่ยงเบนจากข้อผิดพลาดการวางนัยทั่วไปที่แท้จริง นอกจากนี้ "ข้อผิดพลาดการวางนัยทั่วไปที่แท้จริง" ในกรณีนี้คืออะไร ข้อผิดพลาดการวางนัยทั่วไปที่แท้จริงของการประมาณค่าในชุดข้อมูล N = 100 หรือไม่ หรือค่าที่คาดหวังของข้อผิดพลาดการวางนัยทั่วไปที่แท้จริง (ค่าที่คาดไว้สำหรับชุดข้อมูล N = 100 ทั้งหมด)? หรืออย่างอื่น?
อะมีบาพูดว่า Reinstate Monica

3
+1 หลังจากได้อย่างรวดเร็วในระยะสั้นที่en.wikipedia.org/wiki/...ดูเหมือนว่าในความมั่นคงบริบทนี้หมายความว่าอัลกอริทึมก่อให้เกิดผลลัพธ์ที่คล้ายกันในชุดฝึกอบรมที่มีและN - 1ตัวอย่าง ในกรณีที่วิธีการที่แตกต่างกันคล้ายกัน wrt ฟังก์ชั่นการสูญเสียบางอย่างล้อมรอบด้วยค่าต่ำบางอย่างยังไม่มีข้อความN1
Łukasz Grad

1
นอกเหนือจากที่ผมได้พูดคุยเกี่ยวกับมันเมื่อเร็ว ๆ นี้กับ @DikranMarsupial (ซึ่งอาจจะเป็นหนึ่งในผู้เชี่ยวชาญหลักของเราบนไม้กางเขนการตรวจสอบที่นี่ใน CV) ที่นี่ในการแสดงความคิดเห็น - เขาแนะนำให้อ่าน Kohavi ของกระดาษ 1995 ดิครานพูดถึงเสถียรภาพเช่นกัน น่าเสียดายที่ฉันไม่ได้ติดตามมันตั้งแต่นั้นมา
อะมีบาพูดว่า Reinstate Monica

2
ฉันไม่คิดอย่างนั้น @Jake สิ่งที่ฉันเขียนให้โมฆะ "การตอบโต้ของคุณ" แต่ "ปรีชา" หลัก (เกี่ยวกับแบบจำลองจากการพับที่แตกต่างกันขึ้นอยู่กับสูง) ยังคงสามารถถือได้
อะมีบาพูดว่า Reinstate Monica

1
จำลองอีกสนับสนุนข้อสรุปของคุณที่แปรปรวนลดลงด้วย : stats.stackexchange.com/a/357749/28666 K
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


15

คำตอบนี้ติดตามคำตอบของฉันในBias และความแปรปรวนในการตรวจสอบแบบ cross-one-out เทียบกับ K-foldที่อธิบายว่าทำไม LOOCV ไม่นำไปสู่ความแปรปรวนที่สูงขึ้นเสมอไป ฉันจะพยายามเน้นที่กรณีที่ LOOCV นำไปสู่ความแปรปรวนที่สูงขึ้นเมื่อมีค่าผิดปกติและ "แบบไม่เสถียร"

เสถียรภาพขั้นตอนวิธี (ทฤษฎีการเรียนรู้)

หัวข้อของความเสถียรของอัลกอริทึมเป็นหนึ่งล่าสุดและคลาสสิกผลลัพธ์ infuential ได้รับการพิสูจน์ใน 20 ปีที่ผ่านมา นี่คือเอกสารสองสามฉบับที่มักถูกอ้างถึง

หน้าที่ดีที่สุดในการทำความเข้าใจคือหน้าวิกิพีเดียซึ่งมีบทสรุปที่ยอดเยี่ยมซึ่งเขียนโดยผู้ใช้ที่มีความรู้อย่างมาก

นิยามความเสถียรที่ใช้งานง่าย

สังหรณ์ใจอัลกอริทึมที่มั่นคงเป็นสิ่งหนึ่งที่การทำนายไม่เปลี่ยนแปลงมากนักเมื่อข้อมูลการฝึกอบรมมีการปรับเปลี่ยนเล็กน้อย

อย่างเป็นทางการมีความมั่นคงครึ่งโหลที่เชื่อมโยงกันด้วยเงื่อนไขทางเทคนิคและลำดับชั้นดูกราฟิกนี้จากที่นี่เช่น:

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามวัตถุประสงค์นั้นง่ายเราต้องการ จำกัด ขอบเขตให้กับข้อผิดพลาดในการวางนัยทั่วไปของอัลกอริทึมการเรียนรู้เฉพาะเมื่ออัลกอริทึมเป็นไปตามเกณฑ์ความมั่นคง อย่างที่คาดหวังไว้ยิ่งเกณฑ์ความมั่นคงเข้มงวดมากขึ้นเท่าไรขอบเขตที่สอดคล้องกันก็จะยิ่งเข้มงวดมากขึ้นเท่านั้น

เอกสาร

สัญกรณ์ต่อไปนี้มาจากบทความ wikipedia ซึ่งคัดลอกกระดาษ Bousquet และ Elisseef:

  • การฝึกอบรมชุดถูกดึงออกมาจากการแจกแจงที่ไม่รู้จัก DS={Z1=(x1,Y1),...,Zม.=(xม.,Yม.)}
  • ฟังก์ชันสูญเสียของสมมติฐานf ที่เกี่ยวข้องกับตัวอย่างzหมายถึงV ( f , z )VZV(,Z)
  • เราปรับเปลี่ยนชุดการฝึกอบรมโดยการลบองค์ประกอบที่ : S | ฉัน = { Z 1 , . . , Z ฉัน- 1 , Z ฉัน+ 1 , . . , z m }ผมS|ผม={Z1,...,Zผม-1,Zผม+1,...,Zม.}
  • หรือโดยการแทนที่ที่องค์ประกอบ -th: S ฉัน = { Z 1 , . . , z ฉัน- 1 , zผมSผม={Z1,...,Zผม-1,Zผม',Zผม+1,...,Zม.}

คำจำกัดความที่เป็นทางการ

บางทีความเชื่อที่แข็งแกร่งที่สุดของความมั่นคงซึ่งอัลกอริทึมการเรียนรู้ที่น่าสนใจอาจถูกคาดหวังว่าจะเชื่อฟังคือความมั่นคงที่สม่ำเสมอ :

ความมั่นคงเครื่องแบบ อัลกอริทึมที่มีความมั่นคงเครื่องแบบเคารพ wth กับฟังก์ชั่นการสูญเสียVถ้าต่อไปนี้ถือ:βV

SZม.  ผม{1,...,ม.},  จีบ|V(s,Z)-V(S|ผม,Z)|  β

ถือว่าเป็นหน้าที่ของ , ระยะβสามารถเขียนเป็นβเมตร เราบอกว่าอัลกอริทึมเสถียรเมื่อβ mลดลงเป็น1ม.ββม.βม. . รูปแบบเสถียรภาพที่อ่อนแอลงเล็กน้อยคือ:1ม.

เสถียรภาพของสมมติฐาน

ผม{1,...,ม.},  E[ |V(s,Z)-V(S|ผม,Z)| ] β

หากจุดหนึ่งถูกลบออกความแตกต่างในผลลัพธ์ของอัลกอริทึมการเรียนรู้จะถูกวัดโดยความแตกต่างที่แน่นอนโดยเฉลี่ยของการสูญเสีย ( ปกติ1 ) สังหรณ์ใจ: การเปลี่ยนแปลงเล็กน้อยในตัวอย่างสามารถทำให้อัลกอริทึมย้ายไปยังสมมติฐานที่อยู่ใกล้เคียงL1

ข้อดีของรูปแบบความเสถียรเหล่านี้คือให้ขอบเขตและความแปรปรวนของอัลกอริธึมที่มีเสถียรภาพ โดยเฉพาะอย่างยิ่ง Bousquet พิสูจน์ขอบเขตเหล่านี้สำหรับความเสถียรของ Uniform และ Hypothesis ในปี 2002 ตั้งแต่นั้นมาได้มีการทำงานหลายอย่างเพื่อพยายามที่จะผ่อนคลายเงื่อนไขความมั่นคง มีขอบเขตการลดความแปรปรวนเชิงปริมาณที่ดีกว่า

ตัวอย่างบางส่วนของอัลกอริทึมที่มีเสถียรภาพ

อัลกอริทึมต่อไปนี้แสดงให้เห็นถึงความเสถียรและได้พิสูจน์ขอบเขตทั่วไปแล้ว

  • ทำให้การถดถอยกำลังสองน้อยที่สุดเป็นมาตรฐาน (ตามความเหมาะสมก่อน)
  • ลักษณนาม KNN พร้อมฟังก์ชันสูญเสีย 0-1
  • SVM พร้อมเคอร์เนลที่มีขอบเขตและค่าคงที่การทำให้เป็นปกติขนาดใหญ่
  • อัตรากำไรขั้นต้นอ่อน SVM
  • อัลกอริทึมแบบเอนโทรปีขั้นต่ำสำหรับการจำแนกประเภท
  • เวอร์ชันของการปิดถุง regularizers

การจำลองการทดลอง

ทำซ้ำการทดสอบจากเธรดก่อนหน้า ( ดูที่นี่ ) ตอนนี้เราแนะนำอัตราส่วนของค่าผิดปกติในชุดข้อมูล โดยเฉพาะอย่างยิ่ง:

  • [-0.5,0.5]
  • [-20,20]

3

ป้อนคำอธิบายรูปภาพที่นี่

การแสดงจำลองเป็นก่อนหน้านี้และพล็อตที่เกิด MSE เฉลี่ยและความแปรปรวนของ MSE ให้ผลคล้ายกันมากกับการทดลองที่ 2 ของBengio & Grandvalet 2004กระดาษ

ด้านซ้ายมือ : ไม่มีค่าผิดปกติ ด้านขวามือ : ค่าผิดปกติ 3%

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

(ดูกระดาษที่เชื่อมโยงสำหรับคำอธิบายของตัวเลขสุดท้าย)

คำอธิบาย

การอ้างอิงคำตอบของ Yves Grandvaletในเธรดอื่น:

โดยสังเขป [ในสถานการณ์ของอัลกอริธึมที่ไม่เสถียร], CV แบบปล่อยครั้งเดียวอาจจะตาบอดต่อความไม่เสถียรที่มีอยู่ แต่อาจไม่ถูกกระตุ้นโดยการเปลี่ยนจุดเดียวในข้อมูลการฝึกอบรมซึ่งทำให้ตัวแปรสูงต่อการรับรู้ ชุดฝึกอบรม

ในทางปฏิบัติมันค่อนข้างยากที่จะจำลองการเพิ่มขึ้นของความแปรปรวนเนื่องจาก LOOCV มันต้องมีการผสมผสานระหว่างความไม่แน่นอนค่าผิดปกติบางอย่าง แต่ไม่มากเกินไปและการทำซ้ำจำนวนมาก บางทีสิ่งนี้คาดว่าจะเกิดขึ้นเนื่องจากการถดถอยเชิงเส้นแสดงให้เห็นว่าค่อนข้างเสถียร การทดลองที่น่าสนใจคือการทำซ้ำสิ่งนี้สำหรับข้อมูลมิติที่สูงขึ้นและอัลกอริธึมที่ไม่เสถียร (เช่นแผนผังการตัดสินใจ)


+1 แต่ฉันหวังว่าเธรดนี้สามารถปิดได้ในที่สุดเนื่องจากสำเนาของลิงก์ที่เชื่อมโยงกัน (ฉันรอจนกว่าระยะเวลาการชำระเงินจะสิ้นสุดลงและการอภิปรายจะสิ้นสุดลงและดูว่าคำตอบใดจบลงด้วยการยอมรับ) ฉันจะแสดงความคิดเห็นเพิ่มเติมในภายหลัง
อะมีบาพูดว่า Reinstate Monica

ฉันไม่เชื่อจริง ๆ ว่าคำถามนั้นซ้ำซ้อน คำถามของฉันใช้ความแปรปรวนของปัญหา LOO เป็นหลักในการกำหนดกรอบคำถามหลักซึ่งเกี่ยวกับการพยายามหาคำอธิบายที่เข้าใจได้ง่ายว่า "เสถียรภาพ" หมายถึงอะไร - ดูคำถามหัวข้อย่อยที่ด้านบนและล่างของ OP ขณะที่คำตอบนี้มีประโยชน์ (+1) ฉันไม่เห็นว่าคุณพยายามตอบคำถามความมั่นคง ... คุณใช้คำสองสามครั้ง แต่ดูเหมือนคุณจะทำแบบนั้น สมมติว่าผู้อ่านรู้แล้วว่ามันหมายถึงอะไร ไม่แน่ใจว่าฉันสามารถยอมรับคำตอบในรูปแบบปัจจุบัน
Jake Westfall

1
@ JakeWestfall เมื่อฉันเขียนว่าฉัน "หวัง" ว่าในที่สุดกระทู้นี้จะถูกปิดเป็นซ้ำฉันหมายความว่าฉันหวังว่าคำตอบที่ได้รับการยอมรับในหัวข้อนั้นจะดีพอที่จะครอบคลุมสิ่งที่คุณถามเกี่ยวกับ :) ลองดูที่กระดาษ Bengio & Grandvalet การทดลองที่ 2 พวกเขาแสดงให้เห็นว่าการใช้การถดถอยเชิงเส้นและข้อมูลแบบเกาส์พวกเขาได้รับความแปรปรวนขั้นต่ำสำหรับ LOOCV (นั่นคือผลลัพธ์ของคุณด้วย) แต่ถ้าข้อมูลมีค่าผิดปกติบางส่วน พับหรือดังนั้น ฉันคิดว่าคำแนะนำนี้เกี่ยวข้องกับ "เสถียรภาพ" ที่เกี่ยวข้อง
อะมีบาพูดว่า Reinstate Monica

3
ฉันรักมัน @ XavierBourretSicotte ขอบคุณสำหรับการทำงานที่ยอดเยี่ยมกับคำตอบนี้
Jake Westfall

1
ใช่อ้างอิงข้อความนี้: pdfs.semanticscholar.org/bf83/… : "อัลกอริทึมที่เสถียรมีคุณสมบัติที่แทนที่องค์ประกอบหนึ่งในชุดการเรียนรู้ไม่ได้เปลี่ยนแปลงผลลัพธ์มากนักดังนั้นข้อผิดพลาดเชิงประจักษ์หากคิดว่าเป็น ตัวแปรสุ่มควรมีความแปรปรวนเล็กน้อยจากนั้นอัลกอริธึมที่เสถียรสามารถเป็นตัวเลือกที่ดีสำหรับข้อผิดพลาดเชิงประจักษ์ที่ใกล้เคียงกับข้อผิดพลาดทั่วไป
Xavier Bourret Sicotte

2

ฉันจะให้คำตอบในบริบทของย่อหน้าที่คุณอ้างถึง:

ด้วย K = N ตัวประมาณค่าการตรวจสอบความถูกต้องไขว้กันนั้นมีความเป็นกลางโดยประมาณสำหรับข้อผิดพลาดการคาดการณ์ที่แท้จริง (คาดว่า) แต่อาจมีความแปรปรวนสูงเนื่องจาก N "ชุดการฝึกอบรม" มีความคล้ายคลึงกัน

ตัวประมาณ CV ของข้อผิดพลาดการคาดคะเนที่แท้จริง (คาดการณ์) จะขึ้นอยู่กับตัวอย่างชุดฝึกอบรมดังนั้นที่นี่ความคาดหวังนั้นอยู่เหนือตัวอย่างชุดฝึกอบรมเมื่อฉันเข้าใจอย่างถูกต้อง

ดังนั้นสิ่งที่ย่อหน้านี้เกี่ยวกับ "ความแปรปรวนสูง" ก็บอกว่ามีความแตกต่าง "สูง" ระหว่างข้อผิดพลาดที่คาดหวังและข้อผิดพลาดที่ประมาณโดย CV (ซึ่งอยู่ที่นี่ค่าเฉลี่ยมากกว่าเท่า)

สิ่งนี้สมเหตุสมผลเนื่องจากโมเดลนี้เหมาะสมกับชุดฝึกอบรมเฉพาะและเนื่องจากชุดฝึกอบรมทั้งหมดมีความคล้ายคลึงกันมาก อย่างไรก็ตามในขณะที่การฝึกอบรมการพับนั้นคล้ายกันมากในรอบ CV การประเมินอาจแตกต่างกันมากถ้าเราสลับตัวอย่างการฝึกอบรมสำหรับ CV ใน k-fold CV เนื่องจากเรา "กระจาย" การฝึกอบรมแบบพับเรามีผลกระทบโดยเฉลี่ยบางส่วนและทั่ว k-fold การประมาณการจึงแตกต่างกันเล็กน้อย

หรือกล่าวอีกนัยหนึ่งตัวประมาณ CV แบบลาออกหนึ่งครั้งนั้นเกือบจะเหมือนกับวิธีการหยุดทำงานหากคุณไม่หมุนครึ่งรอบ อีกครั้งตัวอย่างการฝึกอบรมจะมีความแปรปรวนสูงเมื่อเทียบกับค่าประมาณจาก k-fold ซึ่งคุณเฉลี่ยมากกว่าเท่าโดยการฝึกอบรมรูปแบบที่ค่อนข้างหลากหลายภายในรอบ k-fold (ในคำอื่น ๆ ถ้าคุณสลับชุดการฝึกอบรม ข้อผิดพลาดผ่านทาง k-fold อาจไม่แตกต่างกันมาก)

แก้ไข:

เมื่อฉันอ่านคำตอบบางส่วนที่นี่เกี่ยวกับการตรวจสอบความถูกต้องข้ามเครือข่ายและอินเทอร์เน็ตโดยทั่วไปฉันคิดว่าดูเหมือนว่ามีความสับสนเล็กน้อยเกี่ยวกับตัวประเมินที่เรากำลังอ้างอิง ฉันคิดว่าบางคนอ้างถึงแบบจำลองที่มีความแปรปรวนสูง (ด้วย ML พูดถึงการสูญเสียที่มีองค์ประกอบความแปรปรวนที่โดดเด่น) เทียบกับความแปรปรวนสูงของตัวประมาณ CV แบบพับ และอีกชุดของคำตอบหมายถึงความแปรปรวนเป็นความแปรปรวนตัวอย่างเกี่ยวกับการพับเมื่อมีคนพูดว่า "k-fold มีความแปรปรวนสูง" ดังนั้นฉันขอแนะนำให้เจาะจงเพราะคำตอบนั้นต่างกัน


เมื่อพูดถึงความแปรปรวนสมมุติฐานของฉันคือเรากำลังพูดถึงความแปรปรวนของตัวประมาณ CV ในชุดฝึกอบรม D ตามที่กำหนดไว้ที่นี่: stats.stackexchange.com/questions/365224/ …และที่นี่: stats.stackexchange.com/questions/325123/ . Yves Grandvalet และ Bengio โต้แย้งในรายงานประจำปี 2547 ของพวกเขาว่า CV ประมาณการข้อผิดพลาดในการคาดการณ์ คุณสามารถดูคำตอบของเขาได้ที่นี่: stats.stackexchange.com/a/358138/192854
Xavier Bourret Sicotte

หากคุณต้องการคำตอบตามคำจำกัดความของความแปรปรวนที่แตกต่างกันฉันคิดว่ามันจะมีประโยชน์ในการเพิ่มคำจำกัดความและสูตรที่เป็นทางการ บางทีฉันควรจะทำเช่นนั้นในคำตอบของฉันเช่นกัน ..
ซาเวียร์ Bourret Sicotte

ใช่ฉันต้องทบทวนวรรณกรรมสักหน่อยและควรเพิ่มสูตรบางอย่างลงในคำตอบ ข้อความอ้างอิงจากองค์ประกอบของการเรียนรู้ทางสถิติยังคงเป็นสิ่งที่เข้าใจง่ายสำหรับฉันว่า LOOCV นั้นมีความแปรปรวนสูงหากแบบจำลองนั้นมีความแปรปรวนสูงเนื่องจากเป็นค่าเฉลี่ยของการพับครึ่ง หากแบบจำลองมีอคติสูงทั้ง LOOCV และตัวประมาณ k-fold ควรมีความแปรปรวนต่ำ (เป็นอิสระจากอคติ) เนื่องจากการคาดการณ์จะไม่แตกต่างกันมากนัก แต่ประเด็นในวรรคนี้เป็นปัญหา นั้น LOOCV เมื่อเทียบกับ k-fold สำหรับกรณีส่วนใหญ่

คำพูดแสดงให้เห็นว่าไม่ถูกต้อง - อย่างน้อยก็เป็นเรื่อง
ธรรมดา

1

เราเคยผ่านเรื่องนี้มาก่อน - คุณได้รับคณิตศาสตร์มากเกินไปเกี่ยวกับม้าที่ตายแล้ว ดูรอน Kohavi ของ (Stanford-Univ) คลาสสิกบนกระดาษ CV และภาวะที่กลืนไม่เข้าคายไม่ออกอคติแปรปรวนที่นี่ เมื่อคุณอ่านข้อความนี้เสร็จแล้วคุณจะไม่ต้องการทำการ LOOCV และมีแนวโน้มว่าจะดึงดูด CV แบบ 10 เท่าและ / หรือ bootstrap-bias CV

คุณต้องคิดเกี่ยวกับชุดข้อมูลขนาดใหญ่ซึ่ง LOOCV นั้นแพงเกินไป ในปัจจุบัน LOOCV ไม่ได้เป็นตัวเลือกในเวิร์กโฟลว์ / ท่อส่วนใหญ่ของกลุ่ม

เงื่อนไข "เสถียรภาพ" นี้คืออะไร? มันใช้กับโมเดล / อัลกอริทึมชุดข้อมูลหรือทั้งสองอย่างบ้างไหม?

ในจักรวาลของฟังก์ชั่นค่าใช้จ่ายทั้งหมดและในจักรวาลของชุดคุณลักษณะทั้งหมดฉันจะไม่คิดว่ามีดัชนี "ความมั่นคง" โดยรวมเพราะมันจะไม่สามารถยอมรับได้และจะเกินไปที่จะทำลายลงภายใต้ชุดขนาดใหญ่ของ เงื่อนไข พื้นฐานk=nk=nk=n

LREG ในฐานะตัวจําแนกจะทำงานเมื่อข้อมูลสามารถแยกได้เป็นเส้นตรง แต่โดยเฉลี่ยแล้วอคติของมันจะสูงเกินไปเนื่องจากชุดข้อมูลจำนวนมากไม่แยกกันเป็นเส้นตรง

มีวิธีที่ใช้งานง่ายที่จะคิดเกี่ยวกับความมั่นคงนี้หรือไม่?

ไม่ใช่ในมุมมองของฉัน - เนื่องจากไม่มีกฎทั่วไปเกี่ยวกับความมั่นคง

ตัวอย่างอื่น ๆ ของโมเดลอัลกอริทึมหรือชุดข้อมูลหรือชุดข้อมูลที่เสถียรและไม่เสถียรมีอะไรบ้าง

นี่เป็นปลายเปิดและกว้างเกินไปเนื่องจากการตอบสนองจำนวนมากอย่างไม่ จำกัด สามารถทำได้ซึ่งจะไม่เป็นประโยชน์

K

ไม่ไม่ใช้เฉพาะใน kk

ให้ bootstrapping กฎความเสถียรรอบนั้นยอมรับได้เนื่องจากตัวอย่างข้อมูลที่ใช้สำหรับวิธี CV ที่ตรงไปตรงมาkk


ขอบคุณสำหรับความคิดเห็นของคุณ แต่ดูเหมือนจะไม่ตอบคำถาม
Jake Westfall

ดูคำตอบที่ผนวกเข้ากับ OP
JoleT

3
เพียง แต่อ่านบทความนี้ แต่พวกเขาดูเหมือนจะอ้างสิทธิ์ได้ดีที่สุดถึง 10 เท่าบนพื้นดินที่สั่นคลอนอย่างมาก ฉันไม่อยากเชื่อเลยว่ามีการอ้างอิง 7k จากที่กล่าวมามีเหตุผลที่ดีที่จะเชื่อว่ามีประโยชน์มากกว่า 10 เท่า จะให้การอ่านอย่างละเอียดมากขึ้นเมื่อฉันมีโอกาส
หน้าผา AB
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.