การตรวจสอบความถูกต้องไขว้ภายนอกและการเลือกรุ่น


26

ความเข้าใจของฉันคือว่าด้วยการตรวจสอบข้ามและการเลือกรูปแบบเราพยายามที่จะอยู่สองสิ่ง:

P1 ประเมินการสูญเสียที่คาดหวังของประชากรเมื่อฝึกอบรมกับตัวอย่างของเรา

P2 . วัดและรายงานความไม่แน่นอนของการประมาณนี้ของเรา (ความแปรปรวนช่วงความเชื่อมั่นอคติ ฯลฯ )

การปฏิบัติมาตรฐานดูเหมือนว่าจะทำการตรวจสอบข้ามซ้ำเนื่องจากจะช่วยลดความแปรปรวนของเครื่องมือประมาณค่าของเรา

อย่างไรก็ตามเมื่อพูดถึงการรายงานและการวิเคราะห์ความเข้าใจของฉันคือการตรวจสอบภายในดีกว่าการตรวจสอบภายนอกเพราะ:

เป็นการดีกว่าที่จะรายงาน:

  • สถิติของเครื่องมือประมาณค่าของเราเช่นช่วงความเชื่อมั่น, ความแปรปรวน, ค่าเฉลี่ย ฯลฯ ของตัวอย่างเต็มรูปแบบ (ในกรณีนี้คือตัวอย่าง CV)

กว่าการรายงาน:

  • การสูญเสียตัวประมาณของเราในชุดย่อยที่ระงับไว้ของตัวอย่างดั้งเดิมเนื่องจาก:

    (i) นี่จะเป็นการวัดเดียว ( แม้ว่าเราเลือกตัวประมาณค่าของเรากับ CV )

    (ii) เครื่องมือประมาณค่าของเราสำหรับการวัดเดี่ยวนี้จะได้รับการฝึกอบรมในชุด (เช่นชุด CV) ที่มีขนาดเล็กกว่าตัวอย่างเริ่มต้นของเราเนื่องจากเราต้องทำให้มีที่ว่างสำหรับชุดที่ค้างไว้ ผลนี้ในลำเอียงมากขึ้น (ในแง่ร้าย) การประมาณค่าในP1

ถูกต้องหรือไม่ ถ้าไม่ใช่เพราะอะไร

พื้นหลัง:

มันง่ายที่จะหาหนังสือที่แนะนำให้แบ่งตัวอย่างของคุณออกเป็นสองชุด:

  • CVชุดซึ่งเป็นที่ต่อมาซ้ำแล้วซ้ำอีกแบ่งออกเป็นรถไฟและการตรวจสอบชุด
  • ชุดhold-out (test) ใช้เฉพาะเมื่อสิ้นสุดเพื่อรายงานประสิทธิภาพของตัวประมาณ

คำถามของฉันคือความพยายามในการทำความเข้าใจข้อดีและข้อได้เปรียบของวิธีตำราเรียนนี้โดยพิจารณาว่าเป้าหมายของเราคือการจัดการปัญหาP1และP2ในตอนต้นของโพสต์นี้ สำหรับฉันแล้วการรายงานเกี่ยวกับชุดทดสอบการระงับถือเป็นการปฏิบัติที่ไม่ดีเนื่องจากการวิเคราะห์ตัวอย่าง CV นั้นให้ข้อมูลมากกว่า

K-fold ซ้อนกันซ้ำ K-fold:

หนึ่งสามารถในหลักการรวมถือเอากับปกติK-พับที่จะได้รับ ซ้อนกัน K-พับ นี้จะช่วยให้เราสามารถวัดความแปรปรวนของประมาณการของเรา แต่มันก็ดูกับผมว่าสำหรับจำนวนเดียวกันของรุ่นที่ผ่านการฝึกอบรมทั้งหมด (รวม # ของเท่า) ซ้ำ K-พับจะให้ผลผลิตประมาณค่าที่มีความลำเอียงน้อยและถูกต้องมากขึ้นกว่า K- ซ้อนกัน พับ. เพื่อดูสิ่งนี้:

  • K-fold ที่ซ้ำกันใช้ส่วนที่ใหญ่กว่าของตัวอย่างทั้งหมดของเรากว่า K-fold ที่ซ้อนกันสำหรับ K เดียวกัน (นั่นคือมันนำไปสู่การลดอคติ)
  • การวนซ้ำ 100 ครั้งจะให้การวัดประมาณ 10 ครั้งของเราใน K-fold ที่ซ้อนกัน (K = 10) แต่ 100 การวัดใน K-fold (การวัดเพิ่มเติมนำไปสู่การแปรปรวนที่ต่ำกว่าในP2 )

เกิดอะไรขึ้นกับเหตุผลนี้


1
ฉันได้ปรับแต่งชื่อของคุณเพื่อให้เฉพาะเจาะจงมากขึ้นกับสิ่งที่ฉันรวบรวมคุณต้องการทราบ ฉันคิดว่าคุณมีแนวโน้มที่จะได้รับข้อมูลที่คุณต้องการมากขึ้น อย่าลังเลที่จะเปลี่ยนกลับหากคุณไม่เห็นด้วย โปรดทราบด้วยว่าเธรดนี้กลายเป็น CW โดยอัตโนมัติเนื่องจากมีการแก้ไขจำนวนมาก หากคุณไม่ต้องการให้เป็น CW ให้ตั้งค่าสถานะเพื่อให้ผู้ดูแลทราบ มันควรจะเป็นไปได้ที่จะย้อนกลับ (ฉันคิดว่า)
gung - Reinstate Monica

1
ขอบคุณ @gung ความกังวลเพียงอย่างเดียวของฉันคือบางคนอาจสับสนกับCV แบบ 2 เท่าด้วยสิ่งนี้ฉันคิดว่าCV ภายนอกภายในเช่นเดียวกับใน Steyerberg03 ชัดเจนกว่า
Amelio Vazquez-Reina

คำตอบ:


20

ให้ฉันเพิ่มคะแนนสองสามคำในคำตอบที่ดีที่มีอยู่แล้วที่นี่:

K-fold ที่ซ้อนกัน vs k-fold ที่ซ้ำกัน: k-fold ที่ซ้อนกันและทำซ้ำเป็นสิ่งที่ต่างกันโดยสิ้นเชิง

  • อย่างที่คุณทราบแล้วการซ้อนกันนั้นดีถ้าคุณต้องการใช้ cv ภายในสำหรับการเลือกรูปแบบ
  • ทำซ้ำ: IMHO คุณควรทำซ้ำ k-fold cv [ดูด้านล่าง]

ฉันจึงแนะนำให้ทำการตรวจสอบความถูกต้องแบบซ้อน k-foldซ้ำ

รายงานที่ดีขึ้น "สถิติของเครื่องมือประมาณของเราเช่นช่วงความเชื่อมั่น, ความแปรปรวน, ค่าเฉลี่ย ฯลฯ ของตัวอย่างเต็มรูปแบบ (ในกรณีนี้คือตัวอย่าง CV)" :

แน่ใจ อย่างไรก็ตามคุณจำเป็นต้องตระหนักถึงความจริงที่ว่าคุณจะไม่สามารถประเมินช่วงความเชื่อมั่นได้อย่างง่ายดาย (โดยง่าย) จากผลลัพธ์การตรวจสอบความถูกต้องไขว้เพียงอย่างเดียว เหตุผลก็คือแม้ว่าคุณจะลองอีกครั้งจำนวนจริงของกรณีที่คุณดูมี จำกัด (และมักจะค่อนข้างเล็ก - มิฉะนั้นคุณจะไม่ต้องกังวลเกี่ยวกับความแตกต่างเหล่านี้)
ดูเช่นBengio วายและ Grandvalet, Y .: ไม่มีเป็นกลางประมาณการของความแปรปรวนของ K-พับข้ามการตรวจสอบวารสารเครื่องการเรียนรู้การวิจัย 2004, 5, 1089-1105

อย่างไรก็ตามในบางสถานการณ์คุณสามารถประมาณค่าความแปรปรวนได้: ด้วยการตรวจสอบความถูกต้องแบบข้าม k-fold ซ้ำคุณจะได้รับแนวคิดว่าแบบจำลองความไม่เสถียรมีบทบาทหรือไม่ และความแปรปรวนที่เกี่ยวข้องกับความไม่แน่นอนนี้เป็นส่วนหนึ่งของความแปรปรวนที่คุณสามารถลดได้ด้วยการตรวจสอบความถูกต้องข้ามซ้ำ (หากแบบจำลองของคุณมีความเสถียรอย่างสมบูรณ์แบบการทำซ้ำ / การวนซ้ำของการตรวจสอบไขว้แต่ละครั้งจะมีการคาดการณ์ที่เหมือนกันสำหรับแต่ละกรณีอย่างไรก็ตามคุณยังคงมีความแปรปรวนเนื่องจากตัวเลือก / องค์ประกอบจริงของชุดข้อมูลของคุณ) ดังนั้นจึงมีข้อ จำกัด สำหรับความแปรปรวนที่ต่ำกว่าของการตรวจสอบความถูกต้องข้าม k-fold ซ้ำ ๆ การทำมากขึ้นและมากขึ้นซ้ำ / ซ้ำไม่ได้ทำให้รู้สึกเป็นความแปรปรวนที่เกิดจากความจริงที่ว่าในท้ายที่สุดเพียงกรณีจริงได้มีการทดสอบไม่ได้รับผลกระทบ n

ความแปรปรวนที่เกิดจากความจริงที่ว่าในท้ายที่สุดเพียงกรณีจริงได้รับการทดสอบสามารถประมาณสำหรับกรณีพิเศษบางอย่างเช่นการทำงานของลักษณนามเป็นวัดจากสัดส่วนเช่นอัตราการตีอัตราความผิดพลาด, ความไวความจำเพาะค่าการทำนายและอื่น ๆ : พวกเขาปฏิบัติตามการแจกแจงทวินาม แต่น่าเสียดายที่นี้หมายถึงว่าพวกเขามีขนาดใหญ่ความแปรปรวนกับค่าประสิทธิภาพที่แท้จริงของรูปแบบที่สังเกตและขนาดตัวอย่างในส่วนของเศษส่วน สิ่งนี้มีค่าสูงสุดสำหรับσ 2 ( P ) = 1nP P nP=0.5σ2(p^)=1np(1p)pp^np=0.5. คุณยังสามารถคำนวณช่วงความมั่นใจที่เริ่มต้นจากการสังเกต (@ Frank Harrell จะแสดงความคิดเห็นว่าสิ่งเหล่านี้ไม่มีกฎการให้คะแนนที่เหมาะสมดังนั้นคุณไม่ควรใช้มัน - ซึ่งเกี่ยวข้องกับความแปรปรวนขนาดใหญ่) อย่างไรก็ตาม IMHO มีประโยชน์สำหรับการ จำกัด ขอบเขตอนุรักษ์นิยม (มีกฎการให้คะแนนที่ดีขึ้นและพฤติกรรมที่ไม่ดีของเศษส่วนเหล่านี้เป็นข้อ จำกัด ที่เลวร้ายที่สุดสำหรับกฎที่ดีกว่า)
ดูตัวอย่างเช่นC. Beleites, R. Salzer และ V. Sergo: การตรวจสอบความถูกต้องของแบบจำลองการจำแนกประเภทอ่อนโดยใช้การเป็นสมาชิกของกลุ่มบางส่วน: แนวคิดเพิ่มเติมของความไวและการประยุกต์ใช้กับการจัดระดับของเนื้อเยื่อ Astrocytoma, Chemom Intell ห้องปฏิบัติการ Syst., 122 (2013), 12 - 22

ดังนั้นนี้จะช่วยให้ฉันหันไปรอบ ๆ การโต้แย้งของคุณกับการระงับการออก :

  • การไม่สุ่มตัวอย่างเพียงอย่างเดียว (จำเป็น) ให้คุณประมาณค่าความแปรปรวนได้ดี
  • OTOH หากคุณสามารถให้เหตุผลเกี่ยวกับความแปรปรวนขนาดทดสอบตัวอย่างขนาดของการประเมินการตรวจสอบข้ามที่เป็นไปได้สำหรับการระงับ

เครื่องมือประเมินของเราสำหรับการวัดเดี่ยวนี้จะได้รับการฝึกอบรมในชุด (เช่นชุด CV) ที่มีขนาดเล็กกว่าตัวอย่างเริ่มต้นของเราเนื่องจากเราต้องทำให้มีที่ว่างสำหรับชุดที่ค้างไว้ สิ่งนี้ส่งผลให้การประเมินลำเอียง (แง่ร้าย) มากขึ้นใน P1

ไม่จำเป็น (ถ้าเทียบกับ k-fold) - แต่คุณต้องแลกด้วย: ชุดเล็ก ๆ ที่ค้างเอาไว้ (เช่นของกลุ่มตัวอย่าง => อคติต่ำ (≈เหมือนกับ k-fold cv), ความแปรปรวนสูง (> k-fold cv โดยประมาณเป็นปัจจัย k)1k

สำหรับฉันแล้วการรายงานเกี่ยวกับชุดการทดสอบการระงับถือเป็นสิ่งที่ไม่ดีเนื่องจากการวิเคราะห์ตัวอย่าง CV นั้นให้ข้อมูลมากกว่า

โดยปกติแล้วใช่ อย่างไรก็ตามก็ควรระลึกไว้เสมอว่ามีข้อผิดพลาดที่สำคัญหลายประเภท (เช่นดริฟท์) ที่ไม่สามารถวัด / ตรวจจับได้โดยการตรวจสอบความถูกต้องของตัวอย่างใหม่
ดูเช่นEsbensen, KH และ Geladi, P. หลักการของการตรวจสอบความถูกต้อง: การใช้และการสุ่มตัวอย่างซ้ำสำหรับการตรวจสอบความถูกต้อง, วารสาร Chemometrics, 2010, 24, 168-187

แต่สำหรับฉันแล้วสำหรับจำนวนรวมของแบบจำลองทั้งหมดที่ผ่านการฝึกอบรม (จำนวน # ทั้งหมด) ซ้ำแล้วซ้ำอีก K-fold จะให้ผลการประมาณที่ลำเอียงน้อยลงและแม่นยำกว่า K-fold ซ้อนกัน เพื่อดูสิ่งนี้:

K-fold ที่ซ้ำกันใช้ส่วนที่ใหญ่กว่าของตัวอย่างทั้งหมดของเรากว่า K-fold ที่ซ้อนกันสำหรับ K เดียวกัน (นั่นคือมันนำไปสู่การลดอคติ)

ฉันจะบอกว่าไม่มี: มันไม่สำคัญว่าการฝึกอบรมแบบจำลองจะใช้ตัวอย่างการฝึกอบรมมันตราบใดที่แบบจำลองตัวแทนและแบบจำลอง "ของจริง" ใช้ในแบบเดียวกัน ทาง (ฉันดูที่การตรวจสอบความถูกต้องไขว้ภายใน / การประมาณค่าพารามิเตอร์ไฮเปอร์เป็นส่วนหนึ่งของการตั้งค่าแบบจำลอง) สิ่งต่าง ๆ จะดูแตกต่างกันถ้าคุณเปรียบเทียบแบบจำลองตัวแทนซึ่งผ่านการฝึกอบรมรวมถึงการเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์กับ "โมเดล" ซึ่งได้รับการฝึกอบรมเกี่ยวกับพารามิเตอร์ไฮเปอร์คงที่ แต่ IMHO ที่สรุปจากแอปเปิ้ลเป็น 1 ส้มkk1kn
k

การวนซ้ำ 100 ครั้งจะให้การวัดประมาณ 10 ครั้งของเราใน K-fold ที่ซ้อนกัน (K = 10) แต่ 100 การวัดใน K-fold (การวัดเพิ่มเติมนำไปสู่การแปรปรวนที่ต่ำกว่าใน P2)

การทำเช่นนี้จะสร้างความแตกต่างหรือไม่ขึ้นอยู่กับความไม่แน่นอนของโมเดล (ตัวแทน) ดูด้านบน สำหรับรุ่นที่เสถียรนั้นไม่เกี่ยวข้อง ดังนั้นอาจเป็นได้ว่าคุณทำซ้ำหรือทำซ้ำ 1,000 ครั้งหรือ 100 ครั้ง


และบทความนี้แตกต่างกันไปในรายการอ่านในหัวข้อนี้: Cawley, GC และ Talbot, NLC ในการเลือกรุ่นที่มากเกินไปและการเลือกที่ตามมาในการประเมินประสิทธิภาพ, วารสารการวิจัยการเรียนรู้ของเครื่อง, 2010, 11, 2079-2107


6

การอ้างอิงที่สำคัญอธิบายนี่คือ:

@ARTICLE{pic90,
  author = {Picard, R. R. and Berk, K. N.},
  year = 1990,
  title = {Data splitting},
  journal = The American Statistician,
  volume = 44,
  pages = {140-147}
}

ดูสิ่งนี้ด้วย:

@Article{mic05pre,
  author =       {Michiels, Stefan and Koscielny, Serge and Hill, Catherine},
  title =        {Prediction of cancer outcome with microarrays: a
multiple random validation strategy},
  journal =      {Lancet},
  year =         2005,
  volume =       365,
  pages =        {488-492},
  annote =       {comment on
p. 454; validation;microarray;bioinformatics;machine learning;nearest
centroid;severe problems with data splitting;high variability of list
of genes;problems with published studies;nice results for effect of
training sample size on misclassification error;nice use of confidence
intervals on accuracy estimates;unstable molecular signatures;high
instability due to dependence on selection of training sample}
}

ในงานของฉันเองฉันพบว่าการแยกข้อมูลต้องการการฝึกอบรมและขนาดตัวอย่างทดสอบที่ใกล้ถึง 10,000 เพื่อให้ทำงานได้อย่างน่าพอใจ


Frank - นี่เป็นแหล่งข้อมูลที่ยอดเยี่ยม ฉันสงสัยว่าข้อมูลนี้เกี่ยวข้องกับสิ่งที่ @Dan ให้ไว้ในคำตอบของเขาหรือไม่ บางทีฉันอาจจะเข้าใจผิด แต่ดูเหมือนว่าชุมชนจะถูกแบ่งออกเป็นประเด็นนี้
Amelio Vazquez-Reina

ฉันไม่มีเวลาอ่านหนังสือเล่มแรก แต่อย่างที่สองฉันได้อย่างรวดเร็วและดูเหมือนว่าจะสะท้อนสิ่งที่เอกสารของฉันพูด ดูส่วน "การวิเคราะห์เชิงสถิติ" อย่างละเอียดและคุณจะเห็นว่าพวกเขาอธิบายถึงกระบวนการเลือกคุณสมบัติแบบเดียวกับที่ Dikran อธิบายในโพสต์ที่ฉันลิงก์ไว้ด้านบน ฉันเดาว่าคนที่พวกเขาศึกษาไม่ได้ทำแบบนั้นและนั่นคือสาเหตุที่พวกเขาพบว่า "เนื่องจากการตรวจสอบไม่เพียงพอการศึกษาที่เราเลือกจึงเผยแพร่ผลลัพธ์ที่เกินความเป็นจริงเมื่อเทียบกับการวิเคราะห์ของเราเอง" ฉันไม่คิดว่าจะมีข้อขัดแย้งใด ๆ
Dan L

4

มันขึ้นอยู่กับกระบวนการสร้างแบบจำลองของคุณ แต่ฉันพบว่าบทความนี้มีประโยชน์

http://www.biomedcentral.com/content/pdf/1471-2105-7-91.pdf

ประเด็นสำคัญของสิ่งที่กล่าวถึงในที่นี้คืออคติเชิงเสรีที่สำคัญ (การประเมินประสิทธิภาพของแบบจำลองจะดีกว่าที่เป็นจริง) ที่จะเกิดขึ้นหากคุณเลือกแบบจำลองของคุณตามสิ่งเดียวกับที่คุณใช้ในการประเมินประสิทธิภาพ ดังนั้นหากคุณกำลังเลือกโมเดลของคุณจากชุดของโมเดลที่เป็นไปได้โดยดูที่ข้อผิดพลาดการตรวจสอบข้ามคุณไม่ควรใช้ข้อผิดพลาดการตรวจสอบข้าม (หรือวิธีการประเมินภายในอื่น ๆ ) เพื่อประเมินประสิทธิภาพของโมเดล

ทรัพยากรที่มีประโยชน์ก็คือ

/stats//a/27751/26589

โพสต์นี้แสดงตัวอย่างที่ชัดเจนว่าการเลือกคุณลักษณะของคุณอย่างไรเมื่อข้อมูลทั้งหมด "ถูกมองเห็น" จะนำไปสู่การมีอคติแบบเสรีในประสิทธิภาพของแบบจำลอง (การบอกว่าแบบจำลองของคุณจะทำงานได้ดีกว่าที่เป็นจริง)

หากคุณต้องการให้ฉันจัดทำตัวอย่างที่เฉพาะเจาะจงมากขึ้นกับสิ่งที่คุณทำคุณอาจให้คำอธิบายทั่วไปเกี่ยวกับประเภทของแบบจำลองที่คุณกำลังสร้าง (จำนวนข้อมูลที่คุณมีจำนวนคุณสมบัติที่คุณเลือกจาก รุ่นจริง ฯลฯ )


ขอบคุณแดน ทั้งหมดนี้น่าสนใจ เพื่อความง่ายเราสามารถสันนิษฐานได้ว่าเรากำลังพยายามประเมินพารามิเตอร์เคอร์เนลของ SVM (เช่นเคอร์เนล RBF) สำหรับการจำแนกประเภทไบนารี (พารามิเตอร์ <~ 10) และเรากำลังทำงานกับ 100 ตัวอย่าง (เช่น 20 ผลบวก) จากประชากรขนาดใหญ่
Amelio Vazquez-Reina

คำถามด่วนสองสามข้อ 1) เมื่อคุณสร้าง SVM ของคุณคุณอนุญาตให้คุณเลือกชุดย่อยของพารามิเตอร์ 10 ตัวหรือคุณใช้พารามิเตอร์ทั้งหมดที่คุณส่งมาตลอดหรือไม่? 2) คุณเคยพิจารณาเมล็ดหรือรุ่นที่แตกต่างกัน (โลจิสติกป่าสุ่ม ฯลฯ ) หรือไม่? 3) คุณใช้ซอฟต์แวร์ / แพ็คเกจอะไร การใช้งานการตรวจสอบข้ามที่ติดตั้งภายในนั้นแตกต่างกันไปและฉันต้องการทราบว่าคุณต้องการใช้
Dan L

ขอบคุณ @Dan - ฉันทำการค้นหากริดกับแบบจำลองและพารามิเตอร์ต่างๆ (เช่นเคอร์เนลและพารามิเตอร์ต่างจากการค้นหากริด) สำหรับการทดสอบแต่ละครั้งในการค้นหากริดฉันใช้ CV (การตรวจสอบความถูกต้องข้าม K-fold ซ้ำ) ฉันกำลังใช้ scikit เรียนรู้
Amelio Vazquez-Reina

1
ขอบคุณ @Dan ฉันเดาว่าคำถามเดียวของฉันที่เหลือเกี่ยวกับการตรวจสอบความถูกต้องไขว้ซ้อนกันคือวิธีเลือกแบบจำลอง (เนื่องจากฉันได้รูปแบบที่แตกต่างกันในแต่ละวงรอบนอกของวงรอบ) ฉันคงไม่สมควรที่จะเลือกแบบจำลองที่มีคะแนนสูงสุดในวงรอบนอกนี้เนื่องจากแบบจำลองที่ชนะในแต่ละครึ่งถูกวัดเทียบกับส่วนต่าง ๆ ของชุดข้อมูล
Amelio Vazquez-Reina

1
สมมติว่าคุณมีสามเท่าภายนอก ซึ่งหมายความว่าคุณใช้กระบวนการสร้างแบบจำลองทั้งหมด 3 ครั้งมอบรูปแบบที่แตกต่างกันสามแบบ คุณไม่ได้ใช้โมเดลเหล่านั้นในตอนท้าย - เพื่อให้ได้แบบจำลองขั้นสุดท้ายของคุณคุณจะใช้กระบวนการสร้างแบบจำลองทั้งหมดบนข้อมูลทั้งหมดของคุณ (ยกเว้นอาจเป็นชุดประเมินอิสระ) ดูเหมือนว่าสิ่งนี้จะนำไปสู่การ overfitting แต่ถ้ากลยุทธ์การสร้างแบบจำลองของคุณ overfits มันควรจะมากเกินไปในการตรวจสอบข้ามด้านนอกนำไปสู่การประมาณการข้อผิดพลาดที่สูงขึ้นอย่างเหมาะสม
Dan L

2

ฉันคิดว่าคุณเข้าใจถูกต้องตัวประมาณความสูญเสียที่ได้รับจากการใช้ชุดทดสอบแบบโฮลด์เอาต์เดียวมักจะมีความแปรปรวนสูง ด้วยการดำเนินการบางอย่างเช่นการตรวจสอบความถูกต้องข้าม K-folds คุณจะได้รับแนวคิดที่ถูกต้องมากขึ้นเกี่ยวกับการสูญเสียรวมถึงความรู้สึกของการกระจายของการสูญเสีย

โดยทั่วไปแล้วจะมีการแลกเปลี่ยนทาง CV ที่มากขึ้นจะทำให้การประมาณการของคุณดีขึ้น


ขอบคุณ ฉันได้เพิ่มส่วนพื้นหลังลงใน OP เพื่อชี้แจงคำถามของฉันเพิ่มเติม
Amelio Vazquez-Reina
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.