คำถามติดแท็ก cross-validation

หัก ณ ที่จ่ายซ้ำชุดย่อยของข้อมูลในระหว่างการปรับแบบจำลองเพื่อวัดประสิทธิภาพของแบบจำลองในชุดย่อยข้อมูลที่ถูกระงับ

5
คุณสามารถ overfit โดยการฝึกอบรมอัลกอริทึมการเรียนรู้โดยใช้ CV / Bootstrap ได้หรือไม่?
คำถามนี้อาจเปิดกว้างเกินไปที่จะได้รับคำตอบที่ชัดเจน แต่หวังว่าจะไม่ อัลกอริทึมการเรียนรู้ของเครื่องเช่น SVM, GBM, Random Forest เป็นต้นโดยทั่วไปจะมีพารามิเตอร์อิสระบางอย่างที่นอกเหนือจากกฎของคำแนะนำนิ้วหัวแม่มือจำเป็นต้องปรับจูนให้กับแต่ละชุดข้อมูล โดยทั่วไปจะทำด้วยเทคนิคการสุ่มตัวอย่างใหม่ (bootstrap, CV ฯลฯ ) เพื่อให้พอดีกับชุดของพารามิเตอร์ที่ให้ข้อผิดพลาดในการวางนัยทั่วไปที่ดีที่สุด คำถามของฉันคือคุณไปไกลเกินไปไหม ผู้คนพูดคุยเกี่ยวกับการค้นหากริดตามที่กล่าวมา แต่ทำไมไม่เพียงแค่คิดว่านี่เป็นปัญหาการปรับให้เหมาะสมแล้วเจาะลึกไปที่ชุดของพารามิเตอร์ที่ดีที่สุด ฉันถามเกี่ยวกับกลไกบางอย่างของคำถามนี้แต่ก็ไม่ได้รับความสนใจมากนัก อาจเป็นคำถามที่ถามไม่ดี แต่บางทีคำถามนั้นแสดงถึงแนวทางที่ไม่ดีที่คนทั่วไปไม่ทำ สิ่งที่รบกวนจิตใจฉันคือขาดระเบียบ ฉันอาจค้นหาด้วยการสุ่มตัวอย่างอีกครั้งว่าจำนวนต้นไม้ที่ดีที่สุดที่จะเติบโตใน GBM สำหรับชุดข้อมูลนี้คือ 647 กับความลึกของการโต้ตอบที่ 4 แต่ฉันแน่ใจได้อย่างไรว่านี่จะเป็นจริงของข้อมูลใหม่ (สมมติว่าประชากรใหม่ เหมือนกับชุดฝึกอบรม) หรือไม่ ไม่มีค่าที่สมเหตุสมผลในการ 'ลดขนาด' เป็น (หรือถ้าคุณต้องการไม่มีข้อมูลก่อนหน้านี้) การสุ่มตัวอย่างใหม่ดูเหมือนว่าดีที่สุดที่เราสามารถทำได้ ฉันแค่ไม่ได้ยินคำพูดใด ๆ เกี่ยวกับเรื่องนี้ดังนั้นมันทำให้ฉันสงสัยว่ามีบางสิ่งที่ฉันขาดหายไป เห็นได้ชัดว่ามีค่าใช้จ่ายในการคำนวณจำนวนมากที่เกี่ยวข้องกับการทำซ้ำหลาย ๆ ครั้งเพื่อบีบพลังการคาดเดาสุดท้ายออกจากแบบจำลองดังนั้นชัดเจนว่านี่คือสิ่งที่คุณจะทำถ้าคุณมีเวลา / ไม่เต็มใจที่จะทำการปรับให้เหมาะสม ของการปรับปรุงประสิทธิภาพนั้นมีค่า


1
การใช้การตรวจสอบข้ามอย่างไม่ถูกต้อง (ประสิทธิภาพการรายงานสำหรับค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ดีที่สุด)
เมื่อเร็ว ๆ นี้ฉันเจอกระดาษที่เสนอให้ใช้ตัวจําแนกk-NNบนชุดข้อมูลเฉพาะ ผู้เขียนใช้ตัวอย่างข้อมูลทั้งหมดที่มีเพื่อดำเนินการตรวจสอบความถูกต้องข้าม k-fold สำหรับค่าk ที่แตกต่างกันและรายงานผลการตรวจสอบความถูกต้องข้ามของการกำหนดค่าพารามิเตอร์พารามิเตอร์ที่ดีที่สุด สำหรับความรู้ของฉันผลลัพธ์นี้มีความลำเอียงและพวกเขาควรจะมีชุดการทดสอบแยกต่างหากเพื่อให้ได้การประเมินความถูกต้องของตัวอย่างที่ไม่ได้ใช้ในการเพิ่มประสิทธิภาพพารามิเตอร์มากเกินไป ฉันถูกไหม? คุณสามารถให้ข้อมูลอ้างอิงบางส่วน (ควรเป็นบทความวิจัย) ที่อธิบายการใช้การตรวจสอบไขว้ในทางที่ผิดหรือไม่?

1
ข้อผิดพลาดของตัวชี้วัดสำหรับโมเดลพัวซองที่ผ่านการตรวจสอบความถูกต้อง
ฉันข้ามการตรวจสอบรูปแบบที่พยายามทำนายการนับ หากนี่เป็นปัญหาการจำแนกเลขฐานสองฉันจะคำนวณ AUC แบบพับได้และถ้านี่เป็นปัญหาการถดถอยฉันจะคำนวณ RMSE หรือ Mae แบบ out-of-fold สำหรับโมเดลปัวซงฉันสามารถใช้เมตริกข้อผิดพลาดใดในการประเมิน "ความถูกต้อง" ของการคาดการณ์ที่ไม่อยู่ในกลุ่มตัวอย่าง มีส่วนขยายของปัวซองของ AUC ที่ดูว่าการทำนายลำดับค่าที่แท้จริงดีเพียงใด ดูเหมือนว่าการแข่งขัน Kaggle จำนวนมากสำหรับการนับ (เช่นจำนวนคะแนนโหวตที่เป็นประโยชน์ที่รีวิวร้องเอ๋งจะได้รับหรือจำนวนวันที่ผู้ป่วยจะใช้จ่ายในโรงพยาบาล) ใช้ข้อผิดพลาดรากหมายถึงบันทึกกำลังสองหรือ RMLSE / แก้ไข: สิ่งหนึ่งที่ฉันได้ทำคือการคำนวณ deciles ของค่าที่คาดการณ์ไว้และจากนั้นดูที่การนับจริงโดย binned by decile ถ้า decile 1 อยู่ในระดับต่ำ decile 10 จะสูงและ decile ในระหว่างนั้นเพิ่มขึ้นอย่างเคร่งครัดฉันได้เรียกโมเดล "ดี" แต่ฉันประสบปัญหาในการหาจำนวนกระบวนการนี้และฉันเชื่อว่ามันดีกว่า เข้าใกล้ / แก้ไข 2: ฉันกำลังมองหาสูตรที่ใช้ค่าที่คาดการณ์และตามจริงและส่งกลับเมตริก "ข้อผิดพลาด" หรือ "ความแม่นยำ" บางส่วน แผนของฉันคือการคำนวณฟังก์ชั่นนี้เกี่ยวกับข้อมูลที่อยู่นอกกรอบในระหว่างการตรวจสอบความถูกต้องและจากนั้นใช้เพื่อเปรียบเทียบแบบจำลองที่หลากหลาย …

3
การตรวจสอบความถูกต้องข้ามของ K-fold กับ Monte Carlo
ฉันกำลังพยายามเรียนรู้วิธีการตรวจสอบข้ามหลายวิธีโดยมีความตั้งใจที่จะนำไปใช้กับเทคนิคการวิเคราะห์หลายตัวแปรภายใต้การดูแล สองที่ฉันเจอคือเทคนิคการตรวจสอบข้ามแบบ K-fold และ Monte Carlo ฉันได้อ่านแล้วว่า K-fold เป็นรูปแบบที่เปลี่ยนแปลงของ Monte Carlo แต่ฉันไม่แน่ใจว่าฉันเข้าใจอย่างถ่องแท้ว่าอะไรเป็นตัวกำหนดนิยามของ Monte Carlo ใครช่วยอธิบายความแตกต่างระหว่างสองวิธีนี้ได้ไหม

2
เหตุใดจึงต้องใช้การตรวจสอบข้ามแบบแบ่งชั้น ทำไมสิ่งนี้จึงไม่ได้สร้างความเสียหายแปรปรวนที่เกี่ยวข้องกับผลประโยชน์?
ฉันได้รับการบอกว่าเป็นประโยชน์ในการใช้การตรวจสอบความถูกต้องข้ามกลุ่มโดยเฉพาะอย่างยิ่งเมื่อคลาสการตอบกลับไม่สมดุล หากจุดประสงค์หนึ่งของการตรวจสอบข้ามจุดประสงค์คือเพื่อช่วยให้บัญชีสุ่มตัวอย่างข้อมูลการฝึกอบรมเดิมของเราแน่นอนว่าแต่ละครั้งที่การแจกจ่ายคลาสเดียวกันจะทำงานกับสิ่งนี้เว้นแต่ว่าคุณแน่ใจว่าชุดการฝึกอบรมดั้งเดิมของคุณมีการแจกจ่ายชั้นตัวแทน ตรรกะของฉันมีข้อบกพร่องหรือไม่ แก้ไข ฉันสนใจว่าวิธีนี้จะทำลายผลดีของ CV หรือไม่ ฉันสามารถดูว่าทำไมมันเป็นสิ่งจำเป็นถ้าคุณมีตัวอย่างขนาดเล็ก / คลาสที่ไม่สมดุลมาก / ทั้งคู่เพื่อหลีกเลี่ยงการไม่มีตัวแทนคนเดียวของคลาสรองลงมา กระดาษแอปเปิ้ลต่อแอปเปิ้ลในการศึกษาการตรวจสอบข้าม: ข้อผิดพลาดในการวัดประสิทธิภาพลักษณนามส่งต่อกรณีสำหรับการแบ่งชั้นเป็นอย่างดี แต่ข้อโต้แย้งทั้งหมดดูเหมือนจะเป็นจำนวน 'การแบ่งชั้นเป็น ข้อมูล. คือคำตอบง่ายๆ"เราใช้มันโดยไม่จำเป็นเพราะเราไม่ค่อยมีข้อมูลเพียงพอ" ?

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
การตรวจสอบข้ามรวมถึงการฝึกอบรมการตรวจสอบและการทดสอบ ทำไมเราต้องการชุดย่อยสามชุด
ฉันมีคำถามเกี่ยวกับกระบวนการตรวจสอบข้าม ฉันอยู่ในช่วงของการเรียนรู้ของเครื่องใน Cursera หนึ่งในหัวข้อที่เกี่ยวกับการตรวจสอบข้าม ฉันพบว่ามันยากที่จะทำตามเล็กน้อย ฉันรู้ว่าทำไมเราต้องมี CV เพราะเราต้องการให้แบบจำลองของเราทำงานได้ดีในอนาคต (ไม่ทราบ) ข้อมูลและ CV ป้องกันไม่ให้เกินกำลัง อย่างไรก็ตามกระบวนการเองก็สับสน สิ่งที่ฉันเข้าใจคือฉันแบ่งข้อมูลออกเป็น 3 ชุดย่อย: การฝึกอบรมการตรวจสอบความถูกต้องและการทดสอบ Train and Validation คือการค้นหาความซับซ้อนที่เหมาะสมที่สุดของแบบจำลอง สิ่งที่ฉันไม่เข้าใจคือชุดย่อยที่สาม ฉันเข้าใจว่าฉันใช้คุณสมบัติหลายอย่างสำหรับแบบจำลองฝึกอบรมและตรวจสอบความถูกต้องบนชุดย่อยการตรวจสอบความถูกต้องและมองหาฟังก์ชั่นต้นทุนขั้นต่ำเมื่อฉันเปลี่ยนโครงสร้าง เมื่อฉันพบมันฉันจะทดสอบรูปแบบในชุดย่อยทดสอบ ถ้าฉันได้พบฟังก์ชั่นต้นทุนขั้นต่ำในส่วนย่อยการตรวจสอบแล้วทำไมฉันต้องทดสอบอีกครั้งในชุดย่อยทดสอบ ??? มีคนช่วยอธิบายเรื่องนี้ให้ฉันหน่อยได้ไหม? ขอขอบคุณ

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
การตรวจสอบความถูกต้องไขว้เป็นการทดแทนที่เหมาะสมสำหรับชุดการตรวจสอบหรือไม่
ในการจัดประเภทข้อความฉันมีชุดการฝึกอบรมที่มีประมาณ 800 ตัวอย่างและชุดทดสอบที่มีประมาณ 150 ตัวอย่าง ไม่เคยใช้ชุดทดสอบและรอจนกว่าจะหมด ฉันใช้ชุดการฝึกอบรมตัวอย่าง 800 ชุดพร้อมการตรวจสอบไขว้ 10 เท่าในขณะที่ปรับแต่งและปรับแต่งตัวแยกประเภทและคุณสมบัติ ซึ่งหมายความว่าฉันไม่ได้มีชุดการตรวจสอบแยกต่างหาก แต่แต่ละชุดมี 10 เท่าชุดตรวจสอบจะถูกเลือกโดยอัตโนมัติ หลังจากที่ฉันจะพอใจกับทุกสิ่งและต้องการเข้าสู่ขั้นตอนสุดท้ายของการประเมินผลฉันจะฝึกตัวแยกประเภทของฉันในตัวอย่าง 800 ตัวอย่าง และทดสอบชุดทดสอบตัวอย่าง 150 ชุด ฉันเข้าใจหรือไม่ว่าการใช้การตรวจสอบข้ามในการจำแนกข้อความถูกต้องหรือไม่? วิธีนี้ใช้ได้หรือไม่ คำถามอื่นการตรวจสอบข้าม wrt คือ: แทนที่จะเป็น 10 เท่าฉันก็ลองใช้ตัวบ่งชี้ทั่วไปสำหรับการแสดงแทน เพราะสำหรับการออกไปข้างนอกเป็นไปไม่ได้ที่จะมีข้อมูลเกี่ยวกับ f1 / ความแม่นยำ / การเรียกคืนฉันสงสัยว่าความสัมพันธ์ระหว่างความถูกต้องจากการออกจากที่หนึ่งกับตัวชี้วัดจาก 10 เท่าคืออะไร ข้อมูลเชิงลึกใด ๆ จะได้รับการชื่นชมอย่างมาก แก้ไข: นี่เป็นการแนะนำที่ดีมากสำหรับการตรวจสอบความถูกต้องข้าม มันยังอ้างถึงงานวิจัยอื่น ๆ

4
เหตุใดจึงมีความไม่สมดุลระหว่างขั้นตอนการฝึกอบรมและขั้นตอนประเมินผล
เป็นที่รู้จักกันดีโดยเฉพาะอย่างยิ่งในการประมวลผลภาษาธรรมชาติที่การเรียนรู้ของเครื่องควรดำเนินการในสองขั้นตอนขั้นตอนการฝึกอบรมและขั้นตอนการประเมินผลและพวกเขาควรใช้ข้อมูลที่แตกต่างกัน ทำไมนี้ โดยสังหรณ์ใจกระบวนการนี้ช่วยหลีกเลี่ยงการบีบอัดข้อมูลมากเกินไป แต่ฉันไม่เห็นเหตุผล (ข้อมูลเชิงทฤษฎี) ในกรณีนี้ ที่เกี่ยวข้องฉันได้เห็นตัวเลขจำนวนหนึ่งโยนไปรอบ ๆ สำหรับชุดข้อมูลที่ควรใช้สำหรับการฝึกอบรมและจำนวนการประเมินเช่น 2/3 และ 1/3 ตามลำดับ มีพื้นฐานทางทฤษฎีสำหรับการเลือกการแจกแจงแบบพิเศษหรือไม่?

2
การประมาณค่าความแปรปรวนในการตรวจสอบความถูกต้องข้ามของ k-fold
การตรวจสอบความถูกต้องไขว้ของ K-fold สามารถใช้เพื่อประเมินความสามารถในการวางนัยทั่วไปของลักษณนามที่กำหนด ฉันสามารถ (หรือฉันควร) คำนวณความแปรปรวนแบบพูลจากการตรวจสอบความถูกต้องทั้งหมดเพื่อให้ได้การประมาณความแปรปรวนที่ดีขึ้นหรือไม่ ถ้าไม่ทำไม ฉันได้พบเอกสารที่จะใช้ค่าเบี่ยงเบนมาตรฐาน pooled ข้ามการตรวจสอบข้ามวิ่ง ฉันยังได้พบเอกสารระบุชัดเจนมีไม่มีประมาณการสากลสำหรับการตรวจสอบความแปรปรวน อย่างไรก็ตามฉันยังพบเอกสารที่แสดงตัวประมาณค่าความแปรปรวนบางอย่างสำหรับข้อผิดพลาดทั่วไป (ฉันยังคงอ่านและพยายามเข้าใจสิ่งนี้) ผู้คนทำอะไร (หรือรายงาน) ในทางปฏิบัติจริง ๆ ? แก้ไข:เมื่อใช้ CV ในการวัดข้อผิดพลาดการจำแนกอย่างคร่าวๆ (นั่นคือตัวอย่างได้รับการติดฉลากอย่างถูกต้องหรือไม่มี; เช่นจริงหรือเท็จ) ดังนั้นจึงอาจไม่เหมาะสมที่จะพูดคุยเกี่ยวกับความแปรปรวนร่วม อย่างไรก็ตามฉันกำลังพูดถึงกรณีที่สถิติที่เรากำลังประเมินมีความแปรปรวนที่กำหนดไว้ ดังนั้นสำหรับการพับที่กำหนดเราสามารถจบลงด้วยค่าสำหรับสถิติและการประมาณค่าความแปรปรวน ดูเหมือนจะไม่ถูกต้องที่จะทิ้งข้อมูลนี้และพิจารณาเฉพาะสถิติเฉลี่ย และในขณะที่ฉันรู้ว่าฉันสามารถสร้างการประมาณค่าความแปรปรวนโดยใช้วิธีการ bootstrap (ถ้าฉันไม่ผิดมาก) การทำเช่นนั้นจะยังคงเพิกเฉยต่อความแปรปรวนแบบพับและใช้การประมาณการทางสถิติเพียงอย่างเดียวในการพิจารณา

1
หนึ่งสามารถสังเกตุเห็นได้ชัดใน R ซึ่งวิธีการตรวจสอบข้ามที่ AIC และ BIC จะเทียบเท่าได้อย่างไร?
ในคำถามอื่น ๆ ในไซต์นี้คำตอบหลายข้อกล่าวว่า AIC นั้นเทียบเท่ากับการตรวจสอบความถูกต้องแบบ cross-one-out (LOO) และ BIC นั้นเทียบเท่ากับการตรวจสอบความถูกต้องข้ามแบบ K-fold มีวิธีที่จะแสดงให้เห็นถึงสังเกตุนี้ใน R หรือไม่ว่าเทคนิคที่เกี่ยวข้องใน LOO และ K-fold นั้นชัดเจนและแสดงให้เห็นว่าเทียบเท่ากับค่า AIC และ BIC หรือไม่? รหัสความคิดเห็นดีจะเป็นประโยชน์ในเรื่องนี้ นอกจากนี้ในการสาธิต BIC โปรดใช้แพ็คเกจ lme4 ดูตัวอย่างชุดข้อมูลด้านล่าง ... library(lme4) #for the BIC function generate.data <- function(seed) { set.seed(seed) #Set a seed so the results are consistent (I hope) a …
26 r  aic  cross-validation  bic 

4
การตรวจสอบความถูกต้องไขว้ภายนอกและการเลือกรุ่น
ความเข้าใจของฉันคือว่าด้วยการตรวจสอบข้ามและการเลือกรูปแบบเราพยายามที่จะอยู่สองสิ่ง: P1 ประเมินการสูญเสียที่คาดหวังของประชากรเมื่อฝึกอบรมกับตัวอย่างของเรา P2 . วัดและรายงานความไม่แน่นอนของการประมาณนี้ของเรา (ความแปรปรวนช่วงความเชื่อมั่นอคติ ฯลฯ ) การปฏิบัติมาตรฐานดูเหมือนว่าจะทำการตรวจสอบข้ามซ้ำเนื่องจากจะช่วยลดความแปรปรวนของเครื่องมือประมาณค่าของเรา อย่างไรก็ตามเมื่อพูดถึงการรายงานและการวิเคราะห์ความเข้าใจของฉันคือการตรวจสอบภายในดีกว่าการตรวจสอบภายนอกเพราะ: เป็นการดีกว่าที่จะรายงาน: สถิติของเครื่องมือประมาณค่าของเราเช่นช่วงความเชื่อมั่น, ความแปรปรวน, ค่าเฉลี่ย ฯลฯ ของตัวอย่างเต็มรูปแบบ (ในกรณีนี้คือตัวอย่าง CV) กว่าการรายงาน: การสูญเสียตัวประมาณของเราในชุดย่อยที่ระงับไว้ของตัวอย่างดั้งเดิมเนื่องจาก: (i) นี่จะเป็นการวัดเดียว ( แม้ว่าเราเลือกตัวประมาณค่าของเรากับ CV ) (ii) เครื่องมือประมาณค่าของเราสำหรับการวัดเดี่ยวนี้จะได้รับการฝึกอบรมในชุด (เช่นชุด CV) ที่มีขนาดเล็กกว่าตัวอย่างเริ่มต้นของเราเนื่องจากเราต้องทำให้มีที่ว่างสำหรับชุดที่ค้างไว้ ผลนี้ในลำเอียงมากขึ้น (ในแง่ร้าย) การประมาณค่าในP1 ถูกต้องหรือไม่ ถ้าไม่ใช่เพราะอะไร พื้นหลัง: มันง่ายที่จะหาหนังสือที่แนะนำให้แบ่งตัวอย่างของคุณออกเป็นสองชุด: CVชุดซึ่งเป็นที่ต่อมาซ้ำแล้วซ้ำอีกแบ่งออกเป็นรถไฟและการตรวจสอบชุด ชุดhold-out (test) ใช้เฉพาะเมื่อสิ้นสุดเพื่อรายงานประสิทธิภาพของตัวประมาณ คำถามของฉันคือความพยายามในการทำความเข้าใจข้อดีและข้อได้เปรียบของวิธีตำราเรียนนี้โดยพิจารณาว่าเป้าหมายของเราคือการจัดการปัญหาP1และP2ในตอนต้นของโพสต์นี้ สำหรับฉันแล้วการรายงานเกี่ยวกับชุดทดสอบการระงับถือเป็นการปฏิบัติที่ไม่ดีเนื่องจากการวิเคราะห์ตัวอย่าง CV นั้นให้ข้อมูลมากกว่า K-fold ซ้อนกันซ้ำ K-fold: …

4
คุณจะใช้ชุดข้อมูล 'ทดสอบ' หลังจากการตรวจสอบข้ามได้อย่างไร
ในการบรรยายและแบบฝึกหัดที่ฉันเห็นพวกเขาแนะนำให้แบ่งข้อมูลของคุณออกเป็นสามส่วน: การฝึกอบรมการตรวจสอบและการทดสอบ แต่ยังไม่ชัดเจนว่าควรใช้ชุดข้อมูลการทดสอบอย่างไรและวิธีการนี้ดีกว่าการตรวจสอบข้ามชุดข้อมูลทั้งหมด สมมติว่าเราได้บันทึก 20% ของข้อมูลของเราเป็นชุดทดสอบ จากนั้นเราจะแบ่งส่วนที่เหลือแบ่งออกเป็น k เท่าและโดยใช้การตรวจสอบความถูกต้องเราพบว่าแบบจำลองที่สร้างการทำนายที่ดีที่สุดสำหรับข้อมูลที่ไม่รู้จักจากชุดข้อมูลนี้ สมมติว่าแบบจำลองที่ดีที่สุดที่เราพบมีความแม่นยำ75% แบบฝึกหัดและคำถามมากมายในเว็บไซต์ถามตอบต่างๆบอกว่าตอนนี้เราสามารถตรวจสอบโมเดลของเราในชุดข้อมูล (ทดสอบ) ที่บันทึกไว้ แต่ฉันก็ยังไม่สามารถเข้าใจได้ว่ามันถูกต้องหรือไม่ สมมติว่าเรามีความแม่นยำ70%ในชุดข้อมูลการทดสอบ แล้วเราจะทำอย่างไรต่อไป เราลองแบบอื่นแล้วลองอีกแบบจนกว่าเราจะได้คะแนนสูงในชุดทดสอบของเราหรือไม่ แต่ในกรณีนี้จริงๆมันดูเหมือนว่าเราก็จะได้พบกับรูปแบบที่เหมาะกับการ จำกัด (เพียง 20%) ชุดทดสอบของเรา ไม่ได้หมายความว่าเราจะพบกับโมเดลที่ดีที่สุดโดยทั่วไป ยิ่งกว่านั้นเราจะพิจารณาคะแนนนี้เป็นการประเมินแบบทั่วไปได้อย่างไรหากคำนวณเฉพาะในชุดข้อมูลที่ จำกัด เท่านั้น หากคะแนนนี้ต่ำเราอาจโชคไม่ดีและเลือกข้อมูลการทดสอบ "ไม่ดี" ในทางกลับกันถ้าเราใช้ข้อมูลทั้งหมดที่เรามีแล้วเลือกแบบจำลองโดยใช้การตรวจสอบความถูกต้องข้ามของ K-fold เราจะพบรูปแบบที่ทำให้การทำนายที่ดีที่สุดสำหรับข้อมูลที่ไม่รู้จักจากชุดข้อมูลทั้งหมดที่เรามี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.