สถิติและข้อมูลขนาดใหญ่ cross-validation

5

คุณสามารถ overfit โดยการฝึกอบรมอัลกอริทึมการเรียนรู้โดยใช้ CV / Bootstrap ได้หรือไม่?

คำถามนี้อาจเปิดกว้างเกินไปที่จะได้รับคำตอบที่ชัดเจน แต่หวังว่าจะไม่ อัลกอริทึมการเรียนรู้ของเครื่องเช่น SVM, GBM, Random Forest เป็นต้นโดยทั่วไปจะมีพารามิเตอร์อิสระบางอย่างที่นอกเหนือจากกฎของคำแนะนำนิ้วหัวแม่มือจำเป็นต้องปรับจูนให้กับแต่ละชุดข้อมูล โดยทั่วไปจะทำด้วยเทคนิคการสุ่มตัวอย่างใหม่ (bootstrap, CV ฯลฯ ) เพื่อให้พอดีกับชุดของพารามิเตอร์ที่ให้ข้อผิดพลาดในการวางนัยทั่วไปที่ดีที่สุด คำถามของฉันคือคุณไปไกลเกินไปไหม ผู้คนพูดคุยเกี่ยวกับการค้นหากริดตามที่กล่าวมา แต่ทำไมไม่เพียงแค่คิดว่านี่เป็นปัญหาการปรับให้เหมาะสมแล้วเจาะลึกไปที่ชุดของพารามิเตอร์ที่ดีที่สุด ฉันถามเกี่ยวกับกลไกบางอย่างของคำถามนี้แต่ก็ไม่ได้รับความสนใจมากนัก อาจเป็นคำถามที่ถามไม่ดี แต่บางทีคำถามนั้นแสดงถึงแนวทางที่ไม่ดีที่คนทั่วไปไม่ทำ สิ่งที่รบกวนจิตใจฉันคือขาดระเบียบ ฉันอาจค้นหาด้วยการสุ่มตัวอย่างอีกครั้งว่าจำนวนต้นไม้ที่ดีที่สุดที่จะเติบโตใน GBM สำหรับชุดข้อมูลนี้คือ 647 กับความลึกของการโต้ตอบที่ 4 แต่ฉันแน่ใจได้อย่างไรว่านี่จะเป็นจริงของข้อมูลใหม่ (สมมติว่าประชากรใหม่ เหมือนกับชุดฝึกอบรม) หรือไม่ ไม่มีค่าที่สมเหตุสมผลในการ 'ลดขนาด' เป็น (หรือถ้าคุณต้องการไม่มีข้อมูลก่อนหน้านี้) การสุ่มตัวอย่างใหม่ดูเหมือนว่าดีที่สุดที่เราสามารถทำได้ ฉันแค่ไม่ได้ยินคำพูดใด ๆ เกี่ยวกับเรื่องนี้ดังนั้นมันทำให้ฉันสงสัยว่ามีบางสิ่งที่ฉันขาดหายไป เห็นได้ชัดว่ามีค่าใช้จ่ายในการคำนวณจำนวนมากที่เกี่ยวข้องกับการทำซ้ำหลาย ๆ ครั้งเพื่อบีบพลังการคาดเดาสุดท้ายออกจากแบบจำลองดังนั้นชัดเจนว่านี่คือสิ่งที่คุณจะทำถ้าคุณมีเวลา / ไม่เต็มใจที่จะทำการปรับให้เหมาะสม ของการปรับปรุงประสิทธิภาพนั้นมีค่า

34 machine-learning cross-validation bootstrap optimization resampling

3

การตรวจสอบความถูกต้องไขว้มีผลต่อปัญหา overfitting อย่างไร

เหตุใดขั้นตอนการตรวจสอบข้ามจึงเอาชนะปัญหาการ overfitting แบบจำลอง?

34 regression model-selection cross-validation

1

การใช้การตรวจสอบข้ามอย่างไม่ถูกต้อง (ประสิทธิภาพการรายงานสำหรับค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ดีที่สุด)

เมื่อเร็ว ๆ นี้ฉันเจอกระดาษที่เสนอให้ใช้ตัวจําแนกk-NNบนชุดข้อมูลเฉพาะ ผู้เขียนใช้ตัวอย่างข้อมูลทั้งหมดที่มีเพื่อดำเนินการตรวจสอบความถูกต้องข้าม k-fold สำหรับค่าk ที่แตกต่างกันและรายงานผลการตรวจสอบความถูกต้องข้ามของการกำหนดค่าพารามิเตอร์พารามิเตอร์ที่ดีที่สุด สำหรับความรู้ของฉันผลลัพธ์นี้มีความลำเอียงและพวกเขาควรจะมีชุดการทดสอบแยกต่างหากเพื่อให้ได้การประเมินความถูกต้องของตัวอย่างที่ไม่ได้ใช้ในการเพิ่มประสิทธิภาพพารามิเตอร์มากเกินไป ฉันถูกไหม? คุณสามารถให้ข้อมูลอ้างอิงบางส่วน (ควรเป็นบทความวิจัย) ที่อธิบายการใช้การตรวจสอบไขว้ในทางที่ผิดหรือไม่?

30 cross-validation references model-selection model-evaluation

1

ข้อผิดพลาดของตัวชี้วัดสำหรับโมเดลพัวซองที่ผ่านการตรวจสอบความถูกต้อง

ฉันข้ามการตรวจสอบรูปแบบที่พยายามทำนายการนับ หากนี่เป็นปัญหาการจำแนกเลขฐานสองฉันจะคำนวณ AUC แบบพับได้และถ้านี่เป็นปัญหาการถดถอยฉันจะคำนวณ RMSE หรือ Mae แบบ out-of-fold สำหรับโมเดลปัวซงฉันสามารถใช้เมตริกข้อผิดพลาดใดในการประเมิน "ความถูกต้อง" ของการคาดการณ์ที่ไม่อยู่ในกลุ่มตัวอย่าง มีส่วนขยายของปัวซองของ AUC ที่ดูว่าการทำนายลำดับค่าที่แท้จริงดีเพียงใด ดูเหมือนว่าการแข่งขัน Kaggle จำนวนมากสำหรับการนับ (เช่นจำนวนคะแนนโหวตที่เป็นประโยชน์ที่รีวิวร้องเอ๋งจะได้รับหรือจำนวนวันที่ผู้ป่วยจะใช้จ่ายในโรงพยาบาล) ใช้ข้อผิดพลาดรากหมายถึงบันทึกกำลังสองหรือ RMLSE / แก้ไข: สิ่งหนึ่งที่ฉันได้ทำคือการคำนวณ deciles ของค่าที่คาดการณ์ไว้และจากนั้นดูที่การนับจริงโดย binned by decile ถ้า decile 1 อยู่ในระดับต่ำ decile 10 จะสูงและ decile ในระหว่างนั้นเพิ่มขึ้นอย่างเคร่งครัดฉันได้เรียกโมเดล "ดี" แต่ฉันประสบปัญหาในการหาจำนวนกระบวนการนี้และฉันเชื่อว่ามันดีกว่า เข้าใกล้ / แก้ไข 2: ฉันกำลังมองหาสูตรที่ใช้ค่าที่คาดการณ์และตามจริงและส่งกลับเมตริก "ข้อผิดพลาด" หรือ "ความแม่นยำ" บางส่วน แผนของฉันคือการคำนวณฟังก์ชั่นนี้เกี่ยวกับข้อมูลที่อยู่นอกกรอบในระหว่างการตรวจสอบความถูกต้องและจากนั้นใช้เพื่อเปรียบเทียบแบบจำลองที่หลากหลาย …

29 cross-validation poisson-distribution count-data deviance scoring-rules

3

การตรวจสอบความถูกต้องข้ามของ K-fold กับ Monte Carlo

ฉันกำลังพยายามเรียนรู้วิธีการตรวจสอบข้ามหลายวิธีโดยมีความตั้งใจที่จะนำไปใช้กับเทคนิคการวิเคราะห์หลายตัวแปรภายใต้การดูแล สองที่ฉันเจอคือเทคนิคการตรวจสอบข้ามแบบ K-fold และ Monte Carlo ฉันได้อ่านแล้วว่า K-fold เป็นรูปแบบที่เปลี่ยนแปลงของ Monte Carlo แต่ฉันไม่แน่ใจว่าฉันเข้าใจอย่างถ่องแท้ว่าอะไรเป็นตัวกำหนดนิยามของ Monte Carlo ใครช่วยอธิบายความแตกต่างระหว่างสองวิธีนี้ได้ไหม

29 cross-validation monte-carlo

2

เหตุใดจึงต้องใช้การตรวจสอบข้ามแบบแบ่งชั้น ทำไมสิ่งนี้จึงไม่ได้สร้างความเสียหายแปรปรวนที่เกี่ยวข้องกับผลประโยชน์?

ฉันได้รับการบอกว่าเป็นประโยชน์ในการใช้การตรวจสอบความถูกต้องข้ามกลุ่มโดยเฉพาะอย่างยิ่งเมื่อคลาสการตอบกลับไม่สมดุล หากจุดประสงค์หนึ่งของการตรวจสอบข้ามจุดประสงค์คือเพื่อช่วยให้บัญชีสุ่มตัวอย่างข้อมูลการฝึกอบรมเดิมของเราแน่นอนว่าแต่ละครั้งที่การแจกจ่ายคลาสเดียวกันจะทำงานกับสิ่งนี้เว้นแต่ว่าคุณแน่ใจว่าชุดการฝึกอบรมดั้งเดิมของคุณมีการแจกจ่ายชั้นตัวแทน ตรรกะของฉันมีข้อบกพร่องหรือไม่ แก้ไข ฉันสนใจว่าวิธีนี้จะทำลายผลดีของ CV หรือไม่ ฉันสามารถดูว่าทำไมมันเป็นสิ่งจำเป็นถ้าคุณมีตัวอย่างขนาดเล็ก / คลาสที่ไม่สมดุลมาก / ทั้งคู่เพื่อหลีกเลี่ยงการไม่มีตัวแทนคนเดียวของคลาสรองลงมา กระดาษแอปเปิ้ลต่อแอปเปิ้ลในการศึกษาการตรวจสอบข้าม: ข้อผิดพลาดในการวัดประสิทธิภาพลักษณนามส่งต่อกรณีสำหรับการแบ่งชั้นเป็นอย่างดี แต่ข้อโต้แย้งทั้งหมดดูเหมือนจะเป็นจำนวน 'การแบ่งชั้นเป็น ข้อมูล. คือคำตอบง่ายๆ"เราใช้มันโดยไม่จำเป็นเพราะเราไม่ค่อยมีข้อมูลเพียงพอ" ?

28 cross-validation resampling stratification

1

การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer

ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

3

การตรวจสอบข้ามรวมถึงการฝึกอบรมการตรวจสอบและการทดสอบ ทำไมเราต้องการชุดย่อยสามชุด

ฉันมีคำถามเกี่ยวกับกระบวนการตรวจสอบข้าม ฉันอยู่ในช่วงของการเรียนรู้ของเครื่องใน Cursera หนึ่งในหัวข้อที่เกี่ยวกับการตรวจสอบข้าม ฉันพบว่ามันยากที่จะทำตามเล็กน้อย ฉันรู้ว่าทำไมเราต้องมี CV เพราะเราต้องการให้แบบจำลองของเราทำงานได้ดีในอนาคต (ไม่ทราบ) ข้อมูลและ CV ป้องกันไม่ให้เกินกำลัง อย่างไรก็ตามกระบวนการเองก็สับสน สิ่งที่ฉันเข้าใจคือฉันแบ่งข้อมูลออกเป็น 3 ชุดย่อย: การฝึกอบรมการตรวจสอบความถูกต้องและการทดสอบ Train and Validation คือการค้นหาความซับซ้อนที่เหมาะสมที่สุดของแบบจำลอง สิ่งที่ฉันไม่เข้าใจคือชุดย่อยที่สาม ฉันเข้าใจว่าฉันใช้คุณสมบัติหลายอย่างสำหรับแบบจำลองฝึกอบรมและตรวจสอบความถูกต้องบนชุดย่อยการตรวจสอบความถูกต้องและมองหาฟังก์ชั่นต้นทุนขั้นต่ำเมื่อฉันเปลี่ยนโครงสร้าง เมื่อฉันพบมันฉันจะทดสอบรูปแบบในชุดย่อยทดสอบ ถ้าฉันได้พบฟังก์ชั่นต้นทุนขั้นต่ำในส่วนย่อยการตรวจสอบแล้วทำไมฉันต้องทดสอบอีกครั้งในชุดย่อยทดสอบ ??? มีคนช่วยอธิบายเรื่องนี้ให้ฉันหน่อยได้ไหม? ขอขอบคุณ

28 machine-learning cross-validation

1

องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่

เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

1

การตรวจสอบความถูกต้องไขว้เป็นการทดแทนที่เหมาะสมสำหรับชุดการตรวจสอบหรือไม่

ในการจัดประเภทข้อความฉันมีชุดการฝึกอบรมที่มีประมาณ 800 ตัวอย่างและชุดทดสอบที่มีประมาณ 150 ตัวอย่าง ไม่เคยใช้ชุดทดสอบและรอจนกว่าจะหมด ฉันใช้ชุดการฝึกอบรมตัวอย่าง 800 ชุดพร้อมการตรวจสอบไขว้ 10 เท่าในขณะที่ปรับแต่งและปรับแต่งตัวแยกประเภทและคุณสมบัติ ซึ่งหมายความว่าฉันไม่ได้มีชุดการตรวจสอบแยกต่างหาก แต่แต่ละชุดมี 10 เท่าชุดตรวจสอบจะถูกเลือกโดยอัตโนมัติ หลังจากที่ฉันจะพอใจกับทุกสิ่งและต้องการเข้าสู่ขั้นตอนสุดท้ายของการประเมินผลฉันจะฝึกตัวแยกประเภทของฉันในตัวอย่าง 800 ตัวอย่าง และทดสอบชุดทดสอบตัวอย่าง 150 ชุด ฉันเข้าใจหรือไม่ว่าการใช้การตรวจสอบข้ามในการจำแนกข้อความถูกต้องหรือไม่? วิธีนี้ใช้ได้หรือไม่ คำถามอื่นการตรวจสอบข้าม wrt คือ: แทนที่จะเป็น 10 เท่าฉันก็ลองใช้ตัวบ่งชี้ทั่วไปสำหรับการแสดงแทน เพราะสำหรับการออกไปข้างนอกเป็นไปไม่ได้ที่จะมีข้อมูลเกี่ยวกับ f1 / ความแม่นยำ / การเรียกคืนฉันสงสัยว่าความสัมพันธ์ระหว่างความถูกต้องจากการออกจากที่หนึ่งกับตัวชี้วัดจาก 10 เท่าคืออะไร ข้อมูลเชิงลึกใด ๆ จะได้รับการชื่นชมอย่างมาก แก้ไข: นี่เป็นการแนะนำที่ดีมากสำหรับการตรวจสอบความถูกต้องข้าม มันยังอ้างถึงงานวิจัยอื่น ๆ

27 machine-learning classification cross-validation text-mining

4

เหตุใดจึงมีความไม่สมดุลระหว่างขั้นตอนการฝึกอบรมและขั้นตอนประเมินผล

เป็นที่รู้จักกันดีโดยเฉพาะอย่างยิ่งในการประมวลผลภาษาธรรมชาติที่การเรียนรู้ของเครื่องควรดำเนินการในสองขั้นตอนขั้นตอนการฝึกอบรมและขั้นตอนการประเมินผลและพวกเขาควรใช้ข้อมูลที่แตกต่างกัน ทำไมนี้ โดยสังหรณ์ใจกระบวนการนี้ช่วยหลีกเลี่ยงการบีบอัดข้อมูลมากเกินไป แต่ฉันไม่เห็นเหตุผล (ข้อมูลเชิงทฤษฎี) ในกรณีนี้ ที่เกี่ยวข้องฉันได้เห็นตัวเลขจำนวนหนึ่งโยนไปรอบ ๆ สำหรับชุดข้อมูลที่ควรใช้สำหรับการฝึกอบรมและจำนวนการประเมินเช่น 2/3 และ 1/3 ตามลำดับ มีพื้นฐานทางทฤษฎีสำหรับการเลือกการแจกแจงแบบพิเศษหรือไม่?

27 machine-learning cross-validation

2

การประมาณค่าความแปรปรวนในการตรวจสอบความถูกต้องข้ามของ k-fold

การตรวจสอบความถูกต้องไขว้ของ K-fold สามารถใช้เพื่อประเมินความสามารถในการวางนัยทั่วไปของลักษณนามที่กำหนด ฉันสามารถ (หรือฉันควร) คำนวณความแปรปรวนแบบพูลจากการตรวจสอบความถูกต้องทั้งหมดเพื่อให้ได้การประมาณความแปรปรวนที่ดีขึ้นหรือไม่ ถ้าไม่ทำไม ฉันได้พบเอกสารที่จะใช้ค่าเบี่ยงเบนมาตรฐาน pooled ข้ามการตรวจสอบข้ามวิ่ง ฉันยังได้พบเอกสารระบุชัดเจนมีไม่มีประมาณการสากลสำหรับการตรวจสอบความแปรปรวน อย่างไรก็ตามฉันยังพบเอกสารที่แสดงตัวประมาณค่าความแปรปรวนบางอย่างสำหรับข้อผิดพลาดทั่วไป (ฉันยังคงอ่านและพยายามเข้าใจสิ่งนี้) ผู้คนทำอะไร (หรือรายงาน) ในทางปฏิบัติจริง ๆ ? แก้ไข:เมื่อใช้ CV ในการวัดข้อผิดพลาดการจำแนกอย่างคร่าวๆ (นั่นคือตัวอย่างได้รับการติดฉลากอย่างถูกต้องหรือไม่มี; เช่นจริงหรือเท็จ) ดังนั้นจึงอาจไม่เหมาะสมที่จะพูดคุยเกี่ยวกับความแปรปรวนร่วม อย่างไรก็ตามฉันกำลังพูดถึงกรณีที่สถิติที่เรากำลังประเมินมีความแปรปรวนที่กำหนดไว้ ดังนั้นสำหรับการพับที่กำหนดเราสามารถจบลงด้วยค่าสำหรับสถิติและการประมาณค่าความแปรปรวน ดูเหมือนจะไม่ถูกต้องที่จะทิ้งข้อมูลนี้และพิจารณาเฉพาะสถิติเฉลี่ย และในขณะที่ฉันรู้ว่าฉันสามารถสร้างการประมาณค่าความแปรปรวนโดยใช้วิธีการ bootstrap (ถ้าฉันไม่ผิดมาก) การทำเช่นนั้นจะยังคงเพิกเฉยต่อความแปรปรวนแบบพับและใช้การประมาณการทางสถิติเพียงอย่างเดียวในการพิจารณา

27 machine-learning cross-validation

1

หนึ่งสามารถสังเกตุเห็นได้ชัดใน R ซึ่งวิธีการตรวจสอบข้ามที่ AIC และ BIC จะเทียบเท่าได้อย่างไร?

ในคำถามอื่น ๆ ในไซต์นี้คำตอบหลายข้อกล่าวว่า AIC นั้นเทียบเท่ากับการตรวจสอบความถูกต้องแบบ cross-one-out (LOO) และ BIC นั้นเทียบเท่ากับการตรวจสอบความถูกต้องข้ามแบบ K-fold มีวิธีที่จะแสดงให้เห็นถึงสังเกตุนี้ใน R หรือไม่ว่าเทคนิคที่เกี่ยวข้องใน LOO และ K-fold นั้นชัดเจนและแสดงให้เห็นว่าเทียบเท่ากับค่า AIC และ BIC หรือไม่? รหัสความคิดเห็นดีจะเป็นประโยชน์ในเรื่องนี้ นอกจากนี้ในการสาธิต BIC โปรดใช้แพ็คเกจ lme4 ดูตัวอย่างชุดข้อมูลด้านล่าง ... library(lme4) #for the BIC function generate.data <- function(seed) { set.seed(seed) #Set a seed so the results are consistent (I hope) a …

26 r aic cross-validation bic

4

การตรวจสอบความถูกต้องไขว้ภายนอกและการเลือกรุ่น

ความเข้าใจของฉันคือว่าด้วยการตรวจสอบข้ามและการเลือกรูปแบบเราพยายามที่จะอยู่สองสิ่ง: P1 ประเมินการสูญเสียที่คาดหวังของประชากรเมื่อฝึกอบรมกับตัวอย่างของเรา P2 . วัดและรายงานความไม่แน่นอนของการประมาณนี้ของเรา (ความแปรปรวนช่วงความเชื่อมั่นอคติ ฯลฯ ) การปฏิบัติมาตรฐานดูเหมือนว่าจะทำการตรวจสอบข้ามซ้ำเนื่องจากจะช่วยลดความแปรปรวนของเครื่องมือประมาณค่าของเรา อย่างไรก็ตามเมื่อพูดถึงการรายงานและการวิเคราะห์ความเข้าใจของฉันคือการตรวจสอบภายในดีกว่าการตรวจสอบภายนอกเพราะ: เป็นการดีกว่าที่จะรายงาน: สถิติของเครื่องมือประมาณค่าของเราเช่นช่วงความเชื่อมั่น, ความแปรปรวน, ค่าเฉลี่ย ฯลฯ ของตัวอย่างเต็มรูปแบบ (ในกรณีนี้คือตัวอย่าง CV) กว่าการรายงาน: การสูญเสียตัวประมาณของเราในชุดย่อยที่ระงับไว้ของตัวอย่างดั้งเดิมเนื่องจาก: (i) นี่จะเป็นการวัดเดียว ( แม้ว่าเราเลือกตัวประมาณค่าของเรากับ CV ) (ii) เครื่องมือประมาณค่าของเราสำหรับการวัดเดี่ยวนี้จะได้รับการฝึกอบรมในชุด (เช่นชุด CV) ที่มีขนาดเล็กกว่าตัวอย่างเริ่มต้นของเราเนื่องจากเราต้องทำให้มีที่ว่างสำหรับชุดที่ค้างไว้ ผลนี้ในลำเอียงมากขึ้น (ในแง่ร้าย) การประมาณค่าในP1 ถูกต้องหรือไม่ ถ้าไม่ใช่เพราะอะไร พื้นหลัง: มันง่ายที่จะหาหนังสือที่แนะนำให้แบ่งตัวอย่างของคุณออกเป็นสองชุด: CVชุดซึ่งเป็นที่ต่อมาซ้ำแล้วซ้ำอีกแบ่งออกเป็นรถไฟและการตรวจสอบชุด ชุดhold-out (test) ใช้เฉพาะเมื่อสิ้นสุดเพื่อรายงานประสิทธิภาพของตัวประมาณ คำถามของฉันคือความพยายามในการทำความเข้าใจข้อดีและข้อได้เปรียบของวิธีตำราเรียนนี้โดยพิจารณาว่าเป้าหมายของเราคือการจัดการปัญหาP1และP2ในตอนต้นของโพสต์นี้ สำหรับฉันแล้วการรายงานเกี่ยวกับชุดทดสอบการระงับถือเป็นการปฏิบัติที่ไม่ดีเนื่องจากการวิเคราะห์ตัวอย่าง CV นั้นให้ข้อมูลมากกว่า K-fold ซ้อนกันซ้ำ K-fold: …

26 estimation cross-validation references

4

คุณจะใช้ชุดข้อมูล 'ทดสอบ' หลังจากการตรวจสอบข้ามได้อย่างไร

ในการบรรยายและแบบฝึกหัดที่ฉันเห็นพวกเขาแนะนำให้แบ่งข้อมูลของคุณออกเป็นสามส่วน: การฝึกอบรมการตรวจสอบและการทดสอบ แต่ยังไม่ชัดเจนว่าควรใช้ชุดข้อมูลการทดสอบอย่างไรและวิธีการนี้ดีกว่าการตรวจสอบข้ามชุดข้อมูลทั้งหมด สมมติว่าเราได้บันทึก 20% ของข้อมูลของเราเป็นชุดทดสอบ จากนั้นเราจะแบ่งส่วนที่เหลือแบ่งออกเป็น k เท่าและโดยใช้การตรวจสอบความถูกต้องเราพบว่าแบบจำลองที่สร้างการทำนายที่ดีที่สุดสำหรับข้อมูลที่ไม่รู้จักจากชุดข้อมูลนี้ สมมติว่าแบบจำลองที่ดีที่สุดที่เราพบมีความแม่นยำ75% แบบฝึกหัดและคำถามมากมายในเว็บไซต์ถามตอบต่างๆบอกว่าตอนนี้เราสามารถตรวจสอบโมเดลของเราในชุดข้อมูล (ทดสอบ) ที่บันทึกไว้ แต่ฉันก็ยังไม่สามารถเข้าใจได้ว่ามันถูกต้องหรือไม่ สมมติว่าเรามีความแม่นยำ70%ในชุดข้อมูลการทดสอบ แล้วเราจะทำอย่างไรต่อไป เราลองแบบอื่นแล้วลองอีกแบบจนกว่าเราจะได้คะแนนสูงในชุดทดสอบของเราหรือไม่ แต่ในกรณีนี้จริงๆมันดูเหมือนว่าเราก็จะได้พบกับรูปแบบที่เหมาะกับการ จำกัด (เพียง 20%) ชุดทดสอบของเรา ไม่ได้หมายความว่าเราจะพบกับโมเดลที่ดีที่สุดโดยทั่วไป ยิ่งกว่านั้นเราจะพิจารณาคะแนนนี้เป็นการประเมินแบบทั่วไปได้อย่างไรหากคำนวณเฉพาะในชุดข้อมูลที่ จำกัด เท่านั้น หากคะแนนนี้ต่ำเราอาจโชคไม่ดีและเลือกข้อมูลการทดสอบ "ไม่ดี" ในทางกลับกันถ้าเราใช้ข้อมูลทั้งหมดที่เรามีแล้วเลือกแบบจำลองโดยใช้การตรวจสอบความถูกต้องข้ามของ K-fold เราจะพบรูปแบบที่ทำให้การทำนายที่ดีที่สุดสำหรับข้อมูลที่ไม่รู้จักจากชุดข้อมูลทั้งหมดที่เรามี

25 machine-learning cross-validation validation

คำถามติดแท็ก cross-validation