คำถามติดแท็ก cross-validation

หัก ณ ที่จ่ายซ้ำชุดย่อยของข้อมูลในระหว่างการปรับแบบจำลองเพื่อวัดประสิทธิภาพของแบบจำลองในชุดย่อยข้อมูลที่ถูกระงับ

2
หนึ่งจะนำการตรวจสอบข้ามไปใช้อย่างเหมาะสมในบริบทของการเลือกพารามิเตอร์การเรียนรู้สำหรับเครื่องเวกเตอร์สนับสนุนได้อย่างไร
แพคเกจ libsvm ที่ยอดเยี่ยมมีอินเทอร์เฟซหลามและไฟล์ "easy.py" ที่ค้นหาพารามิเตอร์การเรียนรู้ (ค่าใช้จ่าย & แกมม่า) โดยอัตโนมัติซึ่งเพิ่มความแม่นยำของลักษณนามสูงสุด ภายในชุดพารามิเตอร์การเรียนรู้ของผู้สมัครที่ได้รับความแม่นยำถูกดำเนินการโดยการตรวจสอบข้าม แต่ฉันรู้สึกว่าสิ่งนี้ทำลายวัตถุประสงค์ของการตรวจสอบข้าม นั่นคือตราบเท่าที่พารามิเตอร์การเรียนรู้สามารถเลือกได้ด้วยวิธีการที่อาจทำให้เกิดข้อมูลมากเกินไปฉันรู้สึกว่าวิธีการที่เหมาะสมกว่านั้นคือการใช้การตรวจสอบข้ามในระดับการค้นหา: ทำการค้นหา บนชุดข้อมูลการฝึกอบรมจากนั้นประเมินความถูกต้องสูงสุดของ SVM ซึ่งเป็นผลมาจากพารามิเตอร์การเรียนรู้ที่ได้รับการคัดเลือกในที่สุดโดยการประเมินภายในชุดข้อมูลการทดสอบแยกต่างหาก หรือฉันกำลังพลาดบางสิ่งที่นี่

1
ฉันควรสลับข้อมูลของฉันอีกครั้งหรือไม่
เรามีตัวอย่างชีวภาพชุดหนึ่งที่ค่อนข้างแพง เราวางตัวอย่างเหล่านี้ผ่านชุดการทดสอบเพื่อสร้างข้อมูลที่ใช้สำหรับสร้างแบบจำลองการทำนาย เพื่อจุดประสงค์นี้เราได้แบ่งกลุ่มตัวอย่างเป็นชุดฝึกอบรม (70%) และชุดทดสอบ (30%) เราสร้างแบบจำลองได้สำเร็จและนำไปใช้กับชุดการทดสอบเพื่อค้นหาว่าประสิทธิภาพนั้น "น้อยกว่าความเหมาะสม" ผู้ทำการทดลองต้องการปรับปรุงการทดสอบทางชีวภาพเพื่อสร้างแบบจำลองที่ดีขึ้น โดยมีเงื่อนไขว่าเราไม่สามารถรับตัวอย่างใหม่ได้คุณขอแนะนำให้เราสุ่มตัวอย่างใหม่เพื่อสร้างชุดการฝึกอบรมและการตรวจสอบความถูกต้องใหม่หรือติดกับส่วนเดิม (เราไม่มีข้อบ่งชี้ว่าการแบ่งนั้นเป็นปัญหาอย่างหนึ่ง)

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
การใช้การตรวจสอบข้ามมีผลต่อผลลัพธ์หรือไม่
อย่างที่คุณทราบมีการตรวจสอบข้ามแบบนิยมสองประเภท K-fold และการสุ่มตัวอย่างแบบสุ่ม (ดังอธิบายในWikipedia ) อย่างไรก็ตามฉันรู้ว่านักวิจัยบางคนกำลังสร้างและตีพิมพ์เอกสารที่บางสิ่งที่อธิบายไว้ในฐานะ K-fold CV นั้นเป็นตัวอย่างย่อยแบบสุ่มดังนั้นในทางปฏิบัติคุณไม่เคยรู้ว่าจริงๆแล้วคืออะไรในบทความที่คุณกำลังอ่าน โดยปกติแล้วความแตกต่างนั้นไม่สามารถสังเกตเห็นได้และคำถามของฉันก็เป็นไปได้ไหม - คุณลองนึกถึงตัวอย่างเมื่อผลลัพธ์ของประเภทหนึ่งแตกต่างกันอย่างมีนัยสำคัญหรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.