คำถามติดแท็ก model-selection

การเลือกแบบจำลองเป็นปัญหาในการตัดสินว่าแบบจำลองจากชุดใดมีประสิทธิภาพดีที่สุด วิธีการที่นิยม ได้แก่R2เกณฑ์ AIC และ BIC ชุดทดสอบและการตรวจสอบความถูกต้องข้าม การเลือกคุณสมบัติเป็นส่วนย่อยของการเลือกรุ่น

2
ในการตั้งค่าใดที่คุณคาดว่ารุ่นที่พบโดย LARS จะแตกต่างจากรุ่นที่พบโดยการค้นหาแบบละเอียด
ข้อมูลเพิ่มเติมอีกเล็กน้อย สมมติว่า คุณทราบมาก่อนแล้วว่ามีตัวแปรให้เลือกจำนวนเท่าใดและคุณได้ตั้งค่าการลงโทษที่ซับซ้อนในขั้นตอน LARS เช่นมีตัวแปรหลายตัวที่มีค่าสัมประสิทธิ์ไม่ใช่ 0 ค่าใช้จ่ายในการคำนวณไม่ใช่ปัญหา (จำนวนตัวแปรทั้งหมดมีค่าน้อยพูด 50) ตัวแปรทั้งหมด (y, x) นั้นต่อเนื่อง แบบจำลอง LARS ในการตั้งค่าแบบใด (เช่น OLS พอดีของตัวแปรที่มีค่าสัมประสิทธิ์ไม่ใช่ศูนย์ใน LARS พอดี) จะแตกต่างจากแบบจำลองที่มีค่าสัมประสิทธิ์จำนวนเท่ากัน แต่พบได้จากการค้นหาแบบละเอียด (a la regsubsets ()) แก้ไข: ฉันใช้ 50 ตัวแปรและ 250 การสังเกตด้วยสัมประสิทธิ์จริงที่ดึงมาจาก Gaussian มาตรฐานยกเว้น 10 ตัวแปรที่มีค่าสัมประสิทธิ์ 'ของจริง' เป็น 0 (และคุณลักษณะทั้งหมดที่มีความสัมพันธ์กันอย่างมาก) เห็นได้ชัดว่าการตั้งค่าเหล่านี้ไม่ดีเนื่องจากความแตกต่างระหว่างชุดตัวแปรที่เลือกสองชุดคือนาที นี่เป็นคำถามเกี่ยวกับประเภทของการกำหนดค่าข้อมูลที่ควรจำลองเพื่อให้ได้ความแตกต่างมากที่สุด

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
การคำนวณเซตย่อยที่ดีที่สุดของตัวทำนายสำหรับการถดถอยเชิงเส้น
สำหรับการเลือกตัวทำนายในการถดถอยเชิงเส้นหลายตัวแปรด้วย พีpp ตัวทำนายที่เหมาะสมวิธีการใดบ้างที่สามารถหาเซตย่อย 'ที่เหมาะสมที่สุด' ของตัวทำนายโดยไม่ต้องทดสอบทั้งหมดอย่างชัดเจน 2พี2p2^pย่อย? ใน 'การเอาตัวรอดวิเคราะห์' Hosmer & Lemeshow อ้างอิงถึงวิธีของ Kuk แต่ฉันไม่พบกระดาษต้นฉบับ ทุกคนสามารถอธิบายวิธีนี้หรือเป็นเทคนิคที่ทันสมัยกว่านี้ได้อีกหรือไม่ อาจมีข้อผิดพลาดกระจายตามปกติ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.