คำถามติดแท็ก pac-learning

20
สองวัฒนธรรม: สถิติกับการเรียนรู้ของเครื่อง?
ปีที่แล้วฉันอ่านโพสต์บล็อกจากเบรนแดนโอคอนเนอร์เรื่อง"สถิติกับการเรียนรู้ของเครื่องจักรการต่อสู้!" ที่กล่าวถึงความแตกต่างระหว่างสองฟิลด์ Andrew Gelman ตอบกลับอย่างดีในเรื่องนี้ : Simon Blomberg: จากแพคเกจโชคชะตาของ R: เพื่อถอดความยั่วโมโห 'การเรียนรู้ของเครื่องคือสถิติลบการตรวจสอบรูปแบบและสมมติฐาน' - Brian D. Ripley (เกี่ยวกับความแตกต่างระหว่างการเรียนรู้ของเครื่องและสถิติ) useR! ปี 2004 เวียนนา (พฤษภาคม 2547) :-) คำทักทายประจำฤดูกาล! Andrew Gelman: ในกรณีนั้นเราควรกำจัดการตรวจสอบตัวแบบและสมมติฐานบ่อยขึ้น ถ้าอย่างนั้นเราอาจจะสามารถแก้ปัญหาบางอย่างที่เครื่องเรียนรู้ที่ผู้คนสามารถแก้ไขได้ แต่เราทำไม่ได้! นอกจากนี้ยังมี"การสร้างแบบจำลองทางสถิติสองวัฒนธรรม"กระดาษโดยลีโอเบรแมนในปี 2001 ซึ่งเป็นที่ถกเถียงกันว่าสถิติพึ่งพาอาศัยเกินไปในการสร้างแบบจำลองข้อมูลและเทคนิคการเรียนรู้ที่เครื่องจะทำให้ความคืบหน้าโดยแทนที่จะอาศัยความถูกต้องของการคาดการณ์ของแบบจำลอง เขตข้อมูลสถิติมีการเปลี่ยนแปลงในช่วงทศวรรษที่ผ่านมาเพื่อตอบสนองต่อคำวิจารณ์เหล่านี้หรือไม่? อย่าสองวัฒนธรรมที่ยังคงอยู่หรือสถิติการเติบโตที่จะโอบกอดเทคนิคการเรียนรู้ของเครื่องเช่นเครือข่ายประสาทและเครื่องเวกเตอร์สนับสนุน?

3
'ผู้เรียนที่อ่อนแอ' มีความหมายอย่างไร
ใครสามารถบอกฉันได้ว่าวลี 'ผู้เรียนที่อ่อนแอ' มีความหมายอย่างไร มันควรจะเป็นสมมติฐานที่อ่อนแอหรือไม่? ฉันสับสนเกี่ยวกับความสัมพันธ์ระหว่างผู้เรียนที่อ่อนแอและผู้จําแนกอ่อนแอ ทั้งคู่เหมือนกันหรือแตกต่างกันบ้างไหม? ในขั้นตอนวิธี AdaBoost T=10ที่ สิ่งนั้นมีความหมายอย่างไร ทำไมเราเลือกT=10?

4
การเรียนรู้ของเครื่องเบื้องต้นสำหรับนักคณิตศาสตร์
ในแง่หนึ่งนี่คือจุดเชื่อมโยงของฉันจากmath.stackexchangeและฉันมีความรู้สึกว่าเว็บไซต์นี้อาจให้ผู้ชมในวงกว้าง ฉันกำลังมองหาการแนะนำทางคณิตศาสตร์สำหรับการเรียนรู้ของเครื่อง โดยเฉพาะอย่างยิ่งวรรณกรรมมากมายที่สามารถพบได้ค่อนข้างไม่แน่ชัดและมีการใช้หน้าเว็บจำนวนมากโดยไม่มีเนื้อหาใด ๆ อย่างไรก็ตามเริ่มต้นจากวรรณกรรมดังกล่าวฉันค้นพบหลักสูตรCourseraจาก Andrew Ng หนังสือของ Bishop ในการจดจำรูปแบบและในที่สุดก็เป็นหนังสือของ Smola น่าเสียดายที่หนังสือของ Smola อยู่ในสถานะร่างเท่านั้น ในหนังสือของ Smola ยังพบหลักฐานที่ฉันสนใจ หนังสือของอธิการค่อนข้างดีอยู่แล้ว แต่ความยากลำบากจำนวนหนึ่งหายไป กล่าวโดยย่อ: ฉันกำลังมองหาหนังสือเช่น Smola's นั่นคือแม่นยำและเข้มงวดที่สุดเท่าที่จะเป็นไปได้และใช้พื้นฐานทางคณิตศาสตร์ (แม้ว่าการแนะนำสั้น ๆ นั้นก็โอเคอยู่แน่นอน) คำแนะนำใด ๆ

6
แนวคิด 'พื้นฐาน' ของการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คืออะไร
ความคิด 'พื้นฐาน' สถิติสำหรับประมาณค่าพารามิเตอร์เป็นโอกาสสูงสุด ฉันสงสัยว่าอะไรคือความคิดที่สอดคล้องกันในการเรียนรู้ของเครื่อง Qn 1. เป็นธรรมหรือไม่ที่จะบอกว่าแนวคิด 'พื้นฐาน' ในการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คือ: 'ฟังก์ชั่นการสูญเสีย' [หมายเหตุ: มันเป็นความประทับใจของฉันที่อัลกอริทึมการเรียนรู้ของเครื่องมักจะปรับฟังก์ชั่นการสูญเสียให้เหมาะสมดังนั้นคำถามข้างต้น] Qn 2: มีวรรณกรรมใดบ้างที่พยายามลดช่องว่างระหว่างสถิติและการเรียนรู้ของเครื่อง? [หมายเหตุ: บางทีโดยฟังก์ชั่นการสูญเสียที่เกี่ยวข้องกับโอกาสสูงสุด (เช่น OLS เทียบเท่ากับโอกาสสูงสุดสำหรับข้อผิดพลาดที่กระจายตามปกติ ฯลฯ )]

1
เหตุใดเราจึงคิดว่าข้อผิดพลาดนั้นกระจายตามปกติ
ฉันสงสัยว่าทำไมเราจึงใช้สมมติฐาน Gaussian เมื่อทำแบบจำลองข้อผิดพลาด ในหลักสูตร ML ของสแตนฟอร์ดศาสตราจารย์อึ้งได้อธิบายถึงมารยาทสองประการ: มันสะดวกในเชิงคณิตศาสตร์ (มันเกี่ยวข้องกับ Least Squares ที่เหมาะสมและง่ายต่อการแก้ไขด้วย pseudoinverse) เนื่องจากทฤษฎีบทขีด จำกัด กลางเราอาจสันนิษฐานว่ามีข้อเท็จจริงพื้นฐานมากมายที่ส่งผลกระทบต่อกระบวนการและผลรวมของข้อผิดพลาดส่วนบุคคลเหล่านี้จะมีแนวโน้มที่จะทำงานเหมือนในการแจกแจงปกติแบบศูนย์ ในทางปฏิบัติดูเหมือนว่าจะเป็นเช่นนั้น ฉันสนใจส่วนที่สองจริง ๆ ทฤษฎีบทขีด จำกัด กลางใช้ได้กับตัวอย่าง iid เท่าที่ฉันรู้ แต่เราไม่สามารถรับประกันได้ว่าตัวอย่างต้นแบบจะเป็น iid คุณมีความคิดเห็นเกี่ยวกับข้อผิดพลาดของเกาส์เซียนหรือไม่?

2
อะไรคือทางเลือกของ VC-dimension สำหรับวัดความซับซ้อนของโครงข่ายประสาทเทียม?
ฉันได้พบวิธีการพื้นฐานบางอย่างในการวัดความซับซ้อนของเครือข่ายประสาท: ไร้เดียงสาและไม่เป็นทางการ: นับจำนวนเซลล์ประสาทเซลล์ที่ซ่อนอยู่เลเยอร์หรือเลเยอร์ที่ซ่อนอยู่ VC-dimension (Eduardo D. Sontag [1998] "มิติ VC ของเครือข่ายประสาท" [ pdf ]) เม็ดเล็กหลักสูตรและการ asymptotic วัดซับซ้อนในการคำนวณโดยเท่าเทียมกันที่จะTC0dTCd0TC^0_d d มีทางเลือกอื่นหรือไม่? เป็นที่ต้องการ: หากการวัดความซับซ้อนสามารถใช้ในการวัดโครงข่ายประสาทจากกระบวนทัศน์ต่าง ๆ (เพื่อวัด backprop, โครงข่ายประสาทเทียม, ความสัมพันธ์ของน้ำตก ฯลฯ ) ในระดับเดียวกัน ตัวอย่างเช่น VC-dimension สามารถใช้กับประเภทที่แตกต่างกันในเครือข่าย (หรือแม้แต่สิ่งอื่นที่ไม่ใช่เครือข่ายประสาท) ในขณะที่จำนวนของเซลล์ประสาทจะมีประโยชน์เฉพาะระหว่างรุ่นที่เฉพาะเจาะจงมากที่ฟังก์ชั่นการเปิดใช้งานสัญญาณ คุณสมบัติของเครือข่ายเหมือนกัน หากมีความสอดคล้องที่ดีกับการวัดมาตรฐานของความซับซ้อนของฟังก์ชั่นที่เรียนรู้ได้โดยเครือข่าย หากเป็นการง่ายในการคำนวณตัวชี้วัดในเครือข่ายเฉพาะ (อันสุดท้ายนี้ไม่จำเป็นต้องเป็น) หมายเหตุ คำถามนี้ขึ้นอยู่กับคำถามทั่วไปเพิ่มเติมเกี่ยวกับ CogSci.SE

2
ทฤษฎีการเรียนรู้ PAC หมายถึงอะไร?
ฉันใหม่ในการเรียนรู้ของเครื่อง ฉันกำลังเรียนหลักสูตรการเรียนรู้ของเครื่องจักร (มหาวิทยาลัยสแตนฟอร์ด) และฉันไม่เข้าใจความหมายของทฤษฎีนี้และประโยชน์ของมัน ฉันสงสัยว่าถ้าใครสามารถอธิบายทฤษฎีนี้ให้ฉันได้ ทฤษฎีนี้มีพื้นฐานอยู่บนสมการนี้

1
การวิเคราะห์ที่ซับซ้อน, การวิเคราะห์เชิงหน้าที่เพื่อความเข้าใจเชิงลึกในการเรียนรู้ของเครื่อง
ฉันต้องการเจาะลึกลงไปในการเรียนรู้ของเครื่อง (ทฤษฎีและการประยุกต์ในด้านการเงิน) ฉันต้องการถามว่าการวิเคราะห์ที่ซับซ้อนและการวิเคราะห์เชิงหน้าที่มีความเกี่ยวข้องเป็นพื้นฐานสำหรับการเรียนรู้ของเครื่องอย่างไร ฉันจำเป็นต้องเรียนรู้วิชาเหล่านี้หรือฉันควรตั้งสมาธิกับหัวข้ออื่น ๆ (ถ้าเป็นเช่นนั้น)

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.