คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

2
เครือข่ายความเชื่อลึกหรือเครื่องจักร Deep Boltzmann
ฉันสับสน มีความแตกต่างระหว่างเครือข่ายความเชื่อลึกและเครื่องจักร Deep Boltzmann หรือไม่? ถ้าเป็นเช่นนั้นความแตกต่างคืออะไร?

3
ทำไมผู้เรียนถึงอ่อนแอ?
ดูเพิ่มเติมคำถามที่คล้ายกันใน stats.SE ในการเพิ่มอัลกอริทึมเช่นAdaBoostและLPBoostเป็นที่รู้กันว่าผู้เรียนที่ "อ่อนแอ" ที่จะรวมกันนั้นต้องทำงานได้ดีกว่าโอกาสที่จะเป็นประโยชน์จากวิกิพีเดีย: ตัวแยกประเภทที่ใช้อาจอ่อนแอ (เช่นแสดงอัตราข้อผิดพลาดที่สำคัญ) แต่ตราบใดที่ประสิทธิภาพไม่ได้สุ่ม (ทำให้เกิดข้อผิดพลาดที่อัตรา 0.5 สำหรับการจำแนกแบบไบนารี) พวกเขาจะปรับปรุงตัวแบบสุดท้าย แม้แต่ตัวแยกประเภทที่มีอัตราความผิดพลาดสูงกว่าที่คาดไว้จากตัวจําแนกแบบสุ่มจะมีประโยชน์เนื่องจากจะมีสัมประสิทธิ์เชิงลบในการรวมกันเชิงเส้นสุดท้ายของตัวจําแนกประเภท อะไรคือประโยชน์ของการใช้ความอ่อนแอเมื่อเทียบกับผู้เรียนที่แข็งแกร่ง? (เช่นทำไมไม่ส่งเสริมด้วยวิธีการเรียนรู้ "แข็งแรง" - เรามีแนวโน้มที่จะมีน้ำหนักเกินหรือไม่) มีความแข็งแรง "ดีที่สุด" สำหรับผู้เรียนที่อ่อนแอหรือไม่? และสิ่งนี้เกี่ยวข้องกับจำนวนผู้เรียนในวงดนตรีหรือไม่? มีทฤษฎีใดบ้างที่จะสำรองคำตอบสำหรับคำถามเหล่านี้

1
API การทำนายของ Google คืออะไร
Google Prediction APIเป็นบริการคลาวด์ที่ผู้ใช้สามารถส่งข้อมูลการฝึกอบรมเพื่ออบรมตัวจําแนกลึกลับและต่อมาขอให้จัดประเภทข้อมูลที่เข้ามาเช่นการใช้ตัวกรองสแปมหรือทำนายการตั้งค่าของผู้ใช้ แต่เบื้องหลังคืออะไร

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
ทำไมค่าเฉลี่ยความคลาดเคลื่อนกำลังสองเป็นค่าเอนโทรปีระหว่างการกระจายเชิงประจักษ์กับแบบจำลองเกาส์เซียน?
ใน 5.5 การเรียนรู้เชิงลึก (โดย Ian Goodfellow, Yoshua Bengio และ Aaron Courville) กล่าวไว้ว่า การสูญเสียใด ๆ ที่ประกอบด้วยความน่าจะเป็นบันทึกเชิงลบคือการข้ามเอนโทรปีระหว่างการแจกแจงเชิงประจักษ์ที่กำหนดโดยชุดการฝึกอบรมและการแจกแจงความน่าจะเป็นที่กำหนดโดยแบบจำลอง ยกตัวอย่างเช่นค่าเฉลี่ยความคลาดเคลื่อนกำลังสองคือการข้ามเอนโทรปีระหว่างการแจกแจงเชิงประจักษ์และแบบจำลองเกาส์เซียน ฉันไม่สามารถเข้าใจว่าทำไมพวกเขาถึงเทียบเท่าและผู้เขียนไม่ขยายในจุด

3
การตรวจสอบข้ามรวมถึงการฝึกอบรมการตรวจสอบและการทดสอบ ทำไมเราต้องการชุดย่อยสามชุด
ฉันมีคำถามเกี่ยวกับกระบวนการตรวจสอบข้าม ฉันอยู่ในช่วงของการเรียนรู้ของเครื่องใน Cursera หนึ่งในหัวข้อที่เกี่ยวกับการตรวจสอบข้าม ฉันพบว่ามันยากที่จะทำตามเล็กน้อย ฉันรู้ว่าทำไมเราต้องมี CV เพราะเราต้องการให้แบบจำลองของเราทำงานได้ดีในอนาคต (ไม่ทราบ) ข้อมูลและ CV ป้องกันไม่ให้เกินกำลัง อย่างไรก็ตามกระบวนการเองก็สับสน สิ่งที่ฉันเข้าใจคือฉันแบ่งข้อมูลออกเป็น 3 ชุดย่อย: การฝึกอบรมการตรวจสอบความถูกต้องและการทดสอบ Train and Validation คือการค้นหาความซับซ้อนที่เหมาะสมที่สุดของแบบจำลอง สิ่งที่ฉันไม่เข้าใจคือชุดย่อยที่สาม ฉันเข้าใจว่าฉันใช้คุณสมบัติหลายอย่างสำหรับแบบจำลองฝึกอบรมและตรวจสอบความถูกต้องบนชุดย่อยการตรวจสอบความถูกต้องและมองหาฟังก์ชั่นต้นทุนขั้นต่ำเมื่อฉันเปลี่ยนโครงสร้าง เมื่อฉันพบมันฉันจะทดสอบรูปแบบในชุดย่อยทดสอบ ถ้าฉันได้พบฟังก์ชั่นต้นทุนขั้นต่ำในส่วนย่อยการตรวจสอบแล้วทำไมฉันต้องทดสอบอีกครั้งในชุดย่อยทดสอบ ??? มีคนช่วยอธิบายเรื่องนี้ให้ฉันหน่อยได้ไหม? ขอขอบคุณ

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
อะไรคือผลกระทบของการเลือกฟังก์ชั่นการสูญเสียที่แตกต่างกันในการจัดประเภทเป็นประมาณ 0-1 การสูญเสีย
เรารู้ว่าฟังก์ชันวัตถุประสงค์บางอย่างนั้นง่ายต่อการปรับให้เหมาะสมและบางฟังก์ชันก็ยาก และมีฟังก์ชั่นการสูญเสียมากมายที่เราต้องการใช้ แต่ยากที่จะใช้เช่นการสูญเสีย 0-1 ดังนั้นเราจึงหาฟังก์ชั่นการสูญเสียพร็อกซีเพื่อทำงาน ตัวอย่างเช่นเราใช้การสูญเสียบานพับหรือการสูญเสียโลจิสติกเพื่อ "การสูญเสีย" โดยประมาณ 0-1 ต่อไปนี้พล็อตมาจากหนังสือ PRML คริสบิชอป การสูญเสียบานพับถูกพล็อตเป็นสีน้ำเงินบันทึกการสูญเสียในสีแดง, การสูญเสียสแควร์ในสีเขียวและข้อผิดพลาด 0/1 ในสีดำ ฉันเข้าใจว่าเหตุผลที่เรามีการออกแบบ (สำหรับบานพับและการสูญเสียโลจิสติก) คือเราต้องการให้ฟังก์ชันวัตถุประสงค์นูนออกมา โดยดูที่การสูญเสียและการสูญเสียบานพับโลจิสติกก็ลงโทษเพิ่มเติมเกี่ยวกับกรณีแบ่งอย่างยิ่งและที่น่าสนใจก็ยังจัดได้อย่างถูกต้องลงโทษกรณีถ้าพวกเขาจะจัดอย่างอ่อน มันเป็นการออกแบบที่แปลกจริงๆ คำถามของฉันคือราคาที่เราต้องจ่ายโดยใช้ "ฟังก์ชั่นการสูญเสียพร็อกซี" ที่แตกต่างกันเช่นการสูญเสียบานพับและการสูญเสียโลจิสติกคืออะไร?

3
ขั้นตอนวิธีโจรที่ดีที่สุด?
อัลกอริทึมโจรที่รู้จักกันดีที่สุดคือขอบเขตความเชื่อมั่นสูงสุด (UCB) ซึ่งเป็นที่นิยมของอัลกอริทึมระดับนี้ ตั้งแต่นั้นมาฉันคิดว่าตอนนี้มีอัลกอริทึมที่ดีกว่า อัลกอริทึมที่ดีที่สุดในปัจจุบันคืออะไร (ในแง่ของประสิทธิภาพเชิงประจักษ์หรือขอบเขตทางทฤษฎี) อัลกอริทึมนี้เหมาะสมที่สุดในแง่หนึ่งหรือไม่?

1
การตรวจสอบความถูกต้องไขว้เป็นการทดแทนที่เหมาะสมสำหรับชุดการตรวจสอบหรือไม่
ในการจัดประเภทข้อความฉันมีชุดการฝึกอบรมที่มีประมาณ 800 ตัวอย่างและชุดทดสอบที่มีประมาณ 150 ตัวอย่าง ไม่เคยใช้ชุดทดสอบและรอจนกว่าจะหมด ฉันใช้ชุดการฝึกอบรมตัวอย่าง 800 ชุดพร้อมการตรวจสอบไขว้ 10 เท่าในขณะที่ปรับแต่งและปรับแต่งตัวแยกประเภทและคุณสมบัติ ซึ่งหมายความว่าฉันไม่ได้มีชุดการตรวจสอบแยกต่างหาก แต่แต่ละชุดมี 10 เท่าชุดตรวจสอบจะถูกเลือกโดยอัตโนมัติ หลังจากที่ฉันจะพอใจกับทุกสิ่งและต้องการเข้าสู่ขั้นตอนสุดท้ายของการประเมินผลฉันจะฝึกตัวแยกประเภทของฉันในตัวอย่าง 800 ตัวอย่าง และทดสอบชุดทดสอบตัวอย่าง 150 ชุด ฉันเข้าใจหรือไม่ว่าการใช้การตรวจสอบข้ามในการจำแนกข้อความถูกต้องหรือไม่? วิธีนี้ใช้ได้หรือไม่ คำถามอื่นการตรวจสอบข้าม wrt คือ: แทนที่จะเป็น 10 เท่าฉันก็ลองใช้ตัวบ่งชี้ทั่วไปสำหรับการแสดงแทน เพราะสำหรับการออกไปข้างนอกเป็นไปไม่ได้ที่จะมีข้อมูลเกี่ยวกับ f1 / ความแม่นยำ / การเรียกคืนฉันสงสัยว่าความสัมพันธ์ระหว่างความถูกต้องจากการออกจากที่หนึ่งกับตัวชี้วัดจาก 10 เท่าคืออะไร ข้อมูลเชิงลึกใด ๆ จะได้รับการชื่นชมอย่างมาก แก้ไข: นี่เป็นการแนะนำที่ดีมากสำหรับการตรวจสอบความถูกต้องข้าม มันยังอ้างถึงงานวิจัยอื่น ๆ

4
เหตุใดจึงมีความไม่สมดุลระหว่างขั้นตอนการฝึกอบรมและขั้นตอนประเมินผล
เป็นที่รู้จักกันดีโดยเฉพาะอย่างยิ่งในการประมวลผลภาษาธรรมชาติที่การเรียนรู้ของเครื่องควรดำเนินการในสองขั้นตอนขั้นตอนการฝึกอบรมและขั้นตอนการประเมินผลและพวกเขาควรใช้ข้อมูลที่แตกต่างกัน ทำไมนี้ โดยสังหรณ์ใจกระบวนการนี้ช่วยหลีกเลี่ยงการบีบอัดข้อมูลมากเกินไป แต่ฉันไม่เห็นเหตุผล (ข้อมูลเชิงทฤษฎี) ในกรณีนี้ ที่เกี่ยวข้องฉันได้เห็นตัวเลขจำนวนหนึ่งโยนไปรอบ ๆ สำหรับชุดข้อมูลที่ควรใช้สำหรับการฝึกอบรมและจำนวนการประเมินเช่น 2/3 และ 1/3 ตามลำดับ มีพื้นฐานทางทฤษฎีสำหรับการเลือกการแจกแจงแบบพิเศษหรือไม่?

3
การเรียนรู้แบบไม่ควบคุมดูแลและแบบกึ่งควบคุม
ในบริบทของการเรียนรู้ของเครื่องสิ่งที่แตกต่างกันคืออะไร การเรียนรู้แบบไม่มีผู้ดูแล การเรียนรู้ภายใต้การดูแลและ การเรียนรู้แบบกึ่งภายใต้การดูแล? และวิธีการบางอย่างของอัลกอริทึมหลักในการดูคืออะไร?

6
เหตุใดจึงต้องศึกษาการปรับให้เหมาะสมของนูนสำหรับการเรียนรู้เชิงทฤษฎี?
ฉันกำลังทำงานเกี่ยวกับการเรียนรู้ของเครื่องจักรเชิงทฤษฎี - ในการเรียนรู้การถ่ายโอนเพื่อเจาะจง - สำหรับปริญญาเอก ด้วยความอยากรู้ทำไมฉันต้องเรียนหลักสูตรการเพิ่มประสิทธิภาพแบบนูน? สิ่งที่ได้จากการเพิ่มประสิทธิภาพของนูนฉันสามารถใช้ในการวิจัยของฉันในการเรียนรู้เครื่องทฤษฎี?

6
ทำไมน้ำหนักที่เล็กลงส่งผลให้ตัวแบบที่เรียบง่ายขึ้นในการทำให้เป็นปกติ
ฉันเสร็จหลักสูตรการเรียนรู้ของ Machine Andrew เมื่อประมาณหนึ่งปีที่แล้วและตอนนี้ฉันกำลังเขียน Math High School Math ของฉันเกี่ยวกับการทำงานของ Logistic Regression และเทคนิคต่าง ๆ เพื่อเพิ่มประสิทธิภาพการทำงาน หนึ่งในเทคนิคเหล่านี้คือการทำให้เป็นมาตรฐาน เป้าหมายของการทำให้เป็นมาตรฐานคือการป้องกันไม่ให้เกิดการล้นเกินโดยการขยายฟังก์ชั่นค่าใช้จ่ายเพื่อรวมเป้าหมายของความเรียบง่ายของแบบจำลอง เราสามารถทำสิ่งนี้ได้โดยการลงโทษขนาดของน้ำหนักโดยการเพิ่มฟังก์ชั่นค่าใช้จ่ายของน้ำหนักแต่ละค่าที่ยกกำลังสองคูณด้วยพารามิเตอร์ปกติ ตอนนี้อัลกอริทึมการเรียนรู้ของเครื่องจะมุ่งที่จะลดขนาดของน้ำหนักในขณะที่ยังคงความถูกต้องในชุดการฝึกอบรม แนวคิดก็คือเราจะไปถึงจุดกึ่งกลางที่เราสามารถสร้างแบบจำลองที่สรุปข้อมูลและไม่พยายามที่จะปรับให้เหมาะกับเสียงรบกวนทั้งหมดโดยมีความซับซ้อนน้อยลง ความสับสนของฉันคือทำไมเราลงโทษขนาดของน้ำหนัก? ทำไมน้ำหนักที่ใหญ่ขึ้นจึงสร้างแบบจำลองที่ซับซ้อนมากขึ้นและน้ำหนักที่เล็กกว่าจึงสร้างแบบจำลองที่เรียบง่ายขึ้น Andrew Ng อ้างว่าในการบรรยายของเขาว่าคำอธิบายนั้นยากสำหรับการสอน แต่ฉันคิดว่าฉันกำลังมองหาคำอธิบายนี้ในตอนนี้ ศ. อึ้งได้ยกตัวอย่างจริง ๆ ว่าฟังก์ชั่นต้นทุนใหม่อาจทำให้น้ำหนักของคุณลักษณะ (เช่น. x ^ 3 และ x ^ 4) มีแนวโน้มเป็นศูนย์เพื่อให้ระดับของแบบจำลองลดลง แต่สิ่งนี้ไม่ได้สร้างความสมบูรณ์ คำอธิบาย ปรีชาญาณของฉันคือน้ำหนักที่น้อยกว่ามักจะเป็นที่ "ยอมรับ" ในคุณสมบัติที่มีเลขชี้กำลังมากกว่าคนที่มีเลขชี้กำลังขนาดเล็ก (เพราะคุณลักษณะที่มีน้ำหนักขนาดเล็กเป็นพื้นฐานของฟังก์ชั่น) น้ำหนักที่เล็กลงแสดงถึง "การมีส่วนร่วม" ที่เล็กลงสำหรับคุณลักษณะที่มีลำดับสูง แต่สัญชาตญาณนี้ไม่เป็นรูปธรรมมาก

7
ใน Naive Bayes ทำไมต้องกังวลกับ Laplace ที่ราบเรียบเมื่อเรามีคำที่ไม่รู้จักในชุดทดสอบ
วันนี้ฉันอ่านหนังสือจำแนก Naive Bayes ฉันอ่านภายใต้หัวข้อการประมาณค่าพารามิเตอร์ด้วยการเพิ่ม 1 การปรับให้เรียบ : ให้cccอ้างถึงคลาส (เช่นค่าบวกหรือค่าลบ) และให้wwwหมายถึงโทเค็นหรือคำ ตัวประมาณความน่าจะเป็นสูงสุดสำหรับP(w|c)P(w|c)P(w|c)คือcount(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. การประมาณค่าP(w|c)P(w|c)P(w|c)อาจเป็นปัญหาได้เนื่องจากมันจะทำให้เรามีความน่าจะเป็น000สำหรับเอกสารที่มีคำที่ไม่รู้จัก วิธีทั่วไปในการแก้ปัญหานี้คือการใช้ Laplace smoothing ให้ V เป็นชุดของคำในชุดฝึกอบรมเพิ่มองค์ประกอบใหม่UNKUNKUNK (ไม่ทราบ) ลงในชุดคำ กำหนดP(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=\frac{\text{count}(w,c) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.