คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

5
มันเป็นการโกงที่จะปล่อยค่าผิดปกติตาม boxplot ของ Mean Absolute Error เพื่อปรับปรุงตัวแบบการถดถอยหรือไม่
ฉันมีแบบจำลองการทำนายทดสอบด้วยวิธีการสี่วิธีดังที่คุณเห็นในรูปแบบกล่องด้านล่าง แอตทริบิวต์ที่ตัวแบบทำนายนั้นอยู่ในช่วง 0-8 คุณอาจสังเกตเห็นว่ามีค่าผิดปกติที่มีขอบบนหนึ่งค่าและค่าผิดปกติที่ต่ำกว่าสามค่าที่ระบุโดยวิธีการทั้งหมด ฉันสงสัยว่าเหมาะสมที่จะลบอินสแตนซ์เหล่านี้ออกจากข้อมูลหรือไม่ หรือนี่เป็นการโกงเพื่อปรับปรุงตัวแบบการทำนาย?

2
วิธีที่ดีสำหรับการจัดกลุ่มข้อความสั้นคืออะไร
ฉันกำลังทำงานกับปัญหาการจัดกลุ่มข้อความ ข้อมูลมีหลายประโยค มีอัลกอริทึมที่ดีซึ่งมีความแม่นยำสูงในข้อความสั้นหรือไม่? คุณสามารถให้การอ้างอิงที่ดีได้หรือไม่? อัลกอริทึมเช่น KMeans การจัดกลุ่มสเปกตรัมไม่ทำงานได้ดีสำหรับปัญหานี้

1
โคตรการไล่ระดับสีแบบสุ่มสามารถประหยัดเวลาได้อย่างไรเมื่อเปรียบเทียบกับการไล่ระดับสีแบบมาตรฐาน
Standard Gradient Descent จะคำนวณการไล่ระดับสีสำหรับชุดข้อมูลการฝึกอบรมทั้งหมด for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad สำหรับจำนวน epoch ที่กำหนดไว้ล่วงหน้าเราจะคำนวณเวกเตอร์ไล่ระดับ weights_grad ของฟังก์ชันการสูญเสียสำหรับชุดข้อมูลทั้งหมด wrt พารามิเตอร์เวกเตอร์พารามิเตอร์ของเรา ความแตกต่างของการไล่ระดับสีแบบสุ่มสุ่มทำการปรับปรุงพารามิเตอร์สำหรับแต่ละตัวอย่างการฝึกอบรม x (i) และเลเบล y (i) for i in range(nb_epochs): np.random.shuffle(data) for example in data: params_grad = evaluate_gradient(loss_function, example, params) params = params …

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
คำถามสัมภาษณ์ที่ดีสำหรับผู้สมัครขั้นตอนวิธีเชิงสถิติคืออะไร?
ฉันกำลังสัมภาษณ์ผู้คนถึงตำแหน่งนักพัฒนาอัลกอริทึม / นักวิจัยในด้านสถิติ / การเรียนรู้ของเครื่องจักร / บริบทการขุดข้อมูล ฉันกำลังมองหาคำถามที่จะถามเพื่อพิจารณาเป็นพิเศษความคุ้นเคยความเข้าใจและความลื่นไหลของผู้สมัครกับทฤษฎีพื้นฐานเช่นคุณสมบัติพื้นฐานของความคาดหวังและความแปรปรวนการแจกแจงทั่วไปบางอย่าง ฯลฯ คำถามไปที่ปัจจุบันของฉันคือ: "มีปริมาณที่ไม่รู้จักซึ่งเราอยากจะประเมินด้วยเหตุนี้เรามีตัวประมาณY 1 , Y 2 , … , Y nซึ่งได้รับXนั้นไม่เอนเอียงและเป็นอิสระและ แต่ละคนมีความแปรปรวนที่รู้จักกันσ 2 ฉันแตกต่างกันไปสำหรับแต่ละคนค้นหาตัวประมาณที่เหมาะสมที่สุดY = f ( Y 1 , … , Y n )ซึ่งไม่เอนเอียงและมีความแปรปรวนน้อยที่สุด "XXXY1, วาย2, … , YnY1,Y2,...,YnY_1, Y_2, \ldots, Y_nXXXσ2ผมσผม2\sigma_i^2Y= f( Y1, … , Yn)Y=ฉ(Y1,...,Yn)Y=f(Y_1,\ldots, Y_n) ฉันคาดหวังว่าผู้สมัครที่จริงจังในการจัดการกับมันได้อย่างง่ายดาย (ให้เวลาในการคำนวณการคำนวณ) …

2
ทฤษฎีการเรียนรู้ PAC หมายถึงอะไร?
ฉันใหม่ในการเรียนรู้ของเครื่อง ฉันกำลังเรียนหลักสูตรการเรียนรู้ของเครื่องจักร (มหาวิทยาลัยสแตนฟอร์ด) และฉันไม่เข้าใจความหมายของทฤษฎีนี้และประโยชน์ของมัน ฉันสงสัยว่าถ้าใครสามารถอธิบายทฤษฎีนี้ให้ฉันได้ ทฤษฎีนี้มีพื้นฐานอยู่บนสมการนี้

3
ในการปรับให้เรียบของ Kneser-Ney มีการจัดการคำที่มองไม่เห็นอย่างไร
จากสิ่งที่ฉันได้เห็นสูตรการปรับให้เรียบของ Kneser-Ney (ลำดับที่สอง) ไม่ทางใดก็ทางหนึ่ง P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} กับ normalizing factorให้เป็นλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} และความน่าจะเป็นอย่างต่อเนื่องPc o n t( ด้วยn)Pคโอnเสื้อ(Wn)P_{cont}(w_n)ของคำwnWnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} ที่N1+(∙w)N1+(∙w)N_{1+}\left(\bullet …

1
อรรถาภิธานสำหรับสถิติและเงื่อนไขการเรียนรู้ของเครื่อง
มีอรรถาภิธานอ้างอิงใด ๆ สำหรับสถิติและเงื่อนไขการเรียนรู้ของเครื่องหรือไม่? ฉันรู้ว่าบทความ Wikipedia มักจะมีคำพ้องความหมายเหมือนกัน แต่ฉันต้องการอรรถาภิธานที่สามารถผ่านได้อย่างง่ายดาย (เทียบกับสารานุกรมฉบับเต็ม) เพื่อให้แน่ใจว่าฉันรู้ศัพท์แสงทั้งหมด

3
คำแนะนำสำหรับการเรียนรู้ที่คำนึงถึงต้นทุนในการตั้งค่าที่ไม่สมดุล
ฉันมีชุดข้อมูลที่มีไม่กี่ล้านแถวและประมาณ 100 คอลัมน์ ฉันต้องการตรวจสอบประมาณ 1% ของตัวอย่างในชุดข้อมูลซึ่งเป็นของชั้นสามัญ ฉันมีข้อ จำกัด ความแม่นยำขั้นต่ำ แต่เนื่องจากค่าใช้จ่ายไม่สมมาตรฉันไม่กระตือรือร้นในการเรียกคืนใด ๆ (ตราบใดที่ฉันไม่เหลือ 10 การแข่งขันที่เป็นบวก!) มีวิธีใดบ้างที่คุณอยากแนะนำในการตั้งค่านี้? (ยินดีต้อนรับสู่ลิงก์ไปยังเอกสารลิงค์ไปยังการนำไปปฏิบัติ)

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
ความหมายของเงื่อนไขการส่งออกในแพคเกจ gbm?
ฉันใช้แพ็คเกจ gbm เพื่อจัดหมวดหมู่ ตามที่คาดหวังผลลัพธ์ที่ดี แต่ฉันพยายามที่จะเข้าใจผลลัพธ์ของตัวจําแนก เอาต์พุตมีห้าเทอม `Iter TrainDeviance ValidDeviance StepSize Improve` ทุกคนสามารถอธิบายความหมายของแต่ละคำโดยเฉพาะอย่างยิ่งความหมายของการปรับปรุง

3
การผสมข้อมูลคืออะไร
ระยะนี้จะปรากฏขึ้นบ่อย ๆ ในหัวข้อวิธีการที่เกี่ยวข้องกับ มีการผสมผสานวิธีการเฉพาะในการทำเหมืองข้อมูลและการเรียนรู้ทางสถิติ? ฉันไม่สามารถรับผลลัพธ์ที่เกี่ยวข้องจาก google ได้ ดูเหมือนว่าการผสมเป็นการผสมผสานผลลัพธ์จากหลาย ๆ โมเดลและทำให้ได้ผลลัพธ์ที่ดีขึ้น มีทรัพยากรใดที่ช่วยให้ฉันรู้เพิ่มเติมเกี่ยวกับมันหรือไม่?

2
รวมลักษณนามโดยการพลิกเหรียญ
ฉันกำลังศึกษาหลักสูตรการเรียนรู้ของเครื่องและสไลด์บรรยายมีข้อมูลที่ฉันพบว่าขัดแย้งกับหนังสือที่แนะนำ ปัญหาดังต่อไปนี้: มีตัวแยกประเภทสามตัว: ลักษณนาม Aให้ประสิทธิภาพที่ดีขึ้นในช่วงล่างของขีด จำกัด ลักษณนามขให้ประสิทธิภาพที่ดีขึ้นในช่วงที่สูงขึ้นของเกณฑ์ ลักษณนาม Cสิ่งที่เราได้รับโดยการโยนเหรียญและเลือกจากตัวแยกประเภทสองตัว ประสิทธิภาพของลักษณนาม C คืออะไรเมื่อดูบนเส้นโค้ง ROC สไลด์บรรยายระบุว่าเพียงแค่พลิกเหรียญนี้เราจะได้รับ " เรือนูน " ที่มีมนต์ขลังของตัวแยกประเภท A และ B ของเส้นโค้ง ROC ฉันไม่เข้าใจประเด็นนี้ เพียงแค่โยนเหรียญเราจะได้รับข้อมูลได้อย่างไร สไลด์บรรยาย หนังสือเล่มนี้พูดอะไร หนังสือที่แนะนำ ( Data Mining ... โดย Ian H. Witten, Eibe Frank และ Mark A. Hall ) ในทางกลับกันระบุว่า: หากต้องการดูสิ่งนี้ให้เลือกความน่าจะเป็นที่เฉพาะเจาะจงสำหรับวิธี A ที่ให้อัตราบวกจริงและเท็จของ tA และ fA …

2
การวิเคราะห์แบบรันไทม์ของอัลกอริทึมการเรียนรู้ของเครื่องทั่วไป
ไม่มีใครอ้างอิงถึงบทสรุปของการวิเคราะห์แบบรันไทม์สำหรับอัลกอริทึมการเรียนรู้ของเครื่องทั่วไป (รสชาติที่แตกต่างของ NN, SVMs ฯลฯ )

2
การเพิ่มจำนวนฟีเจอร์จะส่งผลให้ความแม่นยำลดลง แต่เพิ่มขึ้น / จำได้เร็วขึ้น
ฉันยังใหม่กับการเรียนรู้ของเครื่อง ในขณะนี้ฉันใช้ตัวจําแนก Naive Bayes (NB) เพื่อจัดประเภทข้อความขนาดเล็กใน 3 คลาสเป็นค่าบวกลบหรือเป็นกลางโดยใช้ NLTK และ python หลังจากทำการทดสอบด้วยชุดข้อมูลที่ประกอบด้วย 300,000 อินสแตนซ์ (ลบ 16,924 บวก 7,477 เชิงลบและ 275,599 นิวทรัล) ฉันพบว่าเมื่อฉันเพิ่มจำนวนฟีเจอร์ความแม่นยำจะลดลง แต่ความแม่นยำ / การเรียกคืนสำหรับคลาสบวกและลบ นี่เป็นพฤติกรรมปกติของลักษณนาม NB หรือไม่? เราสามารถพูดได้หรือไม่ว่าจะเป็นการดีกว่าถ้าใช้คุณสมบัติเพิ่มเติม ข้อมูลบางส่วน: Features: 50 Accuracy: 0.88199 F_Measure Class Neutral 0.938299 F_Measure Class Positive 0.195742 F_Measure Class Negative 0.065596 Features: 500 Accuracy: 0.822573 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.