คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

4
ศาสดาจาก Facebook ต่างจากการถดถอยเชิงเส้นหรือไม่?
ดังนั้นสิ่งที่ฉันได้อ่านเกี่ยวกับผู้เผยพระวจนะของ Facebook ก็คือมันจะแบ่งช่วงเวลาออกเป็นแนวโน้มและฤดูกาล ตัวอย่างเช่นแบบจำลองเพิ่มเติมจะถูกเขียนเป็น: Y( t ) = g( t ) + s ( t ) + h ( t ) + eเสื้อy(t)=g(t)+s(t)+h(t)+et y(t) = g(t) + s(t) + h(t) + e_t กับ เสื้อttเวลา ก.( t )g(t)g(t)แนวโน้ม (อาจเป็นเชิงเส้นหรือโลจิสติก) s ( T )s(t)s(t)ฤดูกาล (รายวันรายสัปดาห์รายปี ... ) h ( t )h(t)h(t)วันหยุด อีเสื้อete_tข้อผิดพลาด …

1
ทำไมการตีความ SVM จึงเป็นความผิดประเภท
ความเข้าใจของฉันเกี่ยวกับ SVM คือมันคล้ายกับการถดถอยโลจิสติกส์ (LR) นั่นคือผลรวมถ่วงน้ำหนักของคุณสมบัติถูกส่งผ่านไปยังฟังก์ชัน sigmoid เพื่อให้ได้โอกาสในการเป็นสมาชิกของชั้นเรียน แต่แทนที่จะเป็นการสูญเสียข้ามเอนโทรปี ฟังก์ชั่นการฝึกอบรมจะดำเนินการโดยใช้การสูญเสียบานพับ ประโยชน์ของการใช้การสูญเสียบานพับคือเราสามารถทำเทคนิคตัวเลขต่าง ๆ เพื่อให้เคอร์เนลมีประสิทธิภาพมากขึ้น อย่างไรก็ตามข้อเสียเปรียบคือโมเดลที่ได้นั้นมีข้อมูลน้อยกว่าโมเดล LR ที่สอดคล้องกัน ตัวอย่างเช่นหากไม่มีเคอร์เนล (โดยใช้เคอร์เนลเชิงเส้น) ขอบเขตการตัดสินใจ SVM จะยังคงอยู่ในตำแหน่งเดิมที่ LR จะส่งออกความน่าจะเป็นที่ 0.5 แต่คนหนึ่งไม่สามารถบอกได้ว่าความน่าจะเป็นของการสลายตัวของคลาสนั้น ขอบเขตการตัดสินใจ คำถามสองข้อของฉันคือ: การตีความของฉันถูกต้องหรือไม่ การใช้การสูญเสียบานพับทำให้ไม่ถูกต้องในการตีความผลลัพธ์ SVM ว่าเป็นความน่าจะเป็นอย่างไร

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
เทคนิคการเรียนรู้ของเครื่องสำหรับการเรียนรู้รูปแบบสตริง
ฉันมีรายการคำที่เป็นของหมวดหมู่ที่กำหนดเองที่แตกต่างกัน แต่ละหมวดหมู่มีรูปแบบของตัวเอง (ตัวอย่างเช่นหมวดหนึ่งมีความยาวคงที่พร้อมด้วยอักขระพิเศษอีกประเภทหนึ่งมีตัวอักษรอยู่ซึ่งเกิดขึ้นเฉพาะในหมวดหมู่ "คำ", ... ) ตัวอย่างเช่น: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... ฉันกำลังค้นหาเทคนิคการเรียนรู้ของเครื่องเพื่อเรียนรู้รูปแบบเหล่านี้ด้วยตนเองตามข้อมูลการฝึกอบรม ฉันได้พยายามกำหนดตัวแปรตัวทำนายบางตัว (เช่นความยาวจำนวนตัวอักษรพิเศษ ... ) ด้วยตัวเองแล้วใช้โครงข่ายประสาทเทียมเพื่อเรียนรู้และทำนายหมวดหมู่ แต่นั่นไม่ใช่สิ่งที่ฉันต้องการ ฉันต้องการเทคนิคเพื่อเรียนรู้รูปแบบสำหรับแต่ละหมวดหมู่ด้วยตัวเอง - แม้กระทั่งเรียนรู้รูปแบบที่ฉันไม่เคยคิด ดังนั้นฉันจึงให้ข้อมูลการเรียนรู้อัลกอริทึม (ประกอบด้วยตัวอย่างหมวดคำ) และต้องการให้เรียนรู้รูปแบบสำหรับแต่ละหมวดหมู่เพื่อทำนายหมวดหมู่ในภายหลังจากคำที่คล้ายกันหรือเท่ากัน มีวิธีการที่ทันสมัยในการทำมันได้หรือไม่ ขอบคุณสำหรับความช่วยเหลือของคุณ

2
ความแปรปรวนของฟังก์ชั่น * * ใน * หมายถึงการเรียนรู้เชิงสถิติ * หมายถึงอะไร
บนหน้า 34 ของการเรียนรู้สถิติเบื้องต้น : \newcommand{\Var}{{\rm Var}} แม้ว่าหลักฐานทางคณิตศาสตร์จะอยู่นอกเหนือขอบเขตของหนังสือเล่มนี้ก็เป็นไปได้ที่จะแสดงให้เห็นว่าการทดสอบที่คาดหวัง MSE สำหรับค่าที่กำหนดx0x0x_0สามารถแบ่งย่อยเป็นผลรวมของสามปริมาณพื้นฐาน: ความแปรปรวนของf^(x0)f^(x0)\hat{f}(x_0)ที่ยกกำลังสองอคติของf^(x0)f^(x0)\hat{f}(x_0)และความแปรปรวนของข้อตกลงข้อผิดพลาด\εε\varepsilonนั่นคือ, E(y0−f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)E(y0−f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε) E\left(y_0 - \hat{f}(x_0)\right)^2 = \Var\big(\hat{f}(x_0)\big) + \Big[{\rm Bias}\big(\hat{f}(x_0)\big)\Big]^2 + \Var(\varepsilon) [... ] ความแปรปรวนหมายถึงจำนวนที่f^f^\hat{f}จะเปลี่ยนแปลงหากเราประเมินโดยใช้ชุดข้อมูลการฝึกอบรมอื่น คำถาม:เนื่องจากVar(f^(x0))Var(f^(x0))\Var\big(\hat{f}(x_0)\big)ดูเหมือนจะแสดงถึงความแปรปรวนของฟังก์ชั่นสิ่งนี้หมายความว่าอย่างเป็นทางการ? นั่นคือฉันคุ้นเคยกับแนวคิดของความแปรปรวนของตัวแปรสุ่มXXXแต่สิ่งที่เกี่ยวกับความแปรปรวนของชุดฟังก์ชัน นี่อาจเป็นความแปรปรวนของตัวแปรสุ่มอีกค่าที่มีรูปแบบของฟังก์ชันหรือไม่

1
การเรียนรู้ทั้งมวล: ทำไม Model Stacking จึงมีประสิทธิภาพ
เมื่อเร็ว ๆ นี้ฉันเริ่มสนใจการวางโมเดลเป็นรูปแบบของการเรียนรู้ทั้งมวล โดยเฉพาะอย่างยิ่งฉันได้ทดลองกับชุดของเล่นบางอย่างสำหรับปัญหาการถดถอย ฉันได้ใช้งานตัวแยกระดับ "ระดับ 0" เป็นรายบุคคลโดยเก็บการคาดการณ์ผลลัพธ์ของ regressor แต่ละอันไว้เป็นคุณสมบัติใหม่สำหรับ "meta-regressor" เพื่อใช้เป็นอินพุตและพอดีกับ meta-regressor นี้กับคุณสมบัติใหม่เหล่านี้ (การคาดคะเนจากระดับ 0 regressors) ฉันรู้สึกประหลาดใจอย่างยิ่งที่ได้เห็นการปรับปรุงที่เหนือกว่าของ regressors ส่วนบุคคลเมื่อทำการทดสอบ meta-regressor กับชุดการตรวจสอบความถูกต้อง ดังนั้นนี่คือคำถามของฉัน: ทำไมการวางแบบจำลองจึงมีประสิทธิภาพ โดยสังเขปฉันคาดหวังว่ารูปแบบที่ทำการวางซ้อนจะทำงานได้ไม่ดีเนื่องจากดูเหมือนว่าจะมีการแสดงคุณสมบัติที่ไม่ดีเมื่อเทียบกับรุ่นระดับ 0 แต่ละตัว นั่นคือถ้าฉันฝึก 3 ระดับ 0 regressors บนชุดข้อมูลที่มีคุณสมบัติ 20 รายการและใช้การคาดคะเนระดับ 0 regressors เหล่านี้เพื่อป้อนข้อมูลให้กับ meta-regressor ของฉันนี่หมายความว่า meta-regressor ของฉันมีเพียง 3 คุณสมบัติในการเรียนรู้จาก ดูเหมือนว่ามีการเข้ารหัสข้อมูลเพิ่มเติมในคุณลักษณะดั้งเดิม 20 ประการที่รีจีสเตอร์ระดับ 0 มีไว้สำหรับการฝึกอบรมมากกว่าฟีเจอร์เอาต์พุต 3 …

2
ตัวกรองและแผนที่การเปิดใช้งานเชื่อมต่อในเครือข่ายประสาทเทียมอย่างไร
แผนที่เปิดใช้งานในเลเยอร์ที่กำหนดเชื่อมต่อกับตัวกรองสำหรับเลเยอร์นั้นอย่างไร ฉันไม่ได้ถามเกี่ยวกับวิธีการดำเนินการ convolutional ระหว่างตัวกรองและแผนที่เปิดใช้งานฉันกำลังถามเกี่ยวกับประเภทของการเชื่อมต่อที่ทั้งสองมี ตัวอย่างเช่นสมมติว่าคุณต้องการเชื่อมต่อเต็มรูปแบบ คุณมีตัวกรองจำนวน f และจำนวนแผนที่เปิดใช้งาน n ในเลเยอร์ที่กำหนด คุณได้รับแผนที่การเปิดใช้งานจำนวน f * n ในเลเยอร์ถัดไปและจำนวนแผนที่การเปิดใช้งานจะเพิ่มขึ้นในแต่ละเลเยอร์ใหม่ นี่คือวิธีที่ฉันคิดเอาไว้ หรือคุณอาจบอกว่าตัวกรองแต่ละตัวเชื่อมต่อกับแผนที่เปิดใช้งานเพียงแผนที่เดียว ในกรณีนี้จำนวนตัวกรองจะเท่ากับจำนวนของแผนที่เปิดใช้งานและทุกชั้นจะมีจำนวนตัวกรองและแผนที่เปิดใช้งานเท่ากัน นี่คือสถาปัตยกรรมปัจจุบันของเครือข่ายของฉันและดูเหมือนว่าจะเรียนรู้ได้ดี แหล่งที่มาหลักของความสับสนของฉันคือดูไดอะแกรมของ convnets ที่ฉันเห็นทางออนไลน์ บางส่วนมี "การเชื่อมต่อแบบเต็ม" ระหว่างตัวกรองและแผนที่เปิดใช้งานเช่นนี้ - ในเลเยอร์แรกคุณมีแผนที่เปิดใช้งาน 4 แห่งและตัวกรอง 2 ตัวน่าจะเป็น แต่ละแผนที่มีความเชื่อมั่นกับตัวกรองแต่ละตัวทำให้เกิด 8 แผนที่ในเลเยอร์ถัดไป ดูดี. แต่ที่นี่เรามีสถาปัตยกรรมที่ไม่สมเหตุสมผลสำหรับฉัน - คุณจะไปจากแผนที่ 6 แห่งในชั้นแรกถึง 16 ในอันดับที่ 2 ได้อย่างไร ฉันสามารถคิดถึงวิธีรับแผนที่ 16 จาก 6 แต่พวกเขาจะไม่มีเหตุผลทำ

2
วิธีการฝึกอบรม SVM ผ่านการ backpropagation?
ฉันสงสัยว่าเป็นไปได้ไหมที่จะฝึก SVM (พูดเป็นเส้นตรงเพื่อทำให้เป็นเรื่องง่าย) โดยใช้การขยายภาพย้อนหลัง? ปัจจุบันฉันอยู่ในอุปสรรคเพราะฉันสามารถคิดได้เฉพาะการเขียนผลลัพธ์ของตัวจําแนกเป็น f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) ดังนั้นเมื่อเราลองและคำนวณ "ย้อนกลับผ่าน" (ข้อผิดพลาดที่แพร่กระจาย) เราจะได้รับ เนื่องจากอนุพันธ์ของsgn(x)คือ dsgn(x)∂E∂x=∂E∂f(x;θ,b)∂f(x;θ,b)x=∂E∂f(x;θ,b)∂sgn(g(x;θ,b))∂g(x;θ,b)∂g(x;θ,b)∂x=δdsgn(z)dzθ=δ⋅0⋅θ=0∂E∂x=∂E∂f(x;θ,b)∂f(x;θ,b)x=∂E∂f(x;θ,b)∂sgn(g(x;θ,b))∂g(x;θ,b)∂g(x;θ,b)∂x=δdsgn(z)dzθ=δ⋅0⋅θ=0 \begin{align} \frac{\partial E}{\partial \mathbf{x}} &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial f(\mathbf{x};\theta,b)}{\mathbf{x}} \\ &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial \text{sgn}(g(\mathbf{x};\theta,b))}{\partial g(\mathbf{x};\theta,b)} \frac{\partial g(\mathbf{x};\theta,b)}{\partial \mathbf{x}} \\ &= \delta \, \frac{d \text{sgn}(z)}{dz} \, \theta \\ &= …

1
ฟังก์ชั่นการสูญเสีย Scikit Binomial Deviance
นี่คือฟังก์ชั่นการสูญเสียส่วนเบี่ยงเบนทวินามของ GradientBoosting def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * np.sum(sample_weight * ((y * pred) …

3
เครือข่ายประสาทสามารถเรียนรู้การทำงานและการทำงานของมันได้หรือไม่
ฉันเข้าใจว่าเครือข่ายนิวรัล (NNs) สามารถพิจารณาได้ว่าเป็นผู้ประมาณสากลสำหรับฟังก์ชั่นและอนุพันธ์ภายใต้สมมติฐานบางประการ (ทั้งเครือข่ายและฟังก์ชั่นโดยประมาณ) ในความเป็นจริงฉันได้ทำการทดสอบจำนวนมากเกี่ยวกับฟังก์ชั่นที่เรียบง่าย แต่ไม่สำคัญ (เช่นพหุนาม) และดูเหมือนว่าฉันสามารถประมาณพวกเขาและอนุพันธ์อันดับแรกได้เป็นอย่างดี (ตัวอย่างแสดงไว้ด้านล่าง) อย่างไรก็ตามสิ่งที่ไม่ชัดเจนสำหรับฉันคือว่าทฤษฎีบทที่นำไปสู่การขยาย (หรืออาจจะขยาย) ไปยัง functionals และอนุพันธ์การทำงานของพวกเขา ลองพิจารณาตัวอย่างเช่นการใช้งาน: F[f(x)]=∫badx f(x)g(x)F[f(x)]=∫abdx f(x)g(x)\begin{equation} F[f(x)] = \int_a^b dx ~ f(x) g(x) \end{equation} ด้วยการใช้งานอนุพันธ์: δF[f(x)]δf(x)=g(x)δF[f(x)]δf(x)=g(x)\begin{equation} \frac{\delta F[f(x)]}{\delta f(x)} = g(x) \end{equation} ที่f(x)f(x)f(x)ขึ้นอยู่ทั้งหมดและไม่ใช่นิดบนg(x)g(x)g(x)) NN สามารถเรียนรู้การทำแผนที่ด้านบนและอนุพันธ์ของหน้าที่ได้หรือไม่ โดยเฉพาะอย่างยิ่งหากมีใครแยกโดเมนxxxมากกว่า[a,b][a,b][a,b]และให้f(x)f(x)f(x)(ที่จุดที่ไม่น่าสนใจ) เป็นอินพุตและF[f(x)]F[f(x)]F[f(x)]ในฐานะที่เป็นเอาท์พุท NN สามารถเรียนรู้การทำแผนที่นี้อย่างถูกต้อง (อย่างน้อยในทางทฤษฎี)? ถ้าเป็นเช่นนั้นมันสามารถเรียนรู้อนุพันธ์ของการทำแผนที่ได้หรือไม่ ฉันได้ทำการทดสอบหลายครั้งและดูเหมือนว่า NN อาจเรียนรู้การแมปF[f(x)]F[f(x)]F[f(x)]ได้ในระดับหนึ่ง อย่างไรก็ตามในขณะที่ความถูกต้องของการทำแผนที่นี้ก็โอเค แต่ก็ไม่ได้ยอดเยี่ยม และที่น่าเป็นห่วงก็คืออนุพันธ์ของฟังก์ชันที่คำนวณได้นั้นเป็นขยะที่สมบูรณ์ (ทั้งสองอย่างนี้อาจเกี่ยวข้องกับปัญหาในการฝึกอบรมและอื่น …

1
ฉันสามารถใช้ ReLU ใน autoencoder เป็นฟังก์ชั่นการเปิดใช้งานได้หรือไม่?
เมื่อติดตั้ง autoencoder กับโครงข่ายประสาทเทียมคนส่วนใหญ่จะใช้ sigmoid เป็นฟังก์ชั่นการเปิดใช้งาน เราสามารถใช้ ReLU แทนได้หรือไม่? (เนื่องจาก ReLU ไม่มีขีด จำกัด บนขอบเขตโดยทั่วไปหมายถึงภาพอินพุตสามารถมีพิกเซลใหญ่กว่า 1 ซึ่งแตกต่างจากเกณฑ์ที่ จำกัด สำหรับ autoencoder เมื่อใช้ sigmoid)

2
คำถามเกี่ยวกับ Bag of Words ต่อเนื่อง
ฉันมีปัญหาในการเข้าใจประโยคนี้: สถาปัตยกรรมที่เสนอครั้งแรกคล้ายกับ NNLM ของ feedforward โดยที่เลเยอร์ที่ไม่ใช่เชิงเส้นจะถูกลบออกและเลเยอร์การฉายจะใช้ร่วมกันสำหรับทุกคำ (ไม่ใช่แค่เมทริกซ์การฉาย); ดังนั้นคำทั้งหมดจึงถูกฉายในตำแหน่งเดียวกัน (เวกเตอร์ของพวกมันมีค่าเฉลี่ย) ชั้นฉายภาพกับเมทริกซ์การฉายคืออะไร? มันหมายความว่าอย่างไรที่คำทุกคำจะถูกฉายในตำแหน่งเดียวกัน แล้วทำไมเวกเตอร์ของพวกมันจึงมีค่าเฉลี่ย? ประโยคที่เป็นครั้งแรกของส่วนที่ 3.1 ของการประมาณค่าที่มีประสิทธิภาพของการแสดงคำในปริภูมิเวกเตอร์ (Mikolov et al. 2013)

2
ทำไม Adaboost กับต้นไม้ตัดสินใจ?
ฉันอ่านบิตเกี่ยวกับการเพิ่มอัลกอริทึมสำหรับงานการจัดหมวดหมู่และ Adaboost โดยเฉพาะ ฉันเข้าใจว่าจุดประสงค์ของ Adaboost คือการใช้ "ผู้เรียนที่อ่อนแอ" หลายครั้งและผ่านการทำซ้ำในข้อมูลการฝึกอบรมให้ผู้จัดหมวดหมู่เรียนรู้ที่จะทำนายชั้นเรียนที่ตัวแบบทำผิดซ้ำ ๆ อย่างไรก็ตามฉันสงสัยว่าทำไมการอ่านจำนวนมากของฉันจึงได้ใช้ต้นไม้ตัดสินใจเป็นตัวจําแนกอ่อนแอ มีเหตุผลพิเศษสำหรับเรื่องนี้หรือไม่? มีตัวจําแนกบางอย่างที่ทําให้ผู้สมัครดีหรือไม่ดีกับ Adaboost โดยเฉพาะหรือไม่?

2
การกระจายอัตราต่อรองเข้าสู่ระบบคืออะไร?
ฉันกำลังอ่านหนังสือเกี่ยวกับการเรียนรู้ของเครื่อง (Data Mining โดย Witten, et al., 2011) และพบกับข้อความนี้: ... ยิ่งไปกว่านั้นสามารถใช้การแจกแจงต่าง ๆ ได้ แม้ว่าการแจกแจงแบบปกติมักจะเป็นตัวเลือกที่ดีสำหรับคุณลักษณะตัวเลข แต่ก็ไม่เหมาะสำหรับคุณลักษณะที่มีค่าต่ำสุดที่กำหนดไว้ล่วงหน้า แต่ไม่มีข้อ จำกัด ด้านบน ในกรณีนี้การกระจาย "บันทึกปกติ" เหมาะสมกว่า แอ็ตทริบิวต์ตัวเลขที่ถูกล้อมรอบด้านบนและด้านล่างสามารถสร้างแบบจำลองโดยการกระจาย"ล็อก - ค่าต่อรอง" ฉันไม่เคยได้ยินเรื่องการกระจายตัวนี้ ฉัน googled สำหรับ "การกระจายอัตราต่อรองแบบล็อกออน" แต่ไม่พบการจับคู่แบบตรงทั้งหมดที่เกี่ยวข้อง มีคนช่วยฉันได้ไหม การกระจายตัวนี้คืออะไรและทำไมมันถึงช่วยให้มีตัวเลขที่ถูกล้อมรอบด้านบนและด้านล่าง? ป.ล. ฉันเป็นวิศวกรซอฟต์แวร์ไม่ใช่นักสถิติ

3
องค์ประกอบหลักแรกไม่ได้แยกคลาส แต่พีซีเครื่องอื่นทำ เป็นไปได้อย่างไร?
ฉันใช้ PCA ใน 17 ตัวแปรเชิงปริมาณเพื่อให้ได้ชุดของตัวแปรที่มีขนาดเล็กลงซึ่งเป็นองค์ประกอบหลักที่จะใช้ในการเรียนรู้ของเครื่องภายใต้การดูแลเพื่อแบ่งอินสแตนซ์ออกเป็นสองชั้น หลังจาก PCA บัญชี PC1 คิดเป็น 31% ของความแปรปรวนของข้อมูล PC2 คิดเป็น 17%, PC3 คิดเป็น 10%, PC4 คิดเป็น 8%, PC5 คิดเป็น 7% และ PC6 คิดเป็น 6% อย่างไรก็ตามเมื่อฉันดูความแตกต่างของพีซีระหว่างสองคลาสน่าประหลาดใจที่ PC1 ไม่ได้แยกแยะระหว่างสองคลาสได้ดี พีซีที่เหลืออยู่เป็นตัวเลือกที่ดี นอกจากนี้ PC1 จะไม่เกี่ยวข้องเมื่อใช้ในต้นไม้ตัดสินใจซึ่งหมายความว่าหลังจากตัดแต่งกิ่งต้นไม้มันจะไม่ปรากฏแม้แต่ในต้นไม้ แผนผังประกอบด้วย PC2-PC6 มีคำอธิบายใด ๆ สำหรับปรากฏการณ์นี้หรือไม่? มันเป็นสิ่งที่ผิดปกติกับตัวแปรที่ได้รับหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.