คำถามติดแท็ก statistical-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างแบบจำลองของข้อมูลการฝึกอบรม คำว่า "แมชชีนเลิร์นนิง" ถูกกำหนดไว้อย่างคลุมเครือ ซึ่งรวมถึงสิ่งที่เรียกอีกอย่างว่าการเรียนรู้ทางสถิติการเรียนรู้แบบเสริมกำลังการเรียนรู้ที่ไม่มีผู้ดูแลและอื่น ๆ เสมอเพิ่มแท็กเฉพาะเพิ่มเติม

5
Support Vector Machine (SVM) ทำงานอย่างไร
อย่างไรเครื่องสนับสนุนเวกเตอร์ (SVM)การทำงานและสิ่งที่แตกต่างจากตัวจําแนกเชิงเส้นอื่น ๆ เช่นเป็น Linear Perceptron , เชิงเส้นวิเคราะห์จำแนกหรือถดถอยโลจิสติ ? * * * * (* ฉันกำลังคิดในแง่ของแรงจูงใจพื้นฐานสำหรับอัลกอริทึมกลยุทธ์การปรับให้เหมาะสมความสามารถในการวางนัยทั่วไปและความซับซ้อนของเวลาทำงาน )

2
เหตุใดการถดถอยของสันจึงเรียกว่า“ สันเขา” ทำไมมันถึงต้องการและอะไรจะเกิดขึ้นเมื่อไปไม่มีที่สิ้นสุด?
การประมาณค่าสัมประสิทธิ์การถดถอยริดจ์เป็นค่าที่ลดค่าβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. คำถามของฉันคือ: หากเราจะเห็นว่านิพจน์ด้านบนลดลงเป็น RSS ปกติ เกิดอะไรขึ้นถ้า ? ฉันไม่เข้าใจคำอธิบายในตำราของพฤติกรรมของสัมประสิทธิ์λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty เพื่อช่วยในการทำความเข้าใจแนวคิดเบื้องหลังคำเฉพาะทำไมคำที่เรียกว่าการถดถอย RIDGE? (ทำไมต้องริดจ์?) และมีอะไรผิดปกติกับการถดถอยปกติ / ทั่วไปที่มีความต้องการที่จะแนะนำแนวคิดใหม่ที่เรียกว่าการถดถอยของสันเขา? ข้อมูลเชิงลึกของคุณจะดีมาก

3
การจัดกลุ่มหรือการจัดหมวดหมู่ภายใต้การดูแล?
คำถามที่สองคือฉันพบในการสนทนาที่ไหนสักแห่งบนเว็บที่พูดถึง "การจัดกลุ่มแบบมีผู้ดูแล" เท่าที่ฉันทราบการจัดกลุ่มไม่ได้รับการสำรองดังนั้นความหมายที่อยู่เบื้องหลัง "การจัดกลุ่มแบบมีผู้ดูแล" คืออะไร ความแตกต่างเกี่ยวกับ "การจำแนกประเภท" คืออะไร? มีลิงค์มากมายที่พูดถึง: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf ฯลฯ ...

3
การผสมข้อมูลคืออะไร
ระยะนี้จะปรากฏขึ้นบ่อย ๆ ในหัวข้อวิธีการที่เกี่ยวข้องกับ มีการผสมผสานวิธีการเฉพาะในการทำเหมืองข้อมูลและการเรียนรู้ทางสถิติ? ฉันไม่สามารถรับผลลัพธ์ที่เกี่ยวข้องจาก google ได้ ดูเหมือนว่าการผสมเป็นการผสมผสานผลลัพธ์จากหลาย ๆ โมเดลและทำให้ได้ผลลัพธ์ที่ดีขึ้น มีทรัพยากรใดที่ช่วยให้ฉันรู้เพิ่มเติมเกี่ยวกับมันหรือไม่?

1
ทำไมเราควรพูดถึงพฤติกรรมการลู่เข้าของตัวประมาณที่แตกต่างกันในทอพอโลยีที่แตกต่างกัน?
ในบทแรกของหนังสือเกี่ยวกับเรขาคณิตเชิงพีชคณิตและทฤษฎีการเรียนรู้ทางสถิติซึ่งพูดถึงการลู่เข้าของการประมาณค่าในพื้นที่การทำงานที่แตกต่างกันมันกล่าวว่าการประมาณแบบเบย์สอดคล้องกับโทโพโลยีการกระจายแบบชวาร์ตษ์ (ในหน้า 7): ตัวอย่างเช่น sup-norm, no, ทอพอโลยีแบบอ่อนของ Hilbert space , โทโพโลยีการกระจายแบบชวาร์ตษ์และอื่น ๆ มันขึ้นอยู่กับโทโพโลยีของพื้นที่ฟังก์ชั่นอย่างมากว่าการลู่เข้าถือหรือไม่ การประมาณค่า Bayes สอดคล้องกับโทโพโลยีการแจกแจงแบบชวาร์ตษ์ในขณะที่ความเป็นไปได้สูงสุดหรือวิธีการทางด้านหลังสอดคล้องกับ sup-norm ความแตกต่างนี้มีผลอย่างมากต่อผลการเรียนรู้ในรูปแบบเอกพจน์L 2 K n ( w ) → K ( w )LพีLพีL^pL2L2L^2Kn( w ) → K( w )Kn(W)→K(W)K_n(w)\to K(w) โดยที่และเป็นลำดับเชิงประจักษ์ KL-divergence (ผลรวมของการสังเกต) และ KL-divergence จริง (integral wrt การกระจายข้อมูล) ระหว่างโมเดลจริงและโมเดลพารามิเตอร์ (พร้อมพารามิเตอร์w )K ( w …

2
เวกเตอร์ของตัวแปรสามารถแสดงไฮเปอร์เพลนได้อย่างไร?
ฉันกำลังอ่านองค์ประกอบของการเรียนรู้เชิงสถิติและหน้า 12 (ส่วน 2.3) โมเดลเชิงเส้นจะได้รับการบันทึกเป็น: Yˆ= XTβˆY^=XTβ^\widehat{Y} = X^{T} \widehat{\beta} ... โดยที่คือการย้ายของเวกเตอร์คอลัมน์ของตัวทำนาย / ตัวแปรอิสระ / อินพุต (มันระบุก่อนหน้านี้ "เวกเตอร์ทั้งหมดจะถือว่าเป็นพาหะคอลัมน์" เพื่อที่จะไม่ทำให้นี้X Tเวกเตอร์แถวและเบต้าเวกเตอร์คอลัมน์?)XTXTX^{T}XTXTX^{T}βˆβ^\widehat{\beta} สิ่งที่รวมอยู่ในคือ " 1 " ที่จะถูกคูณกับสัมประสิทธิ์ที่สอดคล้องกันซึ่งให้การสกัด (ค่าคงที่)XXX111 มันพูดต่อไปว่า: ในพื้นที่อินพุทมิติ, ( X , Y )หมายถึงไฮเปอร์เพล หากค่าคงที่รวมอยู่ในXแล้วไฮเปอร์เพลนจะรวมค่าเริ่มต้นและเป็นพื้นที่ย่อย หากไม่ได้ก็เป็นชุดเลียนแบบตัดYแกนที่จุด ( 0 , ^ β 0 )( p + 1 )(p+1)(p + 1)( X, วาย …

1
การถดถอยโลจิสติกสำหรับข้อมูลจากการแจกแจงปัวซอง
จากบันทึกการเรียนรู้ของเครื่องบางส่วนที่พูดถึงวิธีการจำแนกจำแนกประเภทโดยเฉพาะอย่างยิ่งการถดถอยโลจิสติกโดยที่ y คือเลเบลคลาส (0 หรือ 1) และ x เป็นข้อมูลกล่าวกันว่า: ถ้าและx | y = 1 \ sim \ mathrm {Poisson} (λ_1)ดังนั้นp (y | x)จะเป็นโลจิสติกx|y=0∼Poisson(λ0)x|y=0∼Poisson(λ0)x|y = 0 \sim \mathrm{Poisson}(λ_0)x|y=1∼Poisson(λ1)x|y=1∼Poisson(λ1)x|y = 1 \sim \mathrm{Poisson}(λ_1)p(y|x)p(y|x)p(y|x) ทำไมเรื่องนี้ถึงเป็นจริง?

1
ขยายโมเดล 2 ระดับไปสู่ปัญหาหลายระดับ
บทความเกี่ยวกับ Adaboostนี้จะให้คำแนะนำและรหัส (หน้า 17) สำหรับการขยายโมเดล 2-class ไปสู่ปัญหา K-class ฉันต้องการที่จะพูดคุยรหัสนี้เพื่อที่ฉันสามารถเสียบรุ่น 2 ระดับที่แตกต่างกันได้อย่างง่ายดายและเปรียบเทียบผลลัพธ์ เนื่องจากโมเดลการจำแนกประเภทส่วนใหญ่มีอินเตอร์เฟสสูตรและpredictวิธีการบางอย่างนี้จึงค่อนข้างง่าย น่าเสียดายที่ฉันไม่พบวิธีการแยกความน่าจะเป็นแบบคลาสจากแบบจำลอง 2 ระดับดังนั้นแต่ละรุ่นจะต้องใช้รหัสที่กำหนดเอง นี่คือฟังก์ชั่นที่ฉันเขียนเพื่อแบ่งปัญหา K-class ออกเป็นปัญหา 2 ระดับและคืน K โมเดล: oneVsAll <- function(X,Y,FUN,...) { models <- lapply(unique(Y), function(x) { name <- as.character(x) .Target <- factor(ifelse(Y==name,name,'other'), levels=c(name, 'other')) dat <- data.frame(.Target, X) model <- FUN(.Target~., data=dat, ...) return(model) }) …

1
ชี้แจงข้อมูลทางเรขาคณิต
คำถามนี้เกี่ยวข้องกับกระดาษDifferential Geometry ของข้อมูลเชิงเส้นครอบครัวแบบโค้งและการสูญเสียข้อมูลโดย Amari ข้อความจะเป็นดังนี้ ให้เป็น -dimensional ของการแจกแจงความน่าจะเป็นด้วยระบบพิกัดโดยที่จะถือว่า ...Sn={pθ}Sn={pθ}S^n=\{p_{\theta}\}nnnθ=(θ1,…,θn)θ=(θ1,…,θn)\theta=(\theta_1,\dots,\theta_n)pθ(x)>0pθ(x)>0p_{\theta}(x)>0 เราอาจพิจารณาทุกจุดของว่าถือ functionของ ...θθ\thetaSnSnS^nlogpθ(x)log⁡pθ(x)\log p_{\theta}(x)xxx ให้เป็นพื้นที่ที่แทนเจนต์ของที่ซึ่งเป็นพูดประมาณระบุกับรุ่นเชิงเส้นของย่านเล็ก ๆ ของใน n ให้เป็นพื้นฐานตามธรรมชาติของเกี่ยวข้องกับระบบการประสานงาน ...TθTθT_{\theta}SnSnS^nθθ\thetaθθ\thetaSnSnS^nei(θ),i=1,…,nei(θ),i=1,…,ne_i(\theta), i=1,\dots,nTθTθT_{\theta} เนื่องจากแต่ละจุดของมีฟังก์ชั่นของมันเป็นเรื่องธรรมดาที่จะถือว่าที่แทนฟังก์ชันθθ\thetaSnSnS^nlogpθ(x)log⁡pθ(x)\log p_{\theta}(x)xxxei(θ)ei(θ)e_i(\theta)θθ\thetaei(θ)=∂∂θilogpθ(x).ei(θ)=∂∂θilog⁡pθ(x).e_i(\theta)=\frac{\partial}{\partial\theta_i}\log p_{\theta}(x). ฉันไม่เข้าใจคำสั่งสุดท้าย ปรากฏในส่วนที่ 2 ของกระดาษที่กล่าวถึงข้างต้น พื้นฐานของพื้นที่แทนเจนต์เป็นอย่างไรโดยสมการข้างบน? มันจะมีประโยชน์ถ้าใครบางคนในชุมชนนี้คุ้นเคยกับเนื้อหาประเภทนี้สามารถช่วยฉันเข้าใจสิ่งนี้ ขอบคุณ อัปเดต 1: แม้ว่าฉันจะเห็นด้วยว่า (จาก @aginensky) ถ้าเป็นเชิงเส้นอย่างอิสระแล้วมีความเป็นอิสระในเชิงเส้นเช่นกันสมาชิกเหล่านี้ของพื้นที่แทนเจนต์ในตอนแรกยังไม่ชัดเจน ดังนั้นวิธีที่จะถูกพิจารณาเป็นพื้นฐานสำหรับพื้นที่แทนเจนต์ ความช่วยเหลือใด ๆ ที่ชื่นชม∂∂θipθ∂∂θipθ\frac{\partial}{\partial\theta_i}p_{\theta}∂∂θilogpθ∂∂θilog⁡pθ\frac{\partial}{\partial\theta_i}\log p_{\theta}∂∂θilogpθ∂∂θilog⁡pθ\frac{\partial}{\partial\theta_i}\log p_{\theta} อัปเดต 2: @aginensky: ในหนังสือของเขา Amari พูดต่อไปนี้: ให้เราพิจารณากรณีที่ชุดของความน่าจะเป็นบวกทั้งหมด (อย่างเคร่งครัด) …

1
ทฤษฎีการเรียนรู้ทางสถิติเทียบกับทฤษฎีการเรียนรู้คอมพิวเตอร์?
ความสัมพันธ์คืออะไรและแตกต่างระหว่างทฤษฎีการเรียนรู้ทางสถิติและทฤษฎีการเรียนรู้คอมพิวเตอร์ ? พวกเขาเกี่ยวกับหัวข้อเดียวกันหรือไม่ แก้ไขปัญหาเดียวกันและใช้วิธีการเดียวกันได้หรือไม่ ตัวอย่างเช่นอดีตบอกว่ามันเป็นทฤษฎีของการทำนาย (การถดถอยการจัดหมวดหมู่, ... )
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.