คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
ทำความเข้าใจกับทฤษฎีอาหารกลางวันฟรีในการจำแนกรูปแบบของ Duda et al
ฉันมีคำถามบางอย่างเกี่ยวกับสัญลักษณ์ที่ใช้ในมาตรา9.2 การขาดความเหนือกว่าโดยธรรมชาติของลักษณนามใด ๆใน Duda, ฮาร์ตและนกกระสาการจัดจำแนกรูปแบบ ก่อนอื่นให้ฉันอ้างอิงข้อความที่เกี่ยวข้องจากหนังสือ: เพื่อความง่ายให้พิจารณาปัญหาสองหมวดหมู่ที่ชุดฝึกอบรมประกอบด้วยรูปแบบและเลเบลหมวดหมู่ที่เกี่ยวข้อง สำหรับสร้างขึ้นโดยฟังก์ชันเป้าหมายที่ไม่รู้จักที่จะเรียนรู้ที่i)DDDxixix^iyi=±1yi=±1y_i = ± 1i=1,...,ni=1,...,ni = 1,..., nF(x)F(x)F(x)yi=F(xi)yi=F(xi)y_i = F(x^i) ให้แทนเซตของสมมติฐาน (ไม่ต่อเนื่อง) หรือชุดของพารามิเตอร์ที่เป็นไปได้ที่จะเรียนรู้ สมมติฐานเฉพาะ สามารถอธิบายได้โดยน้ำหนักเชิงปริมาณในเครือข่ายประสาทหรือพารามิเตอร์ 0 ในรูปแบบการทำงานหรือชุดของการตัดสินใจในต้นไม้และอื่น ๆHHHh(x)∈Hh(x)∈Hh(x) \in H นอกจากนี้เป็นความน่าจะเป็นก่อนหน้านี้ที่อัลกอริทึมจะสร้างสมมติฐานหลังจากการฝึกอบรม โปรดทราบว่านี่ไม่ใช่ความน่าจะเป็นที่ถูกต้องP(h)P(h)P(h)hhhhhh ถัดไปหมายถึงความเป็นไปได้ว่าอัลกอริทึมจะให้ผลผลิตสมมติฐานเมื่อผ่านการฝึกอบรมเกี่ยวกับข้อมูลDในขั้นตอนวิธีการเรียนรู้ที่กำหนดเช่นที่ใกล้ที่สุดเพื่อนบ้านและการตัดสินใจต้นไม้ จะเป็นทุกศูนย์ยกเว้นสมมติฐานเดียวชั่วโมงสำหรับวิธีการสุ่ม (เช่นเครือข่ายนิวรัลที่ได้รับการฝึกฝนจากน้ำหนักเริ่มต้นแบบสุ่ม) หรือการเรียนรู้ Boltzmann แบบสุ่มสามารถเป็นการกระจายอย่างกว้างขวางP(h|D)P(h|D)P(h|D)hhhDDDP(h|D)P(h|D)P(h|D)hhhP(h|D)P(h|D)P(h|D) ให้เป็นข้อผิดพลาดสำหรับฟังก์ชัน zero-one หรือฟังก์ชัน loss อื่นEEE ข้อผิดพลาดการจำแนกหมวดหมู่การฝึกอบรมนอกชุดที่คาดไว้เมื่อฟังก์ชันที่แท้จริงคือและความน่าจะเป็นสำหรับอัลกอริทึมการเรียนรู้ผู้สมัครที่คือมอบให้โดยF(x)F(x)F(x)kkkPk(h(x)|D)Pk(h(x)|D)P_k(h(x)|D)Ek(E|F,n)=∑x∉DP(x)[1−δ(F(x),h(x))]Pk(h(x)|D)Ek(E|F,n)=∑x∉DP(x)[1−δ(F(x),h(x))]Pk(h(x)|D) \mathcal{E}_k(E|F,n) = \sum_{x\notin D} P(x) [1-\delta(F(x), h(x))] P_k(h(x)|D) ทฤษฎีบท 9.1 …

2
การทำนายเป้าหมายหรือคลาสหลายอัน?
สมมติว่าฉันกำลังสร้างแบบจำลองการทำนายที่ฉันพยายามทำนายเหตุการณ์หลาย ๆ เหตุการณ์ (ตัวอย่างเช่นทั้งการตายและการโยนเหรียญ) อัลกอริทึมส่วนใหญ่ที่ฉันคุ้นเคยกับการทำงานกับเป้าหมายเดียวเท่านั้นดังนั้นฉันสงสัยว่ามีวิธีการมาตรฐานสำหรับสิ่งนี้ ฉันเห็นสองตัวเลือกที่เป็นไปได้ บางทีวิธีที่ไร้เดียงสาที่สุดก็คือการปฏิบัติต่อพวกเขาเป็นสองปัญหาที่แตกต่างกันแล้วรวมผลลัพธ์ อย่างไรก็ตามนั่นมีข้อเสียอย่างร้ายแรงเมื่อเป้าหมายทั้งสองนั้นไม่ได้เป็นอิสระ (และในหลาย ๆ กรณีพวกเขาอาจต้องพึ่งพาอย่างมาก ) แนวทางที่เหมาะสมกว่าสำหรับฉันคือการสร้างแอตทริบิวต์เป้าหมายแบบรวม ดังนั้นในกรณีของการตายและเหรียญเราจะมีสถานะ ( , ฯลฯ ) อย่างไรก็ตามสิ่งนี้สามารถนำไปสู่จำนวนของรัฐ / คลาสในเป้าหมายคอมโพสิตที่ค่อนข้างใหญ่ได้อย่างรวดเร็ว (ถ้าเรามี 2 ลูกเต๋าเป็นต้น) นอกจากนี้ดูเหมือนว่าจะแปลกในกรณีที่คุณลักษณะหนึ่งเป็นหมวดหมู่ในขณะที่คนอื่นเป็นตัวเลข (ตัวอย่างเช่นถ้าทำนายอุณหภูมิและประเภทของการเร่งรัด)6⋅2=126⋅2=126\cdot 2=12(1,H),(1,T),(2,H)(1,H),(1,T),(2,H)(1, H), (1, T), (2, H) มีวิธีมาตรฐานในการจัดเรียงของสิ่งนี้หรือไม่? นอกจากนี้ยังมีอัลกอริทึมการเรียนรู้ที่ออกแบบมาเพื่อจัดการกับสิ่งนี้โดยเฉพาะหรือไม่?

2
SVM, การโต้ตอบที่ผันแปรและข้อมูลการฝึกอบรมเหมาะสม
ฉันมีคำถามทั่วไป 2 ข้อขึ้นไป 1) ฉันอยากรู้ว่า SVM จัดการการโต้ตอบของตัวแปรอย่างไรเมื่อสร้างแบบจำลองการทำนาย เช่นถ้าฉันมีคุณสมบัติสองอย่างคือ f1 และ f2 และเป้าหมายนั้นขึ้นอยู่กับ f1, f2 และพูดว่า f1 * f2 (หรือฟังก์ชั่น h (f1, f2)), SVM จะพอดี (ไม่ใช่แค่ OOS แต่ยังอยู่ในข้อมูลการฝึกอบรม) ปรับปรุงเมื่อรวม f1, f2 และ h (f1, f2) ในคุณสมบัติมากกว่าเพียงแค่รวมถึง f1 และ f2? อัลกอริทึม SVM จัดการกับการโต้ตอบกับคุณลักษณะหรือไม่ ดูเหมือนว่าจะเป็นไปตามที่ SVM พยายามสร้างไฮเปอร์เพลนในพื้นที่มิติที่สูงขึ้น แต่ไม่แน่ใจว่าต้องการถามเช่นไร 2) เมื่อทำการติดตั้ง SVM บนข้อมูลการฝึกอบรมให้มีคุณสมบัติเพียงพอและค้นหาพารามิเตอร์ที่เหมาะสม (ผ่านการค้นหาแบบ …

2
SVM ที่มีขนาดกลุ่มไม่เท่ากันในข้อมูลการฝึกอบรม
ฉันกำลังพยายามสร้าง SVM จากข้อมูลการฝึกอบรมซึ่งมีกลุ่มหนึ่งแสดงมากกว่ากลุ่มอื่น อย่างไรก็ตามกลุ่มจะถูกนำเสนออย่างเท่าเทียมกันในข้อมูลการทดสอบในที่สุด ดังนั้นฉันต้องการใช้class.weightsพารามิเตอร์ของe1071ส่วนต่อประสาน R libsvmเพื่อความสมดุลระหว่างอิทธิพลของทั้งสองกลุ่มในข้อมูลการฝึกอบรม เนื่องจากฉันไม่แน่ใจว่าจะระบุน้ำหนักเหล่านี้ได้อย่างไรฉันจึงทำการทดสอบเล็กน้อย: สร้างข้อมูลที่มีค่าว่างบางส่วน (คุณสมบัติแบบสุ่มอัตราส่วน 2: 1 ระหว่างป้ายกำกับกลุ่ม) พอดี svm ด้วยclass.weightsชุดพารามิเตอร์ ทำนายชุดข้อมูลว่างใหม่จำนวนหนึ่งและดูสัดส่วนของคลาส ทำซ้ำกระบวนการทั้งหมดหลายครั้งสำหรับชุดการฝึกอบรมแบบ null ที่แตกต่างกัน นี่คือรหัส R ที่ฉันใช้: nullSVM <- function(n.var, n.obs) { # Simulate null training data vars = matrix(rnorm(n.var*n.obs), nrow=n.obs) labels = rep(c('a', 'a', 'b'), length.out=n.obs) data = data.frame(group=labels, vars) # Fit SVM …

9
หนังสือสำหรับภาพรวมทั่วไปและแนวคิดของวิธีการทางสถิติ
ฉันสนใจเกี่ยวกับศักยภาพของการวิเคราะห์ทางสถิติสำหรับการจำลอง / การพยากรณ์ / การประเมินฟังก์ชั่น ฯลฯ อย่างไรก็ตามฉันไม่รู้อะไรมากเกี่ยวกับเรื่องนี้และความรู้ทางคณิตศาสตร์ของฉันยังค่อนข้าง จำกัด - ฉันเป็นนักศึกษาระดับปริญญาตรีด้านวิศวกรรมซอฟต์แวร์ ฉันกำลังมองหาหนังสือที่จะให้ฉันเริ่มต้นกับบางสิ่งที่ฉันอ่านต่อไป: การถดถอยเชิงเส้นและการถดถอยแบบอื่น ๆ วิธีการแบบเบส์วิธีการมอนเต้คาร์โลการเรียนรู้ของเครื่อง ฯลฯ ฉันก็ต้องการเริ่มต้นด้วย R เช่นกัน มีหนังสือเล่มหนึ่งที่รวมทั้งสองอย่างนี้เข้าด้วยกัน โดยเฉพาะอย่างยิ่งฉันต้องการให้หนังสืออธิบายสิ่งต่าง ๆ ในเชิงแนวคิดและไม่ได้อยู่ในรายละเอียดทางเทคนิคมากเกินไป - ฉันต้องการให้สถิติใช้งานได้ง่ายสำหรับฉันเพราะฉันเข้าใจว่ามีสถิติความเสี่ยงที่ผิดพลาดจำนวนมาก ฉันอยู่นอกหลักสูตรยินดีที่จะอ่านหนังสือมากขึ้นเพื่อปรับปรุงความเข้าใจในหัวข้อที่ฉันเห็นว่ามีค่า

2
จำนวนพารามิเตอร์ในโมเดลมาร์คอฟ
ฉันต้องการใช้ BIC สำหรับการเลือกรุ่น HMM: BIC = -2*logLike + num_of_params * log(num_of_data) ดังนั้นฉันจะนับจำนวนพารามิเตอร์ในโมเดล HMM ได้อย่างไร พิจารณา HMM แบบ 2 สถานะง่ายๆโดยที่เรามีข้อมูลต่อไปนี้: data = [1 2 1 1 2 2 2 1 2 3 3 2 3 2 1 2 2 3 4 5 5 3 3 2 6 6 5 6 4 …

2
Akinator.com และ Naive Bayes ตัวจําแนก
บริบท: ฉันเป็นโปรแกรมเมอร์ที่มีประสบการณ์ (ครึ่งหนึ่ง) ที่ถูกลืมในสถิติจากหลักสูตรของ uni เมื่อเร็ว ๆ นี้ฉันสะดุดกับhttp://akinator.comและใช้เวลาพยายามทำให้มันล้มเหลว แล้วใครล่ะ :) ฉันตัดสินใจที่จะหาว่ามันทำงานได้อย่างไร หลังจาก googling และอ่านโพสต์บล็อกที่เกี่ยวข้องและเพิ่มความรู้ (จำกัด ) ของฉันลงในมิกซ์ผลลัพธ์ฉันขึ้นมากับโมเดลต่อไปนี้ (ฉันแน่ใจว่าฉันจะใช้สัญลักษณ์ผิดโปรดอย่าฆ่าฉันเพื่อสิ่งนั้น): มีหัวเรื่อง (S) และคำถาม (Q) เป้าหมายของผู้ทำนายคือเลือกวิชาที่มีความน่าจะเป็นไปได้มากที่สุดในการเป็นวิชาที่ผู้ใช้กำลังคิดคำถามและคำตอบที่ได้รับมา ให้เกม G จะเป็นชุดของคำถามที่ถามและคำตอบที่ได้รับ:\}{q1,a1},{q2,a2}...{qn,an}{q1,a1},{q2,a2}...{qn,an}\{q_1, a_1\}, \{q_2, a_2\} ... \{q_n, a_n\} แล้วทำนายที่กำลังมองหา(G)}P(S|G)=P(G|S)∗P(S)P(G)P(S|G)=P(G|S)∗P(S)P(G)P(S|G) = \frac{P(G|S) * P(S)}{P(G)} ก่อนหน้าของวิชา ( ) อาจเป็นเพียงจำนวนครั้งที่ผู้ถูกเดาได้หารด้วยจำนวนเกมทั้งหมดP(S)P(S)P(S) ทำให้สมมติฐานที่ว่าคำตอบทั้งหมดเป็นอิสระเราสามารถคำนวณความน่าจะเป็นของเรื่อง S ที่ได้รับจากเกม G ดังนี้: P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S) = \prod_{i=1..n} P(\{q_i, …

6
หนังสือหรือบทความที่แนะนำเกี่ยวกับการวิเคราะห์กลุ่ม?
ฉันกำลังทำงานกับคลังข้อความขนาดเล็ก (200M) ซึ่งฉันต้องการสำรวจด้วยการวิเคราะห์กลุ่ม คุณจะแนะนำหนังสือหรือบทความใดในเรื่องนั้น

1
“ ความหลากหลาย” หมายถึงอะไร?
การใช้ "ความแปรปรวน" หมายถึงการเพิ่มประสิทธิภาพเสมอผ่านการอนุมานแบบผันแปรหรือไม่? ตัวอย่าง: "ตัวเข้ารหัสอัตโนมัติแบบแปรผัน" "วิธีเบย์แบบแปรผัน" "กลุ่มการเปลี่ยนรูปแบบแปรปรวน"

1
RMSProp และ Adam เทียบกับ SGD
ฉันกำลังทำการทดลองกับชุดตรวจสอบความถูกต้องของ EMNIST โดยใช้เครือข่ายที่มี RMSProp, อดัมและ SGD ฉันได้รับความแม่นยำ 87% กับ SGD (อัตราการเรียนรู้ 0.1) และ dropout (0.1 dropout prob) รวมถึงการทำให้เป็นมาตรฐาน L2 (การลงโทษ 1e-05) เมื่อทดสอบการกำหนดค่าที่แน่นอนเดียวกันกับ RMSProp และ Adam รวมถึงอัตราการเรียนรู้เริ่มต้น 0.001 ฉันได้รับความแม่นยำ 85% และเส้นโค้งการฝึกอบรมที่ราบรื่นน้อยลงอย่างเห็นได้ชัด ฉันไม่ทราบวิธีอธิบายพฤติกรรมนี้ อะไรเป็นสาเหตุของการขาดความเรียบในช่วงการฝึกอบรมและความแม่นยำที่ลดลงและอัตราความผิดพลาดที่สูงขึ้น

3
ขั้นตอนวิธีใดที่ต้องใช้การเข้ารหัสแบบร้อนแรง
ฉันไม่เคยแน่ใจว่าจะใช้การเข้ารหัสแบบร้อนแรงหนึ่งครั้งสำหรับตัวแปรเด็ดขาดที่ไม่มีการเรียงลำดับและเมื่อใด ฉันใช้ทุกครั้งที่อัลกอริทึมใช้การวัดระยะทางเพื่อคำนวณความคล้ายคลึงกัน ทุกคนสามารถให้กฎทั่วไปเกี่ยวกับประเภทของอัลกอริทึมที่ต้องใช้คุณลักษณะที่ไม่มีการจัดประเภทเพื่อเข้ารหัสแบบร้อนแรงและแบบใดที่จะไม่

2
ความแตกต่างระหว่าง 'ปกติ' การถดถอยเชิงเส้นและการเรียนรู้การถดถอยเชิงเส้นลึกคืออะไร?
ฉันต้องการทราบความแตกต่างระหว่างการถดถอยเชิงเส้นในการวิเคราะห์การเรียนรู้ของเครื่องปกติและการถดถอยเชิงเส้นในการตั้งค่า "การเรียนรู้ลึก" ขั้นตอนวิธีใดที่ใช้สำหรับการถดถอยเชิงเส้นในการตั้งค่าการเรียนรู้ลึก

4
ในซีเอ็นเอ็นมีการยกตัวอย่างและแปลงรูปแบบเดียวกันหรือไม่
ทั้งคำว่า "อัพแซมปลิง" และ "ทรานสคริซิชั่น" จะถูกใช้เมื่อคุณกำลังทำ "deconvolution" (<- ไม่ใช่คำศัพท์ที่ดี แต่ให้ฉันใช้ที่นี่) แต่เดิมฉันคิดว่าพวกเขาหมายถึงสิ่งเดียวกัน แต่ดูเหมือนว่าฉันจะแตกต่างกันหลังจากที่ฉันอ่านบทความเหล่านี้ ใครช่วยอธิบายหน่อยได้ไหม Transpose convolution : ดูเหมือนว่าเราสามารถใช้มันได้เมื่อเราเผยแพร่การสูญเสียผ่านเครือข่ายประสาทเทียม convolutonal http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/#Backward-Propagation https://github.com/vdumoulin/conv_arithmetic https://arxiv.org/pdf/1312.6034v2.pdfส่วนที่ 4 "สำหรับเลเยอร์ convolutional ... " Upsampling : ดูเหมือนว่าเราจะใช้มันเมื่อเราต้องการสุ่มตัวอย่างจากอินพุตที่เล็กลงไปสู่อินพุตที่ใหญ่ขึ้นในโครงสร้าง convnet-decovnet https://www.youtube.com/watch?v=ByjaPdWXKJ4&feature=youtu.be&t=22m

1
บล็อกการเรียนรู้ที่เหลือคืออะไรในบริบทของเครือข่ายที่หลงเหลืออยู่ลึกในการเรียนรู้อย่างลึก
ฉันกำลังอ่านการเรียนรู้ส่วนที่เหลือลึกเพื่อการจดจำรูปภาพและฉันมีปัญหาในการทำความเข้าใจกับความมั่นใจ 100% สิ่งที่บล็อกส่วนเหลือตกค้างคำนวณ อ่านกระดาษของพวกเขาพวกเขามีรูปที่ 2: ซึ่งแสดงให้เห็นถึงสิ่งที่บล็อกส่วนที่เหลือควรจะเป็น การคำนวณของส่วนที่เหลือเป็นเพียงบล็อกเดียวกับ: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} ) หรือมันเป็นอย่างอื่น? ในคำอื่น ๆ อาจจะพยายามที่จะตรงกับสัญกรณ์ของกระดาษคือ: F(x)+x=[W2σ(W1x+b1)+b2]+xF(x)+x=[W2σ(W1x+b1)+b2]+x \mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} มันเป็นเรื่องจริงเหรอ? โปรดสังเกตว่าหลังจากการรวมกลุ่มวงกลมคำว่า ReLU จะปรากฏบนกระดาษดังนั้นผลลัพธ์ของบล็อกส่วนที่เหลือ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.