คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

3
การตรวจจับความผิดปกติของอนุกรมเวลาด้วย Python
ฉันต้องใช้การตรวจจับความผิดปกติกับชุดข้อมูลอนุกรมเวลาหลายชุด ฉันไม่เคยทำแบบนี้มาก่อนและหวังว่าจะได้รับคำแนะนำ ฉันพอใจกับ python ดังนั้นฉันจึงชอบที่จะใช้งานโซลูชันนี้ (ส่วนใหญ่โค้ดของฉันคือ python สำหรับส่วนอื่น ๆ ของงานของฉัน) คำอธิบายของข้อมูล: เป็นข้อมูลอนุกรมเวลารายเดือนที่เพิ่งเริ่มเก็บในช่วง 2 ปีที่ผ่านมาหรือมากกว่านั้น (เช่นช่วงเวลา 24-36 เท่านั้น) โดยพื้นฐานแล้วมีตัวชี้วัดหลายตัวที่ถูกตรวจสอบเป็นรายเดือนสำหรับลูกค้าหลายราย time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... นี่คือสิ่งที่ฉันกำลังคิด: ดึงข้อมูลลงใน dataframe (pandas) จากนั้นคำนวณค่าเฉลี่ย 6 เดือนสำหรับลูกค้า / คู่เมตริกแต่ละราย หากค่าของช่วงเวลาปัจจุบันเกินขีด จำกัด …

3
ทำไมคนชอบข้อมูลที่ราบรื่น
ฉันต้องใช้เคอร์เนล Squared Exponential (SE) สำหรับ Gaussian Process Regression ข้อดีของเคอร์เนลนี้คือ: 1) ง่าย ๆ : มีเพียง 3 พารามิเตอร์เท่านั้น 2) ราบรื่น: เคอร์เนลนี้คือเกาส์เซียน ทำไมคนถึงชอบ 'ความเรียบ' มาก ๆ ? ฉันรู้ว่าเคอร์เนลเกาส์เซียนมีความแตกต่างกันอย่างมากมาย แต่นั่นสำคัญมากเหรอ? (โปรดแจ้งให้เราทราบหากมีเหตุผลอื่นว่าทำไมเคอร์เนล SE จึงได้รับความนิยม) PS: ฉันบอกว่าสัญญาณส่วนใหญ่ในโลกแห่งความเป็นจริง (ไม่มีเสียงรบกวน) ราบรื่นดังนั้นจึงมีเหตุผลที่จะใช้เมล็ดเรียบเพื่อสร้างแบบจำลอง ใครช่วยกรุณาเข้าใจแนวคิดนี้ได้บ้าง

4
เหตุใด KNN จึงไม่ใช่ "อิงตามโมเดล"
ESLบทที่ 2.4 ดูเหมือนว่าจะจัดประเภทการถดถอยเชิงเส้นเป็น "ตามโมเดล" เนื่องจากมันถือว่าในขณะที่ไม่มีการประมาณแบบเดียวกันสำหรับเพื่อนบ้านที่อยู่ใกล้เคียง k แต่ทั้งสองวิธีไม่ได้ตั้งสมมติฐานเกี่ยวกับใช่ไหมฉ( x ) ≈ x ⋅ บีตาฉ(x)≈x⋅βf(x) \approx x\cdot\betaฉ( x )ฉ(x)f(x) ในภายหลังใน 2.4 มันยังพูดว่า: กำลังสองน้อยที่สุดสมมติว่าใกล้เคียงกันมากกับฟังก์ชันเชิงเส้นทั่วโลกฉ( x )ฉ(x)f(x) k- เพื่อนบ้านที่ใกล้ที่สุดสมมติว่ามีค่าใกล้เคียงกันกับฟังก์ชันคงที่ในพื้นที่ฉ( x )ฉ(x)f(x) การสันนิษฐาน KNN ดูเหมือนว่ามันจะเป็นทางการได้ (แม้ว่าไม่แน่ใจว่าการทำเช่นนั้นจะนำไปสู่อัลกอริทึม KNN ในวิธีที่สมมติว่าเป็นเส้นนำไปสู่การถดถอยเชิงเส้น)ฉฉf ดังนั้นหาก KNN ไม่ใช่แบบจำลองจริงๆแล้วทำไม? หรือฉันอ่านผิด ESL

1
ป่าสุ่มสามารถทำได้ดีกว่าข้อผิดพลาดการทดสอบ 2.8% ใน MNIST หรือไม่?
ฉันไม่ได้พบวรรณกรรมใด ๆ เกี่ยวกับการใช้ Random Forests กับ MNIST, CIFAR, STL-10 ฯลฯ ดังนั้นฉันจึงคิดว่าฉันจะลองใช้มันด้วยMNIST ที่ไม่เปลี่ยนแปลง ในRฉันลอง: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) สิ่งนี้ใช้เวลา 2 ชั่วโมงและมีข้อผิดพลาดการทดสอบ 2.8% ฉันยังได้ลองscikit เรียนรู้ด้วย RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) หลังจาก 70 นาทีฉันได้รับข้อผิดพลาดการทดสอบ 2.9% แต่ด้วย n_estimators = 200 แทนฉันได้รับข้อผิดพลาดการทดสอบ 2.8% หลังจากเพียง 7 นาที ด้วยOpenCVฉันพยายาม rf.train(images.reshape(-1, 28**2), cv2.CV_ROW_SAMPLE, labels.astype('int')) การดำเนินการนี้ใช้เวลา 6.5 นาทีและrfการคาดการณ์ทำให้ข้อผิดพลาดในการทดสอบ 15% ฉันไม่ทราบว่ามีต้นไม้กี่ต้นที่ได้รับการฝึกฝนเนื่องจาก …

2
ลักษณนามสำหรับคลาสเดียวเท่านั้น
ในการจำแนกอย่างง่ายเรามีสองคลาส: class-0 และ class-1 ในข้อมูลบางอย่างฉันมีค่าสำหรับ class-1 เท่านั้นดังนั้นไม่มีสำหรับ class-0 ตอนนี้ฉันกำลังคิดที่จะสร้างแบบจำลองเพื่อจำลองข้อมูลสำหรับ class-1 ดังนั้นเมื่อมีข้อมูลใหม่มาโมเดลนี้จะถูกนำไปใช้กับข้อมูลใหม่และพบว่ามีความน่าจะเป็นที่จะบอกว่าข้อมูลใหม่นั้นเหมาะสมกับโมเดลนี้อย่างไร จากนั้นเปรียบเทียบกับเกณฑ์ฉันสามารถกรองข้อมูลที่ไม่เหมาะสม คำถามของฉันคือ: นี่เป็นวิธีที่ดีในการทำงานกับปัญหาดังกล่าวหรือไม่? ลักษณนาม RandomForest สามารถใช้กับกรณีนี้ได้หรือไม่? ฉันจำเป็นต้องเพิ่มข้อมูลเทียมสำหรับ class-0 ซึ่งฉันหวังว่าตัวจําแนกเป็นเสียงรบกวนหรือไม่? แนวคิดอื่นใดที่อาจช่วยแก้ไขปัญหานี้ได้?

1
ข้อ จำกัด ของวิธีการเคอร์เนลคืออะไรและเมื่อใดที่จะใช้วิธีเคอร์เนล
วิธีการเคอร์เนลมีประสิทธิภาพมากในงานการจัดหมวดหมู่ที่ได้รับการควบคุม ดังนั้นสิ่งที่เป็นข้อ จำกัด ของวิธีการเคอร์เนลและเมื่อใช้วิธีเคอร์เนล? โดยเฉพาะอย่างยิ่งในยุคข้อมูลขนาดใหญ่ความก้าวหน้าของวิธีการเคอร์เนลคืออะไร? อะไรคือความแตกต่างระหว่างวิธีเคอร์เนลและการเรียนรู้แบบหลายตัวอย่าง? หากข้อมูลมี500x10000, 500เป็นนับตัวอย่างและ10000เป็นมิติของแต่ละคุณลักษณะแล้วในกรณีนี้เราสามารถใช้วิธีการเคอร์เนล?

2
ตัวแปรสำคัญแบบสุ่มค่าลบของป่า
ฉันถามตัวเองว่าควรลบตัวแปรเหล่านั้นด้วยค่าความสำคัญของตัวแปรเชิงลบ ("% IncmsE") ในบริบทการถดถอยหรือไม่ และถ้ามันให้คำทำนายที่ดีกว่า คุณคิดอย่างไร?

3
อัลกอริทึมการเรียนรู้ของเครื่องเพื่อการจัดอันดับ
ฉันมีชุดขององค์ประกอบ XXX ซึ่งฉันสามารถอธิบายตาม nnnลักษณะเฉพาะ. ดังนั้น: xi:{ci1,ci2,…,cin}∣xi∈Xxi:{ci1,ci2,…,cin}∣xi∈Xx_i: \{c_{i1}, c_{i2}, \ldots, c_{in}\} \mid x_i \in X ที่ไหน cijcijc_{ij} เป็นการประเมิน (ตัวเลข) สำหรับองค์ประกอบ iii ตามลักษณะ jjj. ดังนั้นองค์ประกอบของฉันสามารถดูได้เป็นคะแนนในnnn พื้นที่มิติ จากการอ่านของฉันมีอัลกอริทึมเช่น "ตัวแยกประเภทเบย์" ซึ่งสามารถให้คำตอบประเภท "ใช่" หรือ "ไม่" ในองค์ประกอบใด ๆ ของชุดของฉันหากว่าฉันใช้ "ชุดฝึกอบรม" ซึ่งประกอบด้วย องค์ประกอบของชุดของฉันและผลลัพธ์ที่คาดหวังของอัลกอริทึม จากข้อมูลนั้นอัลกอริทึมควรสามารถใช้องค์ประกอบอื่น ๆ ไม่ใช่ส่วนหนึ่งของชุดการฝึกอบรมและให้คำตอบ "ใช่" หรือ "ไม่" ตามสิ่งที่เรียนรู้ด้วยชุดฝึกอบรม นี่เป็นสิ่งที่ดีถ้าคุณมีความคิดบางอย่างเกี่ยวกับสิ่งที่คุณคาดหวัง (ชุดฝึกอบรม) แต่คุณไม่แน่ใจเกี่ยวกับกฎเฉพาะที่ให้ผลตามนั้น สิ่งที่ฉันต้องการจะทำกับข้อมูลของฉันไม่ได้รับคำตอบประเภท "ใช่" หรือ "ไม่" …

2
การถดถอยแบบเกาส์กระบวนการสำหรับชุดข้อมูลมิติสูง
แค่อยากจะดูว่าใครมีประสบการณ์ใด ๆ ที่ใช้การถดถอยแบบเกาส์กระบวนการ (GPR) กับชุดข้อมูลมิติสูง ฉันกำลังดูวิธีการ GPR แบบกระจัดกระจายบางอย่าง (เช่นแบบ spse pseudo-inputs GPR) เพื่อดูว่าอะไรสามารถใช้งานได้กับชุดข้อมูลมิติสูงที่การเลือกคุณสมบัติเป็นส่วนหนึ่งของกระบวนการเลือกพารามิเตอร์ ข้อเสนอแนะใด ๆ เกี่ยวกับเอกสาร / รหัส / หรือวิธีการต่างๆที่จะลองแน่นอนชื่นชม ขอบคุณ

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
ข้อมูลประเภทใดที่ควรทำให้เป็นมาตรฐานด้วย KNN?
ฉันรู้ว่ามีการทำให้เป็นปกติมากกว่าสองประเภท ตัวอย่างเช่น, 1- การแปลงข้อมูลโดยใช้คะแนน z หรือคะแนน t ซึ่งมักเรียกว่ามาตรฐาน 2- การลดขนาดข้อมูลให้มีค่าระหว่าง 0 ถึง 1 คำถามตอนนี้ถ้าฉันต้องการ normalizing ข้อมูลประเภทใดที่ควรทำให้เป็นมาตรฐานด้วย KNN? และทำไม?

1
เครือข่ายประสาทของฉันไม่สามารถเรียนรู้ระยะทางแบบยุคลิด
ดังนั้นฉันจึงพยายามสอนตัวเองเกี่ยวกับโครงข่ายประสาทเทียม (สำหรับแอพพลิเคชั่นการถดถอยไม่แบ่งภาพแมว) การทดลองครั้งแรกของฉันคือการฝึกอบรมเครือข่ายเพื่อใช้ตัวกรอง FIR และการแปลงฟูริเยร์แบบไม่ต่อเนื่อง (การฝึกอบรมเรื่อง "ก่อน" และ "หลัง") เนื่องจากการดำเนินการเชิงเส้นทั้งสองนั้นสามารถใช้งานได้ในชั้นเดียว ทั้งสองทำงานได้ดี ดังนั้นฉันอยากดูว่าฉันสามารถเพิ่มabs()และทำให้เรียนรู้สเปกตรัมแอมพลิจูด ครั้งแรกที่ฉันคิดเกี่ยวกับจำนวนโหนดที่มันจะต้องอยู่ในชั้นที่ซ่อนอยู่และตระหนักว่า 3 ReLUs นั้นเพียงพอสำหรับการประมาณที่หยาบกabs(x+jy) = sqrt(x² + y²)ร้านดังนั้นฉันจึงทดสอบการทำงานด้วยตัวเองบนตัวเลขที่ซับซ้อนโดดเดี่ยว (2 อินพุต→ 3 ReLU โหนดที่ซ่อนชั้น→ 1 เอาท์พุท) มันทำงานเป็นครั้งคราว: แต่ส่วนใหญ่เวลาที่ฉันลองมันติดอยู่ในขั้นต่ำในท้องถิ่นและล้มเหลวในการหารูปร่างที่เหมาะสม: ฉันลองใช้เครื่องมือเพิ่มประสิทธิภาพและชุดรูปแบบ ReLU ทั้งหมดใน Keras แต่พวกเขาไม่ได้สร้างความแตกต่างมากนัก มีอะไรอีกบ้างที่ฉันสามารถทำได้เพื่อทำให้เครือข่ายง่าย ๆ เช่นนี้มาบรรจบกันอย่างน่าเชื่อถือ? หรือฉันกำลังเข้าใกล้สิ่งนี้ด้วยทัศนคติที่ไม่ถูกต้องและคุณควรจะทิ้งโหนดมากกว่าที่จำเป็นในปัญหาและถ้าครึ่งหนึ่งของพวกเขาตายมันไม่ถือว่าเป็นเรื่องใหญ่อะไร?

3
การพยากรณ์หลายช่วงเวลาด้วยการเรียนรู้ของเครื่อง
เมื่อเร็ว ๆ นี้ฉันได้ทบทวนความรู้เกี่ยวกับอนุกรมเวลาของฉันและรู้ว่าการเรียนรู้ด้วยเครื่องส่วนใหญ่ให้การคาดการณ์ล่วงหน้าเพียงขั้นตอนเดียว ด้วยการคาดการณ์ล่วงหน้าหนึ่งขั้นฉันหมายถึงการคาดการณ์ที่เช่นถ้าเรามีข้อมูลรายชั่วโมงให้ใช้ข้อมูลตั้งแต่ 10.00 น. ถึง 11.00 น. และ 11.00 น. สำหรับ 12.00 น. เป็นต้น วิธีการเรียนรู้ของเครื่องสามารถสร้างการคาดการณ์ล่วงหน้าล่วงหน้าได้หรือไม่? ด้วยการคาดการณ์ h-step-ahead ฉันหมายถึงเช่นสมมติว่าข้อมูลรายชั่วโมงเราใช้ข้อมูลจาก 10:00 ในการคาดการณ์ล่วงหน้า 7 ขั้นตอนเพื่อรับการประมาณการสำหรับ 11,12,13,14,15,16,17 ' o นาฬิกา ตัวอย่างรูป: เกี่ยวข้องกับคำถามหลักของฉันฉันสงสัยว่า: อะไรคือสาเหตุที่ฉันไม่เห็นใครก็ตามที่ใช้การเรียนรู้ของเครื่องเพื่อทำการพยากรณ์ล่วงหน้าแบบ h-step หากมีวิธีการที่ใช้การเรียนรู้ของเครื่องมันแม่นยำมากกว่าหรือน้อยกว่า ARIMA หรือไม่?

2
เป็นจริงหรือไม่ที่ Bayesians ไม่ต้องการชุดทดสอบ?
ฉันเพิ่งดูการพูดคุยนี้โดยเอริคเจ Maและการตรวจสอบของเขารายการบล็อกที่เขาพูดราดโอนีลว่ารูปแบบเบส์ไม่ overfit ( แต่พวกเขาสามารถ overfit ) และเมื่อใช้พวกเขาเราไม่จำเป็นต้องใช้ชุดทดสอบสำหรับการตรวจสอบพวกเขา (สำหรับ ฉันพูดดูเหมือนจะพูดค่อนข้างเกี่ยวกับการใช้ชุดการตรวจสอบเพื่อปรับพารามิเตอร์) ความจริงแล้วข้อโต้แย้งนั้นไม่ทำให้ฉันและฉันไม่สามารถเข้าถึงหนังสือได้ดังนั้นคุณจะให้ข้อโต้แย้งที่ละเอียดและเข้มงวดมากขึ้นหรือคัดค้านข้อความดังกล่าวหรือไม่? ในขณะเดียวกัน Eric Ma ได้ชี้ให้ฉันสนทนาในหัวข้อเดียวกัน

2
จะหารุ่นที่ได้รับการฝึกฝนมาก่อนแล้วสำหรับการเรียนรู้การถ่ายโอน [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ฉันยังใหม่กับสาขาการเรียนรู้ของเครื่อง แต่ฉันต้องการลองใช้อัลกอริธึมการจำแนกแบบง่าย ๆ กับ Keras น่าเสียดายที่ฉันมีชุดข้อมูลที่น้อยมากดังนั้นฉันจึงคิดว่าจะพยายามใช้การเรียนรู้การถ่ายโอนกับปัญหา อย่างไรก็ตามฉันไม่พบอะไรในโลกออนไลน์นี้ดังนั้นฉันจึงอยากเข้าใจว่าสถานที่ที่ดีที่สุดในการมองหาเครือข่ายประสาทที่ได้รับการฝึกฝนมาก่อน คุณมีข้อเสนอแนะในเรื่องนี้หรือไม่? เว็บไซต์ใดดีที่สุดในการรับแนวคิดเกี่ยวกับวิธีเริ่มโครงการเรียนรู้ของเครื่อง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.