คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

2
คำที่ไม่อิ่มตัวเชิงเส้นที่มีความหมายถึงอะไร?
ฉันอ่านเอกสารการจำแนกประเภทของ ImageNet ด้วย Deep Convolutional Neural Networksและในส่วนที่ 3 พวกเขาอธิบายสถาปัตยกรรมของโครงข่ายประสาทเทียมของพวกเขาพวกเขาอธิบายว่าพวกเขาต้องการใช้อย่างไร: ไม่ใช่พอดิบพอดีไม่เป็นเชิงเส้นf(x)=max(0,x).f(x)=max(0,x).f(x) = max(0, x). เพราะมันเร็วกว่าในการฝึก ในกระดาษพวกนั้นดูเหมือนว่าจะหมายถึง saturating nonlinearities เป็นฟังก์ชันดั้งเดิมที่ใช้ใน CNNs, sigmoid และฟังก์ชันไฮเพอร์โบลิกแทนเจนต์ (เช่นและเป็น saturating)f(x)=tanh(x)f(x)=tanh(x)f(x) = tanh(x)f(x)=11+e−x=(1+e−x)−1f(x)=11+e−x=(1+e−x)−1f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1} ทำไมพวกเขาอ้างถึงฟังก์ชั่นเหล่านี้ว่า "saturating" หรือ "non-saturating"? ฟังก์ชันเหล่านี้มีความหมายว่าอะไร "saturating" หรือ "non-saturating"? คำเหล่านั้นมีความหมายอย่างไรในบริบทของโครงข่ายประสาทเทียม พวกเขาใช้ในด้านอื่น ๆ ของการเรียนรู้ของเครื่อง (และสถิติ) หรือไม่?

5
การแยกความแตกต่างระหว่างสองกลุ่มในสถิติและการเรียนรู้ของเครื่อง: การทดสอบสมมติฐานเทียบกับการจำแนกและการทำคลัสเตอร์
สมมติว่าฉันมีกลุ่มข้อมูลสองกลุ่มระบุว่า A และ B (แต่ละกลุ่มประกอบด้วยตัวอย่าง 200 ตัวอย่างและคุณสมบัติ 1) และฉันต้องการทราบว่าพวกเขาแตกต่างกันหรือไม่ ฉันทำได้: a) ทำการทดสอบทางสถิติ (เช่น t-test) เพื่อดูว่ามีความแตกต่างทางสถิติหรือไม่ b) ใช้การเรียนรู้ของเครื่องควบคุม (เช่นการสนับสนุนตัวจําแนกเวกเตอร์หรือลักษณนามฟอเรสต์แบบสุ่ม) ฉันสามารถฝึกอบรมสิ่งนี้ในส่วนของข้อมูลของฉันและตรวจสอบในส่วนที่เหลือ หากอัลกอริทึมการเรียนรู้ของเครื่องจำแนกส่วนที่เหลืออย่างถูกต้องหลังจากนั้นฉันสามารถมั่นใจได้ว่าตัวอย่างจะแตกต่างกัน c) ใช้อัลกอริทึมที่ไม่มีผู้ดูแล (เช่น K-Means) และปล่อยให้มันแบ่งข้อมูลทั้งหมดออกเป็นสองตัวอย่าง ฉันสามารถตรวจสอบว่าตัวอย่างที่พบทั้งสองนี้เห็นด้วยกับฉลากของฉัน A และ B หรือไม่ คำถามของฉันคือ: วิธีที่แตกต่างกันสามวิธีนี้ทับซ้อนกัน / พิเศษอย่างไร b) และ c) มีประโยชน์สำหรับข้อโต้แย้งทางวิทยาศาสตร์หรือไม่? ฉันจะได้รับ“ นัยสำคัญ” สำหรับความแตกต่างระหว่างตัวอย่าง A และ B จากวิธีการ b) และ c) อย่างไร จะเกิดอะไรขึ้นถ้าข้อมูลมีคุณสมบัติหลายอย่างมากกว่า …

4
ฉันควรสร้างคลาสให้สมดุลในชุดข้อมูลการฝึกอบรมเมื่อใด
ฉันมีหลักสูตรออนไลน์ที่ฉันได้เรียนรู้ว่าคลาสที่ไม่สมดุลในข้อมูลการฝึกอบรมอาจนำไปสู่ปัญหาได้เนื่องจากอัลกอริทึมการจัดหมวดหมู่เป็นไปตามกฎส่วนใหญ่เพราะจะให้ผลลัพธ์ที่ดีหากความไม่สมดุลมากเกินไป ในงานที่ได้รับมอบหมายต้องทำให้ข้อมูลมีความสมดุลโดยการขีดล่างกลุ่มเสียงส่วนใหญ่ อย่างไรก็ตามในบล็อกนี้มีคนอ้างว่าข้อมูลที่สมดุลนั้นแย่ยิ่งกว่าเดิม: https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ แล้วอันไหนล่ะ? ฉันควรรักษาสมดุลของข้อมูลหรือไม่? มันขึ้นอยู่กับอัลกอริธึมที่ใช้เพราะบางคนอาจสามารถปรับสัดส่วนของคลาสที่ไม่สมดุลได้หรือไม่? ถ้าเป็นเช่นนั้นข้อมูลใดที่เชื่อถือได้กับข้อมูลที่ไม่สมดุล

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
เหตุใดจึงมีการใช้โหนดอคติในเครือข่ายประสาท
เหตุใดจึงมีการใช้โหนดอคติในเครือข่ายประสาท คุณควรใช้เท่าไหร่ คุณควรใช้เลเยอร์ใด: เลเยอร์ที่ซ่อนอยู่ทั้งหมดและเลเยอร์เอาท์พุท

2
จำเป็นหรือไม่ที่จะต้องทำการฟื้นฟูสำหรับ SVM และ Random Forest?
คุณลักษณะของฉัน 'ทุกมิติมีช่วงของค่าที่แตกต่างกัน ฉันต้องการทราบว่าจำเป็นหรือไม่ที่จะทำให้ชุดข้อมูลนี้เป็นมาตรฐาน

3
ความแตกต่างระหว่าง SVM และ perceptron
ฉันสับสนเล็กน้อยกับความแตกต่างระหว่าง SVM และ perceptron ให้ฉันพยายามสรุปความเข้าใจของฉันที่นี่และอย่าลังเลที่จะแก้ไขเมื่อฉันผิดและเติมสิ่งที่ฉันพลาดไป Perceptron ไม่พยายามเพิ่มประสิทธิภาพการแยก "ระยะทาง" ตราบใดที่มันพบไฮเปอร์เพลนที่แยกทั้งสองเซตมันก็ดี SVM ในอีกทางหนึ่งพยายามที่จะเพิ่ม "เวกเตอร์สนับสนุน" ให้มากที่สุดนั่นคือระยะห่างระหว่างจุดตัวอย่างที่ตรงข้ามกันสองจุดที่ใกล้เคียงที่สุด SVM มักจะพยายามใช้ "ฟังก์ชั่นเคอร์เนล" เพื่อฉายจุดตัวอย่างไปยังพื้นที่มิติสูงเพื่อให้แยกได้เป็นเส้นตรงในขณะที่ Perceptron ถือว่าจุดตัวอย่างนั้นแยกออกจากกันเป็นเส้นตรง

6
ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี
อะไรคือการเลือกตัวแปร / คุณสมบัติที่คุณต้องการสำหรับการจำแนกเลขฐานสองเมื่อมีตัวแปร / คุณสมบัติมากกว่าการสังเกตในชุดการเรียนรู้ จุดมุ่งหมายที่นี่คือเพื่อหารือเกี่ยวกับขั้นตอนการเลือกคุณสมบัติที่ช่วยลดข้อผิดพลาดในการจัดหมวดหมู่ เราสามารถแก้ไขข้อความเพื่อความมั่นคง: สำหรับให้เป็นชุดการเรียนรู้จากการสังเกตการณ์จากกลุ่มผมดังนั้นคือขนาดของชุดการเรียนรู้ เราตั้งค่าเป็นจำนวนคุณลักษณะ (เช่นมิติของพื้นที่คุณลักษณะ) ให้หมายถึง -th พิกัดของ Pi∈{0,1}i∈{0,1}i \in \{0, 1\}{xi1,…,xini}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}iiin0+n1=nn0+n1=nn_0 + n_1 = npppx[i]x[i]x[i]iiix∈Rpx∈Rpx \in \mathbb{R}^p โปรดให้ข้อมูลอ้างอิงแบบเต็มหากคุณไม่สามารถให้รายละเอียดได้ แก้ไข (ปรับปรุงอย่างต่อเนื่อง): ขั้นตอนที่เสนอในคำตอบด้านล่าง การเลือกไปข้างหน้าโลภ ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี การคัดลอกย้อนหลัง ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี การสแกน Metropolis / MCMC ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี ลงโทษการถดถอยโลจิสติก ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี เนื่องจากนี่คือวิกิชุมชนจึงสามารถมีการสนทนาและอัพเดตได้มากขึ้น ฉันมีข้อสังเกตหนึ่ง: ในแง่หนึ่งคุณทุกคนให้ขั้นตอนที่อนุญาตให้เรียงลำดับของตัวแปร แต่ไม่ใช่การเลือกตัวแปร (คุณค่อนข้างจะหลีกเลี่ยงวิธีการเลือกจำนวนฟีเจอร์ฉันเดาว่าคุณใช้การตรวจสอบไขว้กันหรือไม่?) คำตอบในทิศทางนี้ (เนื่องจากนี่คือวิกิชุมชนคุณไม่จำเป็นต้องเป็นนักเขียนคำตอบเพื่อเพิ่มข้อมูลเกี่ยวกับวิธีเลือกจำนวนตัวแปรหรือไม่ฉันเปิดคำถามในทิศทางนี้ที่นี่การตรวจสอบข้ามในมิติที่สูงมาก (เพื่อเลือกจำนวน ตัวแปรที่ใช้ในการจำแนกมิติที่สูงมาก) )

3
การถดถอยพหุนามใช้ scikit เรียนรู้
ฉันพยายามใช้ scikit เรียนรู้สำหรับการถดถอยพหุนาม จากสิ่งที่ฉันอ่านการถดถอยพหุนามเป็นกรณีพิเศษของการถดถอยเชิงเส้น ฉันกำลังกระโดดนั่นอาจเป็นหนึ่งในโมเดลเชิงเส้นทั่วไปของ scikit สามารถกำหนดพารามิเตอร์เพื่อให้พอดีกับชื่อพหุนามคำสั่งที่สูงขึ้น แต่ฉันไม่เห็นตัวเลือกสำหรับการทำเช่นนั้น ฉันจัดการเพื่อใช้ Support Vector Regressor กับ poly kernel ซึ่งทำงานได้ดีกับชุดย่อยของข้อมูลของฉัน แต่ใช้เวลานานมากในการพอดีกับชุดข้อมูลที่มีขนาดใหญ่กว่าดังนั้นฉันยังต้องการค้นหาบางสิ่งได้เร็วขึ้น (แม้ว่าการซื้อขายจะมีความแม่นยำ) ฉันขาดอะไรบางอย่างชัดเจนที่นี่?

2
จะเปรียบเทียบประสิทธิภาพของตัวจําแนกการเรียนรู้ของเครื่องได้อย่างไร
จากความถูกต้องของการจำแนกประเภทโดยประมาณฉันต้องการทดสอบว่าตัวจําแนกตัวใดตัวหนึ่งดีกว่าตัวจําแนกทางสถิติอย่างมีนัยสําคัญหรือไม่ สำหรับตัวจําแนกแต่ละตัวฉันเลือกตัวอย่างการฝึกอบรมและการทดสอบแบบสุ่มจากชุดฐานฝึกโมเดลและทดสอบโมเดล ฉันทำสิ่งนี้สิบครั้งสำหรับลักษณนามแต่ละตัว ดังนั้นฉันจึงมีการประเมินความถูกต้องในการจำแนกประเภทสิบหมวดหมู่สำหรับตัวจําแนกแต่ละตัว ฉันจะทดสอบสถิติว่าเป็นลักษณนามที่ดีกว่าตัวบนชุดข้อมูลฐานได้อย่างไร การทดสอบแบบใดที่เหมาะสมที่จะใช้คลิตรs s ฉันฉฉันอีอาร์2คลิตรs s ฉันฉฉันอีR 1คล.assผมฉผมอีR1classifier 1classifier2classifier2classifier 2

4
คุณตีความ RMSLE อย่างไร (รูตเฉลี่ยกำลังสองผิดพลาดลอการิทึม)
ฉันทำการแข่งขันการเรียนรู้ของเครื่องโดยใช้ RMSLE (Root Mean Squared Logarithmic Error) เพื่อประเมินประสิทธิภาพการทำนายราคาขายของอุปกรณ์ประเภทหนึ่ง ปัญหาคือฉันไม่แน่ใจว่าจะตีความความสำเร็จของผลลัพธ์สุดท้ายได้อย่างไร ตัวอย่างเช่นถ้าฉันได้รับ RMSLE ที่1.0521.0521.052ฉันสามารถยกกำลังยกกำลังeeeและตีความมันแบบ rmse ได้หรือไม่? (เช่น. e1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE )? ฉันจะบอกว่าแล้วว่าการคาดการณ์ของฉันได้เฉลี่ยจากราคาที่เกิดขึ้นจริง? หรือมีวิธีที่ดีกว่าในการตีความตัวชี้วัด? หรือสามารถตีความเมตริกได้ด้วยข้อยกเว้นเมื่อเปรียบเทียบกับ RMSLE อื่นของรุ่นอื่น ๆ ±$2.863±$2.863\pm \$2.863

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

1
ตัวเลขในรายงานการจำแนกประเภทของ sklearn หมายถึงอะไร
ฉันมีตัวอย่างด้านล่างที่ดึงมาจากเอกสาร sklearn.metrics.classification_report ของ sklearn สิ่งที่ฉันไม่เข้าใจคือเหตุผลที่มีค่า f1 คะแนนความแม่นยำและการเรียกคืนค่าสำหรับแต่ละชั้นที่ฉันเชื่อว่าระดับเป็นป้ายตัวทำนาย? ฉันคิดว่าคะแนน f1 บอกคุณถึงความแม่นยำโดยรวมของโมเดล นอกจากนี้คอลัมน์สนับสนุนบอกอะไรเรา ฉันไม่พบข้อมูลใด ๆ print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

3
เหตุใด AUC ที่สูงขึ้นสำหรับลักษณนามที่มีความแม่นยำน้อยกว่าตัวที่มีความแม่นยำมากกว่า
ฉันมีตัวจําแนกสองตัว A: เครือข่าย Bayesian ที่ไร้เดียงสา B: ต้นไม้ (เชื่อมต่อโดยลำพัง) เครือข่ายแบบเบย์ ในแง่ของความแม่นยำและมาตรการอื่น ๆ A ทำงานค่อนข้างแย่กว่า B. อย่างไรก็ตามเมื่อฉันใช้ R แพ็คเกจ ROCR และ AUC เพื่อทำการวิเคราะห์ ROC ปรากฎว่า AUC สำหรับ A สูงกว่า AUC สำหรับ B เหตุใดจึงเป็นเช่นนี้ เกิดขึ้น? จริงบวก (tp), เท็จบวก (fp), ลบเท็จ (fn), ลบจริง (tn), ความไว (เซน), ความจำเพาะ (spec), ค่าพยากรณ์เชิงบวก (ppv), ค่าพยากรณ์ลบ (npv), และ ความแม่นยำ …

2
แบบจำลองทางสถิติที่อยู่เบื้องหลังอัลกอริทึม SVM คืออะไร
ฉันได้เรียนรู้ว่าเมื่อจัดการกับข้อมูลโดยใช้แบบจำลองขั้นตอนแรกคือการสร้างแบบจำลองขั้นตอนข้อมูลเป็นแบบจำลองทางสถิติ จากนั้นขั้นตอนต่อไปคือการพัฒนาอัลกอริทึมการอนุมานที่มีประสิทธิภาพ / เร็ว / การเรียนรู้ตามแบบจำลองทางสถิตินี้ ดังนั้นฉันต้องการถามว่าแบบจำลองทางสถิติใดอยู่เบื้องหลังอัลกอริธึมเวกเตอร์สนับสนุน (SVM) หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.