คำถามติดแท็ก unsupervised-learning

การค้นหาโครงสร้าง (สถิติ) ที่ซ่อนอยู่ในข้อมูลที่ไม่มีป้ายกำกับรวมถึงการจัดกลุ่มและการแยกคุณลักษณะเพื่อการลดขนาด

1
การควบคุมระยะไกล: การดูแลแบบกึ่งควบคุมหรือทั้งสองอย่าง?
"การดูแลระยะไกล" เป็นรูปแบบการเรียนรู้ที่ตัวจำแนกลักษณนามได้รับชุดฝึกอบรมที่มีป้ายกำกับอ่อนแอ (ข้อมูลการฝึกอบรมจะมีป้ายกำกับโดยอัตโนมัติตามการวิเคราะห์พฤติกรรม / กฎ) ฉันคิดว่าทั้งการเรียนรู้ภายใต้การดูแลและการเรียนรู้แบบกึ่งมีส่วนร่วมอาจรวมถึง "การกำกับดูแลที่ห่างไกล" หากข้อมูลที่ติดฉลากของพวกเขานั้นมีการแก้ปัญหาด้วยวิธีฮิวริสติก / อัตโนมัติ อย่างไรก็ตามในหน้านี้ "การกำกับดูแลที่ห่างไกล" หมายถึง "การเรียนรู้แบบกึ่งภายใต้การดูแล" (เช่น จำกัด เฉพาะ "การควบคุมกึ่ง") ดังนั้นคำถามของฉันคือ"การควบคุมดูแลที่ห่างไกล" อ้างถึงการควบคุมกึ่งหรือไม่? ในความคิดของฉันมันสามารถนำไปใช้กับการเรียนรู้ทั้งแบบมีผู้สอนและแบบกึ่งมีผู้สอน โปรดระบุข้อมูลอ้างอิงที่เชื่อถือได้หากมี

1
วิธีกำหนดจำนวนกลุ่มใน K-หมายถึงการจัดกลุ่ม?
มีวิธีใดในการกำหนดจำนวนคลัสเตอร์ที่ดีที่สุดหรือฉันควรลองค่าที่แตกต่างกันและตรวจสอบอัตราความผิดพลาดเพื่อตัดสินใจเลือกค่าที่ดีที่สุด

4
จะเข้าใจข้อเสียของการจัดกลุ่มลำดับชั้นได้อย่างไร
ใครสามารถอธิบายข้อดีข้อเสียของการจัดกลุ่มลำดับชั้นได้? การจัดกลุ่มตามลำดับชั้นมีข้อเสียเช่นเดียวกับ K หมายความว่าอย่างไร อะไรคือข้อดีของการจัดกลุ่มลำดับชั้นมากกว่า K หมายถึงอะไร เมื่อใดที่เราควรใช้ K แทนการจัดกลุ่มตามลำดับชั้น & ในทางกลับกัน คำตอบสำหรับโพสต์นี้จะอธิบายข้อเสียของ k หมายถึงดีมาก วิธีการทำความเข้าใจข้อเสียของ K-mean

3
จะเลือกจำนวนปัจจัยแฝงที่เหมาะสมที่สุดในการแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบได้อย่างไร
ได้รับเมทริกซ์ , ไม่ใช่เชิงลบเมทริกซ์ตัวประกอบ (NMF) พบว่าทั้งสองเมทริกซ์ที่ไม่ใช่เชิงลบและ ( คือทุกองค์ประกอบ ) เพื่อเป็นตัวแทนของเมทริกซ์ที่สลายตัวเมื่อ:Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, ตัวอย่างเช่นโดยการกำหนดว่าไม่ใช่ - ลบและลดข้อผิดพลาดในการสร้างใหม่WW\mathbf WHH\mathbf H∥V−WH∥2.‖V−WH‖2.\|\mathbf V-\mathbf W\mathbf H\|^2. มีวิธีปฏิบัติทั่วไปในการประมาณค่าkkkใน NMF หรือไม่ ตัวอย่างเช่นจะใช้การตรวจสอบความถูกต้องไขว้เพื่อจุดประสงค์นั้นได้อย่างไร

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
มี "การถดถอยแบบไม่มีผู้ดูแล" หรือไม่?
หากฉันถูกต้อง "การจำแนกประเภทที่ไม่ได้รับการสำรอง" นั้นเหมือนกับการทำคลัสเตอร์ ถ้าเช่นนั้นจะมี "การถดถอยที่ไม่ได้รับอนุญาต" ขอบคุณ!

3
การผสมข้อมูลคืออะไร
ระยะนี้จะปรากฏขึ้นบ่อย ๆ ในหัวข้อวิธีการที่เกี่ยวข้องกับ มีการผสมผสานวิธีการเฉพาะในการทำเหมืองข้อมูลและการเรียนรู้ทางสถิติ? ฉันไม่สามารถรับผลลัพธ์ที่เกี่ยวข้องจาก google ได้ ดูเหมือนว่าการผสมเป็นการผสมผสานผลลัพธ์จากหลาย ๆ โมเดลและทำให้ได้ผลลัพธ์ที่ดีขึ้น มีทรัพยากรใดที่ช่วยให้ฉันรู้เพิ่มเติมเกี่ยวกับมันหรือไม่?

4
เครือข่ายประสาทเทียมคืออะไร *
เมื่อเราเจาะลึกลงไปในวรรณกรรมของNeural Networksเราจะหาวิธีอื่น ๆ ด้วยโทโพโลยีของนิวโรมอร์ฟิค (สถาปัตยกรรมแบบ "Neural-Network") และฉันไม่ได้พูดคุยเกี่ยวกับยูนิเวอร์แซประมาณทฤษฎีบท ตัวอย่างได้รับด้านล่าง จากนั้นมันทำให้ฉันสงสัยว่า: อะไรคือความหมายของเครือข่ายประสาทเทียม? โทโพโลยีของมันดูเหมือนจะครอบคลุมทุกอย่าง ตัวอย่าง: หนึ่งในการระบุตัวแรกที่เราทำคือระหว่าง PCA และ Linear Autoencoder ที่มีตุ้มน้ำหนักในตัวเข้ารหัสและตัวถอดรหัส นอกจากนี้ยังมีการระบุร่วมกันระหว่างตัวแบบเชิงเส้น (การถดถอยแบบโลจิสติกส์ในแบบพิเศษ) และแบบโครงข่ายประสาทเทียมโดยไม่มีเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาท์พุทเดี่ยว การระบุนี้เปิดหลายประตู ซีรี่ส์ฟูริเยร์และเทย์เลอร์? ANNs SVM ? ANN กระบวนการแบบเกาส์ ANN (พร้อมเลเยอร์ที่ซ่อนเดี่ยวพร้อมยูนิตที่ซ่อนไม่ จำกัด ) และเช่นเดียวกับที่ง่าย ๆ เราสามารถรวมเวอร์ชันปกติโดยพลการกับฟังก์ชั่นการสูญเสียพิเศษของอัลกอริทึมเหล่านี้ลงในกรอบโครงข่ายประสาทเทียม แต่ยิ่งเราขุดมากเท่าไหร่ ฉันเพิ่งเข้าสู่Deep Neural Decision Treesซึ่งทำให้การระบุสถาปัตยกรรม ANN ที่เฉพาะเจาะจงกับต้นไม้การตัดสินใจทำให้สามารถเรียนรู้สิ่งเหล่านี้ได้ด้วยวิธีการของ ANN (เช่นการไล่ระดับสีย้อนกลับของ Gradient Descent) จากนี้เราสามารถสร้างป่าสุ่มและต้นไม้ตัดสินใจเพิ่มไล่โทนสีจากทอพอโลยีโครงข่ายประสาทเทียมเพียงอย่างเดียว หากทุกอย่างสามารถแสดงเป็นโครงข่ายใยประสาทเทียมอะไรคือตัวกำหนดเครือข่ายประสาทเทียม

4
วิธีการวัดรูปร่างของคลัสเตอร์?
ฉันรู้ว่าคำถามนี้ไม่ได้กำหนดไว้อย่างชัดเจน แต่บางกลุ่มมีแนวโน้มที่จะเป็นรูปไข่หรือนอนในพื้นที่มิติที่ต่ำกว่าในขณะที่คนอื่นมีรูปร่างไม่เชิงเส้น (ในตัวอย่าง 2D หรือ 3D) มีการวัดความไม่เชิงเส้น (หรือ "รูปร่าง") ของกลุ่มใดบ้าง? โปรดสังเกตว่าในพื้นที่ 2D และ 3D ไม่ใช่ปัญหาในการดูรูปร่างของคลัสเตอร์ใด ๆ แต่ในพื้นที่มิติที่สูงขึ้นเป็นปัญหาที่จะพูดบางอย่างเกี่ยวกับรูปร่าง โดยเฉพาะมีมาตรการว่าคลัสเตอร์นูนเป็นอย่างไร ฉันได้รับแรงบันดาลใจสำหรับคำถามนี้จากคำถามการจัดกลุ่มอื่น ๆ ที่ผู้คนพูดถึงกลุ่ม แต่ไม่มีใครสามารถเห็นพวกเขา (ในพื้นที่มิติที่สูงขึ้น) นอกจากนี้ฉันรู้ว่ามีมาตรการไม่เชิงเส้นสำหรับเส้นโค้ง 2D

3
การเลือกไฮเปอร์พารามิเตอร์โดยใช้ T-SNE สำหรับการจำแนกประเภท
ในปัญหาเฉพาะที่ฉันทำงานกับ (การแข่งขัน) ฉันมีการตั้งค่า follwoing: 21 คุณสมบัติ (ตัวเลขบน [0,1]) และเอาต์พุตไบนารี ฉันมีแถวประมาณ 100 K ดูเหมือนว่าการตั้งค่าจะมีเสียงดังมาก ฉันและผู้เข้าร่วมคนอื่น ๆ ใช้การสร้างคุณลักษณะในช่วงเวลาหนึ่งและเพื่อนบ้าน stochastic แบบ t- กระจายกลายเป็นค่อนข้างมีประสิทธิภาพในการตั้งค่านี้ ฉันสะดุดโพสต์นี้"วิธีการใช้ t-SNE อย่างมีประสิทธิภาพ"แต่ฉันก็ยังไม่สามารถสรุปได้ว่าจะเลือกไฮเปอร์พารามิเตอร์ที่ดีที่สุดในการจำแนกประเภทของฉันได้อย่างไร มีกฎของหัวแม่มือ (จำนวนของคุณสมบัติขนาดของการฝัง -> ทางเลือกของความงุนงง) หรือไม่? ฉันเพิ่งใช้การตั้งค่า Ad-hoc ในขณะนี้เนื่องจากใช้เวลานานเกินไปในการทำซ้ำการตั้งค่าต่างๆ ขอบคุณสำหรับความคิดเห็นใด ๆ

4
การเริ่มต้น K-หมายถึงศูนย์โดยวิธีการของชุดย่อยแบบสุ่มของชุดข้อมูลหรือไม่
ถ้าฉันมีชุดข้อมูลที่แน่นอนมันจะฉลาดแค่ไหนที่จะเริ่มต้นศูนย์คลัสเตอร์โดยใช้วิธีการสุ่มตัวอย่างของชุดข้อมูลนั้น 5 clustersตัวอย่างเช่นสมมติว่าผมต้องการ ฉัน5 random samplesพูดsize=20%ของชุดข้อมูลเดิม จากนั้นฉันจะใช้ค่าเฉลี่ยของตัวอย่างสุ่มทั้ง 5 เหล่านี้แล้วใช้ค่าเฉลี่ยเหล่านั้นเป็นศูนย์คลัสเตอร์เริ่มต้น 5 ศูนย์ของฉันได้หรือไม่ ฉันไม่รู้ว่าฉันอ่านตรงไหน แต่อยากรู้ว่าพวกคุณคิดอย่างไรกับแนวคิดนี้ UPDATE:โปรดดูหัวข้อนี้การเริ่มต้น K-หมายถึงการจัดกลุ่ม: วิธีการที่มีอยู่คืออะไร? สำหรับการสนทนาทั่วไปเกี่ยวกับวิธีการเริ่มต้นต่างๆ

1
มีความแตกต่างระหว่างการนิเทศแบบไกลการฝึกฝนด้วยตนเองการเรียนรู้แบบกำกับตนเองและการนิเทศแบบอ่อนหรือไม่?
จากสิ่งที่ฉันได้อ่าน: การดูแลที่ห่างไกล : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them and this operator …

4
คุณสามารถเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกันบนชุดข้อมูลที่ไม่มีความจริงพื้นฐานโดยการตรวจสอบข้ามได้หรือไม่?
ขณะนี้ฉันกำลังพยายามวิเคราะห์ชุดข้อความเอกสารที่ไม่มีความจริง มีคนบอกฉันว่าคุณสามารถใช้การตรวจสอบความถูกต้องข้ามของ k-fold เพื่อเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกัน อย่างไรก็ตามตัวอย่างที่ฉันเห็นในอดีตใช้ความจริงพื้นฐาน มีวิธีใช้ k-fold ในชุดข้อมูลนี้เพื่อตรวจสอบผลลัพธ์ของฉันหรือไม่?

2
การใช้การเรียนรู้ของเครื่องสำหรับการกรอง DDoS
ในหลักสูตรการเรียนรู้ของ Machine Stanford Andrew Ng กล่าวถึงการใช้ ML ใน IT บางเวลาต่อมาเมื่อฉันมีขนาดปานกลาง (ประมาณบอท 20k) DDoS บนเว็บไซต์ของเราฉันตัดสินใจที่จะต่อสู้กับมันโดยใช้ตัวจําแนกเครือข่ายประสาทอย่างง่าย ฉันได้เขียนสคริปต์ไพ ธ อนนี้ในเวลาประมาณ 30 นาที: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos มันใช้pyBrainและนำบันทึกnginx 3 อันมาเป็นข้อมูลป้อนเข้าสองไฟล์เพื่อฝึกอบรม Neural Network: ด้วยคำสั่งที่ดี กับคนเลว และหนึ่งบันทึกสำหรับการจำแนก จากการสอบถามที่ไม่ดี .. 0.0.0.0 - - [20/Dec/2011:20:00:08 +0400] "POST /forum/index.php HTTP/1.1" 503 107 "http://www.mozilla-europe.org/" "-" ...และดี... 0.0.0.0 - - [20/Dec/2011:15:00:03 +0400] "GET /forum/rss.php?topic=347425 …

5
การจัดกลุ่ม SOM สำหรับตัวแปรระบุ / แบบวงกลม
เพียงแค่สงสัยว่าถ้าใครคุ้นเคยกับการจัดกลุ่มข้อมูลเข้าเล็กน้อย ฉันได้ดู SOM เป็นวิธีแก้ปัญหา แต่เห็นได้ชัดว่ามันทำงานได้เฉพาะกับคุณลักษณะตัวเลข มีส่วนขยายใด ๆ สำหรับคุณสมบัติหมวดหมู่หรือไม่ โดยเฉพาะฉันสงสัยเกี่ยวกับ 'Days of the Week' เป็นคุณลักษณะที่เป็นไปได้ แน่นอนว่ามันเป็นไปได้ที่จะแปลงให้เป็นคุณลักษณะเชิงตัวเลข (เช่นจันทร์ - อาทิตย์สอดคล้องกับเลข 1-7) อย่างไรก็ตามจากนั้นระยะทางแบบยุคลิดระหว่างดวงอาทิตย์และจันทร์ (1 และ 7) จะไม่เหมือนกับระยะทางจากจันทร์ถึงอังคาร (1 & 2) ) ข้อเสนอแนะหรือความคิดใด ๆ ที่จะได้รับการชื่นชมมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.