คำถามติดแท็ก unsupervised-learning

การค้นหาโครงสร้าง (สถิติ) ที่ซ่อนอยู่ในข้อมูลที่ไม่มีป้ายกำกับรวมถึงการจัดกลุ่มและการแยกคุณลักษณะเพื่อการลดขนาด

2
จะเข้าใจเครือข่ายความเชื่ออย่างลึกซึ้งสำหรับการจำแนกประเภทเสียงได้อย่างไร?
ใน " เครือข่ายความเชื่อเชิงลึกของ Convolutional สำหรับการเรียนรู้ที่ไม่สามารถปรับขนาดได้ของการเป็นตัวแทนลำดับชั้น " โดย Lee et. al. ( PDF ) ข้อเสนอ DBN ของ Convolutional นอกจากนี้ยังมีการประเมินวิธีการสำหรับการจำแนกภาพ ฟังก์ชั่นนี้ดูสมเหตุสมผลเนื่องจากมีคุณสมบัติภาพในพื้นที่เป็นธรรมชาติเช่นมุมและขอบเล็ก ๆ เป็นต้น ใน " การเรียนรู้คุณลักษณะที่ไม่ได้รับการสนับสนุนสำหรับการจำแนกประเภทเสียงโดยใช้เครือข่ายความเชื่อที่ลึกซึ้ง " อัล วิธีนี้ใช้สำหรับเสียงในการจำแนกประเภทต่าง ๆ การระบุลำโพง, การระบุเพศ, การจำแนกประเภทโทรศัพท์และการจำแนกประเภทเพลง / ศิลปิน ส่วนของเครือข่ายนี้สามารถตีความได้อย่างไรสำหรับเสียงเช่นมันสามารถอธิบายได้ว่าภาพเป็นขอบ?

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
t-SNE พร้อมตัวแปรแบบต่อเนื่องและไบนารีแบบผสม
ฉันกำลังตรวจสอบการสร้างภาพข้อมูลมิติสูงโดยใช้ t-SNE ฉันมีข้อมูลบางส่วนที่มีไบนารีผสมและตัวแปรต่อเนื่องและข้อมูลดูเหมือนว่าจะจัดกลุ่มข้อมูลไบนารีได้อย่างง่ายดายเกินไป แน่นอนว่าสิ่งนี้คาดว่าจะเป็นข้อมูลสเกล (ระหว่าง 0 ถึง 1): ระยะ Euclidian จะยิ่งใหญ่ที่สุด / เล็กที่สุดระหว่างตัวแปรไบนารี เราควรจัดการกับชุดข้อมูลไบนารี / ต่อเนื่องผสมโดยใช้ t-SNE อย่างไร เราควรดร็อปคอลัมน์ไบนารีหรือไม่ มันมีความแตกต่างที่metricเราสามารถใช้? เป็นตัวอย่างให้พิจารณารหัสหลามนี้: x1 = np.random.rand(200) x2 = np.random.rand(200) x3 = np.r_[np.ones(100), np.zeros(100)] X = np.c_[x1, x2, x3] # plot of the original data plt.scatter(x1, x2, c=x3) # … format graph ดังนั้นข้อมูลดิบของฉันคือ: …

1
จำนวนส่วนประกอบที่เหมาะสมที่สุดในส่วนผสมของเกาส์เซียน
ดังนั้นการได้รับ "ความคิด" ของจำนวนที่ดีที่สุดของกลุ่มใน k- หมายถึงเป็นเอกสารที่ดี ฉันพบบทความเกี่ยวกับการทำเช่นนี้ในการผสมแบบเกาส์ แต่ไม่แน่ใจว่าฉันเชื่อมั่นในมันไม่เข้าใจดีนัก มี ... วิธีที่อ่อนโยนกว่าในการทำเช่นนี้?

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
การเลือกคุณสมบัติสำหรับปัญหาการทำคลัสเตอร์
ฉันกำลังพยายามจัดกลุ่มชุดข้อมูลที่แตกต่างกันโดยใช้อัลกอริทึมที่ไม่ได้รับการสำรอง (การจัดกลุ่ม) ปัญหาคือฉันมีคุณสมบัติหลายอย่าง (~ 500) และจำนวนคดีเล็กน้อย (200-300) จนถึงตอนนี้ฉันเคยทำเฉพาะปัญหาการจำแนกซึ่งฉันมักจะมีข้อมูลที่ระบุว่าเป็นชุดฝึกอบรม ที่นั่นฉันใช้เกณฑ์บางอย่าง (เช่น random.forest.importance หรือ information.gain) สำหรับการเลือกคุณสมบัติล่วงหน้าจากนั้นฉันใช้การเลือกไปข้างหน้าตามลำดับสำหรับผู้เรียนที่แตกต่างกันเพื่อค้นหาคุณลักษณะที่เกี่ยวข้อง ตอนนี้ฉันเห็นว่าในกรณีของการเรียนรู้ที่ไม่มีผู้ดูแลฉันไม่มีเกณฑ์สำหรับการเลือกล่วงหน้าและฉันไม่สามารถใช้การเลือกไปข้างหน้าตามลำดับ (อย่างน้อยไม่ได้อยู่ในแพ็คเกจ MLR) ฉันสงสัยว่าฉันสามารถทำการวิเคราะห์องค์ประกอบหลักก่อนที่จะค้นหาคุณลักษณะจำนวนเล็กน้อยเพื่อนำไปใช้กับอัลกอริทึมการจัดกลุ่มของฉันหรือไม่ หรือคุณมีความคิดอื่น ๆ ขอบคุณ แก้ไข: ตกลงดังนั้นหลังจากการวิจัยออนไลน์ฉันสามารถอัปเดตคำถามของฉันได้นิดหน่อย: ก่อนอื่นฉันได้อ่านบางบทความที่ไม่สนับสนุนการใช้ PCA ก่อนอัลกอริทึมการจัดกลุ่มเนื่องจากเหตุผลสองประการ: พีซีเป็นฟังก์ชั่นของฟีเจอร์ทั้งหมดดังนั้นจึงยากที่จะสัมพันธ์กับผลลัพธ์ของชุดข้อมูล inital และทำให้ยากต่อการตีความ ยิ่งไปกว่านั้นถ้าคุณมีปัญหาที่จริงแล้วคุณสมบัติเพียงเล็กน้อยของคุณมีประโยชน์ในการทำคลัสเตอร์ก็ไม่ได้กล่าวว่าคุณสมบัติเหล่านี้ยังอธิบายถึงความแปรปรวนที่ใหญ่ที่สุดในกลุ่มตัวอย่าง (ซึ่งเป็นสิ่งที่พีซีทำ) PCA อยู่นอกโต๊ะ ... ตอนนี้ฉันกลับไปที่แนวคิดเริ่มต้นของฉันเพื่อทำการเลือกการส่งต่อตามลำดับสำหรับการทำคลัสเตอร์ คุณต้องการแนะนำการวัดประสิทธิภาพแบบใด? (ฉันคิดเกี่ยวกับ Dunn-Index) อัลกอริทึมการจัดกลุ่มใดที่จะนำไปสู่กลุ่มที่มีขนาดเท่ากันหรือมากกว่า (สำหรับการจัดกลุ่มแบบลำดับชั้นฉันมักจะได้รับหนึ่งคลัสเตอร์ที่มีค่าผิดปกติเดียวและอีกส่วนที่เหลือทั้งหมด -> ดังนั้นฉันจะต้องการบางสิ่งที่ป้องกันอย่างใดต่อผู้ผิด) หวังว่าพวกคุณจะช่วยฉัน ...

1
ไม่สามารถทำให้ฟังก์ชั่นเครือข่าย autoencoder นี้ถูกต้อง (กับชั้น convolutional และ maxpool)
เครือข่ายAutoencoderดูเหมือนจะมีความซับซ้อนกว่าเครือข่าย MLP ลักษณนามทั่วไป หลังจากความพยายามหลายครั้งในการใช้Lasagneทุกสิ่งที่ฉันได้รับในผลลัพธ์ที่สร้างขึ้นใหม่นั้นเป็นสิ่งที่คล้ายกับค่าเฉลี่ยที่เบลอที่สุดของภาพทั้งหมดของฐานข้อมูลMNISTโดยไม่แยกแยะว่าตัวเลขที่ป้อนเข้านั้นคืออะไร โครงสร้างเครือข่ายที่ฉันเลือกคือเลเยอร์น้ำตกต่อไปนี้: ชั้นอินพุต (28x28) 2D convolutional layer ขนาดตัวกรอง 7x7 Max Pooling layer, ขนาด 3x3, stride 2x2 ชั้นแบนราบหนาแน่น (เชื่อมต่ออย่างเต็มที่) 10 ยูนิต (นี่คือคอขวด) ชั้นหนาแน่น (เชื่อมต่ออย่างเต็มที่) 121 หน่วย ปรับขนาดเลเยอร์เป็น 11x11 2D convolutional layer ขนาดตัวกรอง 3x3 ตัวคูณยกระดับ 2D 2 2D convolutional layer ขนาดตัวกรอง 3x3 ตัวคูณยกระดับ 2D 2 2D convolutional layer ขนาดตัวกรอง …

6
วิธีการเตรียม / สร้างฟีเจอร์สำหรับการตรวจจับความผิดปกติ (ข้อมูลความปลอดภัยเครือข่าย)
เป้าหมายของฉันคือการวิเคราะห์บันทึกเครือข่าย (เช่น Apache, syslog, การตรวจสอบความปลอดภัยของ Active Directory และอื่น ๆ ) โดยใช้การตรวจจับกลุ่ม / ความผิดปกติเพื่อวัตถุประสงค์ในการตรวจจับการบุกรุก จากบันทึกฉันมีฟิลด์ข้อความจำนวนมากเช่นที่อยู่ IP ชื่อผู้ใช้ชื่อโฮสต์พอร์ตปลายทางพอร์ตต้นทางและอื่น ๆ (รวมทั้งหมด 15-20 ฟิลด์) ฉันไม่ทราบว่ามีการโจมตีในบันทึกหรือไม่และต้องการเน้นเหตุการณ์ที่น่าสงสัยที่สุด (ผู้ผิด) โดยปกติการตรวจจับความผิดปกติจะทำเครื่องหมายจุดที่มีความน่าจะเป็น / ความถี่ต่ำเป็นความผิดปกติ อย่างไรก็ตามครึ่งหนึ่งของบันทึกรายการบันทึกประกอบด้วยเขตข้อมูลที่ไม่ซ้ำกัน ดังนั้นครึ่งหนึ่งของการบันทึกในชุดข้อมูลจะมีความถี่ต่ำสุดที่เป็นไปได้ ถ้าฉันใช้การตรวจจับความผิดปกติโดยพิจารณาจากการจัดกลุ่ม (เช่นค้นหากลุ่มแล้วเลือกจุดที่อยู่ไกลจากศูนย์คลัสเตอร์ทั้งหมด) ฉันต้องหาระยะทางระหว่างจุดต่าง ๆ เนื่องจากฉันมีฟิลด์ 15-20 ฟิลด์มันจะเป็นพื้นที่แบบหลายมิติซึ่ง dimesions คือชื่อผู้ใช้พอร์ตที่อยู่ IP และอื่น ๆ อย่างไรก็ตามระยะทาง Mahalanobis สามารถใช้ได้กับฟีเจอร์การกระจายแบบปกติเท่านั้น ซึ่งหมายความว่าไม่มีทางที่จะหาระยะห่างระหว่างจุดข้อมูลและสร้างกลุ่ม ... ตัวอย่างเช่นลองนึกภาพว่าฉันมีผู้ใช้ Alice, Bob, Carol, Dave, Eve …

4
วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3
ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.