คำถามติดแท็ก outliers

ค่าผิดปกติคือการสังเกตที่ดูเหมือนจะผิดปกติหรืออธิบายไม่ได้ดีเมื่อเทียบกับการอธิบายลักษณะของชุดข้อมูลอย่างง่าย ความเป็นไปได้ที่ไม่น่าไว้วางใจคือข้อมูลเหล่านี้มาจากประชากรที่แตกต่างจากที่ตั้งใจจะศึกษา

4
ลำดับของตัวแปรมีความสำคัญในการถดถอยเชิงเส้นหรือไม่
ฉันกำลังตรวจสอบความสัมพันธ์ระหว่างตัวแปรสองตัว (x1x1x_1 และ x2x2x_2) มีความสัมพันธ์เชิงเส้นตรงมากระหว่างตัวแปรเหล่านี้ด้วยr > 0.9r>0.9r>0.9. จากลักษณะของปัญหาฉันไม่สามารถพูดอะไรเกี่ยวกับสาเหตุได้ (ไม่ว่าจะเป็นx1x1x_1 สาเหตุ x2x2x_2หรือวิธีอื่น ๆ ) ฉันต้องการศึกษาการเบี่ยงเบนจากเส้นการถดถอยเพื่อตรวจหาค่าผิดปกติ ในการทำเช่นนี้ฉันสามารถสร้างการถดถอยเชิงเส้นของx1x1x_1 เป็นหน้าที่ของ x2x2x_2หรือวิธีอื่น ๆ การเลือกคำสั่งผันแปรของฉันมีผลต่อผลลัพธ์ของฉันหรือไม่

5
การกำหนดเกณฑ์อัตโนมัติสำหรับการตรวจจับความผิดปกติ
ฉันกำลังทำงานกับอนุกรมเวลาของคะแนนความผิดปกติ (พื้นหลังคือการตรวจจับความผิดปกติในเครือข่ายคอมพิวเตอร์) ทุกนาทีฉันได้รับคะแนนความผิดปกติซึ่งบอกฉันว่า "ไม่คาดฝัน" หรือผิดปกติสถานะปัจจุบันของเครือข่ายคืออะไร ยิ่งคะแนนสูงเท่าไรสถานะปัจจุบันก็ยิ่งผิดปกติมากเท่านั้น คะแนนที่ใกล้เคียงกับ 5 เป็นไปได้ในทางทฤษฎี แต่เกิดขึ้นแทบจะไม่เคยเกิดขึ้นเลยxเสื้อ∈ [ 0 , 5 ]xเสื้อ∈[0,5]x_t \in [0, 5] ตอนนี้ฉันต้องการอัลกอริธึมหรือสูตรที่กำหนดเกณฑ์โดยอัตโนมัติสำหรับอนุกรมเวลาผิดปกตินี้ ทันทีที่คะแนนผิดปกติเกินเกณฑ์นี้สัญญาณเตือนจะเริ่มทำงาน การแจกแจงความถี่ด้านล่างเป็นตัวอย่างสำหรับอนุกรมเวลาที่ผิดปกติมากกว่า 1 วัน อย่างไรก็ตามมันไม่ปลอดภัยที่จะสมมติว่าซีรีย์ความผิดปกติทุกครั้งจะมีลักษณะเช่นนั้น ในตัวอย่างพิเศษนี้เกณฑ์ความผิดปกติเช่น. 99-quantile จะเข้าท่าเนื่องจากคะแนนไม่กี่อันทางขวามากถือได้ว่าเป็นความผิดปกติ และการแจกแจงความถี่เดียวกันกับอนุกรมเวลา (ช่วงนั้นมีค่าตั้งแต่ 0 ถึง 1 เนื่องจากไม่มีคะแนนความผิดปกติสูงกว่าในอนุกรมเวลา): แต่น่าเสียดายที่การแจกแจงความถี่อาจมีรูปร่างที่ .99-quantile คือไม่ได้มีประโยชน์ ตัวอย่างด้านล่าง หางขวาอยู่ในระดับต่ำมากดังนั้นหากใช้. 99-quantile เป็นจุดเริ่มต้นสิ่งนี้อาจส่งผลให้เกิดผลบวกปลอมหลายอย่าง การแจกแจงความถี่นี้ดูเหมือนจะไม่มีความผิดปกติดังนั้นเกณฑ์ควรอยู่นอกการกระจายที่ประมาณ 0.25 สรุปแล้วความแตกต่างระหว่างสองตัวอย่างนี้คือตัวอย่างแรกดูเหมือนว่าจะมีความผิดปกติในขณะที่อีกอันหนึ่งไม่มี จากมุมมองที่ไร้เดียงสาของฉันอัลกอริทึมควรพิจารณาสองกรณีนี้: หากการแจกแจงความถี่มีหางขวาขนาดใหญ่ (เช่นคะแนนผิดปกติสองเท่า) ดังนั้น. 99-quantile อาจเป็นเกณฑ์ที่ดี หากการแจกแจงความถี่มีหางขวาสั้นมาก …

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.