คำถามติดแท็ก aggregation

หมายถึง "การรวมกลุ่มเข้าด้วยกัน" ซึ่งอาจเป็นกลุ่มข้อมูลที่ไม่เป็นเนื้อเดียวกัน

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
จะรวมข้อมูลนาทีเป็นเวลาหนึ่งสัปดาห์เป็นรายชั่วโมงได้อย่างไร
คุณจะได้รับค่าเฉลี่ยรายชั่วโมงสำหรับคอลัมน์ข้อมูลหลายรายการเป็นระยะเวลารายวันอย่างไรและแสดงผลลัพธ์สำหรับ "โฮสต์" สิบสองรายการในกราฟเดียวกัน นั่นคือฉันต้องการกราฟว่าระยะเวลา 24 ชั่วโมงเป็นอย่างไรสำหรับสัปดาห์ที่มีค่าของข้อมูล เป้าหมายสุดท้ายคือการเปรียบเทียบข้อมูลสองชุดนี้ก่อนและหลังการสุ่มตัวอย่าง dates Host CPUIOWait CPUUser CPUSys 1 2011-02-11 23:55:12 db 0 14 8 2 2011-02-11 23:55:10 app1 0 6 1 3 2011-02-11 23:55:09 app2 0 4 1 ฉันสามารถเรียกใช้ xyplot (CPUUser ~ เดท | โฮสต์) ได้ดี อย่างไรก็ตามแทนที่จะแสดงแต่ละวันในสัปดาห์ฉันต้องการให้แกน X เป็นชั่วโมงของวัน การพยายามนำข้อมูลนี้ไปไว้ในวัตถุ xts ทำให้เกิดข้อผิดพลาดเช่น"order.by ต้องใช้วัตถุตามเวลาที่เหมาะสม" นี่คือ str …

6
วิธีที่รวดเร็วใน R เพื่อให้แถวแรกของเฟรมข้อมูลจัดกลุ่มตามตัวระบุ [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา บางครั้งฉันต้องรับเฉพาะแถวแรกของชุดข้อมูลที่จัดกลุ่มตามตัวระบุเช่นเดียวกับเมื่อดึงข้อมูลอายุและเพศเมื่อมีการสังเกตหลายครั้งต่อบุคคล อะไรคือวิธีที่รวดเร็ว (หรือเร็วที่สุด) ในการทำเช่นนี้ใน R? ฉันใช้การรวม () ด้านล่างและสงสัยว่ามีวิธีที่ดีกว่า ก่อนโพสต์คำถามนี้ฉันค้นหาบิตบน google พบและลองใช้ ddply และรู้สึกประหลาดใจที่มันช้ามากและทำให้ฉันมีข้อผิดพลาดของหน่วยความจำในชุดข้อมูลของฉัน (400,000 แถว x 16 cols, 7,000 ID ที่ไม่ซ้ำ) ในขณะที่รุ่นรวม เร็วพอสมควร (dx <- data.frame(ID = factor(c(1,1,2,2,3,3)), AGE = c(30,30,40,40,35,35), FEM = factor(c(1,1,0,0,1,1)))) # ID AGE FEM # 1 30 1 # …
14 r  dataset  aggregation  plyr 

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

1
Quantiles จากการรวมการแจกแจงแบบปกติ
ฉันมีข้อมูลเกี่ยวกับการแจกแจงสัดส่วนมิติของร่างกาย (เช่นช่วงไหล่) สำหรับเด็กทุกวัย สำหรับแต่ละอายุและมิติฉันมีค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐาน (ฉันมีแปดควอนไทล์ แต่ฉันไม่คิดว่าฉันจะได้สิ่งที่ฉันต้องการจากพวกเขา) สำหรับแต่ละมิติฉันต้องการประเมินจำนวนเฉพาะของการกระจายความยาว หากฉันสมมติว่าแต่ละมิติมีการกระจายตามปกติฉันสามารถทำได้ด้วยค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน มีสูตรสวยที่ฉันสามารถใช้เพื่อรับค่าที่เกี่ยวข้องกับ quantile เฉพาะของการกระจายหรือไม่ การย้อนกลับค่อนข้างง่าย: สำหรับค่าใดค่าหนึ่งให้หาพื้นที่ทางด้านขวาของค่าสำหรับการแจกแจงปกติ (อายุ) แต่ละค่า รวมผลลัพธ์และหารด้วยจำนวนการแจกแจง ปรับปรุง : นี่คือคำถามเดียวกันในรูปแบบกราฟิก สมมติว่าการแจกแจงสีแต่ละแบบนั้นปกติจะกระจาย นอกจากนี้ฉันเห็นได้ชัดว่าสามารถลองความยาวหลาย ๆ แบบและเปลี่ยนมันต่อไปเรื่อย ๆ จนกว่าฉันจะได้ค่าที่ใกล้เคียงกับควอนไทล์ที่ต้องการเพื่อความแม่นยำของฉัน ฉันสงสัยว่ามีวิธีที่ดีกว่านี้หรือไม่ และถ้านี่เป็นแนวทางที่ถูกต้องมีชื่อไหม?

1
คุณจะเลือกหน่วยการวิเคราะห์ (ระดับการรวม) ในอนุกรมเวลาได้อย่างไร
หากคุณสามารถวัดอนุกรมเวลาของการสังเกตที่ระดับใด ๆ ของความแม่นยำในเวลาและเป้าหมายของการศึกษาของคุณคือการระบุความสัมพันธ์ระหว่าง X และ Y จะมีเหตุผลเชิงประจักษ์ใด ๆ สำหรับการเลือกระดับการรวมที่เฉพาะเจาะจงมากกว่าหรือควร ทางเลือกนั้นขึ้นอยู่กับทฤษฎีและ / หรือข้อ จำกัด ในทางปฏิบัติ? ฉันมีคำถามย่อยสามคำถามสำหรับคำถามหลักนี้: การแปรผันที่ไม่ใช่แบบสุ่มใน X หรือ Y ในระดับที่มากกว่าเหตุผลเพียงพอที่จะเลือกการรวมกลุ่มที่เล็กกว่า (ที่ไม่ใช่แบบสุ่มใด ๆ เป็นรูปแบบชั่วคราวของการสังเกต)? การเปลี่ยนแปลงในความสัมพันธ์ระหว่าง X และ Y ในระดับที่เล็กกว่าของการรวมเหตุผลเพียงพอที่จะปรับหน่วยการวิเคราะห์ที่มีขนาดเล็กลงหรือไม่? หากรูปแบบบางรูปแบบเป็นที่ยอมรับได้ใครจะเป็นผู้ตัดสินว่ารูปแบบนั้นมากเกินไปเท่าใด ผู้คนสามารถอ้างถึงข้อโต้แย้งที่พวกเขารู้สึกว่าน่าสนใจ / ถูกนิยามไว้อย่างดีสำหรับการวิเคราะห์หนึ่งหน่วยเหนืออีกเรื่องหนึ่งไม่ว่าจะด้วยเหตุผลเชิงประจักษ์หรือเหตุผลเชิงทฤษฎี? ฉันตระหนักดีถึงปัญหาหน่วยพื้นที่ที่แก้ไขได้ในการวิเคราะห์เชิงพื้นที่ ( Openshaw 1984 ) ฉันไม่ได้อ้างว่าเป็นผู้เชี่ยวชาญเกี่ยวกับเนื้อหา แต่ทั้งหมดที่ฉันคิดว่าจนถึงตอนนี้ก็คือการวิเคราะห์หน่วยที่เล็กกว่านั้นดีกว่าเสมอเพราะมีโอกาสน้อยที่จะยอมรับการเข้าใจผิดทางนิเวศวิทยา ( Robinson 1950 ) หากมีการอ้างอิงหรือคำตอบที่เกี่ยวข้องโดยตรงกับหน่วยทางภูมิศาสตร์รวมฉันจะขอบคุณคำตอบนั้นเช่นกัน

2
สถิติใดที่ถูกเก็บรักษาไว้ภายใต้การรวมกลุ่ม?
หากเรามีอนุกรมเวลาที่มีความยาวและความละเอียดสูงพร้อมเสียงรบกวนมากมายมันมักจะสมเหตุสมผลที่จะรวบรวมข้อมูลให้เป็นความละเอียดที่ต่ำกว่า (เช่นค่ารายวันเป็นรายเดือน) เพื่อทำความเข้าใจกับสิ่งที่เกิดขึ้นได้ดียิ่งขึ้น เสียงดัง. ฉันเคยเห็นอย่างน้อยหนึ่งกระดาษที่ใช้สถิติบางอย่างกับข้อมูลรวมรวมถึงสำหรับการถดถอยเชิงเส้นในตัวแปรแยกต่างหาก ถูกต้องหรือไม่ ฉันคิดว่ากระบวนการหาค่าเฉลี่ยจะปรับเปลี่ยนผลลัพธ์ค่อนข้างดีเนื่องจากเสียงรบกวนน้อยลงr2r2r^2 โดยทั่วไปแล้วสถิติบางอย่างสามารถนำไปใช้กับข้อมูลอนุกรมเวลารวมและอื่น ๆ ไม่ได้? ถ้าเป็นเช่นนั้น คนที่มีการรวมกันเชิงเส้นอาจ?

2
ฉันควรรันการถดถอยแบบแยกกันสำหรับทุกชุมชนหรือชุมชนสามารถเป็นตัวแปรควบคุมในรูปแบบรวมได้หรือไม่
ฉันใช้โมเดล OLS พร้อมตัวแปรดัชนีสินทรัพย์อย่างต่อเนื่องในฐานะ DV ข้อมูลของฉันถูกรวบรวมจากชุมชนที่คล้ายกันสามแห่งในพื้นที่ใกล้เคียงทางภูมิศาสตร์ใกล้กัน อย่างไรก็ตามเรื่องนี้ฉันคิดว่ามันสำคัญที่จะต้องใช้ชุมชนเป็นตัวแปรควบคุม ชุมชนกลายเป็นสิ่งสำคัญในระดับ 1% (คะแนน t--4.52) ชุมชนเป็นตัวแปรที่ระบุ / หมวดหมู่ที่เข้ารหัสเป็น 1,2,3 สำหรับ 1 ใน 3 ชุมชนที่แตกต่างกัน คำถามของฉันคือถ้าความสำคัญระดับสูงนี้หมายความว่าฉันควรทำการถดถอยในชุมชนทีละรายการแทนที่จะเป็นการรวมตัว มิฉะนั้นการใช้ชุมชนเป็นตัวแปรควบคุมเป็นหลักทำเช่นนั้น?

6
วิธีค้นหาสถิติสรุปสำหรับชุดค่าผสมที่ไม่ซ้ำกันทั้งหมดใน data.frame ใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ฉันต้องการคำนวณสรุปของตัวแปรใน data.frame สำหรับชุดค่าผสมแต่ละตัวที่ไม่ซ้ำกันของปัจจัยใน data.frame ฉันควรใช้ plyr เพื่อทำสิ่งนี้หรือไม่? ฉันตกลงกับการใช้ลูปแทนการใช้ (); ดังนั้นการหาชุดค่าผสมที่ไม่ซ้ำกันแต่ละชุดจะเพียงพอ

1
การทำนายความน่าจะเป็นป่าแบบสุ่มเทียบกับคะแนนโหวตส่วนใหญ่
Scikit เรียนรู้ดูเหมือนว่าจะใช้การทำนายความน่าจะเป็นแทนการลงคะแนนเสียงข้างมากสำหรับเทคนิคการรวมตัวแบบโดยไม่มีการอธิบายว่าทำไม (1.9.2.1. ป่าสุ่ม) มีคำอธิบายที่ชัดเจนว่าเพราะเหตุใด นอกจากนี้ยังมีบทความหรือบทความทบทวนที่ดีสำหรับเทคนิคการรวมตัวแบบต่างๆที่สามารถนำมาใช้สำหรับการบรรจุถุงแบบฟอเรสต์? ขอบคุณ!

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.