คำถามติดแท็ก roc

รับลักษณะการดำเนินงานที่เรียกว่าโค้ง ROC

2
d ไพรม์ที่มีความน่าจะเป็น 100% ของอัตราการเข้าชมและความน่าจะเป็นการแจ้งเตือนที่ผิดพลาด 0%
ฉันต้องการคำนวณd primeสำหรับภารกิจหน่วยความจำที่เกี่ยวข้องกับการตรวจจับรายการเก่าและใหม่ ปัญหาที่ฉันมีคือบางวิชามีอัตราการเข้าชม 1 และ / หรืออัตราการเตือนที่ผิดพลาดเป็น 0 ซึ่งทำให้ความน่าจะเป็น 100% และ 0% ตามลำดับ สูตรสำหรับd primeคือd' = z(H) - z(F)ที่ใดz(H)และz(F)เป็นการแปลง z ของอัตราการเข้าชมและการเตือนที่ผิดพลาดตามลำดับ ในการคำนวณการแปลง z ฉันใช้ฟังก์ชัน Excel NORMSINV (เช่นz(H)=NORMSINV(hit rate)) อย่างไรก็ตามหากอัตราการเข้าชมหรืออัตราการเตือนที่ผิดพลาดเป็น 1 หรือ 0 ตามลำดับฟังก์ชันจะส่งคืนข้อผิดพลาด นี่เป็นเพราะการแปลง z ตามที่ฉันเข้าใจระบุพื้นที่ใต้เส้นโค้ง ROC ซึ่งไม่อนุญาตให้มีความน่าจะเป็นทางคณิตศาสตร์ 100% หรือ 0% ในกรณีนี้ฉันไม่แน่ใจวิธีคำนวณ d 'สำหรับตัวแบบที่มีประสิทธิภาพตามเพดาน เว็บไซต์หนึ่งแนะนำให้เปลี่ยนอัตรา 1 และ 0 ด้วย 1 …

1
ROC curves สำหรับชุดข้อมูลที่ไม่สมดุล
พิจารณาการป้อนข้อมูลเมทริกซ์และเอาท์พุทไบนารีYXXXyyy วิธีทั่วไปในการวัดประสิทธิภาพของตัวจําแนกคือการใช้ ROC curves ในพล็อต ROC เส้นทแยงมุมคือผลลัพธ์ที่จะได้รับจากตัวจําแนกแบบสุ่ม ในกรณีที่เอาต์พุตไม่สมดุลประสิทธิภาพของตัวจําแนกแบบสุ่มสามารถปรับปรุงได้โดยเลือกหรือมีความน่าจะเป็นต่างกันyyy000111 ประสิทธิภาพของลักษณนามดังกล่าวสามารถแสดงในพล็อตกราฟ ROC ได้อย่างไร? ฉันคิดว่ามันควรเป็นเส้นตรงที่มีมุมต่างกันและไม่ใช่เส้นทแยงมุมอีกต่อไปใช่ไหม

1
การตีความของพื้นที่ภายใต้เส้นโค้ง PR
ขณะนี้ฉันกำลังเปรียบเทียบสามวิธีและฉันมีความแม่นยำ auROC และ auPR เป็นตัวชี้วัด และฉันมีผลลัพธ์ต่อไปนี้: วิธี A - acc: 0.75, auROC: 0.75, auPR: 0.45 วิธี B - acc: 0.65, auROC: 0.55, auPR: 0.40 วิธี C - acc: 0.55, auROC: 0.70, auPR: 0.65 ฉันมีความเข้าใจที่ถูกต้องและ auROC (จำได้ดีฉันมักจะพยายามหาประโยคเช่น "auROC = ลักษณะความสามารถในการทำนายชั้นบวกได้ดี" ในขณะที่ไม่ถูกต้องแม่นยำช่วยให้ฉันจำได้) ฉันไม่เคยมีข้อมูล auPR มาก่อนและในขณะที่ฉันเข้าใจว่ามันถูกสร้างขึ้นมาได้อย่างไรฉันไม่สามารถ "รู้สึก" อยู่ข้างหลังได้ ในความเป็นจริงฉันไม่เข้าใจว่าทำไมวิธี C มีคะแนนสูงอย่างไม่น่าเชื่อสำหรับ auPR ในขณะที่ไม่ดี …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
วิธีการวิเคราะห์ ROC ใน R ด้วยโมเดล Cox
ฉันได้สร้างแบบจำลองการถดถอยของ Cox แล้วและฉันต้องการดูว่าแบบจำลองเหล่านี้ทำงานได้ดีเพียงใดและฉันคิดว่าบางที ROC-curve หรือ c-statistic อาจมีประโยชน์เหมือนกับที่บทความนี้ใช้: JN Armitage และ JH van der Meulen,” การระบุอาการป่วยในผู้ป่วยผ่าตัดโดยใช้ข้อมูลการบริหารกับ Royal College of ศัลยแพทย์ Charlson Score”, วารสาร British Journal of Surgery, Vol. 97, NUM 5, เอสเอส 772-781, Maj 2010 Armitage ใช้การถดถอยแบบโลจิสติกส์ แต่ฉันสงสัยว่าเป็นไปได้หรือไม่ที่จะใช้แบบจำลองจากแพ็กเกจการเอาตัวรอด SurvivalROCให้คำใบ้เกี่ยวกับความเป็นไปได้นี้ แต่ฉันไม่สามารถหาวิธีที่จะทำให้มัน ฉันจะขอบคุณถ้ามีคนจะแสดงให้ฉันเห็นวิธีการวิเคราะห์ ROC ในตัวอย่างนี้: library(survival) data(veteran) attach(veteran) surv <- Surv(time, status) fit …
10 r  survival  roc 

2
เหตุผลในการใช้ AUC?
โดยเฉพาะอย่างยิ่งในด้านวิทยาศาสตร์คอมพิวเตอร์ของวรรณกรรมการเรียนรู้ของเครื่อง AUC (พื้นที่ภายใต้เส้นโค้งลักษณะตัวดำเนินการรับ) เป็นเกณฑ์ยอดนิยมสำหรับการประเมินตัวแยกประเภท การใช้ AUC มีเหตุผลอะไรบ้าง เช่นมีฟังก์ชั่นการสูญเสียพิเศษซึ่งการตัดสินใจที่เหมาะสมที่สุดคือตัวจําแนกด้วย AUC ที่ดีที่สุดหรือไม่

2
AUC ในการถดถอยโลจิสติกอันดับ
ฉันใช้การถดถอยโลจิสติก 2 ชนิด - ชนิดหนึ่งเป็นแบบง่ายสำหรับการจำแนกไบนารีและอีกประเภทหนึ่งคือการถดถอยโลจิสติกอันดับ สำหรับการคำนวณความแม่นยำของครั้งแรกฉันใช้การตรวจสอบความถูกต้องข้ามซึ่งฉันคำนวณ AUC สำหรับแต่ละเท่าและกว่าการคำนวณ AUC เฉลี่ย ฉันจะทำอย่างไรสำหรับการถดถอยโลจิสติกอันดับ ฉันได้ยินเกี่ยวกับ ROC ทั่วไปสำหรับเครื่องมือทำนายหลายระดับ แต่ฉันไม่แน่ใจว่าจะคำนวณได้อย่างไร ขอบคุณ!

1
คุณจะสร้าง ROC curves สำหรับการตรวจสอบความถูกต้องแบบ cross-one-out ได้อย่างไร
เมื่อทำการตรวจสอบความถูกต้องไขว้ 5 เท่า (เช่น) เป็นเรื่องปกติที่จะคำนวณเส้นโค้ง ROC ที่แยกต่างหากสำหรับแต่ละ 5 เท่าและบ่อยครั้งที่เส้นโค้ง ROC เฉลี่ยกับ std dev แสดงเป็นความหนาของเส้นโค้ง อย่างไรก็ตามสำหรับการข้ามการตรวจสอบความถูกต้องของ LOO ที่มีการทดสอบดาต้าพอยน์เพียงครั้งเดียวในแต่ละครั้งดูเหมือนจะไม่น่าสนใจที่จะคำนวณ ROC "โค้ง" สำหรับดาต้าพอยน์นี้ ฉันได้รับคะแนนข้อมูลการทดสอบทั้งหมดของฉัน (พร้อมกับค่า p ที่คำนวณแยกต่างหาก) และรวมพวกมันไว้ในชุดใหญ่ชุดหนึ่งเพื่อคำนวณเส้นโค้ง ROC เดียว แต่นี่เป็นสิ่งที่ควรทำเพื่อสถิติเชิงสถิติหรือไม่ วิธีที่ถูกต้องในการใช้การวิเคราะห์ ROC คือเมื่อจำนวนจุดข้อมูลในแต่ละเท่าเป็นหนึ่ง (เช่นในกรณีของการตรวจสอบข้าม LOO)

2
การวัดประสิทธิภาพลักษณนามที่รวมความไวและความจำเพาะ?
ฉันมีข้อมูลป้ายกำกับ 2 ชั้นซึ่งฉันจัดหมวดหมู่โดยใช้ตัวแยกประเภทหลายตัว และชุดข้อมูลมีความสมดุลดี เมื่อประเมินประสิทธิภาพของตัวจําแนกฉันต้องพิจารณาความถูกต้องของตัวจําแนกในการพิจารณาไม่เพียง แต่บวกที่แท้จริง แต่เชิงลบที่แท้จริงยัง ดังนั้นถ้าฉันใช้ความถูกต้องและถ้าลักษณนามมีความเอนเอียงไปทางบวกและจำแนกทุกอย่างเป็นบวกฉันจะได้ความแม่นยำประมาณ 50% แม้ว่ามันจะล้มเหลวในการจำแนกเชิงลบจริงก็ตาม คุณสมบัตินี้ถูกขยายให้มีความแม่นยำและเรียกคืนตามที่พวกเขามุ่งเน้นไปที่หนึ่งคลาสเท่านั้นและกลับไปที่คะแนน F1 (นี่คือสิ่งที่ฉันเข้าใจแม้จากบทความนี้เช่น " เกินความแม่นยำคะแนน F และ ROC: ครอบครัวของมาตรการแบ่งแยกสำหรับการประเมินผลงาน ") ดังนั้นฉันสามารถใช้ความไวและความเฉพาะเจาะจง (TPR และ TNR) เพื่อดูว่าตัวแยกประเภทดำเนินการสำหรับแต่ละคลาสได้อย่างไรโดยที่ฉันตั้งใจจะเพิ่มค่าเหล่านี้ให้มากที่สุด คำถามของฉันคือฉันกำลังมองหาการวัดที่รวมค่าทั้งสองนี้เข้าด้วยกันในการวัดที่มีความหมายเดียว ฉันตรวจดูมาตรการที่ให้ไว้ในบทความนั้น แต่ฉันคิดว่ามันไม่สำคัญ และจากความเข้าใจของฉันฉันสงสัยว่าทำไมเราไม่สามารถใช้บางอย่างเช่นคะแนน F แต่แทนที่จะใช้ความแม่นยำและการเรียกคืนฉันจะใช้ความไวและความเฉพาะเจาะจง ดังนั้นสูตรจะเป็น และเป้าหมายของฉันจะเพิ่มสูงสุด วัดนี้ ฉันคิดว่ามันจะเป็นตัวแทนมาก มีสูตรที่คล้ายกันอยู่แล้ว? และนี่จะสมเหตุสมผลหรือเป็นเสียงทางคณิตศาสตร์หรือไม่การวัดประสิทธิภาพของฉัน=2 * ความไว* เฉพาะเจาะจงความไว+ จำเพาะการวัดประสิทธิภาพของฉัน=2* * * *ความไว* * * *ความจำเพาะความไว+ความจำเพาะ \text{my Performance Measure} …

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.