คำถามติดแท็ก roc

รับลักษณะการดำเนินงานที่เรียกว่าโค้ง ROC

2
การปรับ covariates ในการวิเคราะห์เส้นโค้ง ROC
คำถามนี้เกี่ยวกับการประเมินคะแนนแบบตัดในแบบสอบถามแบบคัดกรองหลายมิติเพื่อทำนายจุดสิ้นสุดแบบไบนารี่ ฉันถูกถามเกี่ยวกับความสนใจในการควบคุมคะแนนย่อยที่เกี่ยวข้องเมื่อคิดคะแนนการตัดในแต่ละมิติของมาตราส่วนการวัด (ลักษณะบุคลิกภาพ) ซึ่งอาจใช้ในการคัดกรองโรคพิษสุราเรื้อรัง นั่นคือในกรณีนี้บุคคลไม่สนใจที่จะปรับค่า covariates ภายนอก (ตัวทำนาย) - ซึ่งนำไปสู่พื้นที่ (บางส่วน) ภายใต้เส้นโค้ง ROC ที่ปรับค่า covariate เช่น (1-2) - แต่เป็นคะแนนอื่น ๆ จากแบบสอบถามเดียวกันเพราะมีความสัมพันธ์ซึ่งกันและกัน (เช่น "ความกระตุ้น" กับ "การแสวงหาความรู้สึก") มันเป็นจำนวนที่จะสร้าง GLM ซึ่งรวมถึงคะแนนความสนใจทางด้านซ้าย (ซึ่งเราต้องการให้ถูกตัดออก) และอีกคะแนนที่คำนวณจากแบบสอบถามเดียวกันในขณะที่ด้านขวาผลลัพธ์อาจเป็นสถานะการดื่ม หากต้องการชี้แจง (ตามคำขอ @robin) สมมติว่าเรามีคะแนนพูดว่า (เช่นความวิตกกังวลความกระวนกระวายการเป็นโรคประสาทการค้นหาความรู้สึก) และเราต้องการหาค่าที่ตัดออก (เช่น "กรณีบวก" หาก "กรณีลบ" มิฉะนั้น) สำหรับแต่ละรายการ เรามักจะปรับตัวสำหรับปัจจัยเสี่ยงอื่น ๆ เช่นเพศหรืออายุเมื่อคิดการตัด (ใช้การวิเคราะห์เส้นโค้ง ROC) ตอนนี้สิ่งที่เกี่ยวกับการปรับแรงกระตุ้น (IMP) เกี่ยวกับเพศอายุและการแสวงหาความรู้สึก …
20 epidemiology  roc 

3
ROC vs Curve ความแม่นยำในการจำบนชุดข้อมูลที่ไม่สมดุล
ฉันเพิ่งอ่านการสนทนานี้เสร็จแล้ว พวกเขายืนยันว่า PR AUC นั้นดีกว่า ROC AUC ในชุดข้อมูลที่ไม่สมดุล ตัวอย่างเช่นเรามี 10 ตัวอย่างในชุดข้อมูลทดสอบ 9 ตัวอย่างเป็นค่าบวกและ 1 เป็นค่าลบ เรามีโมเดลที่น่ากลัวซึ่งทำนายทุกอย่างในเชิงบวก ดังนั้นเราจะมีการวัดที่ TP = 9, FP = 1, TN = 0, FN = 0 จากนั้นความแม่นยำ = 0.9, เรียกคืน = 1.0 ความแม่นยำและการเรียกคืนมีทั้งสูงมาก แต่เรามีลักษณนามไม่ดี ในทางกลับกัน TPR = TP / (TP + FN) = 1.0, FPR = FP …

2
ความแตกต่างระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้ง
ใครช่วยอธิบายความแตกต่างที่แท้จริงระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้งให้ฉันได้ไหมถ้าเป็นไปได้ ดูเหมือนว่าทั้งคู่พยายามค้นหาความสัมพันธ์ระหว่างสองตัวแปร (ขึ้นอยู่กับอิสระ) จากนั้นกำหนดพารามิเตอร์ (หรือสัมประสิทธิ์) ที่เกี่ยวข้องกับแบบจำลองที่เสนอ ตัวอย่างเช่นหากฉันมีชุดข้อมูลเช่น: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] ใครช่วยแนะนำสูตรสหสัมพันธ์ระหว่างตัวแปรทั้งสองนี้ได้ไหม ฉันมีปัญหาในการเข้าใจความแตกต่างระหว่างสองแนวทางนี้ หากคุณต้องการที่จะสนับสนุนคำตอบของคุณกับชุดข้อมูลอื่นมันก็โอเคเพราะชุดนั้นดูเหมือนจะยาก (อาจเป็นสำหรับฉันเท่านั้น) ชุดข้อมูลข้างต้นแสดงถึงแกนและของเส้นโค้งลักษณะการทำงานของตัวรับ (ROC) โดยที่คืออัตราบวกที่แท้จริง (TPR) และคืออัตราบวกเป็นบวก (FPR)xxxyyyyyyxxx ฉันกำลังพยายามหาเส้นโค้งหรือทำการวิเคราะห์การถดถอยตามคำถามเดิมของฉันยังไม่แน่ใจในจุดเหล่านี้เพื่อประเมิน TPR สำหรับ FPR ใด ๆ (หรือในทางกลับกัน) ข้อแรกเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นการปรับโค้งให้เหมาะสมระหว่างตัวแปรอิสระสองตัว (TPR และ FPR)? ประการที่สองมันเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นดังกล่าวถ้าฉันรู้ว่าการแจกแจงของลบจริงและกรณีบวกจริงไม่ปกติ?

1
มันหมายความว่า AUC เป็นกฎการให้คะแนนแบบครึ่งหรือไม่?
กฎการให้คะแนนที่เหมาะสมคือกฎที่ขยายให้ใหญ่ที่สุดโดยโมเดล 'ของจริง' และไม่อนุญาตให้ 'ป้องกันความเสี่ยง' หรือเล่นเกมในระบบ (จงใจรายงานผลลัพธ์ที่แตกต่างกันเช่นความเชื่อที่แท้จริงของแบบจำลองเพื่อปรับปรุงคะแนน) คะแนน Brier นั้นถูกต้องความแม่นยำ (สัดส่วนจำแนกอย่างถูกต้อง) นั้นไม่เหมาะสมและมักท้อ บางครั้งฉันเห็นว่า AUC เรียกว่าเกณฑ์การให้คะแนนแบบกึ่งที่ทำให้ไม่แม่นยำอย่างสมบูรณ์ แต่มีความอ่อนไหวน้อยกว่ากฎที่เหมาะสม (ตัวอย่างเช่นที่นี่/stats//a/90705/53084 ) กฎการให้คะแนนแบบกึ่งถูกต้องหมายความว่าอย่างไร มันกำหนดไว้ที่ไหนสักแห่ง?

3
พื้นที่ใต้เส้นโค้ง ROC หรือพื้นที่ใต้เส้นโค้ง PR สำหรับข้อมูลที่ไม่สมดุล?
ฉันมีข้อสงสัยเกี่ยวกับการวัดประสิทธิภาพที่จะใช้พื้นที่ภายใต้เส้นโค้ง ROC (TPR เป็นฟังก์ชันของ FPR) หรือพื้นที่ใต้เส้นโค้งความแม่นยำ - การเรียกคืน (ความแม่นยำเป็นฟังก์ชันการเรียกคืน) ข้อมูลของฉันไม่สมดุลนั่นคือจำนวนอินสแตนซ์เชิงลบมีขนาดใหญ่กว่าอินสแตนซ์บวกมาก ฉันกำลังใช้การทำนายผลลัพธ์ของ weka ตัวอย่างคือ: inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 และฉันใช้ห้องสมุด pROC และ ROCR

2
ความแม่นยำเทียบกับพื้นที่ใต้เส้นโค้ง ROC
ฉันสร้างเส้นโค้ง ROC สำหรับระบบวินิจฉัย พื้นที่ใต้เส้นโค้งนั้นไม่ได้ประมาณค่าพารามิเตอร์เท่ากับ AUC = 0.89 เมื่อฉันพยายามคำนวณความถูกต้องที่การตั้งค่าขีด จำกัด ที่เหมาะสม (จุดที่ใกล้เคียงที่สุดกับจุด (0, 1)) ฉันได้รับความแม่นยำของระบบการวินิจฉัยที่ 0.8 ซึ่งน้อยกว่า AUC! เมื่อฉันตรวจสอบความถูกต้องที่การตั้งค่าขีด จำกัด อื่นซึ่งอยู่ไกลจากขีด จำกัด ที่เหมาะสมฉันได้ความแม่นยำเท่ากับ 0.92 เป็นไปได้หรือไม่ที่จะได้รับความถูกต้องของระบบการวินิจฉัยที่การตั้งค่าขีด จำกัด ที่ดีที่สุดที่ต่ำกว่าความแม่นยำที่ขีด จำกัด อื่นและต่ำกว่าพื้นที่ใต้เส้นโค้ง โปรดดูภาพที่แนบมา


4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
รวมลักษณนามโดยการพลิกเหรียญ
ฉันกำลังศึกษาหลักสูตรการเรียนรู้ของเครื่องและสไลด์บรรยายมีข้อมูลที่ฉันพบว่าขัดแย้งกับหนังสือที่แนะนำ ปัญหาดังต่อไปนี้: มีตัวแยกประเภทสามตัว: ลักษณนาม Aให้ประสิทธิภาพที่ดีขึ้นในช่วงล่างของขีด จำกัด ลักษณนามขให้ประสิทธิภาพที่ดีขึ้นในช่วงที่สูงขึ้นของเกณฑ์ ลักษณนาม Cสิ่งที่เราได้รับโดยการโยนเหรียญและเลือกจากตัวแยกประเภทสองตัว ประสิทธิภาพของลักษณนาม C คืออะไรเมื่อดูบนเส้นโค้ง ROC สไลด์บรรยายระบุว่าเพียงแค่พลิกเหรียญนี้เราจะได้รับ " เรือนูน " ที่มีมนต์ขลังของตัวแยกประเภท A และ B ของเส้นโค้ง ROC ฉันไม่เข้าใจประเด็นนี้ เพียงแค่โยนเหรียญเราจะได้รับข้อมูลได้อย่างไร สไลด์บรรยาย หนังสือเล่มนี้พูดอะไร หนังสือที่แนะนำ ( Data Mining ... โดย Ian H. Witten, Eibe Frank และ Mark A. Hall ) ในทางกลับกันระบุว่า: หากต้องการดูสิ่งนี้ให้เลือกความน่าจะเป็นที่เฉพาะเจาะจงสำหรับวิธี A ที่ให้อัตราบวกจริงและเท็จของ tA และ fA …

2
จะทำการตรวจสอบข้ามกับโมเดลอันตรายตามสัดส่วนของ Cox ได้อย่างไร
สมมติว่าฉันได้สร้างแบบจำลองการทำนายสำหรับการเกิดโรคเฉพาะในชุดข้อมูลหนึ่ง (ชุดข้อมูลการสร้างแบบจำลอง) และตอนนี้ต้องการตรวจสอบว่ารูปแบบการทำงานในชุดข้อมูลใหม่ได้ดีเพียงใด (ชุดข้อมูลการตรวจสอบความถูกต้อง) สำหรับแบบจำลองที่สร้างขึ้นด้วยการถดถอยโลจิสติกฉันจะคำนวณความน่าจะเป็นที่คาดการณ์สำหรับแต่ละคนในชุดข้อมูลการตรวจสอบความถูกต้องตามค่าสัมประสิทธิ์แบบจำลองที่ได้จากชุดข้อมูลการสร้างแบบจำลองแล้วหลังจากแยกขั้ว ที่ช่วยให้ฉันสามารถคำนวณอัตราบวกที่แท้จริง (ความไว) และอัตราลบที่แท้จริง (ความจำเพาะ) ยิ่งกว่านั้นฉันสามารถสร้างเส้นโค้ง ROC ทั้งหมดได้โดยการปรับค่า cutoff แล้วรับ AUC สำหรับกราฟ ROC ตอนนี้สมมติว่าฉันมีข้อมูลการอยู่รอด ดังนั้นฉันใช้โมเดลอันตรายตามสัดส่วนของ Cox ในชุดข้อมูลการสร้างแบบจำลองและตอนนี้ต้องการตรวจสอบว่าแบบจำลองนั้นทำงานได้ดีเพียงใดในชุดข้อมูลการตรวจสอบความถูกต้อง เนื่องจากความเสี่ยงพื้นฐานไม่ใช่ฟังก์ชันพารามิเตอร์ในโมเดล Cox ฉันไม่เห็นว่าฉันจะได้รับโอกาสรอดชีวิตที่คาดการณ์ไว้สำหรับแต่ละคนในชุดข้อมูลการตรวจสอบตามค่าสัมประสิทธิ์แบบจำลองที่ได้จากชุดข้อมูลการสร้างแบบจำลองอย่างไร ดังนั้นฉันจะไปเกี่ยวกับการตรวจสอบว่าแบบจำลองทำงานได้ดีในชุดข้อมูลการตรวจสอบได้อย่างไร มีวิธีการที่กำหนดไว้สำหรับการทำเช่นนี้หรือไม่? และถ้าใช่จะมีการใช้งานในซอฟต์แวร์ใด ๆ หรือไม่? ขอบคุณล่วงหน้าสำหรับคำแนะนำใด ๆ !

4
ข้อดีของ ROC curves
ข้อดีของ ROC curves คืออะไร? ตัวอย่างเช่นฉันจำแนกภาพบางส่วนซึ่งเป็นปัญหาการจำแนกเลขฐานสอง ฉันแยกคุณสมบัติประมาณ 500 รายการและใช้อัลกอริทึมการเลือกคุณลักษณะเพื่อเลือกชุดคุณลักษณะแล้วฉันใช้ SVM สำหรับการจัดหมวดหมู่ ในกรณีนี้ฉันจะขอ ROC โค้งได้อย่างไร? ฉันควรเปลี่ยนค่าขีด จำกัด ของอัลกอริทึมการเลือกคุณลักษณะของฉันและรับความไวและความจำเพาะของเอาต์พุตเพื่อวาดเส้นโค้ง ROC หรือไม่ ในกรณีของฉันวัตถุประสงค์ของการสร้างเส้นโค้ง ROC คืออะไร

2
ROC เฉลี่ยสำหรับการตรวจสอบความถูกต้องข้าม 10 เท่าพร้อมการประมาณการความน่าจะเป็น
ฉันวางแผนที่จะใช้ซ้ำ (10 ครั้ง) แบ่งการตรวจสอบข้ามแบบ 10 เท่าบนชั้นประมาณ 10,000 รายโดยใช้อัลกอริทึมการเรียนรู้ของเครื่อง ทุกครั้งที่การทำซ้ำจะกระทำกับเมล็ดสุ่มที่แตกต่างกัน ในกระบวนการนี้ฉันสร้างการประมาณความน่าจะเป็น 10 อินสแตนซ์สำหรับแต่ละกรณี 1 อินสแตนซ์ของการประมาณความน่าจะเป็นสำหรับแต่ละการทำซ้ำ 10 ครั้งของการตรวจสอบความถูกต้องข้าม 10 เท่า ฉันสามารถเฉลี่ย 10 ความน่าจะเป็นสำหรับแต่ละกรณีและจากนั้นสร้างเส้นโค้ง ROC เฉลี่ยใหม่ (แทนผลลัพธ์ของ CV 10 เท่าซ้ำ) ซึ่งสามารถเปรียบเทียบกับเส้นโค้ง ROC อื่น ๆ โดยการเปรียบเทียบแบบคู่
15 roc 

3
นัยสำคัญทางสถิติ (p-value) สำหรับการเปรียบเทียบตัวแยกประเภทสองตัวที่เกี่ยวข้องกับ (ค่าเฉลี่ย) ROC AUC ความไวและความเฉพาะเจาะจง
ฉันมีชุดทดสอบ 100 กรณีและตัวแยกประเภทสองตัว ฉันสร้างการคาดคะเนและคำนวณ ROC AUC ความไวและความเฉพาะเจาะจงสำหรับตัวแยกประเภททั้งสอง คำถามที่ 1: ฉันจะคำนวณ p-value เพื่อตรวจสอบว่ามีค่าใดดีกว่าค่าอื่น ๆ ที่เกี่ยวข้องกับคะแนนทั้งหมด (ROC AUC, ความไว, ความเฉพาะเจาะจง) อย่างมีนัยสำคัญหรือไม่ ตอนนี้สำหรับชุดทดสอบ 100 ชุดเดียวกันฉันมีการกำหนดคุณสมบัติที่แตกต่างและเป็นอิสระสำหรับแต่ละกรณี นี่เป็นเพราะคุณสมบัติของฉันได้รับการแก้ไข แต่เป็นแบบอัตนัยและมีให้โดยหลายวิชา (5) ดังนั้นฉันจึงประเมินตัวแยกประเภทสองของฉันอีกครั้งสำหรับชุดทดสอบ "5" ของฉันและได้รับ 5 ROC AUCs ความไว 5 และความเฉพาะเจาะจง 5 ประการสำหรับตัวแยกประเภททั้งสอง จากนั้นฉันคำนวณค่าเฉลี่ยของการวัดประสิทธิภาพสำหรับ 5 วิชา (ROC AUC หมายถึงความไวและความจำเพาะเฉลี่ย) สำหรับตัวแยกประเภททั้งสอง คำถามที่ 2: ฉันจะคำนวณค่า p-value เพื่อตรวจสอบว่ามีค่าใดดีกว่าค่าเฉลี่ยอย่างมีนัยสำคัญ (หมายถึง ROC …

4
วิธีการตีความโค้ง ROC?
ฉันใช้การถดถอยโลจิสติกกับข้อมูลของฉันบน SAS และนี่คือเส้นโค้ง ROC และตารางการจำแนก ฉันพอใจกับตัวเลขในตารางการจัดหมวดหมู่ แต่ไม่แน่ใจว่าเส้นโค้งและพื้นที่ใต้กราฟนั้นเป็นเท่าใด คำอธิบายใด ๆ ที่จะได้รับการชื่นชมอย่างมาก

4
การวิเคราะห์ ROC และ multiROC: วิธีการคำนวณจุดตัดที่เหมาะสมที่สุด?
ฉันพยายามที่จะเข้าใจวิธีคำนวณจุดตัดที่เหมาะสมที่สุดสำหรับเส้นโค้ง ROC (ค่าที่ความไวและความเฉพาะเจาะจงสูงสุด) ฉันใช้ชุดข้อมูลจากแพคเกจaSAHpROC outcomeตัวแปรสามารถอธิบายได้โดยสองตัวแปรอิสระและs100b ndkaใช้ไวยากรณ์ของEpiแพคเกจฉันได้สร้างสองรุ่น: library(pROC) library(Epi) ROC(form=outcome~s100b, data=aSAH) ROC(form=outcome~ndka, data=aSAH) ผลลัพธ์จะแสดงในกราฟสองกราฟต่อไปนี้: ในรูปแบบของกราฟแรก ( s100b) lr.eta=0.304ฟังก์ชั่นบอกว่าตัดจุดที่ดีที่สุดเป็นภาษาท้องถิ่นที่คุ้มค่าที่สอดคล้องกับ ในกราฟที่สอง ( ndka) จุดตัดที่เหมาะสมที่สุดจะถูกแปลเป็นภาษาท้องถิ่นตามค่าที่สอดคล้องกับlr.eta=0.335(ความหมายของlr.eta) คืออะไร คำถามแรกของฉันคือ: อะไรคือความสอดคล้องs100bและndkaค่าสำหรับlr.etaค่าที่ระบุ (จุดตัดที่เหมาะสมที่สุดในแง่ของs100bและndka) คืออะไร? คำถามที่สอง: ตอนนี้สมมติว่าฉันสร้างแบบจำลองโดยคำนึงถึงตัวแปรทั้งสอง: ROC(form=outcome~ndka+s100b, data=aSAH) กราฟที่ได้รับคือ: ฉันต้องการที่จะรู้ว่าสิ่งที่เป็นค่าของndkaและs100bที่ความรู้สึกและความเฉพาะเจาะจงจะถูกขยายโดยฟังก์ชั่น ในแง่อื่น ๆ : ค่าของndkaและs100bที่เรามี Se = 68.3% และ Sp = 76.4% (ค่าที่ได้จากกราฟ) คืออะไร? ฉันคิดว่าคำถามที่สองนี้เกี่ยวข้องกับการวิเคราะห์แบบ MultiROC แต่เอกสารของEpiแพคเกจไม่ได้อธิบายวิธีการคำนวณจุดตัดที่เหมาะสมที่สุดสำหรับตัวแปรทั้งสองที่ใช้ในแบบจำลอง คำถามของฉันดูเหมือนกับคำถามนี้จากreasearchGateมากซึ่งกล่าวโดยย่อ: การกำหนดคะแนนตัดที่แสดงถึงการแลกเปลี่ยนที่ดีขึ้นระหว่างความไวและความเฉพาะเจาะจงของการวัดนั้นตรงไปตรงมา …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.