คำถามติดแท็ก roc

รับลักษณะการดำเนินงานที่เรียกว่าโค้ง ROC

3
จะได้รับการตีความความน่าจะเป็นของ AUC อย่างไร
ทำไมพื้นที่ภายใต้ ROC โค้งความน่าจะเป็นที่ตัวจําแนกจะจัดอันดับอินสแตนซ์ "บวก" ที่เลือกแบบสุ่ม (จากการทำนายที่ดึงมา) สูงกว่าแบบสุ่ม "บวก" ที่เลือกโดยสุ่ม (จากชั้นบวกดั้งเดิม) เราจะพิสูจน์คำแถลงนี้ได้อย่างไรในเชิงคณิตศาสตร์โดยใช้อินทิกรัลโดยให้ CDFs และ PDF ของการแจกแจงคลาสที่เป็นบวกและลบจริง
14 probability  roc  auc 

5
คำถามเชิงปรัชญาเกี่ยวกับการถดถอยโลจิสติก: เหตุใดค่าเกณฑ์ที่เหมาะสมที่สุดจึงไม่ผ่านการฝึกอบรม
โดยปกติแล้วในการถดถอยโลจิสติกเราพอดีแบบและได้รับการคาดการณ์ในชุดการฝึกอบรม จากนั้นเราจะตรวจสอบความถูกต้องของการคาดการณ์การฝึกอบรมเหล่านี้ (บางอย่างเช่นที่นี่ ) และตัดสินใจค่าเกณฑ์ที่เหมาะสมโดยพิจารณาจาก ROC curve ทำไมเราไม่รวมการตรวจสอบข้ามเขตแดนเข้ากับรูปแบบที่แท้จริงและฝึกอบรมทุกสิ่งตั้งแต่ต้นจนจบ

1
Comparisson ของทั้งสองรุ่นเมื่อ ROC curves ข้ามซึ่งกันและกัน
มาตรการทั่วไปหนึ่งที่ใช้ในการเปรียบเทียบแบบจำลองการจำแนกสองแบบขึ้นไปคือการใช้พื้นที่ใต้กราฟ ROC (AUC) เป็นวิธีการประเมินประสิทธิภาพทางอ้อม ในกรณีนี้โมเดลที่มี AUC ขนาดใหญ่มักตีความว่าทำงานได้ดีกว่าโมเดลที่มี AUC ขนาดเล็กกว่า แต่ตาม Vihinen, 2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ ) เมื่อเส้นโค้งทั้งคู่ข้ามกันการเปรียบเทียบดังกล่าวไม่สามารถใช้งานได้อีกต่อไป ทำไมถึงเป็นเช่นนั้น? ตัวอย่างเช่นมีสิ่งใดที่สามารถตรวจสอบเกี่ยวกับแบบจำลอง A, B และ C ตาม ROC curves และ AUCs bellow?

2
การใช้แพ็กเกจคาเร็ตนั้นเป็นไปได้หรือไม่ที่จะได้รับเมทริกซ์ความสับสนสำหรับค่าเกณฑ์เฉพาะ
ผมเคยได้รับรูปแบบการถดถอยโลจิสติก (ผ่านtrain) สำหรับการตอบสนองไบนารีและฉันได้รับเมทริกซ์ความสับสนโลจิสติกผ่านทางในconfusionMatrix caretมันให้เมทริกซ์ความสับสนของโมเดลโลจิสติกถึงฉัน แต่ฉันไม่แน่ใจว่าจะใช้เกณฑ์ใดในการรับ ฉันจะรับเมทริกซ์ความสับสนสำหรับค่าเกณฑ์เฉพาะที่ใช้confusionMatrixในได้caretอย่างไร

1
การประเมินรูปแบบการถดถอยโลจิสติก
ฉันกำลังทำงานกับโมเดลโลจิสติกส์และฉันมีปัญหาในการประเมินผลลัพธ์ โมเดลของฉันเป็น logom ทวินาม ตัวแปรอธิบายของฉันคือ: ตัวแปรเด็ดขาดที่มี 15 ระดับตัวแปร dichotomous และ 2 ตัวแปรต่อเนื่อง My N มีขนาดใหญ่> 8000 ฉันพยายามจำลองการตัดสินใจของ บริษัท ที่จะลงทุน ตัวแปรตามคือการลงทุน (ใช่ / ไม่ใช่) ตัวแปรระดับ 15 เป็นอุปสรรคที่แตกต่างกันสำหรับการลงทุนที่รายงานโดยผู้จัดการ ตัวแปรที่เหลือคือการควบคุมการขายเครดิตและกำลังการผลิตที่ใช้ ด้านล่างคือผลลัพธ์ของฉันโดยใช้rmsแพ็คเกจใน R Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 8035 LR chi2 399.83 R2 0.067 C 0.632 1 5306 d.f. …

1
อะไรคือความแตกต่างระหว่างการตีความเส้นโค้ง GINI และ AUC
เราใช้ในการสร้างเส้นโค้ง GINI โดยใช้การยกที่สร้างขึ้นด้วยความช่วยเหลือของร้อยละของดีและไม่ดีสำหรับการสร้างดัชนีชี้วัด แต่สิ่งที่ฉันได้ศึกษาว่าเส้นโค้ง ROC นั้นถูกสร้างขึ้นโดยใช้เมทริกซ์ความสับสนที่มีความเฉพาะเจาะจง (1- จริงลบ) เป็นแกน x และความไว (บวกจริง) เป็นแกน Y ดังนั้นผลลัพธ์ของ GINI และ ROC จึงเหมือนกันกับข้อแตกต่างอย่างหนึ่งคือสิ่งหลังนั้นคำนึงถึงความสอดคล้องและค่าความไม่ลงรอยกัน (TP, FP, FN, TN)
13 roc  gini 

2
เราจะวาด ROC curve สำหรับต้นไม้ตัดสินใจได้อย่างไร?
โดยปกติเราไม่สามารถวาดเส้นโค้ง ROC สำหรับตัวแยกประเภทแยกเช่นต้นไม้ตัดสินใจ ฉันถูกไหม? มีวิธีใดในการวาดเส้นโค้ง ROC สำหรับ Dtrees หรือไม่?
13 roc  cart 

4
ใน R วิธีคำนวณค่า p สำหรับพื้นที่ใต้ ROC
ฉันพยายามหาวิธีคำนวณค่า p สำหรับพื้นที่ภายใต้ลักษณะตัวดำเนินการตัวรับ (ROC) ฉันมีตัวแปรต่อเนื่องและผลการทดสอบการวินิจฉัย ฉันต้องการดูว่า AUROC มีนัยสำคัญทางสถิติหรือไม่ ฉันพบแพ็คเกจจำนวนมากที่เกี่ยวข้องกับเส้นโค้ง ROC: pROC, ROCR, caTools, การตรวจสอบ, Epi แต่หลังจากใช้เวลาหลายชั่วโมงในการอ่านเอกสารและการทดสอบฉันไม่สามารถหาวิธีได้ ฉันคิดว่าฉันเพิ่งพลาดไป
13 r  p-value  roc 

1
การเชื่อมต่อระหว่าง (d-prime) และ AUC (Area Under the ROC Curve); สมมติฐานพื้นฐาน
ในการเรียนรู้ของเครื่องเราอาจใช้พื้นที่ใต้เส้นโค้ง ROC (มักเรียกว่าAUCย่อหรือ AUROC) เพื่อสรุปว่าระบบสามารถแยกแยะระหว่างสองประเภทได้ดีเพียงใด ในทฤษฎีการตรวจจับสัญญาณมักใช้ (ดัชนีความไว)เพื่อวัตถุประสงค์ที่คล้ายกัน ทั้งสองมีความเกี่ยวข้องใกล้ชิดและผมเชื่อว่าพวกเขาจะเทียบเท่ากับแต่ละอื่น ๆ หากสมมติฐานบางอย่างมีความพึงพอใจd′d′d' การคำนวณมักจะนำเสนอโดยยึดตามการแจกแจงแบบปกติสำหรับการแจกแจงสัญญาณ (ดูลิงค์วิกิพีเดียด้านบนเป็นต้น) การคำนวณโค้ง ROC ไม่ได้ทำให้สมมติฐานนี้: มันใช้กับตัวจําแนกใด ๆ ที่ส่งออกเกณฑ์การตัดสินใจอย่างต่อเนื่องมูลค่าที่สามารถเกณฑ์d′d′d' วิกิพีเดียกล่าวว่าเทียบเท่ากับ1 ดูเหมือนว่าจะถูกต้องถ้าสมมติฐานของทั้งสองมีความพึงพอใจ; แต่ถ้าสมมติฐานไม่เหมือนกันมันไม่ใช่ความจริงสากล 2 AUC - 1d′d′d'2AUC−12AUC−12 \text{AUC} - 1 มันยุติธรรมหรือไม่ที่จะแสดงลักษณะของความแตกต่างของข้อสันนิษฐานเนื่องจาก "AUC ทำให้สมมติฐานน้อยลงเกี่ยวกับการแจกแจงพื้นฐาน" หรือเป็นใช้กันอย่างแพร่หลายเช่นเดียวกับ AUC แต่เป็นเพียงการปฏิบัติทั่วไปที่ผู้ใช้มีแนวโน้มที่จะใช้การคำนวณที่ถือว่าการแจกแจงปกติ? มีข้อแตกต่างอื่น ๆ ในสมมติฐานพื้นฐานที่ฉันพลาดหรือไม่?d ′d′d′d'd′d′d'

2
สัมประสิทธิ์ของลูกเต๋าเหมือนกับความถูกต้องหรือไม่?
ผมเจอค่าสัมประสิทธิ์ลูกเต๋าสำหรับความคล้ายคลึงกันเสียง ( https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient ) และความถูกต้อง ( https://en.wikipedia.org/wiki/Accuracy_and_precision ) สำหรับฉันแล้วดูเหมือนว่ามาตรการทั้งสองนี้เหมือนกัน ความคิดใด ๆ

3
ROC โค้งข้ามเส้นทแยงมุม
ฉันใช้ตัวจําแนกไบนารีในขณะนี้ เมื่อฉันพล็อตเส้นโค้ง ROC ฉันได้รับการยกที่ดีในตอนแรกมันเปลี่ยนทิศทางและข้ามเส้นทแยงมุมจากนั้นกลับขึ้นแน่นอนทำให้เส้นโค้งเป็นรูปตัว S เอียง สิ่งที่สามารถตีความ / อธิบายถึงผลกระทบนี้? ขอบคุณ
12 roc 

5
เส้นโค้ง ROC บอกอะไรคุณว่าการอนุมานแบบดั้งเดิมจะไม่เกิดขึ้น?
เมื่อใดที่คุณจะใช้ ROC curves ผ่านการทดสอบอื่น ๆ เพื่อกำหนดความสามารถในการทำนายของการวัดในผลลัพธ์ เมื่อจัดการกับผลลัพธ์ที่ไม่ต่อเนื่อง (ชีวิต / ตายปัจจุบัน / ขาดหายไป) อะไรที่ทำให้ ROC โค้งพลังมากขึ้นหรือน้อยลงกว่าบางอย่างเช่นไคสแควร์
12 regression  roc 

1
วิธีการเลือกความน่าจะเป็นทางลัดสำหรับ Logistic Regression ที่หายาก
ฉันมีการสังเกต 100,000 ครั้ง (ตัวแปรตัวบ่งชี้จำลอง 9 ตัว) พร้อม 1,000 ผลบวก การถดถอยโลจิสติกควรทำงานได้ดีในกรณีนี้ แต่ความเป็นไปได้ที่จะตัดตัวฉัน ในวรรณกรรมทั่วไปเราเลือกตัด 50% เพื่อทำนาย 1s และ 0s ฉันทำสิ่งนี้ไม่ได้เพราะแบบจำลองของฉันให้ค่าสูงสุด ~ 1% ดังนั้นเกณฑ์อาจอยู่ที่ 0.007 หรือที่ใดที่หนึ่งโดยรอบ ฉันเข้าใจROCเส้นโค้งและพื้นที่ใต้เส้นโค้งสามารถช่วยฉันเลือกระหว่างรุ่น LR สองชุดสำหรับชุดข้อมูลเดียวกันได้อย่างไร อย่างไรก็ตาม ROC ไม่ได้ช่วยฉันเลือกความน่าจะเป็นทางลัดที่เหมาะสมที่สามารถใช้ในการทดสอบแบบจำลองกับข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง ฉันควรใช้ค่า cutoff ที่ลดmisclassification rateหรือไม่ ( http://www2.sas.com/proceedings/sugi31/210-31.pdf ) เพิ่ม -> สำหรับอัตราเหตุการณ์ที่ต่ำเช่นนี้อัตราการผิดพลาดของฉันได้รับผลกระทบจากผลบวกปลอมจำนวนมาก ในขณะที่อัตราโดยรวมนั้นดูดีเนื่องจากขนาดของจักรวาลทั้งหมดยังใหญ่ แต่แบบจำลองของฉันไม่ควรมีผลบวกผิด ๆ มากมาย (เพราะเป็นแบบจำลองการคืนทุน) 5/10 coeff มีความสำคัญ

1
การประเมินตัวแยกประเภท: เส้นโค้งการเรียนรู้กับเส้นโค้ง ROC
ฉันต้องการเปรียบเทียบตัวแยกประเภทที่แตกต่างกัน 2 ตัวสำหรับปัญหาการจำแนกข้อความแบบหลายคลาสที่ใช้ชุดข้อมูลการฝึกอบรมขนาดใหญ่ ฉันสงสัยว่าฉันควรใช้ ROC curves หรือ learning curves เพื่อเปรียบเทียบ 2 ตัวแยกประเภท ในอีกด้านหนึ่งเส้นโค้งการเรียนรู้มีประโยชน์สำหรับการตัดสินใจขนาดของชุดข้อมูลการฝึกอบรมเนื่องจากคุณสามารถหาขนาดของชุดข้อมูลที่ตัวแยกประเภทหยุดการเรียนรู้ (และอาจลดระดับ) ดังนั้นตัวจําแนกที่ดีที่สุดในกรณีนี้อาจเป็นตัวจําแนกที่มีความแม่นยำสูงสุดด้วยขนาดชุดข้อมูลที่เล็กที่สุด ในทางกลับกัน ROC curves ช่วยให้คุณค้นหาจุดที่มีการแลกเปลี่ยนที่เหมาะสมระหว่างความไว / ความจำเพาะ ลักษณนามที่ดีที่สุดในกรณีนี้คือตัวที่ใกล้กับส่วนบนซ้ายมากที่สุดโดยมี TPR สูงสุดสำหรับ FPR ใด ๆ ฉันควรใช้วิธีการประเมินทั้งสองหรือไม่ เป็นไปได้หรือไม่ที่วิธีที่มีช่วงการเรียนรู้ที่ดีกว่ามีเส้นโค้ง ROC ที่แย่ลงและในทางกลับกัน

4
AUC น่าจะเป็นของการจำแนกอินสแตนซ์ที่เลือกแบบสุ่มจากแต่ละชั้นอย่างถูกต้องหรือไม่
ฉันอ่านคำอธิบายภาพนี้ในกระดาษและไม่เคยเห็น AUC อธิบายในลักษณะนี้ที่อื่น มันเป็นเรื่องจริงเหรอ? มีหลักฐานหรือวิธีง่ายๆในการดูสิ่งนี้หรือไม่? ภาพที่ 2 แสดงความถูกต้องในการทำนายของตัวแปรโดมิโนที่แสดงในรูปของพื้นที่ภายใต้เส้นโค้งลักษณะการรับ - ปฏิบัติการ (AUC) ซึ่งเทียบเท่ากับความน่าจะเป็นในการจำแนกผู้ใช้สองคนที่เลือกแบบสุ่มอย่างละหนึ่งคน ) สำหรับฉันแล้วดูเหมือนว่ามันไม่เป็นความจริงเนื่องจากสำหรับ AUC = 0.5 ข้างต้นจะแนะนำว่ามีความน่าจะเป็น 50% ในการทำนายการพลิกเหรียญอย่างถูกต้องสองครั้งติดต่อกัน แต่ในความเป็นจริงคุณมีโอกาส 25% เท่านั้น การทำนายการโยนเหรียญสองครั้งในแถวอย่างถูกต้อง อย่างน้อยนั่นคือสิ่งที่ฉันกำลังคิดถึงคำแถลงนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.