คำถามติดแท็ก precision-recall

P&R เป็นวิธีการวัดความเกี่ยวข้องของชุดอินสแตนซ์ที่ดึงมา ความแม่นยำคือ% ของอินสแตนซ์ที่ถูกต้องจากการดึงอินสแตนซ์ทั้งหมด ความเกี่ยวข้องคือ% ของอินสแตนซ์ที่แท้จริงที่ดึงมา ค่าเฉลี่ยฮาร์มอนิกของ P&R คือคะแนน F1 P&R ใช้ในการขุดข้อมูลเพื่อประเมินตัวแยกประเภท

3
คำแนะนำสำหรับการเรียนรู้ที่คำนึงถึงต้นทุนในการตั้งค่าที่ไม่สมดุล
ฉันมีชุดข้อมูลที่มีไม่กี่ล้านแถวและประมาณ 100 คอลัมน์ ฉันต้องการตรวจสอบประมาณ 1% ของตัวอย่างในชุดข้อมูลซึ่งเป็นของชั้นสามัญ ฉันมีข้อ จำกัด ความแม่นยำขั้นต่ำ แต่เนื่องจากค่าใช้จ่ายไม่สมมาตรฉันไม่กระตือรือร้นในการเรียกคืนใด ๆ (ตราบใดที่ฉันไม่เหลือ 10 การแข่งขันที่เป็นบวก!) มีวิธีใดบ้างที่คุณอยากแนะนำในการตั้งค่านี้? (ยินดีต้อนรับสู่ลิงก์ไปยังเอกสารลิงค์ไปยังการนำไปปฏิบัติ)

2
การเพิ่มจำนวนฟีเจอร์จะส่งผลให้ความแม่นยำลดลง แต่เพิ่มขึ้น / จำได้เร็วขึ้น
ฉันยังใหม่กับการเรียนรู้ของเครื่อง ในขณะนี้ฉันใช้ตัวจําแนก Naive Bayes (NB) เพื่อจัดประเภทข้อความขนาดเล็กใน 3 คลาสเป็นค่าบวกลบหรือเป็นกลางโดยใช้ NLTK และ python หลังจากทำการทดสอบด้วยชุดข้อมูลที่ประกอบด้วย 300,000 อินสแตนซ์ (ลบ 16,924 บวก 7,477 เชิงลบและ 275,599 นิวทรัล) ฉันพบว่าเมื่อฉันเพิ่มจำนวนฟีเจอร์ความแม่นยำจะลดลง แต่ความแม่นยำ / การเรียกคืนสำหรับคลาสบวกและลบ นี่เป็นพฤติกรรมปกติของลักษณนาม NB หรือไม่? เราสามารถพูดได้หรือไม่ว่าจะเป็นการดีกว่าถ้าใช้คุณสมบัติเพิ่มเติม ข้อมูลบางส่วน: Features: 50 Accuracy: 0.88199 F_Measure Class Neutral 0.938299 F_Measure Class Positive 0.195742 F_Measure Class Negative 0.065596 Features: 500 Accuracy: 0.822573 …

2
อะไรคือ“ พื้นฐาน” ในกราฟการเรียกคืนที่แม่นยำ
ฉันพยายามเข้าใจเส้นโค้งการเรียกคืนที่แม่นยำฉันเข้าใจว่าความแม่นยำและการเรียกคืนคืออะไร แต่สิ่งที่ฉันไม่เข้าใจคือค่า "พื้นฐาน" ฉันอ่านลิงค์นี้ https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ และฉันไม่เข้าใจส่วนพื้นฐานดังที่แสดงใน "เส้นโค้งความแม่นยำ - การเรียกคืนของตัวจําแนกที่สมบูรณ์แบบ" มันทําอะไรได้บ้าง และเราจะคำนวณได้อย่างไร มันเป็นเพียงพื้นฐานแบบสุ่มที่เราเลือก? ตัวอย่างเช่นฉันมีข้อมูลตัวสั่นด้วยความตื่นเต้นเช่นคุณลักษณะretweet,status_countและอื่น ๆ และป้ายกำกับคลาสของฉันคือFavorited1 หากรายการโปรดและ 0 หากไม่ได้รับความโปรดปรานและฉันใช้ช่องทางที่ไร้เดียงสาและตอนนี้ฉันต้องการวาดเส้นโค้งการจำคืนความแม่นยำ ?

3
อะไรคือความแตกต่างระหว่างคะแนน AUC และ F1
คะแนน F1 คือค่าเฉลี่ยฮาร์โมนิกของความแม่นยำและการเรียกคืน แกน y ของการเรียกคืนเป็นอัตราบวกจริง (ซึ่งก็เรียกคืนเช่นกัน) ดังนั้นตัวแยกประเภทบางครั้งสามารถเรียกคืนได้ต่ำ แต่ AUC สูงมากนั่นหมายความว่าอย่างไร อะไรคือความแตกต่างระหว่างคะแนน AUC และ F1

4
การคำนวณ AUPR ใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน8 เดือนที่ผ่านมา มันง่ายที่จะหาแพคเกจการคำนวณพื้นที่ภายใต้ ROC แต่มีแพคเกจที่คำนวณพื้นที่ภายใต้เส้นโค้งการเรียกคืนความแม่นยำหรือไม่?

2
สัมประสิทธิ์ของลูกเต๋าเหมือนกับความถูกต้องหรือไม่?
ผมเจอค่าสัมประสิทธิ์ลูกเต๋าสำหรับความคล้ายคลึงกันเสียง ( https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient ) และความถูกต้อง ( https://en.wikipedia.org/wiki/Accuracy_and_precision ) สำหรับฉันแล้วดูเหมือนว่ามาตรการทั้งสองนี้เหมือนกัน ความคิดใด ๆ

5
ทำไมผลรวมของความแม่นยำและเรียกคืนการวัดที่คุ้มค่าไม่ได้
เป็นวิธีที่ดีที่สุดที่จะอธิบายว่าทำไมสิ่งที่คือไม่ได้เป็นมาตรการที่ดีการพูดเมื่อเทียบกับ F1?Precision+RecallPrecision+Recall\text{Precision} + \text{Recall}

1
จะลดจำนวนผลบวกปลอมได้อย่างไร
ฉันกำลังพยายามที่จะแก้ปัญหางานที่เรียกว่าการตรวจจับคนเดินเท้าและฉันฝึก clasifer ไบนารีในสองประเภทบวก - คนลบ - พื้นหลัง ฉันมีชุดข้อมูล: จำนวนบวก = 3752 จำนวนลบ = 3800 ฉันใช้ train \ test split 80 \ 20% และRandomForestClassifier form scikit- เรียนรู้ ด้วยพารามิเตอร์: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) ฉันได้รับคะแนน: 95.896757% ทดสอบข้อมูลการฝึกอบรม (ทำงานได้อย่างสมบูรณ์): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 ทดสอบข้อมูลการทดสอบ: true positive: …

2
วิธีเปรียบเทียบอัลกอริทึมการจัดอันดับสองรายการ
ฉันต้องการเปรียบเทียบอัลกอริทึมการจัดอันดับสองรายการ ในอัลกอริทึมเหล่านี้ลูกค้าระบุเงื่อนไขบางอย่างในการค้นหาของเขา / เธอ ตามความต้องการของลูกค้าอัลกอริทึมเหล่านี้ควรกำหนดคะแนนสำหรับแต่ละรายการในฐานข้อมูลและดึงรายการที่มีคะแนนสูงสุด ฉันได้อ่านหัวข้อต่าง ๆ ที่เกี่ยวข้องกับคำถามของฉันในเว็บไซต์นี้และค้นหาสุทธิ จากการค้นหาของฉันบทความที่เกี่ยวข้องที่สุดซึ่งอธิบายเกี่ยวกับตัวชี้วัดบางอย่างสำหรับการเปรียบเทียบอัลกอริทึมการจัดอันดับคือ: Brian McFee และ Gert RG Lanckriet, Metric Learning to Rank, ICML 2010 ( https://bmcfee.github.io/papers/mlr) .pdf ) ฉันคิดว่า prec @ k, MAP, MRR และ NDCG เป็นตัวชี้วัดที่ดีที่จะใช้ แต่ฉันมีปัญหา: อัลกอริทึมของฉันเรียงลำดับผลลัพธ์ดังนั้นรายการแรกในรายการผลลัพธ์ของฉันคือรายการที่ดีที่สุดที่มีคะแนนสูงสุดผลที่สองมีคะแนนสูงสุดอันดับสองและอื่น ๆ ฉัน จำกัด อัลกอริทึมการค้นหาของฉันไว้ที่ตัวอย่างเช่นค้นหา 5 ผลลัพธ์ที่ดีที่สุดผลลัพธ์คือรายการที่ติดอันดับสูงสุด 5 ดังนั้นความแม่นยำจะเป็น 1 เมื่อฉัน จำกัด การค้นหาของฉันเพื่อค้นหาผลลัพธ์ที่ดีที่สุดมันจะพบสิ่งที่ดีที่สุด อีกครั้งความแม่นยำจะเป็น 1. …

1
วิธีสร้างเส้นโค้ง Precision-Recall เมื่อฉันมีเพียงค่าเดียวสำหรับ PR?
ฉันมีการกำหนด data mining ที่ฉันทำระบบดึงภาพตามเนื้อหา ฉันมี 20 ภาพจาก 5 สัตว์ ดังนั้นทั้งหมด 100 ภาพ ระบบของฉันคืนค่า 10 ภาพที่เกี่ยวข้องมากที่สุดไปยังภาพอินพุต ตอนนี้ฉันต้องประเมินประสิทธิภาพของระบบของฉันด้วยเส้นโค้ง Precision-Recall อย่างไรก็ตามฉันไม่เข้าใจแนวคิดของเส้นโค้ง Precision-Recall สมมติว่าระบบของฉันส่งคืนรูปภาพ 10 ภาพสำหรับภาพลิงกอริลลา แต่มี 4 ภาพเท่านั้นเป็นภาพลิงกอริลลา อีก 6 รูปที่ส่งคืนเป็นสัตว์อื่น ' ดังนั้น, ความแม่นยำคือ4/10 = 0.4(กลับมาที่เกี่ยวข้อง) / (คืนทั้งหมด) การเรียกคืนคือ4/20 = 0.2(คืนที่เกี่ยวข้อง) / (ที่เกี่ยวข้องทั้งหมด) ดังนั้นฉันจึงมีเพียงจุด<0.2,0.4>ไม่ใช่เส้นโค้ง ฉันจะมีเส้นโค้งอย่างไร (เช่นชุดของคะแนน) ฉันควรเปลี่ยนจำนวนภาพที่ส่งคืน (กรณีนี้กำหนดไว้ที่ 10 ในกรณีของฉัน) หรือไม่

2
ทำไมเราไม่ใช้ค่าเฉลี่ยถ่วงน้ำหนักแทนค่าเฉลี่ยฮาร์มอนิก
ฉันสงสัยว่าอะไรคือคุณค่าที่แท้จริงของการใช้ค่าเฉลี่ยฮาร์มอนิก (ตัวอย่างเช่นการคำนวณค่า F- มาตรการ) ซึ่งต่างจากค่าเฉลี่ยเลขคณิตถ่วงน้ำหนักในการรวมความแม่นยำและการเรียกคืน? ฉันคิดว่าค่าเฉลี่ยเลขคณิตถ่วงน้ำหนักสามารถเล่นบทบาทของค่าเฉลี่ยฮาร์มอนิกได้หรือฉันขาดอะไรไป?

1
การทดสอบความสำคัญขึ้นอยู่กับความแม่นยำ / การเรียกคืน / F1
เป็นไปได้หรือไม่ที่จะทำการทดสอบอย่างมีนัยสำคัญโดยพิจารณาจากคะแนนความแม่นยำ / การเรียกคืน / F1 เท่านั้น ตัวอย่างเช่นหากคุณเจอ 2 ระบบในกระดาษซึ่งมีรายงาน P / R / F1 เท่านั้น (ในชุดข้อมูลเดียวกัน ฯลฯ ) คุณสามารถทำการทดสอบนัยสำคัญทางสถิติได้หรือไม่? ถ้าใช่มันเป็นเช่นไร?

5
วิธีการคำนวณความแม่นยำและการเรียกคืนในเมทริกซ์ความสับสน 3 x 3
Predicted class Cat Dog Rabbit Actual class Cat 5 3 0 Dog 2 3 1 Rabbit 0 2 11 ฉันจะคำนวณความแม่นยำและเรียกคืนได้อย่างไรจึงง่ายต่อการคำนวณคะแนน F1 เมทริกซ์ความสับสนปกติเป็นมิติ 2 x 2 อย่างไรก็ตามเมื่อมันกลายเป็น 3 x 3 ฉันไม่รู้วิธีคำนวณความแม่นยำและการเรียกคืน

1
ค่าเฉลี่ยความแม่นยำและการเรียกคืนเมื่อใช้การตรวจสอบความถูกต้องข้าม
ฉันทำการจำแนกประเภทโดยใช้ตัวแยกประเภทหลายตัวสำหรับข้อมูลที่มีป้ายกำกับ 2 ชั้นและฉันใช้การตรวจสอบความถูกต้องไขว้ 5 เท่า สำหรับแต่ละเท่าฉันคำนวณ tp, tn, fp และ fn จากนั้นฉันคำนวณความแม่นยำความแม่นยำการเรียกคืนและคะแนน F สำหรับการทดสอบแต่ละครั้ง คำถามของฉันคือเมื่อฉันต้องการผลลัพธ์โดยเฉลี่ยฉันใช้ค่าความถูกต้องโดยเฉลี่ย แต่ฉันสามารถหาค่าเฉลี่ยความแม่นยำการเรียกคืนและคะแนน F ได้หรือไม่ หรือนี่จะผิดทางคณิตศาสตร์หรือไม่? PS ชุดข้อมูลที่ใช้ในแต่ละครั้งนั้นมีความสมดุลในแง่ของจำนวนอินสแตนซ์ต่อคลาส ขอบคุณ

3
วิธีการเลือกจุดการทำงานที่ดีจากเส้นโค้งการเรียกคืนที่แม่นยำ?
มีวิธีมาตรฐานใด ๆ ในการพิจารณาจุดการทำงาน "ที่เหมาะสมที่สุด" บนกราฟการเรียกคืนที่แม่นยำหรือไม่? (เช่นการกำหนดจุดบนเส้นโค้งที่ให้การแลกเปลี่ยนที่ดีระหว่างความแม่นยำและการเรียกคืน) ขอบคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.