Statistics.com เผยแพร่คำตอบที่ผิดหรือไม่?


28

Statistics.com เผยแพร่ปัญหาประจำสัปดาห์: อัตราการฉ้อโกงประกันภัยที่อยู่อาศัยคือ 10% (หนึ่งในสิบข้อเรียกร้องนั้นเป็นการฉ้อโกง) ที่ปรึกษาได้เสนอระบบการเรียนรู้ของเครื่องเพื่อตรวจสอบการอ้างสิทธิ์และจำแนกพวกเขาว่าเป็นการฉ้อโกงหรือไม่หลอกลวง ระบบมีประสิทธิภาพ 90% ในการตรวจจับการอ้างสิทธิ์ที่ฉ้อโกง แต่มีประสิทธิภาพ 80% เท่านั้นในการจำแนกการเรียกร้องการฉ้อโกงที่ไม่ถูกต้อง หากระบบจัดประเภทการเรียกร้องว่าเป็นการฉ้อโกงความน่าจะเป็นที่จะเป็นการหลอกลวงคืออะไร

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

เพื่อนของฉันและฉันทั้งคู่เกิดคำตอบเดียวกันอย่างอิสระและไม่ตรงกับโซลูชันที่เผยแพร่

ทางออกของเรา:

(0.9 * 0.1) / ((. 9 * 0.1) + (. 2 * 0.9)) = 1/3

ทางออกของพวกเขา:

นี่เป็นปัญหาของความน่าจะเป็นแบบมีเงื่อนไข (มันเป็นปัญหาของ Bayesian แต่การใช้สูตรใน Bayes Rule จะช่วยปกปิดสิ่งที่เกิดขึ้น) พิจารณาการอ้างสิทธิ์ 100 ครั้ง 10 จะเป็นการฉ้อโกงและระบบจะติดป้าย 9 อย่างถูกต้องว่าเป็น“ การฉ้อโกง” 90 การเรียกร้องจะใช้ได้ แต่ระบบจะจำแนก 72 (80%) ไม่ถูกต้องเป็น“ การหลอกลวง” ดังนั้นการอ้างสิทธิ์ทั้งหมด 81 ครั้งจึงถูกระบุว่า เป็นการฉ้อโกง แต่มีเพียง 9 ใน 11 เท่านั้นที่หลอกลวง

ใครถูก


4
ดูเหมือนว่าพวกเขาจะแก้ไขโซลูชันบนเว็บไซต์ของตนเพื่อให้สอดคล้องกับสิ่งที่คุณคำนวณ
ไม่

2
@ ไม่ตอบคำถามอย่างเงียบ ๆ ส่อเสียด
Aksakal

เรื่องไม่สำคัญ: ในการตัดสินใจเกี่ยวกับพฤติกรรมปัญหานี้มักถูกเรียกว่า "ปัญหาการตรวจด้วยแมมโมแกรม" เนื่องจากการนำเสนอตามปกติเป็นเรื่องเกี่ยวกับโอกาสของผู้ป่วยที่เป็นโรคมะเร็งที่ได้รับเอ็มโมแกรมบวก
Kodiologist

"ข่าวดีก็คือระบบของเราจำแนก 90% ของการฉ้อโกงเป็นการฉ้อโกงข่าวร้ายคือมันจัดประเภท 80% ของการไม่หลอกลวงว่าเป็นการฉ้อโกง" โปรดทราบว่า 11% ที่พวกเขาคำนวณนั้นสูงกว่าอัตราฐาน 10% เพียงเล็กน้อยเท่านั้น รูปแบบการเรียนรู้ของเครื่องที่อัตราการฉ้อโกงในคดีที่ถูกจับมีค่ามากกว่าอัตราฐานเพียง 10% นั้นแย่มาก
สะสม

เรื่องนี้เป็นที่รู้จักกันในชื่อปลอมบวกขัดแย้ง
BlueRaja - แดนนี่ Pflughoeft

คำตอบ:


41

ฉันเชื่อว่าคุณและเพื่อนร่วมงานของคุณถูกต้อง Statistics.com มีแนวความคิดที่ถูกต้อง แต่ทำผิดพลาดง่าย จากการกล่าวอ้าง 90 ข้อว่า "ตกลง" เราคาดว่า 20% จะได้รับการจัดประเภทอย่างไม่ถูกต้องว่าเป็นการฉ้อโกงไม่ใช่ 80% 20% ของ 90 คือ 18 นำไปสู่การอ้างสิทธิ์ที่ถูกต้อง 9 ข้อและการอ้างสิทธิ์ที่ไม่ถูกต้อง 18 ครั้งด้วยอัตราส่วน 1/3 ซึ่งเป็นสิ่งที่กฎของ Bayes ให้ผล


11

คุณถูก. วิธีแก้ปัญหาที่เว็บไซต์ที่โพสต์นั้นขึ้นอยู่กับการเข้าใจผิดของปัญหาใน 80% ของการอ้างสิทธิ์ที่ไม่เป็นการฉ้อโกงนั้นถูกจัดประเภทว่าเป็นการฉ้อโกงแทนที่จะได้รับ 20%

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.