FPR (อัตราบวกเป็นเท็จ) เทียบกับ FDR (อัตราการค้นพบที่ผิด)


20

ข้อความต่อไปนี้มาจากบทความวิจัยที่มีชื่อเสียงนัยสำคัญทางสถิติสำหรับการศึกษาจีโนมไวด์โดย Storey & Tibshirani (2003):

ตัวอย่างเช่นอัตราบวกปลอม 5% หมายความว่าโดยเฉลี่ย 5% ของคุณสมบัติที่เป็นโมฆะจริงในการศึกษาจะเรียกว่ามีนัยสำคัญ FDR (อัตราการค้นพบที่ผิดพลาด) ที่ 5% หมายความว่าในทุกฟีเจอร์ที่เรียกว่าสำคัญ 5% ของฟีเจอร์เหล่านี้มีค่าเฉลี่ยโดยแท้จริง

ใครสามารถอธิบายสิ่งที่หมายถึงการใช้ตัวอย่างที่เป็นตัวเลขหรือภาพง่าย? ฉันมีเวลายากที่จะเข้าใจความหมายของมัน ฉันพบโพสต์ต่าง ๆ ใน FDR หรือ FPR เพียงอย่างเดียว แต่ไม่พบที่ ๆ ทำการเปรียบเทียบเฉพาะ

มันจะดีเป็นพิเศษหากมีผู้เชี่ยวชาญในพื้นที่นี้สามารถแสดงสถานการณ์ที่คนหนึ่งดีกว่าคนอื่นหรือทั้งสองอย่างนั้นดีหรือไม่ดี


3
ฉันสังเกตเห็นว่าคุณได้รับรางวัล @ mkt จากคำตอบรางวัล Naseer หากคำตอบนั้นแก้ไขคำถามของคุณคุณสามารถยอมรับได้โดยคลิกเครื่องหมายถูกที่ด้านซ้ายของตัวบ่งชี้การจ่ายเงิน
gung - Reinstate Monica

คำตอบ:


29

ฉันจะอธิบายสิ่งเหล่านี้ด้วยวิธีที่ต่างกันเล็กน้อยเพราะช่วยให้ฉันเข้าใจ

ลองมาตัวอย่างที่เฉพาะเจาะจง คุณกำลังทำการทดสอบโรคกับคนกลุ่มหนึ่ง ทีนี้เรามานิยามคำศัพท์กัน สำหรับแต่ละข้อต่อไปนี้ฉันหมายถึงบุคคลที่ผ่านการทดสอบแล้ว:

True positive (TP) : มีโรคระบุว่ามีโรค

False positive (FP) : ไม่มีโรคที่ระบุว่าเป็นโรค

True negative (TN) : ไม่มีโรคที่ระบุว่าไม่มีโรค

False ลบ (FN) : มีโรคระบุว่าไม่มีโรค

โดยทั่วไปแล้วจะแสดงให้เห็นโดยใช้เมทริกซ์ความสับสน :

ป้อนคำอธิบายรูปภาพที่นี่

อัตราบวกปลอม (FPR)คือจำนวนของคนที่ไม่ได้มีโรค แต่จะมีการระบุว่ามีการเกิดโรค (ทุก fps) ที่หารด้วยจำนวนรวมของคนที่ไม่ได้มีโรค (รวมแอบแฝงและ TNS) .

FPR=FPFP+Tยังไม่มีข้อความ

อัตราการค้นพบที่ผิดพลาด (FDR)คือจำนวนของคนที่ไม่ได้มีโรค แต่จะมีการระบุว่ามีโรค (ทุก fps) ที่หารด้วยจำนวนของคนที่มีการระบุว่ามีการเกิดโรค (รวมแอบแฝงและ TPS )

FDR=FPFP+TP


ดังนั้นความแตกต่างในตัวส่วนคืออะไรคุณเปรียบเทียบจำนวนผลบวกที่ผิดกับอะไร

FPRจะบอกคุณสัดส่วนของทุกคนที่ไม่ได้มีโรคที่จะระบุว่ามีการเกิดโรค

FDRจะบอกคุณสัดส่วนของทุกคนที่ระบุว่ามีการเกิดโรคที่ไม่ได้มีการเกิดโรค

ทั้งสองมีประโยชน์มาตรการที่แตกต่างของความล้มเหลว ขึ้นอยู่กับสถานการณ์และสัดส่วนของ TP, FPs, TNs และ FN คุณอาจสนใจมากกว่านั้น


ตอนนี้เราจะใส่ตัวเลขลงไปในสิ่งนี้ คุณวัดคนได้ 100 คนสำหรับโรคนี้

True positive (TPs) : 12

ผลบวกผิด (FPs) : 4

True negatives (TNs) : 76

ฟิล์มเนกาทีฟ (FNs) : 8

หากต้องการแสดงสิ่งนี้โดยใช้เมทริกซ์ความสับสน:

ป้อนคำอธิบายรูปภาพที่นี่

จากนั้น

FPR=FPFP+Tยังไม่มีข้อความ=44+76=480=0.05=5%

FDR=FPFP+TP=44+12=416=0.25=25%

ในคำอื่น ๆ

FPR บอกคุณว่า 5% ของคนที่ไม่มีโรคถูกระบุว่าเป็นโรค FDR บอกคุณว่า 25% ของคนที่ถูกระบุว่าเป็นโรคนั้นไม่มีโรค


แก้ไขตามความคิดเห็นของ @ amoeba (เช่นตัวเลขในตัวอย่างด้านบน):

nผลอย่างมีนัยสำคัญโดยการแก้ไข FPR คุณจริงๆจริงๆต้องพิจารณาวิธีการหลายผลอย่างมีนัยสำคัญของคุณจะไม่ถูกต้อง ในตัวอย่างข้างต้น 25% ของ 'ผลลัพธ์ที่สำคัญ' อาจผิดพลาดได้!

[บันทึกด้านข้าง: วิกิพีเดียชี้ให้เห็นว่าแม้ว่า FPR นั้นเทียบเท่ากับอัตราความผิดพลาดทางคณิตศาสตร์ในทางคณิตศาสตร์ แต่ก็ถือว่าแตกต่างทางแนวคิดเพราะโดยทั่วไปแล้วจะมีการตั้งค่าเบื้องต้นก่อนในขณะที่อื่น ๆ จะถูกใช้เพื่อวัดประสิทธิภาพของการทดสอบในภายหลัง นี่เป็นเรื่องสำคัญ แต่ฉันจะไม่พูดเรื่องนี้


และเพื่อความสมบูรณ์ยิ่งขึ้นอีกเล็กน้อย:

เห็นได้ชัดว่า FPR และ FDR ไม่ได้เป็นเพียงการวัดที่เกี่ยวข้องเท่านั้นที่คุณสามารถคำนวณด้วยปริมาณสี่ปริมาณในเมทริกซ์ความสับสน ในการวัดที่เป็นไปได้มากมายซึ่งอาจเป็นประโยชน์ในบริบทที่แตกต่างกันมีสองวิธีที่ค่อนข้างธรรมดาที่คุณน่าจะพบคือ:

True Positive Rate (TPR)หรือที่เรียกว่าไวเป็นสัดส่วนของคนที่มีโรคที่ระบุว่ามีโรค

TPR=TPTP+Fยังไม่มีข้อความ

True Negative Rate (TNR)หรือที่รู้จักกันว่าความจำเพาะเป็นสัดส่วนของคนที่ไม่มีโรคที่ระบุว่าไม่มีโรค

Tยังไม่มีข้อความR=Tยังไม่มีข้อความTยังไม่มีข้อความ+FP


3
+1 มันสมเหตุสมผลแล้วที่จะปรับตัวอย่างตัวเลขเพื่อให้ FPR = 5% เพราะนั่นคือสิ่งที่คุณจะได้ถ้าคุณใช้ p <0.05 เป็นเกณฑ์ (สมมติว่าการทดสอบมีขนาดที่ถูกต้อง) หรือ 1% ถ้า p <0.01 ไม่ว่าจะเป็นอะไรก็ตาม การชี้ให้เห็นการเชื่อมต่อนี้อาจเป็นประโยชน์สำหรับผู้อ่านบางคน
อะมีบาพูดว่า Reinstate Monica

1
@amoeba ขอบคุณนี่เป็นความคิดที่ดี ฉันจะพยายามทำในภายหลัง
mkt - Reinstate Monica

2

คุณควรตรวจสอบตารางในhttps://en.wikipedia.org/wiki/Confusion_matrix โปรดทราบว่าวาง FPR ในแนวตั้งในขณะที่ FDR อยู่ในแนวนอน

  • FP เกิดขึ้นถ้าสมมุติฐานว่างของคุณเป็นจริง แต่คุณปฏิเสธ
  • FD เกิดขึ้นถ้าคุณทำนายสิ่งสำคัญ แต่คุณไม่ควรทำ

ฉันรู้ว่า แต่ฉันมีความสนใจเป็นพิเศษในการเปรียบเทียบเช่นถ้าคุณสามารถช่วยอธิบายแนวคิดนั้นด้วยตัวเลขและการสร้างภาพข้อมูลเพื่อสนับสนุนตัวเลขของคุณที่น่าสนใจมาก
李慕
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.