เหตุใดผู้คนจึงใช้คำว่า "น้ำหนักของหลักฐาน" และแตกต่างจาก "ข้อมูลร่วมกันแบบชี้จุด" อย่างไร


11

ที่นี่ "น้ำหนักของหลักฐาน" (WOE) เป็นคำทั่วไปในวรรณคดีทางวิทยาศาสตร์และนโยบายการตีพิมพ์ที่พบบ่อยที่สุดในบริบทของการประเมินความเสี่ยงที่กำหนดโดย:

w(e:h)=logp(e|h)p(e|h¯)

โดยที่คือหลักฐานhehคือสมมุติฐาน

ตอนนี้ฉันต้องการทราบว่าอะไรคือความแตกต่างที่สำคัญกับ PMI (ข้อมูลร่วมกันแบบจุด)

pmi(e,h)=logp(e,h)p(e)p(h)

ฉันเชื่อว่าคำประกาศเกียรติคุณในบทความนี้: projecteuclid.org/ …
JohnRos

@ JohnRos: ในขณะที่เป็นกระดาษที่น่าสนใจน้ำหนักแนวคิดของหลักฐานไม่ได้มีชื่อ IJ Good มีหนังสือเล่มหนึ่งตีพิมพ์ในปี 1950 และบอกว่าเขาได้เรียนรู้แนวคิดจาก A Turing ที่ Bletchley Park!
kjetil b halvorsen

โปรดทราบว่าความฉิบหายที่กำหนดไว้ที่นี่เป็นเพียงอัตราส่วนความน่าจะเป็นบันทึก หลายคนกล่าวถึงมันในเว็บไซต์นี้เป็นแนวคิดที่แตกต่างให้ดูstats.stackexchange.com/questions/462052/…
kjetil b halvorsen

คำตอบ:


5

แม้ว่าพวกเขาจะดูคล้ายกัน แต่ก็เป็นสิ่งที่แตกต่างกันมาก เริ่มจากความแตกต่างที่สำคัญกันเถอะ

  • เป็นสิ่งที่แตกต่างใน PMI และใน WOEh
    สังเกตคำศัพท์ใน PMI นี่ก็หมายความว่า hเป็นตัวแปรสุ่มที่คุณสามารถคำนวณความน่าจะเป็น สำหรับ Bayesian นั้นไม่มีปัญหา แต่ถ้าคุณไม่เชื่อว่าสมมติฐานสามารถมีความน่าจะเป็นได้คุณจะไม่สามารถเขียน PMI สำหรับสมมติฐานและหลักฐานได้ ใน WOE, hคือพารามิเตอร์ของการแจกแจงและการแสดงออกจะถูกกำหนดไว้เสมอp(h)hh

  • PMI สมมาตรวิบัติไม่ได้
    นิด ๆ , ) อย่างไรก็ตามW ( H : E ) = บันทึกP ( เอช| E ) / P ( เอช| ˉ E )ไม่จำเป็นต้องกำหนดเพราะคำˉอี แม้ว่าโดยทั่วไปแล้วจะไม่เท่ากับw ( e : hpmi(e,h)=pmi(h,e)w(h:e)=logp(h|e)/p(h|e¯)e¯ .W(อี:ชั่วโมง)

นอกจากนั้น WOE และ PMI มีความคล้ายคลึงกัน

น้ำหนักของหลักฐานบอกว่ามีหลักฐานเท่าใดที่พูดถึงสมมุติฐาน ถ้าเป็น 0 ก็หมายความว่าไม่พูดหรือต่อต้าน สูงกว่ามันเป็นมากขึ้นก็จะตรวจสอบสมมติฐานและลดมันเป็นมากขึ้นก็จะตรวจสอบˉชั่วโมงชั่วโมงชั่วโมง¯

ข้อมูลร่วมกันบอกปริมาณการเกิดขึ้นของเหตุการณ์ ( หรือh ) ว่าบางอย่างเกี่ยวกับการเกิดขึ้นของเหตุการณ์อื่น ถ้าเป็น 0 เหตุการณ์เป็นอิสระและเหตุการณ์หนึ่งเกิดขึ้นโดยไม่ได้พูดถึงเหตุการณ์อื่น ยิ่งสูงก็ยิ่งเกิดขึ้นบ่อยและยิ่งต่ำก็ยิ่งพวกเขาเป็นพิเศษร่วมกันอีชั่วโมง

สิ่งที่เกี่ยวกับกรณีที่สมมติฐานเป็นตัวแปรสุ่มและตัวเลือกทั้งสองนั้นถูกต้อง? ยกตัวอย่างเช่นใน communiction ผ่านช่องทางที่มีเสียงดังไบนารีสมมติฐานเป็นชั่วโมงสัญญาณที่ปล่อยออกมาเพื่อถอดรหัสและหลักฐานที่เป็นสัญญาณที่ได้รับ บอกได้เลยว่าน่าจะเป็นของการพลิกเป็น1 / 1000ดังนั้นหากคุณได้รับ1วิบัติสำหรับ1คือเข้าสู่ระบบ0.999 / 0.001 = 6.90 ดัชนี PMI ในมืออื่น ๆ ขึ้นอยู่กับ proability เปล่งที่1 คุณสามารถตรวจสอบว่าเมื่อความน่าจะเป็นของการปล่อย1มีแนวโน้มที่จะเป็น 0, PMI มีแนวโน้มที่จะเป็น6.90ชั่วโมงชั่วโมง1/100011เข้าสู่ระบบ0.999/0.001=6.90116.90ในขณะที่มันมีแนวโน้มที่จะเมื่อความน่าจะเป็นของการเปล่งที่1มีแนวโน้มที่จะ1011

พฤติกรรมที่ขัดแย้งนี้แสดงให้เห็นถึงสองสิ่ง:

  1. ไม่มีใครเหมาะสมที่จะคาดเดาเกี่ยวกับการปล่อย ถ้าความน่าจะเปล่งที่ลดลงต่ำกว่า1 / 1000ที่ปล่อยก๊าซเรือนกระจกได้มากที่สุดคือ0แม้ในขณะที่ได้รับ1 อย่างไรก็ตามสำหรับความน่าจะเป็นของเล็ก ๆ เปล่ง1ทั้งวิบัติและ PMI อยู่ใกล้กับ6.9011/10000116.90

  2. PMI เป็นกำไรจากข้อมูล (แชนนอน)เหนือการรับรู้ของสมมติฐานหากสมมติฐานเกือบจะแน่ใจแล้วจะไม่มีการรับข้อมูล WOE เป็นการอัพเดทอัตราต่อรองก่อนหน้าของเราซึ่งไม่ได้ขึ้นอยู่กับมูลค่าของราคาต่อรองเหล่านั้น


นี่อาจเป็นเรื่องที่น่าสังเกต แต่ใน WMI คุณจะนิยามโดยไม่กำหนดp ( h ) ได้อย่างไร คุณไม่ไปกับp ( e | h ) = p ( e , h )พี(อี|ชั่วโมง)พี(ชั่วโมง) ? p(e|h)=p(e,h)p(h)
Mike Battaglia

1
ฉันถือว่าคุณหมายถึง WOE คิดว่าเป็นพารามิเตอร์การแจกแจงของการแจกแจงปัวซงเป็นต้น ในกรณีนี้พี( E |เอช)เป็นเพียงความเป็นไปได้และคุณไม่จำเป็นต้องกำหนดP ( H ) จริงๆแล้วคุณไม่จำเป็นต้องเชื่อว่ามันมีความหมายเลย ชั่วโมงพี(อี|ชั่วโมง)พี(ชั่วโมง)
gui11aume
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.