ความฉงนคืออะไร?


42

ฉันเจอคำที่ทำให้งงซึ่งหมายถึงความน่าจะเป็นค่าผกผันเฉลี่ยของข้อมูลที่มองไม่เห็น บทความ Wikipedia เกี่ยวกับความงุนงงไม่ได้ให้ความหมายที่เข้าใจง่ายสำหรับสิ่งเดียวกัน

การวัดความฉงนสนเท่ห์นี้ใช้ในกระดาษpLSA

ใครสามารถอธิบายความต้องการและความหมายที่เข้าใจง่ายของการวัดที่น่างง ?


ฉันจะคำนวณความฉงนสนเท่ห์สำหรับ pLSA ได้อย่างไร ฉันมี datamatrixซึ่งมีการนับและโดยอัลกอริทึม TEMและมีการคำนวณ p ( d ) p ( w | d )Xp(d)p(w|d)
ผู้เรียน

3
ฉันได้ตรวจสอบดัชนีของหนังสือการทำเหมืองข้อมูล / การเรียนรู้ด้วยเครื่อง / การวิเคราะห์เชิงทำนาย 5 เล่มโดย Nisbett, Larose, Witten, Torgo และ Shemueli (รวมถึงผู้เขียนร่วม) และคำนี้ไม่ได้เกิดขึ้นกับพวกเขาเลย ฉันงงงวย :)
zbicyclist

1
ความฉงนสนเท่ห์เป็นอีกชื่อที่แปลกประหลาดสำหรับความไม่แน่นอน มันสามารถถือเป็นการประเมินผลภายในกับการประเมินภายนอก Jan Jurafsky อธิบายอย่างสง่างามด้วยตัวอย่างตามแบบจำลองภาษาที่นี่ที่ youtube.com/watch?v=BAN3NB_SNHY
bicepjai

2
@zbicyclist หากคุณกำลังมองหาตัวอย่างในป่ามันเป็นเรื่องธรรมดาโดยเฉพาะอย่างยิ่งใน NLP และโดยเฉพาะสำหรับการประเมินสิ่งต่าง ๆ เช่นแบบจำลองภาษา
Matt Krause

ในบางสาขา (เช่นเศรษฐศาสตร์) ผู้คนพูดถึงจำนวนที่เท่ากันเพื่อที่ว่าโดยที่คือเอนโทรปีบนพื้นฐานของลอการิทึมธรรมชาติเป็นจำนวนหมวดหมู่ที่เท่ากัน ดังนั้นสองหมวดหมู่ที่มีความน่าจะเป็น 0.5 ผลตอบแทนของเอนโทรปีของและการยกกำลังกลับมา 2 ตามจำนวนหมวดหมู่ที่เท่ากัน สำหรับความน่าจะเป็นที่ไม่เท่ากันตัวเลขที่เทียบเท่านั้นไม่ได้เป็นจำนวนเต็ม H ln 2exp(H)Hln2
Nick Cox

คำตอบ:


21

คุณได้มองไปที่บทความวิกิพีเดียฉงนสนเท่ห์ มันให้ความฉงนสนเท่ห์ของการกระจายแบบไม่ต่อเนื่องเป็น

2xp(x)log2p(x)

ซึ่งสามารถเขียนเป็น

exp(xp(x)loge1p(x))

กล่าวคือเป็นค่าเฉลี่ยถ่วงน้ำหนักทางเรขาคณิตของค่าผกผันของความน่าจะเป็น สำหรับการกระจายอย่างต่อเนื่องผลรวมจะกลายเป็นอินทิกรัล

บทความนี้ยังให้วิธีการประเมินความงุนงงสำหรับแบบจำลองโดยใช้ข้อมูลทดสอบชิ้นN

2i=1N1Nlog2q(xi)

ซึ่งสามารถเขียนได้

exp(i=1Nloge(1q(xi))N) or i=1N1q(xi)N

หรือด้วยวิธีอื่น ๆ ที่หลากหลายและสิ่งนี้ควรทำให้ชัดเจนยิ่งขึ้นโดยที่ "ความน่าจะเป็นแบบอินวอยซ์เฉลี่ยล็อก" มาจาก


มีความแตกต่างระหว่างอีเมื่อใช้เป็นเลขชี้กำลังแทนที่จะเป็น 2 หรือไม่?
Henry E

2
@HenryE: ไม่และลอการิทึมพื้นฐานจะใช้งานได้เช่นกัน - ลอการิทึมในฐานที่แตกต่างกันเป็นสัดส่วนซึ่งกันและกันอย่างชัดเจนบันทึก x = บันทึก x10alogax=blogbx
Henry

ฉันคิดได้มาก ฉันเจอคำตอบนี้เมื่อฉันพยายามที่จะเข้าใจว่าทำไมชิ้นส่วนของรหัสจึงใช้ e เพื่อคำนวณความงุนงงเมื่อสูตรอื่น ๆ ทั้งหมดที่ฉันเคยเห็นมาก่อนหน้านี้เคยใช้งานอยู่ 2. ฉันตระหนักแล้วว่ามันสำคัญขนาดไหนที่รู้กรอบ ใช้เป็นฐานสำหรับการคำนวณการสูญเสียบันทึก
Henry E

27

ฉันพบสิ่งนี้ค่อนข้างง่าย:

ความสับสนของสิ่งที่คุณกำลังประเมินบนข้อมูลที่คุณประเมินมันเรียงลำดับของบอกคุณว่า "สิ่งนี้ถูกต้องบ่อยครั้งเท่าที่ตายด้าน x จะเป็น"

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/


นั่นเป็นบทความที่น่าสนใจ อาจไม่ใช่ในเชิงลึก แต่เป็นการอ่านเบื้องต้นที่ดี
โมนิก้า Heddneck

1
ฉันยังพบว่าบทความนี้มีประโยชน์jamesmccaffrey.wordpress.com/2016/08/16/…
user2561747

11

ฉันก็สงสัยเช่นกัน คำอธิบายแรกนั้นไม่เลว แต่นี่คือ 2 nats ของฉันสำหรับสิ่งที่คุ้มค่า


ก่อนอื่นความฉงนสนเท่ห์นั้นไม่เกี่ยวกับลักษณะนิสัยที่คุณคาดเดาบางสิ่งถูก มันมีอะไรเพิ่มเติมเกี่ยวกับการจำแนกลักษณะความซับซ้อนของลำดับสุ่ม

เรากำลังดูปริมาณ

2xp(x)log2p(x)

ก่อนอื่นให้ยกเลิกการบันทึกและการยกกำลัง

2xp(x)log2p(x)=1xp(x)p(x)

ฉันคิดว่ามันคุ้มค่าที่จะชี้ให้เห็นว่าความงุนงงไม่แปรปรวนกับฐานที่คุณใช้เพื่อกำหนดเอนโทรปี ดังนั้นในแง่นี้ความงุนงงจึงมีความเป็นเอกลักษณ์มากขึ้น / น้อยลงโดยพลการกว่าเอนโทรปีในการวัด

ความสัมพันธ์กับลูกเต๋า

มาเล่นกับเรื่องนี้กันหน่อย สมมติว่าคุณแค่มองเหรียญ เมื่อเหรียญมีความยุติธรรมเอนโทรปีมีค่ามากที่สุดและความงุนงงมากที่สุดคือ

11212×1212=2

ตอนนี้จะเกิดอะไรขึ้นเมื่อเราดูลูกเต๋าด้าน ความฉงนคือN

1(1N1N)N=N

ดังนั้นความฉงนแสดงถึงจำนวนของด้านของการตายที่ยุติธรรมที่เมื่อรีดสร้างลำดับที่มีเอนโทรปีเดียวกับการกระจายความน่าจะเป็นของคุณ

จำนวนรัฐ

ตกลงดังนั้นตอนนี้เรามีคำจำกัดความหยั่งรู้ของความงุนงงอย่างง่ายมาดูกันอย่างรวดเร็วว่ามันได้รับผลกระทบจากจำนวนสถานะในแบบจำลองอย่างไร ขอเริ่มต้นด้วยการกระจายความน่าจะเป็นมากกว่ารัฐและสร้างแจกแจงความน่าจะใหม่กว่ารัฐเช่นว่าอัตราส่วนความน่าจะเป็นของเดิมรัฐยังคงเหมือนเดิมและรัฐใหม่ที่มีความน่าจะเป็น\ในกรณีที่เริ่มต้นด้วยการตายด้านอย่างยุติธรรมเราอาจจินตนาการว่าการสร้างตายแบบใหม่เพื่อให้ฝ่ายใหม่ได้รับความน่าจะเป็นและดั้งเดิมNN+1NϵNN+1ϵNด้านรีดด้วยโอกาสที่เท่าเทียมกัน ดังนั้นในกรณีของการแจกแจงความน่าจะเป็นแบบดั้งเดิมโดยพลการหากความน่าจะเป็นของแต่ละรัฐจะได้รับจากการแจกแจงแบบใหม่ของรัฐดั้งเดิมที่ได้รับจากสถานะใหม่จะเป็นและความฉงนสนเท่ห์ใหม่จะได้รับจาก:xpxN

px=px(1ϵ)

1ϵϵxNpxpx=1ϵϵxN(px(1ϵ))px(1ϵ)=1ϵϵxNpxpx(1ϵ)(1ϵ)px(1ϵ)=1ϵϵ(1ϵ)(1ϵ)xNpxpx(1ϵ)

ในขีด จำกัด ที่ปริมาณนี้ใกล้ถึงϵ0

1xNpxpx

ดังนั้นเมื่อคุณทำให้การกลิ้งด้านหนึ่งของผู้ตายไม่น่าเป็นไปได้มากขึ้นความสับสนจะจบลงด้วยการมองราวกับว่าไม่มีด้านอยู่


3
แน่นอนว่ามีค่า ~ 1.39 เท่านั้น?
Matt Krause

คุณช่วยอธิบายวิธีรับ ? ฉันทำได้แค่
xNpxpx=(1ϵ)1ϵxNpxpx(1ϵ)
xNpxpx=xN(px(1ϵ))px(1ϵ)=xN(1ϵ)px(1ϵ)xNpxpx(1ϵ)
2740

\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}
Alex Eftimiades

5

จริงๆแล้วมีการเชื่อมต่อที่ชัดเจนระหว่างความน่างงและความเป็นไปได้ในการคาดเดาค่าจากการแจกแจงที่ถูกต้องซึ่งกำหนดโดยองค์ประกอบข้อมูลของทฤษฎี 2ed (2.146): หากและเป็นตัวแปร iid ดังนั้นXX

P(X=X)2H(X)=12H(X)=1perplexity (1)

เพื่ออธิบายความสับสนของการกระจายตัวแบบ X คือ | X | จำนวนขององค์ประกอบ หากเราพยายามที่จะคาดเดาค่าที่ตัวอย่าง iid จากการแจกแจงเครื่องแบบ X จะใช้เพียงแค่ทำการเดา iid จาก X เราจะถูกต้อง 1 / | X | = 1 / ความน่างงของเวลา เนื่องจากการกระจายแบบสม่ำเสมอนั้นยากที่สุดในการคาดเดาค่าจากเราสามารถใช้ 1 / perplexity เป็นค่าประมาณที่ต่ำกว่า / ฮิวริสติกสำหรับการคาดเดาของเราว่าจะถูกต้องบ่อยแค่ไหน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.