เอนโทรปีบอกอะไรเรา


32

ฉันกำลังอ่านเกี่ยวกับเอนโทรปีและมีช่วงเวลาที่ยากลำบากในการคิดว่ามันหมายถึงอะไรในกรณีอย่างต่อเนื่อง หน้า wiki ระบุสิ่งต่อไปนี้:

การแจกแจงความน่าจะเป็นของเหตุการณ์บวกกับจำนวนข้อมูลของทุกเหตุการณ์สร้างตัวแปรสุ่มซึ่งค่าที่คาดหวังคือจำนวนข้อมูลเฉลี่ยหรือเอนโทรปีที่เกิดจากการแจกแจงนี้

ดังนั้นถ้าฉันคำนวณเอนโทรปีที่เกี่ยวข้องกับการแจกแจงความน่าจะเป็นแบบต่อเนื่องนั่นจะบอกอะไรฉันจริง ๆ พวกเขาให้ตัวอย่างเกี่ยวกับการพลิกเหรียญดังนั้นกรณีที่แยกกัน แต่ถ้ามีวิธีที่เข้าใจง่ายที่จะอธิบายผ่านตัวอย่างเช่นในกรณีต่อเนื่องนั่นจะยอดเยี่ยม!

ถ้ามันช่วยได้นิยามของเอนโทรปีสำหรับตัวแปรสุ่มต่อเนื่องคือ:X

H(X)=P(x)logbP(x)dx
โดยที่เป็นฟังก์ชันการแจกแจงความน่าจะเป็นP(x)

หากต้องการลองทำสิ่งนี้ให้เป็นรูปธรรมมากขึ้นให้พิจารณากรณีของจากนั้นตามที่Wikipediaระบุว่าเอนโทรปีคือXGamma(α,β)

H(X)=E[ln(P(X))]=E[αln(β)+ln(Γ(α))+ln(Γ(α))(α1)ln(X)+βX]=αln(β)+ln(Γ(α))+(1α)(ddαln(Γ(α)))

ตอนนี้เราได้คำนวณเอนโทรปีสำหรับการแจกแจงแบบต่อเนื่อง (การแจกแจงแกมม่า) ดังนั้นถ้าผมประเมินการแสดงออกนั้น , ให้และปริมาณนั้นบอกอะไรฉันจริง ๆ ? อัลฟ่าบีตาH(X)αβ


5
(+1) คำพูดนั้นอ้างอิงถึงข้อความที่โชคร้ายอย่างแท้จริง มันกำลังพยายามในทางที่ลำบากและทึบแสงเพื่ออธิบายและตีความนิยามทางคณิตศาสตร์ของเอนโทรปี ความหมายนั่นคือf มันสามารถถูกมองว่าเป็นความหวังของคนที่เป็นรูปแบบไฟล์ PDF ของตัวแปรสุ่มXมันเป็นความพยายามที่จะอธิบายลักษณะในฐานะ "ปริมาณของข้อมูล" ที่เกี่ยวข้องกับจำนวนxบันทึก( f ( X ) ) f X บันทึก( f ( x ) ) xf(x)log(f(x))dxlog(f(X))fXlog(f(x))x
whuber

5
มันคุ้มค่าที่จะถามเพราะมีปัญหาทางเทคนิคที่ละเอียดอ่อน แต่สำคัญ: เอนโทรปีของรุ่นอย่างต่อเนื่องไม่สนุกกับคุณสมบัติเดียวกันกับเวอร์ชั่นที่แยกกัน @ Tim AFAIK ซึ่งเป็นหัวข้อเกี่ยวกับคณิตศาสตร์จะระบุเฉพาะกรณีที่ไม่ต่อเนื่อง
whuber

1
@RiskStatistician คิดว่าเป็นการบอกคุณว่าผลของ x นั้นน่าประหลาดใจเพียงใด คุณกำลังคำนวณความประหลาดใจที่คาดไว้ log(f(x))
เอเดรียน

3
สำหรับปัญหาทางเทคนิค @ การอ้างอิงที่มีอยู่จริงนี่อาจเป็นที่สนใจ
ฌอนอีสเตอร์

3
ในกรณีที่คุณมีความสนใจในด้านเทคนิค: เอนโทรปีเป็นฐานปลอมที่เรียกว่า Kullback-Leibler divergence ซึ่งใช้อธิบายระยะทางระหว่างเหตุการณ์ในวัดตามลำดับดูprojecteuclid.org/euclid.aoms/1177729694สำหรับต้นฉบับ ( และการทำลายล้าง) โดย Kullback และ Leibler แนวคิดนี้ปรากฏขึ้นอีกครั้งในเกณฑ์การเลือกแบบจำลองเช่น AIC และ BIC
Jeremias K

คำตอบ:


31

เอนโทรปีจะบอกคุณถึงความไม่แน่นอนในระบบ สมมติว่าคุณกำลังมองหาแมวและคุณรู้ว่ามันอยู่ที่ไหนสักแห่งระหว่างบ้านและเพื่อนบ้านซึ่งอยู่ห่างออกไป 1 ไมล์ เด็กของคุณบอกคุณว่าน่าจะเป็นของแมวเป็นในระยะทางที่จากบ้านของคุณมีการอธิบายที่ดีที่สุดโดยเบต้ากระจาย2,2) ดังนั้นแมวอาจจะเป็นที่ใดก็ได้ระหว่าง 0 และ 1 แต่มีแนวโน้มที่จะอยู่ตรงกลางคือ2/1F ( x ; 2 , 2 ) x m x = 1 / 2x f(x;2,2)xmax=1/2

ป้อนคำอธิบายรูปภาพที่นี่

ลองเสียบกระจายเบต้าเป็นสมการของคุณแล้วคุณจะได้รับHH=0.125

ถัดไปคุณถามภรรยาของคุณและเธอบอกคุณว่าการกระจายที่ดีที่สุดเพื่ออธิบายความรู้ของเธอเกี่ยวกับแมวของคุณคือการกระจายตัวที่สม่ำเสมอ หากคุณเสียบสมเอนโทรปีของคุณคุณจะได้รับ 0H=0

ทั้งชุดเครื่องแบบและค่าเบต้าให้แมวอยู่ที่ใดก็ได้ระหว่าง 0 และ 1 ไมล์จากบ้านของคุณ แต่มีความไม่แน่นอนในชุดเพราะภรรยาของคุณไม่มีเบาะแสที่แมวซ่อนอยู่ในขณะที่เด็ก ๆ มีความคิดพวกเขาคิดว่ามันมากกว่า น่าจะอยู่ตรงกลาง นั่นเป็นเหตุผลที่ว่าทำไมเอนโทรปีของเบต้าจึงต่ำกว่า Uniform

ป้อนคำอธิบายรูปภาพที่นี่

คุณอาจลองแจกแจงอื่น ๆ บางทีเพื่อนบ้านของคุณบอกคุณแมวชอบที่จะอยู่ใกล้อย่างใดอย่างหนึ่งของบ้านเพื่อกระจายเบต้าของเขาอยู่กับ1/2 ใช้จะต้องต่ำกว่าที่ของเครื่องแบบอีกครั้งเพราะคุณจะได้รับความคิดบางอย่างเกี่ยวกับที่จะมองหาแมว เดาสิว่าเอนโทรปีของข้อมูลเพื่อนบ้านของคุณสูงกว่าหรือต่ำกว่าลูก ๆ ของคุณ? ฉันพนันกับเด็ก ๆ ได้ทุกวันในเรื่องเหล่านี้Hα=β=1/2H

ป้อนคำอธิบายรูปภาพที่นี่

UPDATE:

มันทำงานอย่างไร วิธีคิดอย่างหนึ่งคือเริ่มจากการกระจายตัวแบบสม่ำเสมอ หากคุณยอมรับว่าเป็นสิ่งที่มีความไม่แน่นอนมากที่สุดให้คิดว่าเป็นการรบกวน ลองดูที่กรณีที่ไม่ต่อเนื่องเพื่อความเรียบง่าย ใช้จากจุดหนึ่งและเพิ่มไปยังสิ่งอื่นดังนี้: p i = p - Δ p p j = p + Δ pΔp

pi=pΔp
pj=p+Δp

ตอนนี้เรามาดูวิธีการเปลี่ยนแปลงของเอนโทรปี: ซึ่งหมายความว่าการรบกวนใด ๆ จากการกระจายเครื่องแบบช่วยลดเอนโทรปี (ความไม่แน่นอน) หากต้องการแสดงแบบเดียวกันในกรณีต่อเนื่องฉันต้องใช้แคลคูลัสของการเปลี่ยนแปลงหรือบางอย่างในบรรทัดนี้ แต่โดยหลักแล้วคุณจะได้ผลลัพธ์แบบเดียวกันโดยหลักการ

HH=pilnpipiln(piΔp)+pjlnpjpjln(pj+Δp)
= - ln ( 1 - Δ p / p ) - ln ( 1 + Δ p / p ) > 0
=plnppln[p(1Δp/p)]+plnppln[p(1+Δp/p)]
=ln(1Δp/p)ln(1+Δp/p)>0

UPDATE 2: เฉลี่ยของตัวแปรสุ่มเครื่องแบบเป็นตัวแปรสุ่มตัวเองและก็มาจากการกระจายเบตส์ จากCLTเรารู้ว่านี้ตัวแปรสุ่มใหม่ shrinks แปรปรวนเป็นnดังนั้นความไม่แน่นอนของที่ตั้งจะต้องลดลงเมื่อเพิ่มขึ้นใน : เรามั่นใจมากขึ้นว่าแมวอยู่ตรงกลาง เนื้อเรื่องต่อไปของฉันและรหัส MATLAB แสดงให้เห็นว่าเอนโทรปีลดลงจาก 0 สำหรับ (การกระจายแบบสม่ำเสมอ) เป็นได้อย่างไร ฉันใช้ดิสทริบิวชัน 31ที่นี่n n n = 1 n = 13nnnn=1n=13

ป้อนคำอธิบายรูปภาพที่นี่

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'

1
(+1) ฉันจะรอดูการตีความอื่น ๆ แต่ฉันชอบอันนี้มาก ดังนั้นดูเหมือนว่าจะสามารถใช้ประโยชน์จากเอนโทรปีในการวัดความแน่นอนที่คุณต้องการเปรียบเทียบกับการแจกแจงแบบอื่นได้หรือไม่? คือตัวเลขไม่ได้บอกอะไรมากมาย
RustyStatistician

1
@RealStatistician ฉันจะไม่บอกว่าค่าสัมบูรณ์ของมันนั้นไร้ความหมายโดยสิ้นเชิง แต่ใช่มันมีประโยชน์มากที่สุดเมื่อใช้เปรียบเทียบสถานะของระบบ วิธีง่าย ๆ ในการจัดระเบียบเอนโทรปีคือการคิดว่ามันเป็นตัวชี้วัดความไม่แน่นอน
Aksakal

ปัญหาของคำตอบนี้คือคำว่า "ความไม่แน่นอน" นั้นไม่ได้ถูกกำหนดไว้
kjetil b halvorsen

1
คำนี้ไม่มีความแน่นอน
อักซากาล

นี่เป็นสิ่งที่ดีมาก
Astrid

1

ฉันต้องการเพิ่มคำตอบที่ตรงไปตรงมาสำหรับคำถามนี้:

ปริมาณนั้นบอกอะไรฉันจริง ๆ

log1p(x)

Elog1p(x)=p(x)log1p(x)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.