การตีความทางสถิติของการกระจายเอนโทรปีสูงสุด


23

ฉันได้ใช้หลักการของเอนโทรปีสูงสุดเพื่อแสดงให้เห็นถึงการใช้การแจกแจงหลายอย่างในการตั้งค่าต่างๆ อย่างไรก็ตามฉันยังไม่สามารถกำหนดสถิติได้ซึ่งตรงกันข้ามกับข้อมูลทางทฤษฎีและการตีความเอนโทรปีสูงสุด กล่าวอีกนัยหนึ่งการเพิ่มค่าเอนโทรปีให้มากที่สุดหมายถึงคุณสมบัติทางสถิติของการแจกแจงอย่างไร

มีใครวิ่งข้ามหรืออาจค้นพบตัวเองตีความทางสถิติของสูงสุด การกระจายของเอนโทรปีที่ไม่ได้ดึงดูดข้อมูล แต่เป็นเพียงแนวคิดที่น่าจะเป็น?

เป็นตัวอย่างของการตีความดังกล่าว (ไม่จำเป็นต้องเป็นจริง): "สำหรับช่วงเวลาของความยาว L ตามอำเภอใจบนโดเมนของ RV (สมมติว่า 1-d ต่อเนื่องเพื่อความเรียบง่าย) ความน่าจะเป็นสูงสุดที่สามารถอยู่ในช่วงเวลานี้จะลดลง โดยการกระจายเอนโทรปีสูงสุด "

ดังนั้นคุณจะเห็นว่าไม่มีการพูดคุยเกี่ยวกับ "ความเป็นสารสนเทศ" หรือแนวคิดทางปรัชญาอื่น ๆ


3
ฉันคิดว่าคุณต้องเจาะจงมากขึ้นเกี่ยวกับสิ่งที่คุณกำลังมองหา: เอนโทรปีคืออะไรหลังจากเป็น "สถิติ" การวัดความแปรปรวน ฯลฯ ดังนั้นการกระจายเอนโทรปีสูงสุดทำให้เอนโทรปีสูงสุดเป็นคำอธิบายทางสถิติที่สมบูรณ์แบบ ดังนั้นสำหรับฉันคุณต้องออกไปข้างนอกสถิติเพื่อหา "เหตุผล"
seanv507

1
Seanv: ฉันยอมรับว่าเอนโทรปีในฐานะสถิติเชิงการทำงานเป็นเพียง "สถิติ" เท่าความแปรปรวนค่าคาดหวังความเบ้เป็นต้นอย่างไรก็ตามการใช้ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเป็นตัวอย่าง หนึ่งในจำนวนของทฤษฎีบทขีด จำกัด กลางและยังสังหรณ์ใจเป็นผลรวมระยะยาว (สำหรับค่าเฉลี่ย) และข้อผิดพลาด RMS (สำหรับค่าเบี่ยงเบนมาตรฐาน) ฉันควรจะทบทวนคำถามของฉันอีกครั้งเพื่ออ่าน "การตีความความน่าจะเป็นของการแจกแจงเอนโทรปีสูงสุด"
Annika

1
Annika, การกระจายเอนโทรปีสูงสุดมีการตีความดังต่อไปนี้: ถ้าเป็นตัวแปรสุ่มของ iid ดังนั้นความไม่สมดุลของเงื่อนไขเหมือนที่คือการกระจายเอนโทรปีสูงสุดจากชุดที่\} ดูเพิ่มเติมieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1P ( | X 1 + + X n = n a ) P ( ) n P { P : EX1,X2,P(|X1++Xn=na)P()nP{P:EPX=a}
Ashok

2
ขอบคุณ Ashok ดูรายละเอียดเพิ่มเติมในกระดาษ ดูเหมือนว่ากรณีเฉพาะของการเพิ่มเอนโทรปีสำหรับค่าเฉลี่ยที่กำหนด แต่ฉันก็ยังสงสัยว่าการดำเนินการเพิ่มเอนโทรปีของ Shanon ให้มากที่สุดนั้นกำลังทำอะไรในเชิงคณิตศาสตร์ มันลดความหนาแน่นสูงสุดหรือความเข้มข้นเฉลี่ยของการวัดความน่าจะเป็นได้อย่างมีประสิทธิภาพหรือไม่
Annika

คำตอบ:


19

นี่ไม่ใช่สนามของฉันจริงๆดังนั้นบาง musings:

ฉันจะเริ่มต้นด้วยแนวคิดของความประหลาดใจ มันประหลาดใจอย่างไร? โดยปกติหมายถึงสิ่งที่เกิดขึ้นที่ไม่คาดว่าจะเกิดขึ้น ดังนั้นน่าแปลกใจที่มันเป็นแนวคิดที่น่าจะเป็นและสามารถอธิบายได้เช่นนี้ (IJ Good เขียนเกี่ยวกับเรื่องนี้) ดูยังวิกิพีเดียและแบบเบย์เซอร์ไพร์ส

ใช้กรณีเฉพาะของสถานการณ์ใช่ / ไม่ใช่สิ่งที่สามารถเกิดขึ้นได้หรือไม่ มันเกิดขึ้นกับความน่าจะพีพูดถ้า p = 0.9 และมันเกิดขึ้นคุณไม่แปลกใจจริงๆ ถ้าและมันเกิดขึ้นคุณค่อนข้างแปลกใจ และถ้าเกิดขึ้นคุณก็แปลกใจจริงๆ ดังนั้นการวัดตามธรรมชาติของ "ค่าความประหลาดใจในผลการสังเกต" คือฟังก์ชันโมโนโทนเดียว (ต่อต้าน) ของความน่าจะเป็นของสิ่งที่เกิดขึ้น ดูเหมือนว่าเป็นธรรมชาติ (และทำงานได้ดี ... ) เพื่อหาลอการิทึมของความน่าจะเป็นของสิ่งที่เกิดขึ้นแล้วเราก็ใส่เครื่องหมายลบเพื่อรับจำนวนบวก นอกจากนี้โดยการลอการิทึมที่เรามีสมาธิในการสั่งซื้อของความประหลาดใจและในทางปฏิบัติมักจะน่าจะเป็นที่รู้จักกันเท่านั้นถึงการสั่งซื้อมากหรือน้อยpp=0.05p=0.0000001

ดังนั้นเราจึงกำหนด โดยที่คือผลลัพธ์ที่สังเกตได้และคือความน่าจะเป็น

Surprise(A)=logp(A)
Ap(A)

ตอนนี้เราสามารถขอให้สิ่งที่เป็นความประหลาดใจที่คาดหวัง ให้เป็นตัวแปรสุ่ม Bernoulli กับความน่าจะพีมันอาจมีสองผลลัพธ์ 0 และ 1 ค่าความประหลาดใจนั้นคือ ดังนั้นความประหลาดใจเมื่อสังเกตเป็นตัวแปรสุ่มที่มีความคาดหวัง และนั่นคือ - - แปลกใจ! --- เอนโทรปีของ ! ดังนั้นเอนโทรปีจึงคาดว่าน่าประหลาดใจ !Xp

Surprise(0)=log(1p)Surprise(1)=logp
X
plogp+(1p)log(1p)
X

ตอนนี้คำถามนี้เป็นเรื่องเกี่ยวกับเอนโทรปีสูงสุด ทำไมทุกคนต้องการใช้การกระจายเอนโทรปีสูงสุด? ก็ต้องเป็นเพราะพวกเขาต้องการที่จะประหลาดใจที่สุด! ทำไมทุกคนต้องการสิ่งนั้น

วิธีดูเป็นต่อไปนี้: คุณต้องการเรียนรู้เกี่ยวกับบางสิ่งและไปยังเป้าหมายที่คุณตั้งค่าประสบการณ์การเรียนรู้ (หรือการทดลอง ... ) หากคุณรู้ทุกอย่างเกี่ยวกับหัวข้อนี้แล้วคุณสามารถคาดเดาได้อย่างสมบูรณ์แบบเสมอดังนั้นจึงไม่แปลกใจ ถ้าอย่างนั้นคุณก็ไม่เคยได้รับประสบการณ์ใหม่ดังนั้นอย่าเรียนรู้สิ่งใหม่ ๆ (แต่คุณรู้ทุกอย่างแล้ว --- ไม่มีอะไรต้องเรียนรู้ ในสถานการณ์ทั่วไปที่คุณสับสนไม่สามารถทำนายได้อย่างสมบูรณ์มีโอกาสเรียนรู้! สิ่งนี้นำไปสู่ความคิดที่ว่าเราสามารถวัด "จำนวนการเรียนรู้ที่เป็นไปได้" โดยความประหลาดใจที่คาดไว้นั่นคือเอนโทรปี ดังนั้นการเพิ่มเอนโทรปีให้มากที่สุดจึงไม่ใช่เรื่องอื่นนอกจากการเพิ่มโอกาสในการเรียนรู้ให้สูงสุด. ฟังดูเหมือนแนวคิดที่มีประโยชน์ซึ่งอาจมีประโยชน์ในการออกแบบการทดลองและสิ่งต่าง ๆ

ตัวอย่างบทกวีเป็นที่รู้จักกันดี

Wenn einer eine reise macht, dann kann er was erzählen ...

ตัวอย่างหนึ่งที่ใช้งานได้จริง: คุณต้องการออกแบบระบบสำหรับการทดสอบออนไลน์ (หมายถึงออนไลน์ที่ไม่ใช่ทุกคนที่ได้รับคำถามเดียวกันคำถามจะถูกเลือกแบบไดนามิกขึ้นอยู่กับคำตอบก่อนหน้าดังนั้นปรับให้เหมาะสมที่สุดสำหรับแต่ละบุคคล)

หากคุณทำคำถามยากเกินไปพวกเขาจะไม่เชี่ยวชาญคุณจะไม่ได้เรียนรู้อะไรเลย นั่นหมายความว่าคุณต้องลดระดับความยาก ระดับความยากที่เหมาะสมที่สุดคืออะไรระดับความยากซึ่งเพิ่มอัตราการเรียนรู้ให้สูงสุด ให้น่าจะเป็นของคำตอบที่ถูก พ.ศ. พีเราต้องการค่าของที่เพิ่มค่าเอนโทรปีของเบอร์นูลลีให้สูงสุด แต่ที่เป็นpดังนั้นคุณจึงตั้งคำถามที่ความน่าจะเป็นที่จะได้คำตอบที่ถูกต้อง (จากบุคคลนั้น) คือ 0.5ppp=0.5

แล้วกรณีที่มีอย่างต่อเนื่องสุ่มตัวแปรXวิธีที่เราสามารถจะประหลาดใจโดยการสังเกต ? ความน่าจะเป็นของผลลัพธ์ใด ๆ โดยเฉพาะคือศูนย์, คำจำกัดความไม่มีประโยชน์ แต่เราจะแปลกใจถ้าความน่าจะเป็นที่สังเกตบางอย่างเช่นนั้นเล็กนั่นคือถ้าค่าฟังก์ชันความหนาแน่นมีค่าน้อย (สมมติว่านั้นต่อเนื่อง) นั่นนำไปสู่คำนิยาม ด้วยคำจำกัดความความประหลาดใจที่คาดหวังจากการสังเกตคือ XX{X=x}logpxf(x)f

Surprise(x)=logf(x)
X
E{logf(X)}=f(x)logf(x)dx
นั่นคือความประหลาดใจที่คาดหวังจากการสังเกตเป็นเอนโทรปีค่าของXนอกจากนี้ยังสามารถมองได้ว่าเป็นลอจิคัลที่คาดหวังXX

แต่นี่ไม่ใช่สิ่งเดียวกับเหตุการณ์กรณีแรก เห็นด้วยเช่นกัน ปล่อยให้ตัวแปรสุ่มแสดงความยาวของการขว้างก้อนหิน (พูดในการแข่งขันกีฬา) ในการวัดความยาวนั้นเราต้องเลือกหน่วยความยาวเนื่องจากไม่มีขนาดที่แท้จริงถึงความยาวเนื่องจากมีความน่าจะเป็น เราสามารถวัดหน่วยเป็นมิลลิเมตรหรือเป็นกิโลเมตรหรือมากกว่านั้นเป็นหน่วยเมตร แต่คำจำกัดความความประหลาดใจของเราจึงคาดว่าน่าประหลาดใจขึ้นอยู่กับหน่วยที่เลือกดังนั้นจึงไม่มีค่าคงที่ ด้วยเหตุผลดังกล่าวค่าของเอนโทรปีต่างกันไม่ได้เปรียบเทียบโดยตรงกับวิธีที่แชนนอนเอนโทรปีคือ มันอาจยังมีประโยชน์ถ้าใครจำปัญหานี้ได้X


5
นี่เป็นหนึ่งในคำอธิบายที่ดีที่สุดและใช้งานง่ายของเอนโทรปีสูงสุดที่ฉันเคยเห็น!
Vladislavs Dovgalecs

3

แม้ว่าจะไม่ใช่ผู้เชี่ยวชาญด้านทฤษฎีสารสนเทศและเอนโทรปีสูงสุด แต่ฉันก็สนใจมันซักพัก

เอนโทรปีคือการวัดความไม่แน่นอนของการแจกแจงความน่าจะเป็นซึ่งได้มาตามเกณฑ์ที่กำหนด มันและมาตรการที่เกี่ยวข้องกับลักษณะการแจกแจงความน่าจะเป็น และเป็นมาตรการที่ไม่เหมือนใครซึ่งตรงตามเกณฑ์เหล่านั้น สิ่งนี้คล้ายกับกรณีของความน่าจะเป็นซึ่งตามที่อธิบายไว้อย่างสวยงามใน Jaynes (2003) เป็นมาตรการพิเศษที่เป็นไปตามเกณฑ์ที่พึงประสงค์บางประการสำหรับการวัดความไม่แน่นอนของข้อความเชิงตรรกะใด ๆ

การวัดความไม่แน่นอนอื่น ๆ ของการแจกแจงความน่าจะเป็นที่แตกต่างจากเอนโทรปีจะต้องละเมิดหนึ่งหรือหลายเกณฑ์ที่ใช้ในการกำหนดเอนโทรปี ดังนั้นถ้าคุณมีคำสั่งทั่วไปในแง่ของความน่าจะเป็นที่ให้ผลลัพธ์แบบเดียวกับเอนโทรปีสูงสุด ... ก็จะเป็นเอนโทรปีสูงสุด!

สิ่งที่ใกล้เคียงที่สุดที่ฉันสามารถค้นหาได้จากข้อความน่าจะเป็นเกี่ยวกับการแจกแจงแบบเอนโทรปีสูงสุดคือทฤษฎีบทสมาธิของเจย์เนส คุณสามารถค้นหาได้อธิบายอย่างชัดเจนใน Kapur และ Kesavan (1992) นี่คือการประกาศหลวม:

เราต้องการการกระจายความน่าจะเป็นแบบแยกโดยบนผลลัพธ์นั่นก็คือเราต้อง , n เรามีข้อ จำกัดที่การแจกแจงความน่าจะเป็นของเราต้องเป็นไปตามนั้น นอกจากนี้เนื่องจากความน่าจะเป็นต้องเพิ่มเป็น 1 เราจึงมีข้อ จำกัดทั้งหมดpnpii=1,...,nmm+1

ปล่อยให้เป็นเอนโทรปีของการแจกแจงที่สอดคล้องกับข้อ จำกัดและให้เป็นเอนโทรปีของการกระจายเอนโทรปีสูงสุดSm+1Smax

เมื่อขนาดของชุดการสังเกตเพิ่มขึ้นเรามี N

2N(SmaxS)χnm12.

ด้วยสิ่งนี้ช่วงเวลาของเอนโทรปี 95% ถูกกำหนดเป็น ดังนั้นการแจกแจงแบบอื่นใดที่ตอบสนองข้อ จำกัด เดียวกันกับการแจกเอนโทรปีสูงสุดมีโอกาส 95% ที่จะมีค่าเอนโทรปีมากกว่า{} Sสูงสุด-χ 2 n - m - 1 (0.95)

(Smaxχnm12(0.95)2N,Smax).
Smaxχnm12(0.95)2N

ET Jaynes (2003) ทฤษฎีความน่าจะเป็น: ตรรกะของวิทยาศาสตร์ สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

JN Kapur และ. K Kesavan (1992) หลักการเพิ่มประสิทธิภาพเอนโทรปีกับแอปพลิเคชัน Academic Press, Inc.


3

บางทีอาจไม่ใช่สิ่งที่คุณเป็น แต่ใน Rissanen, J. Stochastic Complexity ในการสอบสวนทางสถิติ , World Scientific, 1989, p. 41 มีการเชื่อมต่อที่น่าสนใจของเอนโทรปีสูงสุดการแจกแจงแบบปกติและทฤษฎีขีด จำกัด กลาง ในบรรดาความหนาแน่นทั้งหมดที่มีค่าเฉลี่ยเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานความหนาแน่นปกติมีค่าเอนโทรปีสูงสุดσ

"ดังนั้นในการตีความนี้ทฤษฎีบทขีด จำกัด กลางขั้นพื้นฐานเป็นการแสดงออกถึงความจริงที่ว่าเอนโทรปีของสัญลักษณ์ของผลรวมของตัวแปรสุ่มอิสระที่มีค่าเฉลี่ยเป็นศูนย์และความแปรปรวนร่วมกันมีแนวโน้มที่จะสูงสุด กฎข้อที่สองของอุณหพลศาสตร์ซึ่ง Eddington มองว่าเป็น 'ตำแหน่งสูงสุดท่ามกลางกฎแห่งธรรมชาติ' "

ฉันยังไม่ได้สำรวจความหมายของเรื่องนี้และฉันแน่ใจว่าฉันเข้าใจพวกเขาอย่างเต็มที่

[แก้ไข: แก้ไขข้อผิดพลาด]

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.