นี่ไม่ใช่สนามของฉันจริงๆดังนั้นบาง musings:
ฉันจะเริ่มต้นด้วยแนวคิดของความประหลาดใจ มันประหลาดใจอย่างไร? โดยปกติหมายถึงสิ่งที่เกิดขึ้นที่ไม่คาดว่าจะเกิดขึ้น ดังนั้นน่าแปลกใจที่มันเป็นแนวคิดที่น่าจะเป็นและสามารถอธิบายได้เช่นนี้ (IJ Good เขียนเกี่ยวกับเรื่องนี้) ดูยังวิกิพีเดียและแบบเบย์เซอร์ไพร์ส
ใช้กรณีเฉพาะของสถานการณ์ใช่ / ไม่ใช่สิ่งที่สามารถเกิดขึ้นได้หรือไม่ มันเกิดขึ้นกับความน่าจะพีพูดถ้า p = 0.9 และมันเกิดขึ้นคุณไม่แปลกใจจริงๆ ถ้าและมันเกิดขึ้นคุณค่อนข้างแปลกใจ และถ้าเกิดขึ้นคุณก็แปลกใจจริงๆ ดังนั้นการวัดตามธรรมชาติของ "ค่าความประหลาดใจในผลการสังเกต" คือฟังก์ชันโมโนโทนเดียว (ต่อต้าน) ของความน่าจะเป็นของสิ่งที่เกิดขึ้น ดูเหมือนว่าเป็นธรรมชาติ (และทำงานได้ดี ... ) เพื่อหาลอการิทึมของความน่าจะเป็นของสิ่งที่เกิดขึ้นแล้วเราก็ใส่เครื่องหมายลบเพื่อรับจำนวนบวก นอกจากนี้โดยการลอการิทึมที่เรามีสมาธิในการสั่งซื้อของความประหลาดใจและในทางปฏิบัติมักจะน่าจะเป็นที่รู้จักกันเท่านั้นถึงการสั่งซื้อมากหรือน้อยpp=0.05p=0.0000001
ดังนั้นเราจึงกำหนด
โดยที่คือผลลัพธ์ที่สังเกตได้และคือความน่าจะเป็น Surprise(A)=−logp(A)
Ap(A)
ตอนนี้เราสามารถขอให้สิ่งที่เป็นความประหลาดใจที่คาดหวัง ให้เป็นตัวแปรสุ่ม Bernoulli กับความน่าจะพีมันอาจมีสองผลลัพธ์ 0 และ 1 ค่าความประหลาดใจนั้นคือ
ดังนั้นความประหลาดใจเมื่อสังเกตเป็นตัวแปรสุ่มที่มีความคาดหวัง
และนั่นคือ - - แปลกใจ! --- เอนโทรปีของ ! ดังนั้นเอนโทรปีจึงคาดว่าน่าประหลาดใจ !XpSurprise(0)Surprise(1)=−log(1−p)=−logp
Xp⋅−logp+(1−p)⋅−log(1−p)
X
ตอนนี้คำถามนี้เป็นเรื่องเกี่ยวกับเอนโทรปีสูงสุด ทำไมทุกคนต้องการใช้การกระจายเอนโทรปีสูงสุด? ก็ต้องเป็นเพราะพวกเขาต้องการที่จะประหลาดใจที่สุด! ทำไมทุกคนต้องการสิ่งนั้น
วิธีดูเป็นต่อไปนี้: คุณต้องการเรียนรู้เกี่ยวกับบางสิ่งและไปยังเป้าหมายที่คุณตั้งค่าประสบการณ์การเรียนรู้ (หรือการทดลอง ... ) หากคุณรู้ทุกอย่างเกี่ยวกับหัวข้อนี้แล้วคุณสามารถคาดเดาได้อย่างสมบูรณ์แบบเสมอดังนั้นจึงไม่แปลกใจ ถ้าอย่างนั้นคุณก็ไม่เคยได้รับประสบการณ์ใหม่ดังนั้นอย่าเรียนรู้สิ่งใหม่ ๆ (แต่คุณรู้ทุกอย่างแล้ว --- ไม่มีอะไรต้องเรียนรู้ ในสถานการณ์ทั่วไปที่คุณสับสนไม่สามารถทำนายได้อย่างสมบูรณ์มีโอกาสเรียนรู้! สิ่งนี้นำไปสู่ความคิดที่ว่าเราสามารถวัด "จำนวนการเรียนรู้ที่เป็นไปได้" โดยความประหลาดใจที่คาดไว้นั่นคือเอนโทรปี ดังนั้นการเพิ่มเอนโทรปีให้มากที่สุดจึงไม่ใช่เรื่องอื่นนอกจากการเพิ่มโอกาสในการเรียนรู้ให้สูงสุด. ฟังดูเหมือนแนวคิดที่มีประโยชน์ซึ่งอาจมีประโยชน์ในการออกแบบการทดลองและสิ่งต่าง ๆ
ตัวอย่างบทกวีเป็นที่รู้จักกันดี
Wenn einer eine reise macht, dann kann er was erzählen ...
ตัวอย่างหนึ่งที่ใช้งานได้จริง: คุณต้องการออกแบบระบบสำหรับการทดสอบออนไลน์ (หมายถึงออนไลน์ที่ไม่ใช่ทุกคนที่ได้รับคำถามเดียวกันคำถามจะถูกเลือกแบบไดนามิกขึ้นอยู่กับคำตอบก่อนหน้าดังนั้นปรับให้เหมาะสมที่สุดสำหรับแต่ละบุคคล)
หากคุณทำคำถามยากเกินไปพวกเขาจะไม่เชี่ยวชาญคุณจะไม่ได้เรียนรู้อะไรเลย นั่นหมายความว่าคุณต้องลดระดับความยาก ระดับความยากที่เหมาะสมที่สุดคืออะไรระดับความยากซึ่งเพิ่มอัตราการเรียนรู้ให้สูงสุด ให้น่าจะเป็นของคำตอบที่ถูก พ.ศ. พีเราต้องการค่าของที่เพิ่มค่าเอนโทรปีของเบอร์นูลลีให้สูงสุด แต่ที่เป็นpดังนั้นคุณจึงตั้งคำถามที่ความน่าจะเป็นที่จะได้คำตอบที่ถูกต้อง (จากบุคคลนั้น) คือ 0.5ppp=0.5
แล้วกรณีที่มีอย่างต่อเนื่องสุ่มตัวแปรXวิธีที่เราสามารถจะประหลาดใจโดยการสังเกต ? ความน่าจะเป็นของผลลัพธ์ใด ๆ โดยเฉพาะคือศูนย์, คำจำกัดความไม่มีประโยชน์ แต่เราจะแปลกใจถ้าความน่าจะเป็นที่สังเกตบางอย่างเช่นนั้นเล็กนั่นคือถ้าค่าฟังก์ชันความหนาแน่นมีค่าน้อย (สมมติว่านั้นต่อเนื่อง) นั่นนำไปสู่คำนิยาม
ด้วยคำจำกัดความความประหลาดใจที่คาดหวังจากการสังเกตคือ
XX{X=x}−logpxf(x)fSurprise(x)=−logf(x)
XE{−logf(X)}=−∫f(x)logf(x)dx
นั่นคือความประหลาดใจที่คาดหวังจากการสังเกตเป็นเอนโทรปีค่าของXนอกจากนี้ยังสามารถมองได้ว่าเป็นลอจิคัลที่คาดหวังXX
แต่นี่ไม่ใช่สิ่งเดียวกับเหตุการณ์กรณีแรก เห็นด้วยเช่นกัน ปล่อยให้ตัวแปรสุ่มแสดงความยาวของการขว้างก้อนหิน (พูดในการแข่งขันกีฬา) ในการวัดความยาวนั้นเราต้องเลือกหน่วยความยาวเนื่องจากไม่มีขนาดที่แท้จริงถึงความยาวเนื่องจากมีความน่าจะเป็น เราสามารถวัดหน่วยเป็นมิลลิเมตรหรือเป็นกิโลเมตรหรือมากกว่านั้นเป็นหน่วยเมตร แต่คำจำกัดความความประหลาดใจของเราจึงคาดว่าน่าประหลาดใจขึ้นอยู่กับหน่วยที่เลือกดังนั้นจึงไม่มีค่าคงที่ ด้วยเหตุผลดังกล่าวค่าของเอนโทรปีต่างกันไม่ได้เปรียบเทียบโดยตรงกับวิธีที่แชนนอนเอนโทรปีคือ มันอาจยังมีประโยชน์ถ้าใครจำปัญหานี้ได้X