เอนโทรปีของแชนนอนนั้นเป็นผลลบของผลรวมของความน่าจะเป็นของผลลัพธ์แต่ละรายการคูณด้วยลอการิทึมของความน่าจะเป็นสำหรับแต่ละผลลัพธ์ ลอการิทึมมีจุดประสงค์อะไรในสมการนี้
คำตอบที่ใช้งานง่ายหรือภาพ (ตรงข้ามกับคำตอบทางคณิตศาสตร์อย่างลึกซึ้ง) จะได้รับคะแนนโบนัส!
เอนโทรปีของแชนนอนนั้นเป็นผลลบของผลรวมของความน่าจะเป็นของผลลัพธ์แต่ละรายการคูณด้วยลอการิทึมของความน่าจะเป็นสำหรับแต่ละผลลัพธ์ ลอการิทึมมีจุดประสงค์อะไรในสมการนี้
คำตอบที่ใช้งานง่ายหรือภาพ (ตรงข้ามกับคำตอบทางคณิตศาสตร์อย่างลึกซึ้ง) จะได้รับคะแนนโบนัส!
คำตอบ:
เอนโทรปีของแชนนอนเป็นปริมาณที่สร้างความพึงพอใจให้กับชุดของความสัมพันธ์
ในระยะสั้นลอการิทึมจะทำให้มันเติบโตเป็นเส้นตรงกับขนาดของระบบและ "ทำตัวเหมือนข้อมูล"
วิธีแรกที่เอนโทรปีของการโยนเหรียญครั้งคือคูณเอนโทรปีของการโยนเหรียญ:
หรือเพื่อดูว่ามันทำงานอย่างไรเมื่อโยนสองเหรียญที่แตกต่างกัน (อาจไม่ยุติธรรม - โดยมีหัวที่มีความน่าจะเป็นและก้อยสำหรับเหรียญแรกและและเป็นครั้งที่สอง)
ดังนั้นคุณสมบัติของลอการิทึม (ลอการิทึมของผลิตภัณฑ์คือผลรวม ของลอการิทึม) มีความสำคัญ
แต่Rényiเอนโทรปีมีคุณสมบัตินี้ (มันเป็นเอนโทรปี parametrized ด้วยจำนวนจริงซึ่งกลายเป็นนอนส์เอนโทรปีสำหรับ )
อย่างไรก็ตามนี่คือคุณสมบัติที่สอง - เอนโทรปีของแชนนอนนั้นเป็นสิ่งพิเศษเนื่องจากเกี่ยวข้องกับข้อมูล ที่จะได้รับความรู้สึกที่ใช้งานง่ายบางอย่างที่คุณสามารถดู
เป็นค่าเฉลี่ยของp)
เราสามารถเรียกข้อมูล ทำไม? เพราะถ้าเหตุการณ์ทั้งหมดเกิดขึ้นกับความน่าจะเป็นหมายความว่ามีเหตุการณ์เพื่อบอกว่าเหตุการณ์ใดเกิดขึ้นเราต้องใช้บิต (แต่ละบิตเพิ่มจำนวนเหตุการณ์ที่เราสามารถแยกได้เป็นสองเท่า)
คุณอาจรู้สึกกังวล "ตกลงถ้าเหตุการณ์ทั้งหมดมีความน่าจะเป็นแบบเดียวกันมันก็สมเหตุสมผลที่จะใช้เป็นตัวชี้วัดของข้อมูล แต่ถ้าไม่ใช่เหตุการณ์นั้นทำไมข้อมูลเฉลี่ยถึงสมเหตุสมผล?" - และมันเป็นเรื่องธรรมชาติ
แต่มันกลับกลายเป็นว่ามันทำให้รู้สึก - แหล่งที่มานอนส์เข้ารหัสทฤษฎีบทบอกว่าสตริงที่มีตัวอักษร uncorrelted กับความน่าจะเป็นความยาวไม่สามารถบีบอัด (โดยเฉลี่ย) สตริงไบนารีสั้นกว่าH และในความเป็นจริงเราสามารถใช้Huffman การเข้ารหัสในการบีบอัดสตริงและได้รับมากใกล้เคียงกับHn H
ดูสิ่งนี้ด้วย:
นี่เป็นคำตอบเดียวกับคำตอบอื่น ๆ แต่ฉันคิดว่าวิธีที่ดีที่สุดในการอธิบายก็คือดูว่า Shannon พูดอะไรในเอกสารต้นฉบับของเขา
การวัดลอการิทึมสะดวกกว่าด้วยเหตุผลหลายประการ:
- มันมีประโยชน์มากกว่า พารามิเตอร์ที่มีความสำคัญทางวิศวกรรมเช่นเวลาแบนด์วิดท์จำนวนรีเลย์ ฯลฯ มีแนวโน้มที่จะแปรผันเป็นเส้นตรงกับลอการิทึมของจำนวนความเป็นไปได้ ตัวอย่างเช่นการเพิ่มหนึ่งรีเลย์ไปยังกลุ่มสองเท่าของจำนวนสถานะที่เป็นไปได้ของการถ่ายทอด มันจะเพิ่ม 1 เข้ากับลอการิทึมฐาน 2 ของจำนวนนี้ การเพิ่มเวลาเป็นสองเท่าโดยประมาณกำลังสองของจำนวนข้อความที่เป็นไปได้หรือเพิ่มลอการิทึมเป็นสองเท่าเป็นต้น
- มันใกล้เคียงกับความรู้สึกที่เราหยั่งรู้ถึงมาตรการที่เหมาะสม สิ่งนี้เกี่ยวข้องอย่างใกล้ชิดกับ (1) เนื่องจากเราวัดหน่วยงานโดยการเปรียบเทียบเชิงเส้นตรงกับมาตรฐานทั่วไป ตัวอย่างเช่นความรู้สึกหนึ่งว่าการ์ดที่ถูกเจาะสองแผ่นควรมีความจุหนึ่งการ์ดสำหรับจัดเก็บข้อมูลและสองช่องที่เหมือนกันสองเท่าของความจุหนึ่งสำหรับการส่งข้อมูล
- มันเหมาะสมทางคณิตศาสตร์มากขึ้น การดำเนินการ จำกัด จำนวนมากนั้นง่ายในแง่ของลอการิทึม แต่จะต้องมีการซ้ำซ้อนเงอะงะในแง่ของจำนวนของความเป็นไปได้
แหล่งที่มา: แชนนอนทฤษฎีการสื่อสารทางคณิตศาสตร์ (2491) [ pdf ]
โปรดทราบว่าเอนโทรปีของแชนนอนนั้นเกิดขึ้นกับกิ๊บส์เอนโทรปีของกลศาสตร์เชิงสถิติและยังมีคำอธิบายว่าทำไมบันทึกจึงเกิดขึ้นในเอนโทรปีของกิ๊บส์ ในกลศาสตร์สถิติเอนโทรปีควรจะเป็นตัวชี้วัดจำนวนของรัฐที่เป็นไปได้ที่ระบบสามารถพบได้ เหตุผลที่เข้าสู่ระบบΩจะดีกว่าΩเป็นเพราะΩมักจะเป็นฟังก์ชั่นที่เติบโตอย่างรวดเร็วมากของการขัดแย้งของตนและจึงไม่สามารถประมาณประโยชน์จากการขยายตัวของเทย์เลอร์ในขณะที่เข้าสู่ระบบΩสามารถ (ฉันไม่รู้ว่านี่เป็นแรงบันดาลใจดั้งเดิมในการบันทึกหรือไม่ แต่มันถูกอธิบายด้วยวิธีนี้ในหนังสือฟิสิกส์เบื้องต้น)
นี่คือคำอธิบายแบบปิดข้อมือ คุณสามารถบอกว่าหนังสือ 2 เล่มที่มีขนาดเท่ากันมีข้อมูลมากเป็นสองเท่าของหนังสือ 1 เล่มใช่ไหม? (พิจารณาว่าหนังสือเป็นสตริงของบิต) ถ้าผลลัพธ์ที่แน่นอนมีความน่าจะเป็น P คุณก็สามารถบอกได้ว่าเนื้อหาข้อมูลนั้นเกี่ยวกับจำนวนบิตที่คุณต้องเขียน 1 / P (เช่นถ้า P = 1/256 นั่นคือ 8 บิต) เอนโทรปีเป็นเพียงค่าเฉลี่ยของความยาวของบิตข้อมูลนั้นมากกว่าผลลัพธ์ทั้งหมด
แชนนอนให้หลักฐานทางคณิตศาสตร์ของผลที่ได้รับอย่างทั่วถึงและได้รับการยอมรับอย่างกว้างขวาง วัตถุประสงค์และความสำคัญของลอการิทึมในสมการเอนโทรปีจึงอยู่ในตัวเองภายใต้สมมติฐานและข้อพิสูจน์
สิ่งนี้ไม่ทำให้เข้าใจง่าย แต่ท้ายที่สุดแล้วสาเหตุที่ลอการิทึมปรากฏขึ้น
ฉันพบว่าข้อมูลอ้างอิงต่อไปนี้มีประโยชน์นอกเหนือจากรายการที่อื่น:
ลงมือทำกันเถอะ:
import random
total_questions = 0
TOTAL_ROUNDS = 10000
for i in range(0,TOTAL_ROUNDS):
outcome = random.randrange(1,7)
total_questions += 1
if outcome > 3.5:
total_questions += 1
if outcome >= 5:
total_questions += 1
if outcome == 5:
pass
else:
# must be 6! no need to ask
pass
else:
# must be 4! no need to ask
pass
else:
total_questions += 1
if outcome >= 2:
total_questions += 1
if outcome == 2:
pass
else:
# must be 3! no need to ask
pass
else:
# must be 1! no need to ask
pass
print 'total questions: ' + str(total_questions)
print 'average questions per outcome: ' + str(total_questions/float(TOTAL_ROUNDS))
ผล:
total questions: 26634
average questions per outcome: 2.6634
เกิดอะไรขึ้น มันเกือบจะใกล้ แต่ไม่ได้จริงๆใกล้ที่สุดเท่าที่ฉันหวังว่า PRNG ของ Python พยายามพูดเรื่องตลกช้า ๆ หรือไม่? หรือแชนนอนนั้นผิดหรือเปล่า? หรือว่าพระเจ้าห้ามความเข้าใจของฉันผิด ไม่ว่าจะด้วยวิธีใดก็ตาม SOS เพื่อนแล้ว
คำถามนี้เกิดขึ้นเมื่อสองปีก่อนและมีคำตอบที่ยอดเยี่ยมมากมายอยู่แล้ว แต่ฉันต้องการเพิ่มของฉันซึ่งช่วยฉันได้มาก
คำถามคือ
ลอการิทึมมีจุดประสงค์อะไรในสมการนี้
ลอการิทึม (โดยปกติจะขึ้นอยู่กับ 2) เป็นเพราะความไม่เท่าเทียมกันของคราฟท์
ที่ใช้งานง่ายภาพประกอบและภาพคำตอบ (ตามที่คุณจำเป็นต้องมี แต่มากขึ้นโดยเฉพาะสำหรับคราฟท์ของความไม่เท่าเทียมกัน) เป็นเสียงก้องในบทความนี้รหัสต้นไม้และความไม่เท่าเทียมกันของคราฟท์
จากการที่คุณไม่ยอมรับคำตอบใด ๆ แล้วฉันคิดว่าสิ่งที่คุณกำลังมองหาคือเหตุผลที่แชนนอนใช้ลอการิทึมในสูตรของเขาตั้งแต่แรก ในคำอื่น ๆ ปรัชญาของมัน
การปฏิเสธความรับผิดชอบ : ฉันแค่ลงในช่องนี้เป็นเวลาหนึ่งสัปดาห์มาที่นี่เพราะมีคำถามเช่นเดียวกับคุณ หากคุณมีความรู้เพิ่มเติมเกี่ยวกับเรื่องนี้โปรดแจ้งให้เราทราบ
ฉันมีคำถามนี้หลังจากอ่านหนึ่งในเอกสารที่สำคัญที่สุดของ Ulanowicz, การเพิ่มเอนโทรปี: ตายด้วยความร้อนหรือความสามัคคีตลอดกาล? . นี่คือย่อหน้าที่อธิบายว่าทำไมสูตรมี -log (p) แทน (1-p):
ก่อนที่จะคลายความหมายอย่างเป็นทางการของการแยกเอนโทรปีใครจะเป็นคนชอบธรรมในการถามว่าทำไมไม่เลือก (1 - p) แทน [- log (p)] เป็นมาตรการที่เหมาะสมที่สุดในการไม่มีอยู่? คำตอบคือผลิตภัณฑ์ผลลัพธ์ด้วย p (นั่นคือ [p – p ^ 2]) สมมาตรอย่างสมบูรณ์รอบค่า p = 0.5 การคำนวณตามการรวมกันแบบสมมาตรจะสามารถอธิบายได้เพียงเอกภพที่กลับคืนได้ อย่างไรก็ตาม Boltzmann และ Gibbs กำลังพยายามหาจำนวนเอกภพกลับไม่ได้ โดยการเลือกฟังก์ชั่นลอการิทึมนูนเดียว univariate, Boltzmann จึงทำให้อคติที่ไม่เป็นอยู่ ตัวอย่างหนึ่งประกาศเช่นนั้นสูงสุด [–xlog {x}] = {1 / e} ≈ 0.37 ดังนั้นการวัดความไม่แน่นอนจะเบ้ไปทางค่าที่ต่ำกว่าของ pi
ดูเหมือนว่าแชนนอนเลือกลอการิทึมโดยไม่มีเหตุผล เขาแค่ "หลอมเหลว" ที่เขาควรใช้ลอการิทึม เหตุใดนิวตันจึงเลือกใช้การคูณในสูตรของเขา F = m * a
โปรดทราบว่าในเวลานั้นเขาไม่มีความคิดเกี่ยวกับเอนโทรปี :
ความกังวลที่ยิ่งใหญ่ที่สุดของฉันคือสิ่งที่เรียกว่า ฉันคิดว่าจะเรียกมันว่า 'ข้อมูล' แต่คำนี้ถูกใช้มากเกินไปดังนั้นฉันจึงตัดสินใจเรียกมันว่า 'ความไม่แน่นอน' เมื่อฉันพูดคุยกับจอห์นฟอนนอยมันน์เขามีความคิดที่ดีกว่า ฟอนนอยมันน์บอกฉันว่า 'คุณควรเรียกมันว่าเอนโทรปีด้วยเหตุผลสองประการ ในตอนแรกฟังก์ชั่นความไม่แน่นอนของคุณถูกใช้ในกลศาสตร์เชิงสถิติภายใต้ชื่อนั้นดังนั้นจึงมีชื่ออยู่แล้ว ในสถานที่ที่สองและที่สำคัญกว่านั้นไม่มีใครรู้ว่าเอนโทรปีคืออะไรดังนั้นในการอภิปรายคุณจะได้รับประโยชน์เสมอ
ดังนั้นคำตอบของฉันคือ: ไม่มีเหตุผลสำหรับสิ่งนี้ เขาเลือกสิ่งนี้เพราะมันใช้งานได้อย่างมหัศจรรย์
เอนโทรปีถูกกำหนดให้เป็นลอการิทึมของค่าเฉลี่ยเรขาคณิตของสัมประสิทธิ์ multinomial ที่แสดงจำนวนสถานะที่ระบบสามารถอยู่ใน:
ลอการิทึมปรากฏในสูตรหลังจากใช้การประมาณค่าของสเตอร์ลิง (ดู คำอธิบายนี้ )
บันทึกมาจากการได้มาของฟังก์ชัน H ซึ่งเป็นไปตามข้อกำหนดทางธรรมชาติบางอย่าง ดูหน้า 3 วินาที 2 จากแหล่งนี้:
http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf
เมื่อพิจารณาความจริงหากคุณดำเนินการปรับให้เหมาะสมคุณจะได้รับฟังก์ชั่นที่ไม่ซ้ำกัน (ไม่เกินค่าคงที่) โดยมีการเข้าสู่ระบบ
คำตอบทั้งหมดข้างต้นถูกต้องยกเว้นว่าพวกเขาตีความบันทึก แต่ไม่ได้อธิบายที่มาของบันทึก
ฉันเดาว่าคำถามของคุณเกี่ยวกับ "ความหมาย" ของลอการิทึมนั้นมากขึ้นและสาเหตุที่แต่ละองค์ประกอบก่อให้เกิดความหมายโดยรวมของสูตรมากกว่าการเป็นพิธีการเพียงแสดงความสอดคล้องของข้อกำหนดบางประการ
จากนี้ไปฉันจะพูดคุยว่า GENERALITY ส่งผลต่อสูตรเอนโทรปีสุดท้ายอย่างไร
ตอนนี้นั่งพักผ่อนและดูว่า Entropy ของแชนนอนทำกลอุบายได้อย่างไร: มันขึ้นอยู่กับข้อสมมติฐาน
เช่นฉันจะบอกว่าฝนตกเช่นกันถ้าเป็นฝนตกหนักหรือหนักมาก ดังนั้นเขาเสนอให้เข้ารหัส GENERALITY ของข้อความตามความถี่ที่พวกเขาเป็น ... และไปที่นั่น:
สมการสามารถตีความได้ว่า: ข้อความที่หายากจะมีการเข้ารหัสนานกว่าเพราะมันมีความทั่วไปน้อยกว่าดังนั้นพวกเขาจึงต้องการบิตที่จะเข้ารหัสมากขึ้นและให้ข้อมูลน้อยกว่า ดังนั้นการมีข้อความที่เฉพาะเจาะจงและหายากจะมีส่วนทำให้เอ็นโทรปีมากกว่าข้อความทั่วไปและบ่อยครั้ง
เอนโทรปีที่สูงที่สุดคือเมื่อเรามีระบบที่มีข้อความหายากและเฉพาะเจาะจงจำนวนมาก เอนโทรปีที่ต่ำที่สุดที่มีข้อความบ่อยและเป็นข้อความทั่วไป ในระหว่างนั้นเรามีสเปกตรัมของระบบที่เทียบเท่ากับเอนโทรปีซึ่งอาจมีทั้งข้อความหายากและข้อความทั่วไปหรือข้อความบ่อย แต่มีข้อความเฉพาะ
ฉันไม่คิดว่ามันเป็นไปได้ที่จะให้คำตอบ "ใช้งานง่าย" ที่เป็นสากล ฉันจะให้คำตอบที่ง่ายสำหรับบางคนเช่นนักฟิสิกส์ ลอการิทึมอยู่ที่นั่นเพื่อให้ได้พลังงานเฉลี่ยของระบบ นี่คือรายละเอียด
แชนนอนใช้คำว่า " เอนโทรปี " เพราะเขาดัดแปลงมาจากแนวคิดกลศาสตร์สถิติ ในกลศาสตร์เชิงสถิติจะมีการแจกแจงน้ำเชื้อชื่อ Boltzmann ที่น่าสนใจคือการกระจายที่สำคัญในขณะนี้ในการเรียนรู้ของเครื่อง!
ใช้งานง่ายพอสำหรับคุณหรือไม่ สำหรับฉัน แต่ฉันเป็นนักฟิสิกส์เชิงทฤษฎีในชีวิตที่ผ่านมา นอกจากนี้คุณสามารถไปที่ระดับลึกของปรีชาโดยเชื่อมโยงกับแนวคิดอุณหพลศาสตร์ที่เก่ากว่าเช่นอุณหภูมิและผลงานของ Boltzmann และ Clausius