ว้าวคำถามที่ดี! ฉันขออธิบายความละเอียด มันจะใช้เวลาสามขั้นตอนที่แตกต่างกัน
สิ่งแรกที่ควรทราบก็คือเอนโทรปีจะเน้นเพิ่มเติมเกี่ยวกับค่าเฉลี่ยของจำนวนบิตที่จำเป็นต่อการวาดไม่ได้จำนวนสูงสุดของบิตที่จำเป็น
ด้วยขั้นตอนการสุ่มตัวอย่างของคุณจำนวนบิตสุ่มสูงสุดที่ต้องการต่อการดึงคือบิต แต่จำนวนบิตเฉลี่ยที่ต้องการคือ 2 บิต (ค่าเฉลี่ยของการแจกแจงเชิงเรขาคณิตด้วย ) - นี่เป็นเพราะมีความน่าจะเป็นที่คุณต้องการเพียง 1 บิต (ถ้าบิตแรกกลายเป็น 1), ความน่าจะเป็นที่คุณต้องการเพียง 2 บิต (ถ้าสองบิตแรกกลายเป็น 01),ความน่าจะเป็นที่คุณต้องการเพียง 3 บิต (ถ้าสามบิตแรกกลายเป็น 001) และต่อไปNp=1/21/21/41/8
สิ่งที่สองที่ควรทราบคือเอนโทรปีไม่ได้จับจำนวนบิตเฉลี่ยที่จำเป็นสำหรับการวาดครั้งเดียว แต่เอนโทรปีจะจับจำนวนบิตที่ตัดจำหน่ายซึ่งจำเป็นในการสุ่มตัวอย่าง iid ซึ่งดึงมาจากการแจกแจงนี้ สมมติว่าเราต้องการบิตเพื่อสุ่มตัวอย่าง draws; แล้วเอนโทรปีเป็นข้อ จำกัด ของเป็น\mf(m)mf(m)/mm→∞
สิ่งที่สามที่ควรทราบคือด้วยการแจกแจงนี้คุณสามารถสุ่มตัวอย่าง iid เสมอโดยมีบิตน้อยกว่าที่ต้องการเพื่อสุ่มตัวอย่างหนึ่งครั้ง สมมติว่าคุณตัดสินใจอย่างไร้เดียงสาเพื่อดึงตัวอย่างหนึ่ง (ใช้เวลาสุ่ม 2 บิตโดยเฉลี่ย) จากนั้นวาดอีกตัวอย่างหนึ่ง (โดยใช้ค่าเฉลี่ยสุ่มอีก 2 บิต) และต่อไปเรื่อย ๆ จนกว่าคุณจะทำซ้ำครั้งนี้ นั่นจะต้องใช้บิตสุ่มเฉลี่ยประมาณ .mm2m
แต่มันกลับกลายเป็นว่ามีวิธีการสุ่มตัวอย่างจากโดยใช้บิตน้อยกว่ามันยากที่จะเชื่อ แต่มันเป็นเรื่องจริง!m2m
ผมขอให้คุณปรีชา สมมติว่าคุณจดผลลัพธ์ของการสุ่มตัวอย่างโดยที่มีขนาดใหญ่มาก จากนั้นสามารถระบุผลลัพธ์เป็นสตริง -bit นี้สตริงบิตส่วนใหญ่จะเป็น 0 ด้วยไม่กี่ 1 ในนั้น: โดยเฉพาะอย่างยิ่งโดยเฉลี่ยจะมีเกี่ยวกับ 1 (อาจจะมากกว่าหรือน้อยกว่านั้น แต่ถ้ามีขนาดใหญ่พอที่ปกติ หมายเลขจะใกล้เคียงกับที่) ความยาวของช่องว่างระหว่าง 1 นั้นเป็นแบบสุ่ม แต่โดยทั่วไปแล้วจะอยู่ที่ไหนสักแห่งในละแวกใกล้เคียง (อาจเป็นครึ่งหนึ่งหรือสองครั้งหรือมากกว่านั้นอย่างง่ายดาย แน่นอนแทนที่จะเขียนลงไปทั้งmmmmm/2Nm2NmN m / 2 N m N / 2 N m m- บิตสตริงเราสามารถเขียนลงได้อย่างกระชับมากขึ้นโดยการเขียนรายการความยาวของช่องว่าง - ที่นำข้อมูลเดียวกันทั้งหมดมาใช้ในรูปแบบการบีบอัดที่มากกว่า รวบรัดมากแค่ไหน? ปกติแล้วเราจะต้องการบิตเพื่อแสดงความยาวของแต่ละช่องว่าง และจะมีช่องว่างประมาณ ; ดังนั้นเราจะต้องรวมทั้งหมดประมาณบิต (อาจเพิ่มขึ้นอีกนิดอาจจะน้อยกว่านี้เล็กน้อย แต่ถ้ามีขนาดใหญ่พอมันมักจะใกล้เคียง) นั่นสั้นกว่าสตริงบิตมากNm/2NmN/2Nmm
และถ้ามีวิธีที่จะเขียนสตริงนี้รัดกุมบางทีมันอาจจะไม่น่าแปลกใจถ้านั่นหมายความว่ามีวิธีในการสร้างสตริงที่มีจำนวนบิตสุ่มที่เปรียบเทียบได้กับความยาวของสตริง โดยเฉพาะอย่างยิ่งคุณสุ่มสร้างความยาวของแต่ละช่องว่าง นี่คือการสุ่มตัวอย่างจากการแจกแจงเชิงเรขาคณิตด้วยและสามารถทำได้ด้วยบิตสุ่มโดยเฉลี่ย (ไม่ใช่ ) คุณจะต้องประมาณ iid ดึงออกมาจากการกระจายเชิงเรขาคณิตนี้ดังนั้นคุณจะต้องใช้บิตสุ่มโดยรวม(อาจเป็นปัจจัยคงที่ขนาดเล็กที่ใหญ่กว่า แต่ไม่ใหญ่เกินไป) และโปรดสังเกตว่านี่คือบิตที่เล็กกว่าp=1/2N∼N2Nm/2N∼Nm/2N2m
ดังนั้นเราสามารถสุ่มตัวอย่าง iid ดึงออกมาจากการกระจายของคุณโดยใช้เพียงแค่บิตสุ่ม (ประมาณ) จำได้ว่าเป็นเอนโทรปี m ดังนั้นวิธีการนี้ที่คุณควรคาดหวังว่าเอนโทรปีที่จะ (ประมาณ) N นั่นเป็นเพียงเล็กน้อยเพราะการคำนวณข้างต้นเป็นแบบร่างและหยาบ - แต่หวังว่ามันจะทำให้คุณมีสัญชาตญาณว่าทำไมเอนโทรปีคืออะไรและทำไมทุกอย่างสอดคล้องและสมเหตุสมผลmf(m)∼Nm/2Nlimm→∞f(m)/mN/2N