หากข้อมูลมีที่เป็นนักn -sequence จากตัวอย่างพื้นที่X , ความน่าจะเป็นจุดเชิงประจักษ์เป็น
P ( x ) = 1xn=x1…xnnX
สำหรับx∈X นี่δx(xฉัน)เป็นหนึ่งถ้าxฉัน=xและศูนย์อื่น นั่นคือ P (x)คือความถี่สัมพัทธ์ของxในลำดับที่สังเกต เอนโทรปีของการกระจายความน่าจะเป็นที่ได้รับจากความน่าจะเป็นจุดเชิงประจักษ์คือ
H( P )=-Σ
p^(x)=1n|{i∣xi=x}|=1n∑i=1nδx(xi)
x∈Xδx(xi)xi=xp^(x)xH(p^)=−∑x∈Xp^(x)logp^(x)=−∑x∈X1n∑i=1nδx(xi)logp^(x)=−1n∑i=1nlogp^(xi).
∑x∈Xδx(xi)logp^(x)=logp^(xi).
H(p^)=−1nlogp^(xn)
with
p^(xn)=∏ni=1p^(xi) and using the terminology from the question this is the empirical entropy of the
empirical probability distribution. As pointed out by @cardinal in a comment,
−1nlogp(xn) is the empirical entropy of a given probability distribution with point probabilities
p.