คำถามติดแท็ก entropy

ปริมาณทางคณิตศาสตร์ที่ออกแบบมาเพื่อวัดปริมาณการสุ่มของตัวแปรสุ่ม

3
คำจำกัดความและที่มาของ "การข้ามเอนโทรปี"
วิกิพีเดียจะกำหนดข้ามเอนโทรปีของการแจกแจงแบบแยกส่วนและให้เป็นPPPQQQ H×( P; Q )= - ∑xp ( x )เข้าสู่ระบบQ( x )H×(P;Q)=-Σxพี(x)เข้าสู่ระบบ⁡Q(x).\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align} ใครเป็นคนแรกที่เริ่มใช้ปริมาณนี้ และใครเป็นคนคิดค้นคำนี้ ฉันดูใน: JE Shore และ RW Johnson "หลักการที่ได้มาจากหลักการของเอนโทรปีสูงสุดและหลักการของการข้ามเอนโทรปีขั้นต่ำ" ทฤษฎีข้อมูลธุรกรรม IEEE บนฉบับที่ หมายเลข 26 1, pp. 26-37, ม.ค. 1980 ฉันทำตามคำแนะนำของพวกเขา A. Wehrl, "คุณสมบัติทั่วไปของเอนโทรปี" ความคิดเห็นเกี่ยวกับฟิสิกส์ยุคใหม่ 50, ไม่ 2, pp. 221-260, เม.ย. …

1
การทำคลัสเตอร์: ฉันควรใช้ Jensen-Shannon Divergence หรือจตุรัสของมันหรือไม่?
ฉันจัดกลุ่มการแจกแจงความน่าจะเป็นโดยใช้อัลกอริธึมการขยายความสัมพันธ์และฉันวางแผนที่จะใช้ Jensen-Shannon Divergence เป็นตัวชี้วัดระยะทางของฉัน มันถูกต้องหรือไม่ที่จะใช้ JSD เป็นระยะทางหรือ JSD กำลังสอง? ทำไม? ความแตกต่างอะไรจะเป็นผลมาจากการเลือกอย่างใดอย่างหนึ่ง?

4
แนวคิดชุดทั่วไป
ฉันคิดว่าแนวคิดของเซตทั่วไปนั้นค่อนข้างง่าย: ลำดับความยาวจะเป็นของเซตทั่วไปถ้าความน่าจะเป็นของลำดับออกมาสูง ดังนั้นลำดับใด ๆ ที่มีแนวโน้มที่จะอยู่ใน{(n)} (ฉันกำลังหลีกเลี่ยงการนิยามอย่างเป็นทางการที่เกี่ยวข้องกับเอนโทรปีเพราะฉันพยายามที่จะเข้าใจในเชิงคุณภาพ)A ( n ) ϵ A ( n ) ϵnnnA(n)ϵAϵ(n)A_\epsilon ^{(n)}A(n)ϵAϵ(n)A_\epsilon ^{(n)} อย่างไรก็ตามฉันได้อ่านโดยทั่วไปแล้วลำดับที่เป็นไปได้มากที่สุดไม่ได้อยู่ในชุดทั่วไป นี่ทำให้ฉันสับสนครั้งใหญ่ มีคำจำกัดความที่เข้าใจง่ายของชุดทั่วไปหรือไม่ หรือเป็นเพียงเครื่องมือทางคณิตศาสตร์ที่ไม่เกี่ยวกับสามัญสำนึกมากนัก?

1
คุณภาพคืออะไรเอนโทรปี
คำถามนี้ให้คำจำกัดความเชิงปริมาณของเอนโทรปีข้ามในแง่ของสูตร ฉันกำลังมองหาความหมายที่คาดการณ์เพิ่มเติมวิกิพีเดียพูดว่า: ในทฤษฎีสารสนเทศ, การข้ามเอนโทรปีระหว่างการแจกแจงความน่าจะเป็นสองครั้งเป็นการวัดจำนวนเฉลี่ยของบิตที่จำเป็นในการระบุเหตุการณ์จากชุดของความเป็นไปได้, หากใช้การเข้ารหัสแบบแผนบนพื้นฐานของการแจกแจงความน่าจะเป็นที่กำหนด . ฉันได้เน้นส่วนที่ทำให้ฉันมีปัญหาในการทำความเข้าใจนี้ ฉันต้องการคำจำกัดความที่ดีซึ่งไม่จำเป็นต้องมีความเข้าใจในเอนโทรปี

1
วิธีการตีความเอนโทรปีต่างกันอย่างไร
ฉันเพิ่งอ่านนี้บทความเกี่ยวกับเอนโทรปีของการกระจายความน่าจะเป็นที่ไม่ต่อเนื่อง มันอธิบายวิธีคิดที่ดีเกี่ยวกับเอนโทรปีเป็นบิตจำนวนที่คาดหวัง (อย่างน้อยเมื่อใช้ในการกำหนดเอนโทรปีของคุณ) จำเป็นต้องเข้ารหัสข้อความเมื่อการเข้ารหัสของคุณดีที่สุดเนื่องจากการกระจายความน่าจะเป็นของคำที่คุณใช้เข้าสู่ระบบ2log2\log_2 อย่างไรก็ตามเมื่อขยายไปถึงกรณีอย่างต่อเนื่องเช่นที่นี่ฉันเชื่อว่าวิธีคิดนี้หยุดลงเนื่องจากสำหรับการแจกแจงความน่าจะเป็นแบบต่อเนื่องp ( x ) (โปรดแก้ไขให้ฉันด้วยถ้าผิด) ดังนั้นฉันจึง สงสัยว่ามีวิธีคิดที่ดีเกี่ยวกับความหมายของเอนโทรปีต่อเนื่องเช่นเดียวกับกรณีที่ไม่ต่อเนื่องΣxp ( x ) = ∞∑xp(x)=∞\sum_x p(x) = \inftyp ( x )p(x)p(x)

1
อะไรคือความหมายของ eigenvector ของเมทริกซ์ข้อมูลร่วมกัน?
เมื่อมองไปที่ไอเก็นเวกเตอร์ของเมทริกซ์ความแปรปรวนร่วมเราจะได้คำแนะนำของความแปรปรวนสูงสุด (ไอเกนวีคตัวแรกคือทิศทางที่ข้อมูลแตกต่างกันมากที่สุด ฯลฯ ); สิ่งนี้เรียกว่าการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันสงสัยว่าการดู eigenvector / คุณค่าของเมทริกซ์ข้อมูลร่วมหมายความว่าพวกเขาจะชี้ไปในทิศทางของเอนโทรปีสูงสุดหรือไม่

1
เอนโทรปีค่าต่างน้อยกว่าค่าอนันต์หรือไม่?
สำหรับตัวแปรสุ่มแบบต่อเนื่องตามอำเภอใจบอกว่า , ค่าเอนโทรปีของค่านั้นน้อยกว่าหรือไม่? (มันก็โอเคถ้ามัน .) ถ้าไม่มันเป็นเงื่อนไขที่จำเป็นและเพียงพอสำหรับมันที่จะน้อยกว่า ?∞ - ∞ ∞XXX∞∞\infty- ∞−∞-\infty∞∞\infty

1
เอนโทรปีขึ้นอยู่กับสถานที่ตั้งและขนาด
เอนโทรปีของการกระจายอย่างต่อเนื่องที่มีฟังก์ชั่นความหนาแน่นถูกกำหนดให้เป็นเชิงลบของความคาดหวังของและดังนั้นจึงเท่ากับffflog(f),log⁡(f),\log(f), Hf=−∫∞−∞log(f(x))f(x)dx.Hf=−∫−∞∞log⁡(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. นอกจากนี้เรายังบอกว่าใด ๆ ตัวแปรสุ่มที่มีการกระจายมีความหนาแน่นมีเอนโทรปี (อินทิกรัลนี้ถูกนิยามไว้อย่างดีแม้เมื่อมีค่าศูนย์เนื่องจากสามารถถูกทำให้เท่ากับศูนย์ที่ค่าดังกล่าว)XXXfffHf.Hf.H_f.ffflog(f(x))f(x)log⁡(f(x))f(x)\log(f(x))f(x) เมื่อและเป็นตัวแปรสุ่มที่ (เป็นค่าคงที่)ถูกกล่าวว่าเป็นเวอร์ชันของเลื่อนโดย ในทำนองเดียวกันเมื่อ (เป็นค่าคงที่ในเชิงบวก)ถูกกล่าวว่าเป็นเวอร์ชันของปรับขนาดโดยการรวมสเกลกับการเลื่อนทำให้XXXYYYY=X+μY=X+μY = X+\muμμ\muYYYXXX μ.μ.\mu.Y=XσY=XσY = X\sigmaσσ\sigmaYYYXXX σ.σ.\sigma.Y=Xσ+μ.Y=Xσ+μ.Y=X\sigma + \mu. ความสัมพันธ์เหล่านี้เกิดขึ้นบ่อยครั้ง ตัวอย่างเช่นการเปลี่ยนหน่วยของการวัดของกะและสเกลมันXXX เอนโทรปีของเกี่ยวข้องกับของY=Xσ+μY=Xσ+μY = X\sigma + \muX?X?X?

5
ค่าใช้จ่ายข้ามเอนโทรปีทำให้รู้สึกในบริบทของการถดถอยหรือไม่?
ค่าใช้จ่ายข้ามเอนโทรปีทำให้รู้สึกในบริบทของการถดถอย (ตรงข้ามกับการจำแนก)? ถ้าเป็นเช่นนั้นคุณช่วยยกตัวอย่างของเล่นผ่าน TensorFlow ได้ไหม ถ้าไม่ทำไมล่ะ ฉันอ่านเกี่ยวกับ cross-entropy ในNeural Networks และ Deep Learningโดย Michael Nielsen และดูเหมือนว่าบางสิ่งบางอย่างที่สามารถใช้สำหรับการถดถอยและการจำแนกตามธรรมชาติ แต่ฉันไม่เข้าใจว่าคุณจะนำมันไปใช้อย่างมีประสิทธิภาพใน TensorFlow ตั้งแต่ ฟังก์ชั่นการสูญเสียทำบันทึก (ซึ่งฉันก็ไม่เข้าใจเหมือนกัน) และพวกมันอยู่ในหมวดหมู่ที่นี่

2
พิสูจน์ว่าการกระจายเอนโทรปีสูงสุดด้วยเมทริกซ์ความแปรปรวนคงที่คือเกาส์
ฉันพยายามที่จะทำให้หัวของฉันรอบต่อไปนี้เป็นข้อพิสูจน์ว่าเกาส์มีเอนโทรปีสูงสุด ขั้นตอนที่ติดดาวทำให้รู้สึกอย่างไร ความแปรปรวนร่วมที่เฉพาะเจาะจงจะแก้ไขช่วงเวลาที่สองเท่านั้น เกิดอะไรขึ้นกับช่วงเวลาที่สามสี่และห้า?

1
การได้รับ Negentropy ติดขัด
ดังนั้นคำถามนี้มีส่วนเกี่ยวข้องบ้าง แต่ฉันพยายามอย่างพยายามทำให้ตรงไปตรงมาที่สุด เป้าหมาย:เรื่องสั้นสั้น ๆ มีการกำเนิดของการปฏิเสธที่ไม่เกี่ยวข้องกับการสั่งซื้อที่สูงขึ้นและฉันพยายามที่จะเข้าใจว่ามันได้รับมาอย่างไร พื้นหลัง: (ฉันเข้าใจทั้งหมดนี้) ฉันศึกษาด้วยตนเองหนังสือ'การวิเคราะห์องค์ประกอบอิสระ'พบได้ที่นี่ (คำถามนี้มาจากหัวข้อ 5.6 ในกรณีที่คุณมีหนังสือ - 'การประมาณค่าเอนโทรปีของฟังก์ชันที่ไม่ใช่พหุนาม') เรามีซึ่งเป็นตัวแปรสุ่มและเราต้องการประมาณค่าลบจากการสังเกตบางอย่างที่เรามี รูปแบบไฟล์ PDF ของจะได้รับโดยซีตา) Negentropy เป็นเพียงความแตกต่างระหว่างเอนโทรปีค่าของตัวแปรสุ่มมาตรฐานเสียนและเอนโทรปีค่าของxเอนโทรปีของดิฟเฟอเรนเชียลได้รับจากเช่นนั้น:xxxxxxpx(ζ)px(ζ)p_x(\zeta)xxxHHH H(x)=−∫∞−∞px(ζ)log(px(ζ))dζH(x)=−∫−∞∞px(ζ)log(px(ζ))dζ H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta และดังนั้นการได้รับการปฏิเสธคือ J(x)=H(v)−H(x)J(x)=H(v)−H(x)J(x) = H(v) - H(x) ที่เป็นมาตรฐาน RV เสียนกับรูปแบบไฟล์ PDF ได้รับจากซีตา)vvvϕ(ζ)ϕ(ζ)\phi(\zeta) ตอนนี้ซึ่งเป็นส่วนหนึ่งของวิธีการใหม่นี้หนังสือของฉันได้รับการประมาณ PDF ของซึ่งได้รับจาก:xxx px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)]px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)] p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i …


1
เอนโทรปีต่าง ๆ
เอนโทรปีความแตกต่างของเกาส์ RV เป็น ) สิ่งนี้ขึ้นอยู่กับσซึ่งเป็นค่าเบี่ยงเบนมาตรฐานเข้าสู่ระบบ2( σ2 πอี---√)log2⁡(σ2πe)\log_2(\sigma \sqrt{2\pi e})σσ\sigma ถ้าเราทำให้ตัวแปรสุ่มเป็นมาตรฐานเพื่อให้มันมีความแปรปรวนของหน่วย สำหรับฉันนี่คือการตอบโต้ที่ใช้งานง่ายเพราะ Kolmogorov ความซับซ้อนของค่าคงที่ normalizing ควรมีขนาดเล็กมากเมื่อเทียบกับการลดลงของเอนโทรปี หนึ่งสามารถประดิษฐ์ตัวถอดรหัสที่แบ่ง / ทวีคูณด้วยค่าคงที่ normalizing เพื่อกู้คืนชุดข้อมูลใด ๆ ที่สร้างขึ้นโดยตัวแปรสุ่มนี้ ความเข้าใจของฉันอาจจะปิด คุณช่วยชี้จุดบกพร่องของฉันได้ไหม

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
ทำไมฉันถึงได้รับข้อมูลข่าวสารมากกว่า 1
ฉันใช้ฟังก์ชันต่อไปนี้เพื่อคำนวณเอนโทรปี: from math import log def calc_entropy(probs): my_sum = 0 for p in probs: if p > 0: my_sum += p * log(p, 2) return - my_sum ผลลัพธ์: >>> calc_entropy([1/7.0, 1/7.0, 5/7.0]) 1.1488348542809168 >>> from scipy.stats import entropy # using a built-in package # give the same answer >>> entropy([1/7.0, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.