คำถามติดแท็ก entropy

ปริมาณทางคณิตศาสตร์ที่ออกแบบมาเพื่อวัดปริมาณการสุ่มของตัวแปรสุ่ม

2
วิธีตรวจสอบการคาดการณ์ของอนุกรมเวลา
หนึ่งในประเด็นสำคัญที่นักพยากรณ์ประสบคือถ้าซีรีส์ที่กำหนด สามารถคาดการณ์ได้หรือไม่? ฉันสะดุดกับบทความเรื่อง " เอนโทรปีในฐานะตัวบ่งชี้การพยากรณ์ของ Priori " โดย Peter Catt ที่ใช้Entropimate Entropy (ApEn) เป็นตัวชี้วัดที่สัมพันธ์กันเพื่อกำหนดชุดเวลาที่กำหนด บทความกล่าวว่า "ค่า ApEn ที่เล็กลงบ่งชี้ว่ามีโอกาสมากขึ้นที่ชุดข้อมูลจะตามด้วยข้อมูลที่คล้ายกัน (ความเป็นปกติ) ในทางกลับกันค่าที่ใหญ่กว่าของ ApEn บ่งชี้ว่าโอกาสที่ข้อมูลที่คล้ายกันซ้ำกันจะลดลง การสุ่มและความซับซ้อนของระบบ " และตามด้วยสูตรทางคณิตศาสตร์สำหรับการคำนวณ ApEn นี่เป็นวิธีการที่น่าสนใจเพราะให้ค่าตัวเลขที่สามารถใช้ในการประเมินความคาดการณ์ในแง่ที่เกี่ยวข้อง ฉันไม่รู้ว่า Entropy หมายถึงอะไรฉันกำลังอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ มีแพคเกจที่เรียกว่าเป็นpracmaในRที่ช่วยให้คุณคำนวณ Apen เพื่อวัตถุประสงค์ในการอธิบายฉันใช้อนุกรมเวลา 3 แบบและคำนวณตัวเลข ApEn อันดับ 1:ซีรี่ส์เวลาของ AirPassenger ที่มีชื่อเสียง - ถูกกำหนดไว้สูงและเราควรคาดการณ์ได้ง่าย Series 2: Sunspot Time Series - ถูกกำหนดไว้อย่างดี แต่ควรคาดการณ์ได้น้อยกว่า …

2
ความงุนงงและความเอนโทรปีของแบบจำลอง n-gram
พยายามเข้าใจความสัมพันธ์ระหว่างการเอนโทรปีและความงุนงง โดยทั่วไปสำหรับรูปแบบM , ฉงนสนเท่ห์ (M) = 2 ^ เอนโทรปี (M) ความสัมพันธ์นี้มีไว้สำหรับ n-grams ที่แตกต่างกันทั้งหมดเช่น unigram, bigram ฯลฯ หรือไม่

3
Multinomial Logistic Loss vs (Cross Entropy vs Square Error)
ฉันสังเกตเห็นว่า Caffe (กรอบการเรียนรู้ลึก) ใช้Softmax Loss Layer SoftmaxWithLossเป็นเลเยอร์การส่งออกสำหรับตัวอย่างส่วนใหญ่ เท่าที่ผมรู้ว่าชั้น Softmax การสูญเสียคือการรวมกันของพหุโลจิสติกชั้นสูญเสียและSoftmax ชั้น จาก Caffe พวกเขาบอกว่า การคำนวณการไล่ระดับสี Softmax Loss Layer นั้นมีความเสถียรทางตัวเลข แต่คำอธิบายนี้ไม่ได้คำตอบที่ฉันต้องการคำอธิบายเป็นเพียงการเปรียบเทียบการรวมกันของพหุโลจิสติกชั้นสูญเสียและชั้นสูญเสีย Softmaxแทนชั้นโดยชั้น แต่ไม่เปรียบเทียบกับฟังก์ชันการสูญเสียชนิดอื่น อย่างไรก็ตามฉันต้องการทราบเพิ่มเติมว่าข้อแตกต่าง / ข้อดี / ข้อเสียของฟังก์ชันข้อผิดพลาด 3 ข้อคืออะไรคือMultinomial Logistic Loss , Cross Entropy (CE) และSquare Error (SE) ในมุมมองการเรียนรู้แบบมีผู้ดูแล? มีบทความสนับสนุนอะไรบ้าง?

2
บันทึก (p (x, y)) ทำข้อมูลร่วมกันให้เป็นจุดปกติได้อย่างไร
ฉันกำลังพยายามที่จะเข้าใจรูปแบบของข้อมูลร่วมกันแบบจุดตามปกติ npmi=pmi(x,y)log(p(x,y))npmi=pmi(x,y)log(p(x,y))npmi = \frac{pmi(x,y)}{log(p(x,y))} เหตุใดความน่าจะเป็นร่วมของบันทึกจึงทำให้ข้อมูลร่วมกันที่เป็นจุดเป็นปกติอยู่ระหว่าง [-1, 1]? ข้อมูลร่วมกันที่ชาญฉลาดคือ: pmi=log(p(x,y)p(x)p(y))pmi=log(p(x,y)p(x)p(y))pmi = log(\frac{p(x,y)}{p(x)p(y)}) p (x, y) ถูกล้อมรอบด้วย [0, 1] ดังนั้นล็อก (p (x, y)) ถูกล้อมรอบด้วย (, 0] ดูเหมือนว่าบันทึก (p (x, y)) ควรเปลี่ยนแปลงสมดุลใน ตัวเศษ แต่ฉันไม่เข้าใจอย่างชัดเจนว่ามันทำให้ฉันนึกถึงเอนโทรปีh=−log(p(x))h=−log(p(x))h=-log(p(x))แต่อีกครั้งฉันไม่เข้าใจความสัมพันธ์ที่แน่นอน

1
“ เนื่องจากใกล้เคียงกับเกาส์เซียนไฟล์ PDF จึงสามารถเขียนเป็น…”
คำถามสั้น ๆ :ทำไมถึงเป็นจริง คำถามยาว: ง่ายมากฉันพยายามหาว่าอะไรที่ทำให้สมการแรกนี้เป็นจริง ผู้เขียนหนังสือที่ฉันกำลังอ่าน (บริบทที่นี่หากคุณต้องการ แต่ไม่จำเป็น) อ้างสิทธิ์ดังต่อไปนี้: เนื่องจากข้อสันนิษฐานว่าใกล้ - เกาส์เซียเราสามารถเขียน: p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ))p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ)) p_0(\xi) = A \; \phi(\xi) \; exp( a_{n+1}\xi + (a_{n+2} + \frac{1}{2})\xi^2 + \sum_{i=1}^{n} a_i G_i(\xi)) โดยที่เป็น PDF ของข้อมูลที่คุณสังเกตเห็นซึ่งมีค่าเอนโทรปีสูงสุดเนื่องจากคุณสังเกตเห็นชุดของความคาดหวัง (ตัวเลขง่าย) , ที่และเป็น PDF ของตัวแปร gaussian ที่ได้มาตรฐานนั่นคือ 0 หมายถึงและความแปรปรวนของหน่วยp0(ξ)p0(ξ)p_0(\xi)ci,i=1...nci,i=1...nc_i, i = 1 ... nci=E{Gi(ξ)}ci=E{Gi(ξ)}c_i = \mathbb{E}\{G_i(\xi)\}ϕ(ξ)ϕ(ξ)\phi(\xi) สิ่งที่เกิดขึ้นคือเขาใช้สมการข้างต้นเป็นจุดเริ่มต้นในการสร้าง PDF,ง่ายขึ้นและฉันเข้าใจว่าเขาทำได้ …

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
ฉันจะจัดเรียงกราฟสองกราฟในแนวตั้งด้วยระดับ x ที่เหมือนกัน แต่มาตราส่วน y ที่แตกต่างใน R ได้อย่างไร
ทักทาย, ขณะนี้ฉันกำลังทำสิ่งต่อไปนี้ใน R: require(zoo) data <- read.csv(file="summary.csv",sep=",",head=TRUE) cum = zoo(data$dcomp, as.Date(data$date)) data = zoo(data$compressed, as.Date(data$date)) data <- aggregate(data, identity, tail, 1) cum <- aggregate(cum, identity, sum, 1) days = seq(start(data), end(data), "day") data2 = na.locf(merge(data, zoo(,days))) plot(data2,xlab='',ylab='compressed bytes',col=rgb(0.18,0.34,0.55)) lines(cum,type="h",col=rgb(0,0.5,0)) สนิปของ summary.csv: date,revision,file,lines,nclass,nattr,nrel,bytes,compressed,diff,dcomp 2007-07-25,16,model.xml,96,11,22,5,4035,991,0,0 2007-07-27,17,model.xml,115,16,26,6,4740,1056,53,777 2007-08-09,18,model.xml,106,16,26,7,4966,1136,47,761 2007-08-10,19,model.xml,106,16,26,7,4968,1150,4,202 2007-09-06,81,model.xml,111,16,26,7,5110,1167,13,258 ... เส้นสองเส้นสุดท้ายเขียนข้อมูลที่ฉันต้องการและผลลัพธ์คล้ายกับสิ่งต่อไปนี้: เส้นสีน้ำเงินคือเอนโทรปีของสิ่งประดิษฐ์ที่ฉันสนใจ …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.