คำถามติดแท็ก information-geometry

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
เรขาคณิตเชิงอนุพันธ์นั้นเกี่ยวข้องกับสถิติหรือไม่?
ฉันกำลังทำต้นแบบในสถิติและฉันแนะนำให้เรียนเรขาคณิตที่แตกต่างกัน ฉันยินดีที่จะได้ยินเกี่ยวกับการใช้งานทางสถิติสำหรับเรขาคณิตเชิงอนุพันธ์เนื่องจากสิ่งนี้จะทำให้ฉันมีแรงบันดาลใจ ไม่มีใครรู้ว่าแอปพลิเคชันสำหรับเรขาคณิตเชิงอนุพันธ์ในสถิติหรือไม่

4
มีคำถามเกี่ยวกับ KL divergence หรือไม่
ฉันกำลังเปรียบเทียบการแจกแจงสองแบบกับการกระจายของ KL ซึ่งให้ผลตอบแทนเป็นตัวเลขที่ไม่ได้มาตรฐานซึ่งตามที่ฉันอ่านเกี่ยวกับการวัดนี้คือปริมาณข้อมูลที่ต้องใช้เพื่อเปลี่ยนสมมติฐานหนึ่งไปเป็นอีกสมมติฐานหนึ่ง ฉันมีสองคำถาม: a) มีวิธีในการหาจำนวนความแตกต่างของ KL เพื่อให้การตีความมีความหมายมากกว่าเช่นขนาดของเอฟเฟกต์หรือ R ^ 2 หรือไม่? รูปแบบของมาตรฐานใด ๆ b) ใน R เมื่อใช้ KLdiv (แพ็คเกจ flexmix) เราสามารถตั้งค่า 'esp' (มาตรฐาน esp = 1e-4) ที่ตั้งค่าคะแนนทั้งหมดที่เล็กกว่า esp ถึงมาตรฐานบางอย่างเพื่อให้เสถียรภาพเชิงตัวเลข ฉันได้เล่นกับค่า esp ที่แตกต่างกันและสำหรับชุดข้อมูลของฉันฉันได้รับความแตกต่าง KL ที่ใหญ่ขึ้นเรื่อย ๆ ในจำนวนที่ฉันเลือกน้อยลง เกิดอะไรขึ้น? ฉันคาดหวังว่ายิ่ง esp ยิ่งน้อยผลลัพธ์ก็น่าเชื่อถือมากขึ้นเพราะพวกเขาปล่อยให้ 'คุณค่าที่แท้จริง' มากขึ้นกลายเป็นส่วนหนึ่งของสถิติ ไม่มี? ฉันต้องเปลี่ยน esp เพราะไม่เช่นนั้นจะไม่คำนวณสถิติ แต่แสดงเป็น NA ในตารางผลลัพธ์ …

3
การใช้ข้อมูลเรขาคณิตเพื่อกำหนดระยะทางและปริมาณ…มีประโยชน์หรือไม่
ฉันมาข้ามขนาดใหญ่ร่างกายของวรรณกรรมซึ่งสนับสนุนโดยใช้สารสนเทศฟิชเชอร์เมตริกเป็นธรรมชาติในท้องถิ่นตัวชี้วัดในพื้นที่ของการกระจายความน่าจะเป็นแล้วการบูรณาการมากกว่านั้นเพื่อกำหนดระยะทางและปริมาณ แต่ปริมาณเหล่านี้ "รวม" มีประโยชน์จริง ๆ สำหรับอะไร? ฉันพบว่าไม่มีเหตุผลทางทฤษฎีและการใช้งานจริงน้อยมาก หนึ่งคือผู้ชายของเลบานอนการทำงานที่เขาใช้ "ระยะทางฟิชเชอร์" เอกสารประเภทและอีกคนหนึ่งคือโรดริเก' เอบีซีของรุ่นเลือก ...ที่ 'ฟิชเชอร์ไดรฟ์' ถูกนำมาใช้สำหรับการเลือกรูปแบบ เห็นได้ชัดว่าการใช้ "ปริมาณข้อมูล" ให้คำสั่ง "ปรับปรุงขนาด" เหนือ AIC และ BIC สำหรับการเลือกแบบจำลอง แต่ฉันไม่ได้เห็นงานใด ๆ ที่ติดตามมา เหตุผลทางทฤษฎีอาจจะมีการวางนัยทั่วไปซึ่งใช้การวัดระยะทางหรือปริมาตรนี้และดีกว่าขอบเขตที่ได้จาก MDL หรือการโต้แย้งแบบอะซิมโทติคหรือวิธีการที่ใช้ปริมาณหนึ่งในนั้นที่ดีขึ้นในสถานการณ์จริงที่เหมาะสม ผลลัพธ์ใด ๆ ของชนิดนี้

1
ตัวกำหนดข้อมูลฟิชเชอร์
(ฉันโพสต์คำถามที่คล้ายกันในmath.se ) ในเรขาคณิตข้อมูล, ดีเทอร์มิแนนต์ของเมทริกซ์ข้อมูลฟิชเชอร์เป็นรูปแบบปริมาตรตามธรรมชาติบนท่อร่วมทางสถิติดังนั้นจึงมีการตีความทางเรขาคณิตที่ดี ความจริงที่ว่ามันปรากฏในคำจำกัดความของเจฟฟรีย์ก่อนหน้านั้นเชื่อมโยงกับความไม่แปรเปลี่ยนของมันภายใต้การซ่อมแซมซ้ำซึ่งเป็นสมบัติทางเรขาคณิต แต่อะไรคือปัจจัยในสถิติ ? มันวัดสิ่งที่มีความหมายหรือไม่? (ตัวอย่างเช่นฉันจะบอกว่าถ้ามันเป็นศูนย์แล้วพารามิเตอร์ไม่ได้เป็นอิสระสิ่งนี้จะไปอีกหรือไม่) นอกจากนี้มีรูปแบบปิดใด ๆ ในการคำนวณอย่างน้อยในบางกรณี "ง่าย"

2
สัญชาตญาณกราฟิกของสถิติในนานา
ในโพสต์นี้คุณสามารถอ่านคำสั่ง: แบบจำลองมักจะถูกแทนที่ด้วยจุดบนมิติที่ จำกัดθθ\theta ในเรขาคณิตเชิงอนุพันธ์และสถิติโดย Michael K Murray และ John W Riceแนวคิดเหล่านี้อธิบายได้ในร้อยแก้วที่อ่านได้แม้จะไม่สนใจนิพจน์ทางคณิตศาสตร์ น่าเสียดายที่มีภาพประกอบไม่มาก กันไปสำหรับโพสต์นี้ใน MathOverflow ฉันต้องการขอความช่วยเหลือด้วยการนำเสนอด้วยภาพเพื่อใช้เป็นแผนที่หรือแรงจูงใจในการทำความเข้าใจหัวข้อที่เป็นทางการมากขึ้น อะไรคือจุดที่หลากหลาย อ้างจากการค้นหาออนไลน์นี้ดูเหมือนจะบ่งบอกว่ามันอาจเป็นจุดข้อมูลหรือพารามิเตอร์การกระจาย: สถิติเกี่ยวกับแมนิโฟลด์และเรขาคณิตข้อมูลเป็นสองวิธีที่แตกต่างกันซึ่งเรขาคณิตเชิงอนุพันธ์ตรงกับสถิติ ในขณะที่ในสถิติเกี่ยวกับแมนิโฟลด์มันเป็นข้อมูลที่วางอยู่บนท่อร่วมในเรขาคณิตข้อมูลข้อมูลอยู่ในแต่พารามิเตอร์ของฟังก์ชันความหนาแน่นของความน่าจะเป็นแบบพารามิเตอร์ที่น่าสนใจจะได้รับการปฏิบัติเหมือนนานา manifolds ดังกล่าวเรียกว่า manifolds ทางสถิติRnRnR^n ฉันวาดไดอะแกรมนี้โดยได้แรงบันดาลใจจากคำอธิบายของพื้นที่แทนเจนต์ที่นี่ : [ แก้ไขเพื่อแสดงความคิดเห็นด้านล่างเกี่ยวกับ :C∞C∞C^\infty ] บนนานาพื้นที่แทนเจนต์คือเซตของอนุพันธ์ที่เป็นไปได้ทั้งหมด ("ความเร็ว") ที่จุดเกี่ยวข้องกับ ทุกโค้งที่เป็นไปได้บนท่อร่วมไอวิ่งผ่าน นี่จะเห็นได้ว่าเป็นชุดของแผนที่จากทุกโค้งผ่านคือกำหนดเป็นองค์ประกอบ , ด้วยแสดงถึงเส้นโค้ง (ฟังก์ชั่นจากเส้นจริงถึงพื้นผิวของท่อร่วมพี∈ M (ψ: R → M )P P, C ∞ (T)→ R , ( …

1
ชี้แจงข้อมูลทางเรขาคณิต
คำถามนี้เกี่ยวข้องกับกระดาษDifferential Geometry ของข้อมูลเชิงเส้นครอบครัวแบบโค้งและการสูญเสียข้อมูลโดย Amari ข้อความจะเป็นดังนี้ ให้เป็น -dimensional ของการแจกแจงความน่าจะเป็นด้วยระบบพิกัดโดยที่จะถือว่า ...Sn={pθ}Sn={pθ}S^n=\{p_{\theta}\}nnnθ=(θ1,…,θn)θ=(θ1,…,θn)\theta=(\theta_1,\dots,\theta_n)pθ(x)>0pθ(x)>0p_{\theta}(x)>0 เราอาจพิจารณาทุกจุดของว่าถือ functionของ ...θθ\thetaSnSnS^nlogpθ(x)log⁡pθ(x)\log p_{\theta}(x)xxx ให้เป็นพื้นที่ที่แทนเจนต์ของที่ซึ่งเป็นพูดประมาณระบุกับรุ่นเชิงเส้นของย่านเล็ก ๆ ของใน n ให้เป็นพื้นฐานตามธรรมชาติของเกี่ยวข้องกับระบบการประสานงาน ...TθTθT_{\theta}SnSnS^nθθ\thetaθθ\thetaSnSnS^nei(θ),i=1,…,nei(θ),i=1,…,ne_i(\theta), i=1,\dots,nTθTθT_{\theta} เนื่องจากแต่ละจุดของมีฟังก์ชั่นของมันเป็นเรื่องธรรมดาที่จะถือว่าที่แทนฟังก์ชันθθ\thetaSnSnS^nlogpθ(x)log⁡pθ(x)\log p_{\theta}(x)xxxei(θ)ei(θ)e_i(\theta)θθ\thetaei(θ)=∂∂θilogpθ(x).ei(θ)=∂∂θilog⁡pθ(x).e_i(\theta)=\frac{\partial}{\partial\theta_i}\log p_{\theta}(x). ฉันไม่เข้าใจคำสั่งสุดท้าย ปรากฏในส่วนที่ 2 ของกระดาษที่กล่าวถึงข้างต้น พื้นฐานของพื้นที่แทนเจนต์เป็นอย่างไรโดยสมการข้างบน? มันจะมีประโยชน์ถ้าใครบางคนในชุมชนนี้คุ้นเคยกับเนื้อหาประเภทนี้สามารถช่วยฉันเข้าใจสิ่งนี้ ขอบคุณ อัปเดต 1: แม้ว่าฉันจะเห็นด้วยว่า (จาก @aginensky) ถ้าเป็นเชิงเส้นอย่างอิสระแล้วมีความเป็นอิสระในเชิงเส้นเช่นกันสมาชิกเหล่านี้ของพื้นที่แทนเจนต์ในตอนแรกยังไม่ชัดเจน ดังนั้นวิธีที่จะถูกพิจารณาเป็นพื้นฐานสำหรับพื้นที่แทนเจนต์ ความช่วยเหลือใด ๆ ที่ชื่นชม∂∂θipθ∂∂θipθ\frac{\partial}{\partial\theta_i}p_{\theta}∂∂θilogpθ∂∂θilog⁡pθ\frac{\partial}{\partial\theta_i}\log p_{\theta}∂∂θilogpθ∂∂θilog⁡pθ\frac{\partial}{\partial\theta_i}\log p_{\theta} อัปเดต 2: @aginensky: ในหนังสือของเขา Amari พูดต่อไปนี้: ให้เราพิจารณากรณีที่ชุดของความน่าจะเป็นบวกทั้งหมด (อย่างเคร่งครัด) …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.