คำถามติดแท็ก information-theory

สาขาคณิตศาสตร์ / สถิติที่ใช้ในการกำหนดความสามารถในการรองรับข้อมูลของช่องสัญญาณไม่ว่าจะเป็นที่ใช้สำหรับการสื่อสารหรือที่ถูกกำหนดในความหมายที่เป็นนามธรรม เอนโทรปีเป็นหนึ่งในมาตรการที่นักทฤษฎีสารสนเทศสามารถวัดปริมาณความไม่แน่นอนที่เกี่ยวข้องในการทำนายตัวแปรสุ่ม

3
คะแนน Akaike Information Criterion (AIC) ของแบบจำลองหมายถึงอะไร
ฉันได้เห็นคำถามบางอย่างที่นี่เกี่ยวกับความหมายในแง่คนธรรมดา แต่สิ่งเหล่านี้มันธรรมดาเกินไปสำหรับวัตถุประสงค์ของฉันที่นี่ ฉันกำลังพยายามที่จะเข้าใจทางคณิตศาสตร์ว่าคะแนน AIC หมายถึงอะไร แต่ในเวลาเดียวกันฉันไม่ต้องการหลักฐานที่เข้มงวดซึ่งจะทำให้ฉันไม่เห็นประเด็นที่สำคัญกว่านี้ ตัวอย่างเช่นถ้านี่คือแคลคูลัสฉันจะมีความสุขกับ infinitesimals และถ้านี่เป็นทฤษฎีความน่าจะเป็น ความพยายามของฉัน โดยอ่านที่นี่และสัญกรณ์น้ำตาลของฉันเองเป็นเกณฑ์ AIC ของรุ่นบนชุดข้อมูลดังนี้: ที่เป็นจำนวนพารามิเตอร์ของแบบจำลองและเป็นค่าฟังก์ชั่นความน่าจะเป็นสูงสุดของรุ่นบนชุดDAICm,DAICm,D\text{AIC}_{m,D}mmmDDDAICm,D=2km−2ln(Lm,D)AICm,D=2km−2ln⁡(Lm,D) \text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D}) kmkmk_mmmmLm,DLm,DL_{m,D}mmmDDD นี่คือความเข้าใจของฉันในสิ่งที่ข้างต้นหมายถึง: m=arg maxθPr(D|θ)m=arg maxθPr(D|θ) m = \underset{\theta}{\text{arg max}\,} \Pr(D|\theta) ทางนี้: kmkmk_mเป็นจำนวนพารามิเตอร์ของม.mmm Lm,D=Pr(D|m)=L(m|D)Lm,D=Pr(D|m)=L(m|D)L_{m,D} = \Pr(D|m) = \mathcal{L}(m|D)D) ตอนนี้ลองเขียน AIC: AICm,D===2km−2ln(Lm,D)2km−2ln(Pr(D|m))2km−2loge(Pr(D|m))AICm,D=2km−2ln⁡(Lm,D)=2km−2ln⁡(Pr(D|m))=2km−2loge⁡(Pr(D|m))\begin{split} \text{AIC}_{m,D} =& 2k_m - 2 \ln(L_{m,D})\\ =& 2k_m - 2 …

2
ความแตกต่างระหว่างระยะทาง Bhattacharyya และ KL divergence
ฉันกำลังมองหาคำอธิบายที่ใช้งานง่ายสำหรับคำถามต่อไปนี้: ในสถิติและทฤษฎีข้อมูลความแตกต่างระหว่างระยะทาง Bhattacharyya และความแตกต่างของ KL เป็นมาตรการของความแตกต่างระหว่างการแจกแจงความน่าจะเป็นแบบแยกสองอันคืออะไร พวกเขาไม่มีความสัมพันธ์อย่างแท้จริงและวัดระยะห่างระหว่างการแจกแจงความน่าจะเป็นสองแบบในลักษณะที่แตกต่างกันโดยสิ้นเชิงหรือไม่?

5
การได้รับสารสนเทศข้อมูลร่วมกันและมาตรการที่เกี่ยวข้อง
Andrew More กำหนดข้อมูลที่ได้รับเป็น: IG(Y|X)=H(Y)−H(Y|X)IG(Y|X)=H(Y)−H(Y|X)IG(Y|X) = H(Y) - H(Y|X) ที่H(Y|X)H(Y|X)H(Y|X)เป็นเอนโทรปีเงื่อนไข อย่างไรก็ตามวิกิพีเดียเรียกปริมาณดังกล่าวข้างต้นข้อมูลซึ่งกันและกัน วิกิพีเดียในอีกด้านหนึ่งกำหนดข้อมูลที่ได้รับเมื่อ Kullback – Leibler divergence (aka data divergence หรือ entropy สัมพัทธ์) ระหว่างตัวแปรสุ่มสองตัว: DKL(P||Q)=H(P,Q)−H(P)DKL(P||Q)=H(P,Q)−H(P)D_{KL}(P||Q) = H(P,Q) - H(P) ที่H(P,Q)H(P,Q)H(P,Q)ถูกกำหนดให้เป็นข้ามเอนโทรปี คำจำกัดความทั้งสองนี้ดูเหมือนจะไม่สอดคล้องกัน ฉันได้เห็นผู้เขียนคนอื่นพูดถึงแนวคิดที่เกี่ยวข้องเพิ่มเติมอีกสองแนวคิดคือเอนโทรปีต่างกันและการได้รับข้อมูลญาติ คำจำกัดความหรือความสัมพันธ์ที่แม่นยำระหว่างปริมาณเหล่านี้คืออะไร มีหนังสือเรียนที่ดีที่ครอบคลุมพวกเขาทั้งหมดหรือไม่? ได้รับข้อมูล ข้อมูลร่วมกัน ข้ามเอนโทรปี เอนโทรปีแบบมีเงื่อนไข เอนโทรปีต่างกัน ได้รับข้อมูลญาติ

4
การวัดความเหมือนหรือระยะห่างระหว่างเมทริกซ์ความแปรปรวนร่วมสองตัว
มีการวัดความคล้ายคลึงกันหรือระยะห่างระหว่างเมทริกซ์ความแปรปรวนร่วมแบบสมมาตรสองแบบหรือไม่ (ทั้งสองมีขนาดเท่ากัน)? ฉันกำลังคิดว่านี่ของ analogues กับ KL divergence ของการแจกแจงความน่าจะเป็นสองอันหรือระยะทางแบบยุคลิดระหว่างเวกเตอร์ยกเว้นการใช้กับเมทริกซ์ ฉันคิดว่าจะมีการวัดความคล้ายคลึงกันค่อนข้างน้อย เป็นการดีที่ฉันต้องการทดสอบสมมติฐานว่างว่าเมทริกซ์ความแปรปรวนร่วมสองตัวนั้นเหมือนกัน

3
Kullback-Leibler divergence โดยไม่มีทฤษฎีข้อมูล
หลังจากผ่านการตรวจสอบของ Cross Validated แล้วฉันยังไม่รู้สึกว่าฉันเข้าใกล้การเข้าใจความแตกต่างของ KL นอกทฤษฎีข้อมูล มันค่อนข้างแปลกสำหรับใครบางคนที่มีพื้นฐานทางคณิตศาสตร์เพื่อให้เข้าใจคำอธิบายทฤษฎีข้อมูลได้ง่ายขึ้น เพื่อสรุปความเข้าใจของฉันจากเบื้องหลังทฤษฎีข้อมูล: ถ้าเรามีตัวแปรสุ่มที่มีจำนวนผลลัพธ์ที่แน่นอนมีการเข้ารหัสที่ดีที่สุดซึ่งช่วยให้เราสามารถสื่อสารผลลัพธ์กับคนอื่นโดยเฉลี่ยกับข้อความสั้นที่สุด (ฉันพบสิ่งนี้ง่ายที่สุดในการ รูปภาพในรูปของบิต) ความยาวที่คาดหวังของข้อความจะต้องสื่อสารผลลัพธ์โดยหากใช้การเข้ารหัสที่เหมาะสมที่สุด หากคุณต้องใช้การเข้ารหัสที่เหมาะสมที่สุดย่อยแล้ว KL divergence จะบอกเราโดยเฉลี่ยว่าข้อความของเราจะนานเท่าไร- ∑αพีαเข้าสู่ระบบ2( หน้าα)-Σαพีαเข้าสู่ระบบ2⁡(พีα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) ฉันชอบคำอธิบายนี้เพราะมันค่อนข้างเกี่ยวข้องกับความไม่สมมาตรของ KL divergence หากเรามีระบบที่แตกต่างกันสองระบบคือสองเหรียญที่โหลดแตกต่างกันพวกเขาจะมีการเข้ารหัสที่ดีที่สุดที่แตกต่างกัน ฉันไม่รู้สึกอย่างสัญชาตญาณว่าการใช้การเข้ารหัสของระบบที่สองสำหรับครั้งแรกนั้น "แย่พอ ๆ กัน" กับการใช้การเข้ารหัสของระบบแรกเป็นครั้งที่สอง โดยไม่ต้องผ่านกระบวนการคิดว่าฉันเชื่อมั่นในตัวเองอย่างไรตอนนี้ฉันมีความสุขมากที่จะช่วยให้คุณนี้ "ข้อความยาวคาดว่าพิเศษ" เมื่อใช้ 's เข้ารหัสสำหรับพีΣαพีα( บันทึก2Qα- บันทึก2พีα)Σαพีα(เข้าสู่ระบบ2⁡Qα-เข้าสู่ระบบ2⁡พีα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})QQqพีพีp อย่างไรก็ตามคำจำกัดความส่วนใหญ่ของ KL divergence รวมถึงวิกิพีเดียก็ทำให้คำแถลง (ทำให้สิ่งนี้เป็นคำที่ไม่ต่อเนื่องเพื่อให้สามารถเปรียบเทียบกับการตีความทฤษฏีข้อมูลซึ่งทำงานได้ดีกว่าในแง่ที่ไม่ต่อเนื่องกันเป็นบิต) การแจกแจงจากนั้น KL จะให้การวัดบางส่วนของ "ความแตกต่าง" ฉันยังไม่เห็นคำอธิบายเดียวว่าแนวคิดทั้งสองนี้เกี่ยวข้องกันอย่างไร ฉันดูเหมือนจะจำได้ว่าในหนังสือของเขาเกี่ยวกับการอนุมานเดฟแมคเคย์ให้คะแนนเกี่ยวกับวิธีการบีบอัดข้อมูลและการอนุมานนั้นเป็นสิ่งเดียวกันและฉันสงสัยว่าคำถามของฉันเกี่ยวข้องกับเรื่องนี้จริงๆ …

3
การตีความทางสถิติของการกระจายเอนโทรปีสูงสุด
ฉันได้ใช้หลักการของเอนโทรปีสูงสุดเพื่อแสดงให้เห็นถึงการใช้การแจกแจงหลายอย่างในการตั้งค่าต่างๆ อย่างไรก็ตามฉันยังไม่สามารถกำหนดสถิติได้ซึ่งตรงกันข้ามกับข้อมูลทางทฤษฎีและการตีความเอนโทรปีสูงสุด กล่าวอีกนัยหนึ่งการเพิ่มค่าเอนโทรปีให้มากที่สุดหมายถึงคุณสมบัติทางสถิติของการแจกแจงอย่างไร มีใครวิ่งข้ามหรืออาจค้นพบตัวเองตีความทางสถิติของสูงสุด การกระจายของเอนโทรปีที่ไม่ได้ดึงดูดข้อมูล แต่เป็นเพียงแนวคิดที่น่าจะเป็น? เป็นตัวอย่างของการตีความดังกล่าว (ไม่จำเป็นต้องเป็นจริง): "สำหรับช่วงเวลาของความยาว L ตามอำเภอใจบนโดเมนของ RV (สมมติว่า 1-d ต่อเนื่องเพื่อความเรียบง่าย) ความน่าจะเป็นสูงสุดที่สามารถอยู่ในช่วงเวลานี้จะลดลง โดยการกระจายเอนโทรปีสูงสุด " ดังนั้นคุณจะเห็นว่าไม่มีการพูดคุยเกี่ยวกับ "ความเป็นสารสนเทศ" หรือแนวคิดทางปรัชญาอื่น ๆ

2
ความสัมพันธ์ระหว่างคะแนน GINI และอัตราส่วนความน่าจะเป็นคืออะไร
ฉันกำลังศึกษาต้นไม้จำแนกและต้นไม้ถดถอยและหนึ่งในมาตรการสำหรับสถานที่แยกคือคะแนน GINI ตอนนี้ฉันถูกใช้เพื่อกำหนดตำแหน่งที่แยกที่ดีที่สุดเมื่อบันทึกอัตราส่วนความน่าจะเป็นของข้อมูลเดียวกันระหว่างการแจกแจงสองค่าเป็นศูนย์หมายความว่าโอกาสในการเป็นสมาชิกมีแนวโน้มเท่ากัน สัญชาตญาณของฉันบอกว่าต้องมีการเชื่อมต่อบางอย่างที่ GINI ต้องมีรากฐานที่ดีในทฤษฎีทางคณิตศาสตร์ของข้อมูล (Shannon) แต่ฉันไม่เข้าใจ GINI ดีพอที่จะได้รับความสัมพันธ์ของตัวเอง คำถาม: "หลักการแรก" ที่ได้มาจากคะแนนความไม่บริสุทธิ์ของ GINI เป็นตัวชี้วัดสำหรับการแยกคืออะไร? คะแนน GINI เกี่ยวข้องกับบันทึกของอัตราส่วนความน่าจะเป็นหรือปัจจัยพื้นฐานด้านข้อมูลทฤษฎีอื่น ๆ อย่างไร (Shannon Entropy, pdf , และเอนโทรปีของการข้ามเป็นส่วนหนึ่งของคะแนนเหล่านั้น) อ้างอิง: เกณฑ์การถ่วงน้ำหนักของ Gini เป็นอย่างไร คณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกและต้นไม้การถดถอย http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (เพิ่ม) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity เอนโทรปีของแชนนอนอธิบายว่า: H( x ) = ΣผมP( xผม) บันทึกขP( xผม)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} …

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
อัลกอริทึม MIC สำหรับตรวจจับความสัมพันธ์ที่ไม่ใช่เชิงเส้นสามารถอธิบายได้อย่างง่ายดายหรือไม่?
อีกไม่นานฉันอ่านบทความสองเรื่อง อย่างแรกคือเกี่ยวกับประวัติของสหสัมพันธ์และที่สองเกี่ยวกับวิธีการใหม่ที่เรียกว่า Maximal Information Coefficient (MIC) ฉันต้องการความช่วยเหลือของคุณเกี่ยวกับการทำความเข้าใจกับวิธี MIC เพื่อประเมินความสัมพันธ์แบบไม่เป็นเชิงเส้นระหว่างตัวแปร นอกจากนี้คำแนะนำสำหรับการใช้งานใน R สามารถพบได้บนเว็บไซต์ของผู้เขียน (ภายใต้ดาวน์โหลด ): ฉันหวังว่านี่จะเป็นแพลตฟอร์มที่ดีในการพูดคุยและเข้าใจวิธีการนี้ ความสนใจของฉันที่จะหารือเกี่ยวกับสัญชาตญาณเบื้องหลังวิธีนี้และสามารถขยายออกไปได้อย่างไรตามที่ผู้เขียนกล่าว " ... เราต้องการส่วนขยายของ MIC (X, Y) ถึง MIC (X, Y | Z) เราจะต้องการทราบว่าต้องใช้ข้อมูลจำนวนเท่าใดในการประมาณค่า MIC ที่มีเสถียรภาพและมีความอ่อนไหวต่อค่าผิดปกติอย่างไร - หรือความสัมพันธ์ที่สูงขึ้นมิติมันจะพลาดและอื่น ๆ MIC เป็นขั้นตอนที่ดีข้างหน้า แต่มีขั้นตอนอื่น ๆ อีกมากมายที่จะใช้.. "

2
เอนโทรปีเชิงประจักษ์คืออะไร?
ในคำนิยามของชุดทั่วไปที่ใช้ร่วมกัน (ใน "องค์ประกอบของทฤษฎีข้อมูล", ch. 7.6, p. 195) เราใช้ เป็นเอนโทรปีเชิงประจักษ์ของn-sequence กับP(xn)=Π n ฉัน= 1 P(xฉัน) ฉันไม่เคยเจอคำศัพท์นี้มาก่อน ไม่ได้กำหนดไว้อย่างชัดเจนที่ใดก็ได้ตามดัชนีของหนังสือ−1nlogp(xn)−1nlog⁡p(xn)-\frac{1}{n} \log{p(x^n)}nnnp(xn)=∏ni=1p(xi)p(xn)=∏i=1np(xi)p(x^n) = \prod_{i=1}^{n}{p(x_i)} คำถามของฉันโดยทั่วไปคือ: ทำไมเอนโทรปีเชิงประจักษ์ไม่ได้ที่P ( x )−∑xp^(x)log(p^(x))−∑xp^(x)log⁡(p^(x))-\sum_{x}{\hat p (x) \log(\hat p(x))}p^(x)p^(x)\hat p(x)คือการกระจายเชิงประจักษ์? อะไรคือความแตกต่างและความคล้ายคลึงที่น่าสนใจที่สุดระหว่างสองสูตรนี้? (ในแง่ของคุณสมบัติที่พวกเขาแบ่งปัน / ไม่แชร์)

2
การผูกข้อมูลร่วมกันที่กำหนดขอบเขตบนข้อมูลร่วมกันตามจุด
สมมติว่าฉันมีสองชุดและและกระจายความน่าจะร่วมกันมากกว่าชุดนี้y) อนุญาตให้และแสดงถึงการกระจายตัวเล็กน้อยเหนือและตามลำดับXXXYYYp(x,y)p(x,y)p(x,y)p(x)p(x)p(x)p(y)p(y)p(y)XXXYYY ข้อมูลร่วมกันระหว่างและถูกกำหนดให้เป็น: XXXYYYI(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) คือมันเป็นค่าเฉลี่ยของ PMI pointwise ข้อมูลร่วมกันขวา)(x,y)≡log(p(x,y)p(x)p(y))(x,y)≡log⁡(p(x,y)p(x)p(y))(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right) สมมติว่าฉันรู้ขอบเขตบนและล่างของ pmi : นั่นคือฉันรู้ว่าสำหรับมีดังต่อไปนี้: (x,y)(x,y)(x,y)x,yx,yx,y−k≤log(p(x,y)p(x)p(y))≤k−k≤log⁡(p(x,y)p(x)p(y))≤k-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k สิ่งที่ถูกผูกไว้ด้านบนนี้จะบ่งบอกเกี่ยวกับI(X;Y)I(X;Y)I(X; Y)Y) แน่นอนว่ามันหมายถึงI(X;Y)≤kI(X;Y)≤kI(X; Y) \leq kแต่ฉันต้องการขอบเขตที่แน่นกว่าถ้าเป็นไปได้ นี้ดูเหมือนว่าเป็นไปได้กับผมเพราะพีกำหนดกระจายความน่าจะเป็นและ PMI (x,y)(x,y)(x,y)ไม่สามารถใช้ค่าสูงสุด (หรือแม้กระทั่งไม่เป็นลบ) สำหรับค่าของทุกxxxและy ที่yyy

3
การวิเคราะห์ความแตกต่างของ Kullback-Leibler
ขอให้เราพิจารณาการแจกแจงความน่าจะเป็นสองแบบต่อไปนี้ P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 ฉันได้คำนวณการ Kullback-Leibler ซึ่งเท่ากับ0.492820258ฉันต้องการที่จะรู้โดยทั่วไปหมายเลขนี้แสดงให้ฉันเห็นอะไร? โดยทั่วไปแล้วการเบี่ยงเบน Kullback-Leibler แสดงให้ฉันเห็นว่าการกระจายความน่าจะเป็นหนึ่งเดียวจากอีกอันนั้นอยู่เท่าใด มันคล้ายกับคำศัพท์เอนโทรปี แต่ในแง่ของตัวเลขมันหมายถึงอะไร? หากฉันมีผลลัพธ์เป็นผลลัพธ์จาก 0.49 ฉันสามารถพูดได้ว่าการกระจายตัวประมาณหนึ่งตัวนั้นอยู่ไกลจากอีก 50%?0.4928202580.4928202580.492820258

1
ทำไม KL แตกต่างกันจึงไม่เป็นลบ
ทำไม KL แตกต่างกันจึงไม่เป็นลบ จากมุมมองของทฤษฎีสารสนเทศฉันมีความเข้าใจที่เข้าใจง่าย: บอกว่ามีสองตระการตาและBซึ่งจะประกอบด้วยชุดเดียวกันขององค์ประกอบที่โดดเด่นด้วยx p ( x )และq ( x )คือการแจกแจงความน่าจะเป็นที่แตกต่างกันมากกว่าชุดAและBตามลำดับAAABBBxxxp(x)p(x)p(x)q(x)q(x)q(x)AAABBB จากมุมมองของทฤษฎีข้อมูลlog2(P(x))log2⁡(P(x))\log_{2}(P(x))เป็นจำนวนเงินที่น้อยที่สุดของบิตที่จำเป็นต้องใช้สำหรับการบันทึกเป็นองค์ประกอบxxxทั้งมวล ดังนั้นความคาดหวัง ∑ x ∈ e n s e m b l e - p ( x ) ln ( p ( x ) ) สามารถตีความได้ว่าอย่างน้อยจำนวนบิตที่เราต้องการสำหรับบันทึกองค์ประกอบในAโดยเฉลี่ยAAA∑x∈ensemble−p(x)ln(p(x))∑x∈ensemble−p(x)ln⁡(p(x))\sum_{x \in ensemble}-p(x)\ln(p(x))AAA เนื่องจากสูตรนี้ให้ขอบเขตที่ต่ำกว่าบนบิตที่เราต้องการโดยเฉลี่ยดังนั้นสำหรับกลุ่มที่แตกต่างกันซึ่งทำให้มีการกระจายความน่าจะเป็นที่ต่างกันq ( x )ขอบเขตที่ให้สำหรับแต่ละองค์ประกอบxจะไม่ใช่บิตที่แน่นอน มอบให้โดยp ( x )ซึ่งหมายถึงการคาดหวัง∑ x ∈ …

2
การคำนวณ AIC“ ด้วยมือ” ใน R
ฉันได้ลองคำนวณ AIC ของการถดถอยเชิงเส้นใน R แต่ไม่ได้ใช้AICฟังก์ชันเช่นนี้ lm_mtcars <- lm(mpg ~ drat, mtcars) nrow(mtcars)*(log((sum(lm_mtcars$residuals^2)/nrow(mtcars))))+(length(lm_mtcars$coefficients)*2) [1] 97.98786 อย่างไรก็ตามAICให้ค่าที่แตกต่าง: AIC(lm_mtcars) [1] 190.7999 มีคนบอกฉันว่าฉันทำอะไรผิดหรือเปล่า?

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.