คำถามติดแท็ก variance

ความเบี่ยงเบนกำลังสองของตัวแปรสุ่มที่คาดหวังจากค่าเฉลี่ย หรือค่าเบี่ยงเบนยกกำลังสองเฉลี่ยของข้อมูลเกี่ยวกับค่าเฉลี่ย

1
ค่าสัมประสิทธิ์จินีและขอบเขตข้อผิดพลาด
ฉันมีชุดข้อมูลเวลาที่มี N = 14 นับในแต่ละช่วงเวลาและฉันต้องการคำนวณค่าสัมประสิทธิ์ Gini และข้อผิดพลาดมาตรฐานสำหรับการประมาณนี้ในแต่ละช่วงเวลา เนื่องจากฉันมีเพียง N = 14 นับในแต่ละครั้งที่ฉันดำเนินการคำนวณความแปรปรวนของขนุนคือจากสม 7 ของ Tomson Ogwang 'วิธีการที่สะดวกในการคำนวณดัชนี Gini และ' ข้อผิดพลาดมาตรฐาน' ที่ไหนเป็นสัมประสิทธิ์จีนีของค่า N โดยไม่ต้ององค์ประกอบและเป็นค่าเฉลี่ยของk)var( G ) = n - 1n× ∑nk = 1( G ( n , k ) - G¯( n ) )2var⁡(G)=n-1n×Σk=1n(G(n,k)-G¯(n))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G ( n …

2
ข้อดีและข้อเสียของการ bootstrapping
ฉันเพิ่งได้เรียนรู้เกี่ยวกับแนวคิดของการเริ่มระบบและคำถามไร้เดียงสามาถึงใจ: ถ้าเราสามารถสร้างตัวอย่าง bootstrap จำนวนมากของข้อมูลของเราทำไมต้องรำคาญที่จะได้รับข้อมูล "ของจริง" เพิ่มเติมหรือไม่ ฉันคิดว่าฉันมีคำอธิบายโปรดบอกฉันว่าฉันถูกต้องหรือไม่: ฉันคิดว่ากระบวนการ bootstrapping ช่วยลดความแปรปรวน แต่ถ้าชุดข้อมูลดั้งเดิมของฉันคือ BIASED กว่าที่ฉันติดอยู่กับความแปรปรวนต่ำและอคติสูง ฉันกำลังพูด.

2
เหตุใด PCA จึงเพิ่มความแปรปรวนโดยรวมของการฉายภาพให้สูงสุด
Christopher Bishop เขียนในการจดจำรูปแบบในหนังสือของเขาและการเรียนรู้ของเครื่องเพื่อพิสูจน์ว่าแต่ละองค์ประกอบหลักติดต่อกันช่วยเพิ่มความแปรปรวนของการฉายภาพให้เป็นมิติหนึ่งหลังจากข้อมูลถูกฉายไปยังพื้นที่มุมฉากกับองค์ประกอบที่เลือกไว้ก่อนหน้านี้ คนอื่น ๆ แสดงหลักฐานที่คล้ายกัน อย่างไรก็ตามสิ่งนี้พิสูจน์ให้เห็นว่าแต่ละองค์ประกอบที่ต่อเนื่องกันเป็นโครงที่ดีที่สุดสำหรับหนึ่งมิติในแง่ของการเพิ่มความแปรปรวนให้สูงสุด เหตุใดสิ่งนี้จึงบอกเป็นนัยถึงความแปรปรวนของการฉายภาพที่จะบอกว่า 5 มิตินั้นถูกเลือกให้มากที่สุดสำหรับส่วนประกอบแรก

3
ปรีชาหลังสูตรสำหรับความแปรปรวนของผลรวมของสองตัวแปร
ฉันรู้จากการศึกษาก่อนหน้าว่า Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B) = Var(A) + Var(B) + 2 Cov (A,B) อย่างไรก็ตามฉันไม่เข้าใจว่าทำไม ฉันสามารถเห็นได้ว่าเอฟเฟกต์จะ 'ผลักดัน' ความแปรปรวนเมื่อ A และ B มีโควารีสูง ทำให้รู้สึกว่าเมื่อคุณสร้างคอมโพสิตจากสองตัวแปรที่มีความสัมพันธ์สูงคุณจะมีแนวโน้มที่จะเพิ่มการสังเกตที่สูงจาก A ด้วยการสังเกตที่สูงจาก B และการสังเกตที่ต่ำจาก A กับการสังเกตที่ต่ำจาก B นี้จะมีแนวโน้มที่ สร้างค่าสูงสุดและต่ำสุดในตัวแปรคอมโพสิตเพิ่มความแปรปรวนของคอมโพสิต แต่ทำไมมันไม่ทำงานคูณแปรปรวนโดยตรง 2?

5
วิธีการวัดการกระจายตัวในข้อมูลความถี่ของคำ?
ฉันจะหาปริมาณการกระจายตัวในเวกเตอร์ที่มีการนับคำได้อย่างไร ฉันกำลังมองหาสถิติที่จะสูงสำหรับเอกสาร A เนื่องจากมีคำต่าง ๆ มากมายที่เกิดขึ้นไม่บ่อยนักและต่ำสำหรับเอกสาร B เพราะมันมีหนึ่งคำ (หรือคำไม่กี่คำ) ที่เกิดขึ้นบ่อยครั้ง โดยทั่วไปแล้วจะวัดการกระจายตัวหรือ "สเปรด" ในข้อมูลระบุได้อย่างไร มีวิธีมาตรฐานในการทำสิ่งนี้ในชุมชนการวิเคราะห์ข้อความหรือไม่?

1
วิธีรับ "ค่าลักษณะเฉพาะ" (เปอร์เซ็นต์ของความแปรปรวนที่อธิบาย) ของเวกเตอร์ที่ไม่ใช่ PCA eigenvectors
ฉันต้องการที่จะเข้าใจว่าฉันจะได้รับเปอร์เซ็นต์ความแปรปรวนของชุดข้อมูลไม่ใช่ในพื้นที่พิกัดที่จัดทำโดย PCA แต่เทียบกับเวกเตอร์ (หมุน) ชุดที่แตกต่างกันเล็กน้อย set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) plot(vecs, xlim = c(-4, 4), ylim = c(-4, 4)) vv <- eigen(cov(vecs))$vectors ee <- eigen(cov(vecs))$values a1 <- vv[, 1] a2 <- vv[, 2] theta = pi/10 rotmat …

6
เราจะทราบความแปรปรวนของประชากรได้อย่างไร?
ในการทดสอบสมมติฐานคำถามทั่วไปคือความแปรปรวนของประชากรคืออะไร? คำถามของฉันคือเราจะทราบความแปรปรวนของประชากรได้อย่างไร ถ้าเรารู้การกระจายตัวทั้งหมดเราก็อาจรู้ค่าเฉลี่ยของประชากรทั้งหมด จากนั้นการทดสอบสมมติฐานคืออะไร?

3
การทดสอบทางสถิติเพื่อตรวจสอบเมื่ออนุกรมเวลาสองชุดที่คล้ายกันเริ่มแตก
จากชื่อฉันต้องการทราบว่ามีการทดสอบทางสถิติที่สามารถช่วยฉันระบุความแตกต่างที่สำคัญระหว่างอนุกรมเวลาสองชุดที่คล้ายกันได้หรือไม่ โดยเฉพาะเมื่อดูรูปด้านล่างฉันต้องการตรวจสอบว่าซีรีย์เริ่มเบี่ยงเบนเวลา t1 คือเมื่อความแตกต่างระหว่างพวกเขาเริ่มมีนัยสำคัญ ยิ่งกว่านั้นฉันจะตรวจจับเมื่อความแตกต่างระหว่างซีรีย์กลับมามีความหมายไม่มาก มีการทดสอบทางสถิติที่มีประโยชน์ในการทำเช่นนี้หรือไม่?

1
ความแตกต่างของตัวประมาณค่านี้คืออะไร
ฉันต้องการประเมินค่าเฉลี่ยของฟังก์ชัน f เช่น โดยที่และเป็นตัวแปรสุ่มอิสระ ฉันมีตัวอย่างของ f แต่ไม่ใช่ iid: มีตัวอย่าง iid สำหรับและสำหรับแต่ละมีตัวอย่างจาก :EX,Y[f(X,Y)]EX,Y[f(X,Y)]E_{X,Y}[f(X,Y)]XXXYYYY1,Y2,…YnY1,Y2,…YnY_1,Y_2,\dots Y_nYiYiY_ininin_iXXXXi,1,Xi,2,…,Xi,niXi,1,Xi,2,…,Xi,niX_{i,1},X_{i,2},\dots, X_{i,n_i} โดยรวมแล้วฉันมีตัวอย่างf(X1,1,Y1)…f(X1,n1,Y1)…f(Xi,j,Yi)…f(Xn,nn,Yn)f(X1,1,Y1)…f(X1,n1,Y1)…f(Xi,j,Yi)…f(Xn,nn,Yn)f(X_{1,1},Y_1) \dots f(X_{1,n_1},Y_1 ) \dots f(X_{i,j},Y_i) \dots f(X_{n,n_n},Y_n) ในการประมาณค่าเฉลี่ยฉันคำนวณ เห็นได้ชัดว่าดังนั้นคือตัวประมาณที่ไม่เอนเอียง ตอนนี้ฉันสงสัยว่าคือความแปรปรวนของตัวประมาณμ=∑i=1n1/n∗∑j=1nif(Xi,j,Yi)niμ=∑i=1n1/n∗∑j=1nif(Xi,j,Yi)ni\mu=\sum_{i=1}^n 1/n * \sum_{j=1}^{n_i}\frac{ f(X_{i,j},Y_i)}{n_i}EX,Y[μ]=EX,Y[f(X,Y)]EX,Y[μ]=EX,Y[f(X,Y)]E_{X,Y}[\mu]=E_{X,Y}[f(X,Y)]μμ\muVar(μ)Var(μ)Var(\mu) แก้ไข 2: นี่คือความแปรปรวนที่ถูกต้องหรือไม่? มัน ดูเหมือนว่าจะทำงานในขีด จำกัด คือถ้า n = 1 และความแปรปรวนเพียงกลายเป็นความแปรปรวนของค่าเฉลี่ย และถ้าสูตรจะกลายเป็นสูตรมาตรฐานสำหรับความแปรปรวนของตัวประมาณ ถูกต้องหรือไม่ ฉันจะพิสูจน์ได้ว่ามันคืออะไร? Var(μ)=VarY(μi)n+∑i=1nVarX(f(X,Yi)))ni∗n2Var(μ)=VarY(μi)n+∑i=1nVarX(f(X,Yi)))ni∗n2Var(\mu)=\frac{Var_Y(\mu_i)}{n}+\sum_{i=1}^n \frac{Var_X(f(X,Y_i)))}{n_i*n^2}ni=∞ni=∞n_i=\inftyni=1ni=1n_i=1 แก้ไข (ไม่สนใจสิ่งนี้): ดังนั้นฉันคิดว่าฉันมีความคืบหน้า: ให้เรากำหนดซึ่งเป็นตัวประมาณที่ไม่ลำเอียงY_i)]μi=∑nij=1f(Xi,j,Yi)niμi=∑j=1nif(Xi,j,Yi)ni\mu_i=\sum_{j=1}^{n_i}\frac{ f(X_{i,j},Y_i)}{n_i}EX[f(X,Yi)]EX[f(X,Yi)]E_X[f(X,Y_i)] …

2
การชั่งน้ำหนักเป็นไปตามความแม่นยำ (เช่นการแปรผกผัน) เป็นส่วนสำคัญของการวิเคราะห์อภิมาน
การชั่งน้ำหนักตามความแม่นยำเป็นศูนย์กลางของการวิเคราะห์เมตาหรือไม่ Borenstein และคณะ (2009) เขียนว่าสำหรับการวิเคราะห์อภิมานเป็นไปได้ทั้งหมดที่จำเป็นคือ: การศึกษารายงานการประเมินจุดที่สามารถแสดงเป็นตัวเลขเดียว ความแปรปรวนสามารถคำนวณได้สำหรับการประเมินจุดนั้น ไม่ชัดเจนสำหรับฉันทันทีว่าทำไม (2) จำเป็นอย่างยิ่ง แต่ที่จริงแล้ววิธีการวิเคราะห์เมตาดาต้าที่ได้รับการยอมรับอย่างกว้างขวางทั้งหมดนั้นขึ้นอยู่กับแผนการชั่งน้ำหนักที่มีความแม่นยำ (เช่นความแปรปรวนผกผัน) ซึ่งต้องการการประมาณความแปรปรวนสำหรับขนาดผลการศึกษาของแต่ละคน โปรดทราบว่าในขณะที่วิธีการของ Hedges (Hedges & Olkin, 1985; Hedges & Vevea, 1998) และวิธีของ Hunter and Schmidt (Hunter & Schmidt, 2004) โดยทั่วไปใช้การถ่วงน้ำหนักขนาดตัวอย่างวิธีการเหล่านี้ใช้เฉพาะกับความแตกต่างของค่าเฉลี่ย ค่าเบี่ยงเบนมาตรฐานที่อื่น มันทำให้รู้สึกว่าน้ำหนักแปรผกผันกับความแปรปรวนในการศึกษาแต่ละครั้งจะลดความแปรปรวนในการประมาณขนาดผลกระทบโดยรวมดังนั้นรูปแบบการให้น้ำหนักนี้เป็นคุณสมบัติที่จำเป็นของวิธีการทั้งหมดหรือไม่? เป็นไปได้หรือไม่ที่จะทำการตรวจสอบอย่างเป็นระบบโดยไม่ต้องเข้าถึงความแปรปรวนของขนาดเอฟเฟกต์แต่ละขนาดและยังคงเรียกผลลัพธ์ว่าเป็นการวิเคราะห์อภิมาน ขนาดตัวอย่างดูเหมือนจะมีศักยภาพในฐานะพร็อกซีเพื่อความแม่นยำเมื่อความแปรปรวนไม่พร้อมใช้งาน ยกตัวอย่างเช่นเราสามารถใช้น้ำหนักตัวอย่างขนาดหนึ่งในการศึกษาที่กำหนดขนาดเอฟเฟกต์เป็นความแตกต่างของค่าเฉลี่ยดิบหรือไม่ สิ่งนั้นจะส่งผลต่อความสอดคล้องและประสิทธิภาพของขนาดผลเฉลี่ยที่ได้อย่างไร

3
การทดสอบทางสถิติเพื่อเปรียบเทียบความแม่นยำของอุปกรณ์ทั้งสอง
ฉันกำลังเปรียบเทียบอุปกรณ์ควบคุมอุณหภูมิสองอย่างที่ออกแบบมาเพื่อรักษาอุณหภูมิของร่างกายที่ 37 องศาในผู้ป่วยที่ได้รับยาสลบ อุปกรณ์ถูกติดตั้งกับผู้ป่วย 500 คนก่อตัวเป็นสองกลุ่ม กลุ่ม A (ผู้ป่วย 400 ราย) - อุปกรณ์ 1, กลุ่ม B (ผู้ป่วย 100 ราย) - อุปกรณ์ 2 ผู้ป่วยแต่ละรายมีการวัดอุณหภูมิของพวกเขาทุกๆ 36 ชั่วโมงเป็นเวลา 36 ชั่วโมงให้ข้อมูล 18,000 จุดกับทั้งสองกลุ่ม ฉันต้องตรวจสอบว่าอุปกรณ์ใดควบคุมอุณหภูมิร่างกายของผู้ป่วยอย่างแม่นยำมากขึ้นในช่วง 36 ชั่วโมง ฉันได้สร้างกราฟเส้นที่เข้าร่วมกับค่ามัธยฐาน ณ จุดแต่ละครั้งด้วยบาร์ควอไทล์และดูเหมือนว่าจะมีความแตกต่าง ฉันควรวิเคราะห์ข้อมูลเพื่อพิสูจน์ความแตกต่างทางสถิติอย่างไร

1
ปัจจัยเงินเฟ้อความแปรปรวนสำหรับตัวแบบเสริมทั่วไป
ในการคำนวณ VIF ตามปกติสำหรับการถดถอยเชิงเส้นแต่ละตัวแปรอิสระ / อธิบายจะถือว่าเป็นตัวแปรตามในการถดถอยกำลังสองน้อยที่สุดธรรมดา กล่าวคือXJXJX_j XJ= β0+ ∑i = 1 , ฉัน≠ jnβผมXผมXJ=β0+Σผม=1,ผม≠JnβผมXผม X_j = \beta_0 + \sum_{i=1, i \neq j}^n \beta_i X_i ค่าจะถูกเก็บไว้สำหรับแต่ละการถดถอยและ VIF ถูกกำหนดโดยR2R2R^2nnn VผมFJ= 11 - R2JVผมFJ=11-RJ2 VIF_j = \frac{1}{1-R^2_j} สำหรับตัวแปรอธิบายโดยเฉพาะ สมมติว่าโมเดลเสริมทั่วไปของฉันใช้รูปแบบ Y= β0+ ∑i = 1nβผมXผม+ ∑j = 1ม.sJ( Xผม) .Y=β0+Σผม=1nβผมXผม+ΣJ=1ม.sJ(Xผม). Y=\beta_0+ \sum_{i=1}^n \beta_iX_i + …

2
ในตัวอย่างหนึ่ง t-test, เกิดอะไรขึ้นถ้าในความแปรปรวนประมาณการค่าเฉลี่ยของกลุ่มตัวอย่างจะถูกแทนที่ด้วย
สมมติหนึ่งตัวอย่าง t-test ที่สมมติฐานคือ\สถิติแล้วโดยใช้กลุ่มตัวอย่างส่วนเบี่ยงเบนมาตรฐานsในการประเมินหนึ่งเปรียบเทียบการสังเกตกับค่าเฉลี่ยตัวอย่าง : t = ¯ x - μ 0μ = μ0μ=μ0\mu=\mu_0 ss¯xt = x¯¯¯- μ0s / n√เสื้อ=x¯-μ0s/nt=\frac{\overline{x}-\mu_0}{s/\sqrt{n}}ssssssx¯¯¯x¯\overline{x} s = 1n - 1Σni = 1( xผม- x¯¯¯)2---------------√s=1n-1Σผม=1n(xผม-x¯)2s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2}2} อย่างไรก็ตามหากเราถือว่าที่ระบุเป็นจริงเราสามารถประมาณค่าเบี่ยงเบนมาตรฐานโดยใช้แทนค่าเฉลี่ยตัวอย่าง :s ∗ μ 0 ¯ xμ0μ0\mu_0s* * * *s* * * *s^*μ0μ0\mu_0x¯¯¯x¯\overline{x} s* * * *= 1n - 1Σni = …

2
ควรใช้การทดสอบแบบพาราเมตริกเมื่อใดที่จะใช้การทดสอบแบบ homoscedasticity
หากหนึ่งคือการทดสอบสมมติฐานของ homoscedasticity ตัวแปร (Bartlett ทดสอบความสม่ำเสมอของผลต่าง, bartlett.test) และไม่ใช่ตัวแปร (Figner-คิลลีนการทดสอบความสม่ำเสมอของผลต่าง, fligner.test) การทดสอบที่มีอยู่ จะบอกได้อย่างไรว่าจะใช้แบบไหน? สิ่งนี้ควรขึ้นอยู่กับความเป็นปกติของข้อมูลหรือไม่

2
ที่โมเดล Normal และ Binomial ความแปรปรวนด้านหลังจะน้อยกว่าความแปรปรวนก่อนหน้าเสมอหรือไม่
หรือมีเงื่อนไขอะไรรับประกันได้บ้าง โดยทั่วไป (และไม่เพียง แต่แบบจำลองทั่วไปและแบบทวินาม) ฉันคิดว่าเหตุผลหลักที่ทำให้การอ้างสิทธิ์นี้แตกต่างกันคือมีความไม่สอดคล้องกันระหว่างแบบจำลองตัวอย่างและแบบก่อน แต่มีอะไรอีกบ้าง ฉันเริ่มต้นด้วยหัวข้อนี้ดังนั้นฉันขอขอบคุณตัวอย่างง่าย ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.