วิธีคำนวณความแปรปรวนแบบรวมรวมของกลุ่มตั้งแต่สองกลุ่มขึ้นไปที่ได้รับผลต่างกลุ่มที่รู้จักค่าเฉลี่ยและขนาดตัวอย่าง


32

สมมติว่ามีองค์ประกอบแบ่งออกเป็นสองกลุ่ม (และ ) ความแปรปรวนของกลุ่มแรกคือและความแปรปรวนของกลุ่มที่สองคือ\องค์ประกอบที่ตัวเองจะถือว่าเป็นที่ไม่รู้จัก แต่ฉันรู้ว่าหมายถึงและ\ม.+nม.nσม.2σn2μม.μn

มีวิธีคำนวณความแปรปรวนรวมหรือไม่σ(ม.+n)2

ความแปรปรวนไม่ได้จะต้องมีความเป็นกลางเพื่อให้เป็นตัวหารและไม่ได้n-1)(ม.+n)(ม.+n-1)


เมื่อคุณบอกว่าคุณรู้วิธีการและความแปรปรวนของกลุ่มเหล่านี้พวกเขาจะพารามิเตอร์หรือค่าตัวอย่าง? หากเป็นค่าเฉลี่ย / ผลต่างตัวอย่างคุณไม่ควรใช้μและσ ...
Jonathan Christensen

ฉันแค่ใช้สัญลักษณ์เป็นตัวแทน ไม่อย่างนั้นคงยากที่จะอธิบายปัญหาของฉัน
user1809989

1
สำหรับค่าตัวอย่างเรามักใช้ตัวอักษรละติน (เช่นม.และs ) ตัวอักษรกรีกมักจะสงวนไว้สำหรับพารามิเตอร์ การใช้สัญลักษณ์ "ถูกต้อง" (คาดว่า) จะช่วยให้คุณสื่อสารได้ชัดเจนยิ่งขึ้น
Jonathan Christensen

ไม่ต้องกังวลฉันจะติดตามมันต่อจากนี้ไป! ไชโย
user1809989

1
@ Jonathan เพราะนี่ไม่ใช่คำถามเกี่ยวกับตัวอย่างหรือการประมาณหนึ่งถูกต้องตามกฎหมายสามารถใช้มุมมองที่และσ 2เป็นจริงค่าเฉลี่ยและความแปรปรวนของการกระจายเชิงประจักษ์ของชุดของข้อมูลจึงสมควรใช้การชุมนุมของตัวอักษรกรีกมากกว่า ตัวอักษรละตินเพื่ออ้างถึงพวกเขา μσ2
whuber

คำตอบ:


36

ใช้คำจำกัดความของค่าเฉลี่ย

μ1:n=1ni=1nxi

และความแปรปรวนตัวอย่าง

σ1:n2=1ni=1n(xiμ1:n)2=n1n(1n1i=1n(xiμ1:n)2)

(ระยะสุดท้ายในวงเล็บคือความแปรปรวนเป็นกลางประมาณการมักจะคำนวณโดยเริ่มต้นในซอฟต์แวร์ทางสถิติ) เพื่อหาผลรวมของสี่เหลี่ยมของข้อมูลทั้งหมดฉัน ลองสั่งดัชนีiเพื่อให้i = 1 , , nกำหนดองค์ประกอบของกลุ่มแรกและi = n + 1 , , n + mกำหนดองค์ประกอบของกลุ่มที่สอง แยกผลรวมของช่องสี่เหลี่ยมตามกลุ่มแล้วแสดงอีกสองส่วนในแง่ของความแปรปรวนและความหมายของชุดย่อยของข้อมูล:xiii=1,,ni=n+1,,n+m

(m+n)(σ1:m+n2+μ1:m+n2)=i=11:n+mxi2=i=1nxi2+i=n+1n+mxi2=n(σ1:n2+μ1:n2)+m(σ1+n:m+n2+μ1+n:m+n2).

การแก้ปัญหาเชิงพีชคณิตสำหรับในแง่ของปริมาณอื่น ๆ (รู้จัก) ให้ผลตอบแทนσm+n2

σ1:m+n2=n(σ1:n2+μ1:n2)+m(σ1+n:m+n2+μ1+n:m+n2)m+nμ1:m+n2.

แน่นอนว่าการใช้วิธีเดียวกันนั้นสามารถแสดงในรูปของกลุ่มได้เช่นกันμ1:m+n=(nμ1:n+mμ1+n:m+n)/(m+n)


ผู้มีส่วนร่วมนิรนามชี้ให้เห็นว่าเมื่อค่าเฉลี่ยตัวอย่างเท่ากัน (ดังนั้น ) วิธีแก้ปัญหาสำหรับσ 2 m + nคือค่าเฉลี่ยถ่วงน้ำหนักของ ความแปรปรวนตัวอย่างของกลุ่มμ1:n=μ1+n:m+n=μ1:m+nσm+n2


4
แท็ก "การบ้าน" ไม่ได้หมายความว่าคำถามนั้นเป็นคำถามระดับประถมหรือโง่ ๆ : ใช้สำหรับคำถามที่เรียนรู้ด้วยตนเองที่สามารถรวมข้อความค้นหาระดับการวิจัยได้ มันแยกความแตกต่างของงานประจำคำถามที่ไม่มีบริบทมากหรือน้อย (ของการเรียงลำดับที่โดยทั่วไปอาจผ่อนผันฟอรัมคณิตศาสตร์) จากคำถามที่ใช้เฉพาะ
whuber

ฉันไม่เข้าใจข้อความแรกของคุณ: โดยเฉพาะฉันได้[ ( x - μ ) 2 + μ 2 ] = [ x 2 - 2 x μ ]ซึ่งต้องการμ = 0n(σ2+μ2)=(xμ)2+nμ2=?x2[(xμ)2+μ2]=[x22xμ]μ=0 ฉันพลาดอะไรไปรึเปล่า? คุณช่วยกรุณาอธิบายเรื่องนี้?
DarioP

2
@Dario
(xμ)2+nμ2=(x22μx+nμ2)+nμ2=x22nμ2+2nμ2=x2.
whuber

โอ้ใช่ฉันทำผิดพลาดเครื่องหมายโง่ ๆ ในที่มาตอนนี้ชัดเจนขอบคุณ !!
DarioP

4
ฉันเดาว่านี่สามารถขยายเป็นจำนวนตัวอย่างโดยพลการตราบใดที่คุณมีค่าเฉลี่ยและความแปรปรวนสำหรับแต่ละตัวอย่าง คำนวณ pooled (ลำเอียง) ส่วนเบี่ยงเบนมาตรฐานในการวิจัยเป็นเพียงsqrt(weighted.mean(u^2 + rho^2, n) - weighted.mean(u, n)^2)ที่n, uและrhoเป็นพาหะเท่ากับความยาว เช่นn=c(10, 14, 9)สำหรับสามตัวอย่าง
Jonas Lindeløv

3

ฉันจะใช้สัญลักษณ์มาตรฐานสำหรับค่าเฉลี่ยตัวอย่างและผลต่างตัวอย่างในคำตอบนี้แทนที่จะเป็นสัญลักษณ์ที่ใช้ในคำถาม การใช้สัญลักษณ์มาตรฐานสูตรอื่นสำหรับความแปรปรวนตัวอย่างที่รวมกลุ่มของสองกลุ่มสามารถพบได้ในO'Neill (2014) (ผลลัพธ์ 1):

spooled2=1n1+n21[(n11)s12+(n21)s22+n1n2n1+n2(x¯1x¯2)2].

สูตรนี้ทำงานโดยตรงกับค่าเฉลี่ยตัวอย่างและความแปรปรวนตัวอย่างของกลุ่มย่อยสองกลุ่มและไม่ต้องการการคำนวณระดับกลางของค่าเฉลี่ยกลุ่มตัวอย่าง (หลักฐานการแสดงผลในกระดาษที่เชื่อมโยง)


-3

ใช่ด้วยค่าเฉลี่ยจำนวนตัวอย่างและความแปรปรวนหรือค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่างสองกลุ่มขึ้นไปคุณสามารถคำนวณความแปรปรวนหรือค่าเบี่ยงเบนมาตรฐานของกลุ่มที่รวมกันได้อย่างแน่นอน

หน้าเว็บนี้อธิบายวิธีการใช้งานและสาเหตุที่ใช้งาน นอกจากนี้ยังมีซอร์สโค้ดใน Perl: http://www.burtonsys.com/climate/composite_standard_deviations.html


BTW ตรงกันข้ามกับคำตอบข้างต้น

n(σ2+μ2)    i=1nxi2

ดูตัวคุณเองเช่นใน R:

> x = rnorm (10,5,2)
> x
 [1] 6.515139 8.273285 2.879483 3.624233 6.199610 3.683164 4.921028 8.084591
 [9] 2.974520 6.049962
> mean (x)
[1] 5.320502
> sd (x)
[1] 2.007519
> sum (x ** 2)
[1] 319.3486
> 10 * (mean (x) ** 2 + sd (x) ** 2)
[1] 323.3787

เป็นเพราะคุณลืมปัจจัย n-1 เช่นลองด้วย n * (หมายถึง (x) ** 2 + sd (x) ** 2 / (n) * (n-1))
user603

user603 คุณกำลังพูดเรื่องอะไร
Dave Burton

3
Rsd(c(-1,1))1.4142141sqrt(9/10)*sd(x)sd(x)σμn <- 10; x <- rnorm(n,5,2); m <- mean(x); s <- sd(x) * sqrt((n-1)/n); m2 <- sum(x^2); c(lhs=n * (m^2 + s^2), rhs=m2)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.