แสดงให้เห็นว่าการวัด 100 ครั้งสำหรับ 5 วัตถุให้ข้อมูลน้อยกว่าการวัด 5 ครั้งสำหรับ 100 วัตถุ


21

ในการประชุมฉันได้ยินคำสั่งต่อไปนี้:

การวัด 100 ครั้งสำหรับ 5 วิชาให้ข้อมูลน้อยกว่าการวัด 5 รายการสำหรับ 100 วิชา

เห็นได้ชัดว่ามันเป็นเรื่องจริง แต่ฉันสงสัยว่าจะพิสูจน์ได้ในเชิงคณิตศาสตร์อย่างไร ... ฉันคิดว่าแบบจำลองเชิงเส้นผสมสามารถใช้งานได้ อย่างไรก็ตามฉันไม่รู้อะไรมากเกี่ยวกับคณิตศาสตร์ที่ใช้ในการประมาณค่า (ฉันเพิ่งเรียกใช้lmer4สำหรับ LMM และbmrsสำหรับ GLMMs) คุณช่วยแสดงตัวอย่างของสิ่งที่เป็นจริงได้ไหม ฉันต้องการคำตอบกับสูตรบางอย่างมากกว่าแค่บางโค้ดใน R. รู้สึกอิสระที่จะตั้งค่าอย่างง่ายเช่นตัวแบบผสมแบบเชิงเส้นที่มีการสกัดแบบสุ่มและการลาดชันแบบกระจายตามปกติ

ป.ล. คำตอบทางคณิตศาสตร์ที่ไม่เกี่ยวข้องกับ LMM ก็ถือว่าใช้ได้เช่นกัน ฉันคิดถึง LMM เพราะพวกเขาดูเหมือนจะเป็นเครื่องมือตามธรรมชาติที่จะอธิบายว่าทำไมการวัดน้อยลงจากวิชาเพิ่มเติมนั้นดีกว่าการวัดเพิ่มเติมจากบางวิชา แต่ฉันอาจผิด


3
+1 ผมคิดว่าการตั้งค่าที่ง่ายที่สุดที่จะพิจารณางานของการประมาณการประชากรย่อมที่แต่ละเรื่องมีค่าเฉลี่ยของตัวเอง~ N ( μ , σ 2 )และการวัดของเรื่องนี้ในแต่ละกระจายเป็นx ~ N ( , σ 2 ) . ถ้าเราใช้เวลาnวัดจากแต่ละเมตรวิชาแล้วสิ่งที่เป็นวิธีที่ดีที่สุดชุดnและม.ได้รับสินค้าที่มีความคงที่n M = N μa~ยังไม่มีข้อความ(μ,σa2)x~ยังไม่มีข้อความ(a,σ2)nม.nม.nม.=ยังไม่มีข้อความ
อะมีบาพูดว่า Reinstate Monica

"ดีที่สุด" ในแง่ของการลดความแปรปรวนของค่าเฉลี่ยของกลุ่มตัวอย่างที่มา datapoints ยังไม่มีข้อความ
อะมีบาพูดว่า Reinstate Monica

1
ใช่. แต่สำหรับคำถามของคุณเราไม่จำเป็นต้องสนใจว่าจะประมาณความแปรปรวนได้อย่างไร คำถามของคุณ (เช่นคำพูดในคำถามของคุณ) คือฉันเชื่อเพียงเกี่ยวกับการประมาณค่าเฉลี่ยทั่วโลกและดูเหมือนชัดเจนว่าตัวประมาณที่ดีที่สุดนั้นได้มาจากค่าเฉลี่ยที่ยิ่งใหญ่ˉ xของจุดNทั้งหมดn = n mในตัวอย่าง คำถามคือ: ให้μ , σ 2 , σ 2 a , nและmความแปรปรวนของˉ xคืออะไร? หากเรารู้ว่าเราจะสามารถย่อขนาดมันให้เล็กลงด้วยความเคารพต่อn ที่ให้n mμx¯N=nmμσ2σa2nmx¯nข้อ จำกัด nm=ยังไม่มีข้อความ
อะมีบาพูดว่า Reinstate Monica

1
ฉันไม่รู้ว่าจะได้รับสิ่งใดจากสิ่งนั้น แต่ฉันยอมรับว่ามันดูเหมือนชัดเจน: การประมาณความแปรปรวนข้อผิดพลาดมันจะเป็นการดีที่สุดที่จะมีการวัดทั้งหมดจากเรื่องเดียว และเพื่อประเมินความแปรปรวนของวัตถุมันจะดีที่สุดถ้ามีวัตถุที่แตกต่างกันN ตัวโดยแต่ละการวัดมีค่า 1 ค่า มันไม่ชัดเจนนักเกี่ยวกับค่าเฉลี่ย แต่ปรีชาญาณของฉันบอกฉันว่าการมีตัวแบบN ที่มีการวัด 1 ค่าก็จะดีที่สุดเช่นกัน ฉันสงสัยว่ามันเป็นเรื่องจริงหรือไม่ ...ยังไม่มีข้อความยังไม่มีข้อความยังไม่มีข้อความ
อะมีบาพูดว่า Reinstate Monica

2
อาจจะเป็นเช่นนั้น: ความแปรปรวนของตัวอย่างต่อหนึ่งเรื่องควรจะเป็นโดยที่เทอมแรกคือความแปรปรวนของหัวเรื่องและที่สองคือความแปรปรวนของการประมาณค่าเฉลี่ยของแต่ละเรื่อง จากนั้นค่าความแปรปรวนของค่าเฉลี่ยของอาสาสมัคร (เช่นค่าเฉลี่ยขนาดใหญ่) จะเป็น( σ 2 a + σ 2 / n ) / m = σ 2 a / m + σ 2 / ( n m ) = σ 2 a / mσa2+σ2/nซึ่งจะลดลงเมื่อเมตร= N
(σa2+σ2/n)/ม.=σa2/ม.+σ2/(nม.)=σa2/ม.+σ2/ยังไม่มีข้อความ=σa2/ม.+const,
m=N
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


25

คำตอบสั้น ๆ คือการคาดคะเนของคุณเป็นจริงเมื่อใดและเมื่อมีความสัมพันธ์ในระดับบวกภายในข้อมูลเท่านั้น ชุดข้อมูลที่ได้รับการพูดเชิงประจักษ์ส่วนใหญ่มักแสดงความสัมพันธ์เชิงบวกภายในห้องเรียนซึ่งหมายความว่าในทางปฏิบัติการคาดเดาของคุณมักเป็นจริง แต่ถ้าความสัมพันธ์ภายในคลาสนั้นเป็น 0 ดังนั้นทั้งสองกรณีที่คุณกล่าวถึงนั้นเป็นข้อมูลที่เท่าเทียมกัน และถ้าความสัมพันธ์ภายในชั้นเรียนเป็นลบแสดงว่ามันมีข้อมูลน้อยกว่าที่จะทำการวัดน้อยลงในวิชาที่มากขึ้น เราต้องการ (เท่าที่จะลดความแปรปรวนของการประมาณค่าพารามิเตอร์ที่เกี่ยวข้อง) เพื่อทำการวัดทั้งหมดของเราในเรื่องเดียว

ในทางสถิติมีสองมุมมองที่เราสามารถคิดเกี่ยวกับสิ่งนี้: แบบจำลองเอฟเฟกต์แบบสุ่ม (หรือผสม ) ที่คุณพูดถึงในคำถามของคุณหรือแบบจำลองส่วนขอบซึ่งท้ายที่สุดก็เป็นข้อมูลอีกเล็กน้อย

แบบสุ่มเอฟเฟ็กต์ (ผสม)

บอกว่าเรามีชุดของวิชาจากผู้ที่เราได้ถ่ายเมตรวัดแต่ละ จากนั้นง่ายรูปแบบสุ่มผลกระทบของเจวัดนับขึ้นจากฉันเรื่อง TH อาจจะ Y ฉันJ = β + U ฉัน + อีฉันเจ , ที่βคือตัดคงที่U ฉันเป็นผลเรื่องการสุ่ม (กับความแปรปรวนσ 2 u ), e i jคือเทอมข้อผิดพลาดระดับการสังเกต (ด้วยความแปรปรวนσ 2 enmji

yij=β+ui+eij,
βuiσu2eijσe2) และคำสองคำหลังสุ่มมีความเป็นอิสระ

ในรูปแบบนี้หมายถึงประชากรเฉลี่ยและมีชุดข้อมูลที่สมดุล (เช่นจำนวนที่เท่ากันของการวัดจากแต่ละเรื่อง) ประมาณการที่ดีที่สุดของเราเป็นเพียงค่าเฉลี่ยของกลุ่มตัวอย่าง ดังนั้นหากเราจะใช้ "ข้อมูลเพิ่มเติม" หมายถึงความแปรปรวนขนาดเล็กสำหรับประมาณนี้แล้วโดยทั่วไปเราต้องการทราบวิธีการแปรปรวนของค่าเฉลี่ยของกลุ่มตัวอย่างขึ้นอยู่กับnและม. ด้วยพีชคณิตเล็กน้อยเราสามารถหาวานั้นได้ ( 1)βnm การตรวจสอบการแสดงออกนี้เราจะเห็นได้ว่าเมื่อใดก็ตามที่มีใด ๆ แปรปรวนเรื่อง(เช่นσ2U>0), การเพิ่มจำนวนของอาสาสมัคร (คนn) จะทำให้ทั้งสองของคำเหล่านี้มีขนาดเล็กลงในขณะที่การเพิ่มจำนวนของการวัดต่อเรื่อง (ม.) จะทำให้เทอมที่สองมีขนาดเล็กลงเท่านั้น (สำหรับความหมายโดยปริยายเกี่ยวกับสิ่งนี้สำหรับการออกแบบโครงการจำลองแบบหลายไซต์ดูโพสต์บล็อกนี้ที่ฉันเขียนเมื่อไม่นานมานี้)

var(1nม.ΣผมΣJYผมJ)=var(1nม.ΣผมΣJβ+ยูผม+อีผมJ)=1n2ม.2var(ΣผมΣJยูผม+ΣผมΣJอีผมJ)=1n2ม.2(ม.2Σผมvar(ยูผม)+ΣผมΣJvar(อีผมJ))=1n2ม.2(nม.2σยู2+nม.σอี2)=σยู2n+σอี2nม..
σยู2>0nm

ตอนนี้คุณต้องการที่จะรู้ว่าเกิดอะไรขึ้นเมื่อเราเพิ่มหรือลดหรือnในขณะที่จำนวนการสังเกตทั้งหมดคงที่ ดังนั้นเราจึงคิดว่าn mเป็นค่าคงที่เพื่อให้การแสดงออกของความแปรปรวนทั้งหมดดูเหมือน σ 2 umnnm ซึ่งเป็นขนาดเล็กที่สุดเท่าที่เป็นไปได้เมื่อnมีขนาดใหญ่ที่สุดเท่าที่ทำได้ (สูงสุดของn=nเมตรซึ่งในกรณีที่ม.=1หมายถึงเราใช้วัดเดียวจากแต่ละเรื่อง)

σu2n+constant,
nn=nmm=1

คำตอบสั้น ๆ ของฉันอ้างถึงความสัมพันธ์ภายในห้องเรียนดังนั้นสิ่งที่เหมาะสมใน? ในแบบจำลองเอฟเฟกต์แบบง่ายนี้ความสัมพันธ์ภายในคลาสคือ (ภาพร่างของแหล่งที่มา) ดังนั้นเราสามารถเขียนสมการความแปรปรวนข้างบนเป็น var(1)

ρ=σu2σu2+σe2
สิ่งนี้ไม่ได้เพิ่มความเข้าใจลึกลงไปในสิ่งที่เราได้เห็นไปแล้ว แต่มันทำให้เราแปลกใจ: เนื่องจากความสัมพันธ์ภายในชั้นเรียนเป็นสัมประสิทธิ์สหสัมพันธ์โดยสุจริตและสัมประสิทธิ์สหสัมพันธ์ อาจเป็นลบได้จะเกิดอะไรขึ้น (และมันหมายถึงอะไร) หากความสัมพันธ์ภายในห้องเรียนเป็นลบ
var(1nmijyij)=σu2n+σe2nm=(ρn+1ρnm)(σu2+σe2)

σu2ρ

ขอบแบบจำลอง

yij

yij=β+eij,
uieijeij=ui+eijuieij i.ideijC
C=σ2[R000R000R],R=[1ρρρ1ρρρ1]
ในคำนี้หมายความว่าภายใต้ตัวแบบที่เราพิจารณา ρ ที่จะเป็นความสัมพันธ์ที่คาดหวังระหว่างสอง อี* * * *s จากหัวเรื่องเดียวกัน (เราถือว่าความสัมพันธ์ข้ามวิชาคือ 0) เมื่อρเป็นบวกการสังเกตสองครั้งที่ดึงมาจากหัวเรื่องเดียวกันมีแนวโน้มที่จะคล้ายกันมากขึ้น (โดยใกล้กันมากขึ้น) โดยเฉลี่ยแล้วการสังเกตสองครั้งที่สุ่มมาจากชุดข้อมูลในขณะที่ไม่สนใจการจัดกลุ่มเนื่องจากวัตถุ เมื่อρเป็นค่าลบการสังเกตสองครั้งที่ดึงมาจากหัวเรื่องเดียวกันนั้นมีความคล้ายคลึงกันน้อยกว่า (โดยแยกจากกัน) โดยเฉลี่ยแล้วกว่าการสังเกตสองครั้งที่สุ่มมาโดยสมบูรณ์ (ข้อมูลเพิ่มเติมเกี่ยวกับการตีความนี้ในคำถาม / คำตอบที่นี่ )

ตอนนี้เมื่อเราดูสมการความแปรปรวนของค่าเฉลี่ยตัวอย่างภายใต้ตัวแบบขอบเรามี

var(1nmijyij)=var(1nmijβ+eij)=1n2m2var(ijeij)=1n2m2(n(mσ2+(m2m)ρσ2))=σ2(1+(m1)ρ)nm=(ρn+1ρnm)σ2,
which is the same variance expression we derived above for the random-effects model, just with σe2+σu2=σ2, which is consistent with our note above that eij=ui+eij. The advantage of this (statistically equivalent) perspective is that here we can think about a negative intra-class correlation without needing to invoke any weird concepts like a negative subject variance. Negative intra-class correlations just fit naturally in this framework.

(BTW, just a quick aside to point out that the second-to-last line of the derivation above implies that we must have ρ1/(m1), or else the whole equation is negative, but variances can't be negative! So there is a lower bound on the intra-class correlation that depends on how many measurements we have per cluster. For m=2 (i.e., we measure each subject twice), the intra-class correlation can go all the way down to ρ=1; for m=3 it can only go down to ρ=1/2; and so on. Fun fact!)

So finally, once again considering the total number of observations nm to be a constant, we see that the second-to-last line of the derivation above just looks like

(1+(m1)ρ)×positive constant.
So when ρ>0, having m as small as possible (so that we take fewer measurements of more subjects--in the limit, 1 measurement of each subject) makes the variance of the estimate as small as possible. But when ρ<0, we actually want m to be as large as possible (so that, in the limit, we take all nm measurements from a single subject) in order to make the variance as small as possible. And when ρ=0, the variance of the estimate is just a constant, so our allocation of m and n doesn't matter.

3
+1 คำตอบที่ดี ฉันต้องยอมรับว่าส่วนที่สองเกี่ยวกับρ<0ค่อนข้างใช้งานง่าย: แม้จะมีจำนวน (หรือไม่ จำกัด ) จำนวนมาก nม. การสังเกตที่ดีที่สุดที่เราสามารถทำได้คือจัดสรรการสังเกตทั้งหมดให้เป็นหนึ่งเรื่องเดียวหมายความว่าข้อผิดพลาดมาตรฐานของค่าเฉลี่ยจะเป็น σยูและเป็นไปไม่ได้ในหลักการที่จะลดมันลงไปอีก นี่มันแปลกมาก! จริงβยังคงหยั่งรู้ไม่ว่าทรัพยากรอะไรก็ตามที่เรานำมาวัด การตีความนี้ถูกต้องหรือไม่
อะมีบาพูดว่า Reinstate Monica

3
อ่าไม่ ด้านบนไม่ถูกต้องเพราะเป็นม. เพิ่มขึ้นเป็นอินฟินิตี้ ρไม่สามารถอยู่ติดลบได้และต้องเข้าใกล้ศูนย์ (สอดคล้องกับความแปรปรวนของศูนย์) อืมมม ความสัมพันธ์เชิงลบนี้เป็นเรื่องตลก: ไม่ใช่พารามิเตอร์ของตัวแบบกำเนิดเนื่องจากถูก จำกัด ด้วยขนาดตัวอย่าง (โดยปกติแล้วคน ๆ หนึ่งคาดหวังว่าแบบจำลองเชิงกำเนิดจะสามารถสร้างการสังเกตได้ไม่ว่าจะเป็นจำนวนเท่าใดก็ตาม) ฉันไม่แน่ใจว่าวิธีที่เหมาะสมในการคิดเกี่ยวกับมันคืออะไร
อะมีบาพูดว่า Reinstate Monica

1
@DeltaIV "เมทริกซ์ความแปรปรวนร่วมของเอฟเฟกต์สุ่ม" ในกรณีนี้คืออะไร? ในโมเดลผสมที่เขียนโดย Jake ด้านบนมีเพียงเอฟเฟกต์แบบสุ่มเท่านั้นดังนั้นจึงไม่มี "ความแปรปรวนร่วมแปรปรวน" จริง ๆ แต่มีเพียงหมายเลขเดียว:σยู2. อะไรΣ คุณหมายถึงอะไร
อะมีบาพูดว่า Reinstate Monica

2
@DeltaIV ดีหลักการทั่วไปคือen.wikipedia.org/wiki/Inverse-variance_weightingและความแปรปรวนของค่าเฉลี่ยตัวอย่างของแต่ละเรื่องจะได้รับจากσยู2+σอี2/ม.ผม(นั่นคือเหตุผลที่ Jake เขียนไว้ข้างบนว่าน้ำหนักนั้นต้องขึ้นอยู่กับการประมาณความแปรปรวนระหว่างเรื่อง) การประมาณค่าความแปรปรวนภายในหัวเรื่องนั้นได้มาจากความแปรปรวนของค่าเบี่ยงเบนภายในกลุ่มเรื่องการประมาณค่าความแปรปรวนระหว่างหัวเรื่องนั้นคือค่าความแปรปรวนของค่าเฉลี่ยของอาสาสมัครและการใช้ทั้งหมดนั้นสามารถคำนวณน้ำหนักได้ (แต่ฉันไม่แน่ใจว่าสิ่งนี้จะเทียบเท่า 100% กับสิ่งที่ lmer จะทำหรือไม่)
อะมีบาพูดว่า Reinstate Monica

1
เจคใช่มันเป็นการเข้ารหัสที่ยากมาก ม.ที่รบกวนฉัน หากนี่คือ "ขนาดตัวอย่าง" แสดงว่าไม่สามารถเป็นพารามิเตอร์ของระบบพื้นฐานได้ ความคิดปัจจุบันของฉันคือแง่ลบρควรระบุว่ามีปัจจัยภายในเรื่องอื่นที่ไม่สนใจ / ไม่รู้จักเรา เช่นอาจเป็นก่อน & โพสต์ของการแทรกแซงบางส่วนและความแตกต่างระหว่างพวกเขามีขนาดใหญ่จนการวัดมีความสัมพันธ์เชิงลบ แต่นี่ก็หมายความว่าม.ไม่ใช่ขนาดตัวอย่างจริง ๆ แต่จำนวนของระดับของปัจจัยที่ไม่รู้จักนี้และนั่นอาจเป็นรหัสยาก ...
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.