จำนวนกลุ่มขั้นต่ำที่แนะนำสำหรับปัจจัยสุ่มคือเท่าใด

26

ฉันกำลังใช้โมเดลผสมในR( lme4) เพื่อวิเคราะห์ข้อมูลการวัดซ้ำหลายครั้ง ฉันมีตัวแปรตอบสนอง (เนื้อหาเส้นใยของอุจจาระ) และ 3 ผลกระทบคงที่ (มวลกาย ฯลฯ ) การศึกษาของฉันมีผู้เข้าร่วม 6 คนโดยวัดซ้ำ 16 ครั้งสำหรับแต่ละคน (แม้ว่าสองคนมีเพียง 12 ครั้งเท่านั้น) อาสาสมัครเป็นกิ้งก่าที่ได้รับการผสมผสานอาหารที่แตกต่างกันใน 'การรักษา' ที่แตกต่างกัน

คำถามของฉันคือ: ฉันสามารถใช้หัวเรื่องเป็นเอฟเฟกต์แบบสุ่มได้หรือไม่

ฉันรู้ว่านี่เป็นวิธีการปฏิบัติตามปกติในโมเดลเอฟเฟกต์ผสมตามยาวเพื่อพิจารณาลักษณะของกลุ่มตัวอย่างแบบสุ่มและความจริงที่ว่าการสังเกตในกลุ่มตัวอย่างนั้นมีความสัมพันธ์กันอย่างใกล้ชิดกว่ากลุ่มที่อยู่ระหว่างกลุ่ม แต่การรักษา ID หัวเรื่องเป็นผลแบบสุ่มนั้นเกี่ยวข้องกับการประเมินค่าเฉลี่ยและความแปรปรวนสำหรับตัวแปรนี้

เนื่องจากฉันมีเพียง 6 วิชา (6 ระดับของปัจจัยนี้) นี่เพียงพอที่จะทำให้ได้ลักษณะที่ถูกต้องของค่าเฉลี่ยและความแปรปรวนหรือไม่?
ความจริงที่ว่าฉันมีการวัดซ้ำหลายครั้งสำหรับความช่วยเหลือในแต่ละเรื่องในเรื่องนี้ (ฉันไม่เห็นว่ามันสำคัญ)
ท้ายที่สุดถ้าฉันไม่สามารถใช้ subject ID เป็นเอฟเฟกต์แบบสุ่มได้การรวมไว้เป็นเอฟเฟกต์แบบคงที่จะช่วยให้ฉันสามารถควบคุมความจริงที่ว่าฉันมีมาตรการซ้ำแล้วซ้ำอีกหรือไม่

แก้ไข:ฉันแค่ต้องการชี้แจงว่าเมื่อฉันพูดว่า "ฉันสามารถ" ใช้หัวเรื่อง ID เป็นเอฟเฟกต์แบบสุ่มได้ฉันหมายถึง "เป็นความคิดที่ดีหรือไม่" ฉันรู้ว่าฉันสามารถจัดวางโมเดลด้วยปัจจัยที่มีเพียง 2 ระดับ แต่แน่นอนว่านี่จะป้องกันได้หรือไม่ ฉันกำลังถามว่ามันมีเหตุผลที่จะคิดเกี่ยวกับการรักษาวิชาเป็นลักษณะพิเศษแบบสุ่ม? ดูเหมือนว่าวรรณกรรมแนะนำว่า 5-6 ระดับเป็นขอบเขตล่าง สำหรับฉันแล้วการประมาณการของค่าเฉลี่ยและความแปรปรวนของเอฟเฟกต์แบบสุ่มจะไม่แม่นยำมากจนกว่าจะมีระดับปัจจัย 15+

mixed-model sample-size

— คริส
แหล่งที่มา

21

คำตอบสั้น ๆ : ใช่คุณสามารถใช้ ID เป็นเอฟเฟกต์แบบสุ่มได้ 6 ระดับ

คำตอบที่ยาวกว่าเล็กน้อย: คำถามที่พบบ่อย GLMM ของ @ BenBolkerพูดว่า (เหนือสิ่งอื่นใด) ต่อไปนี้ภายใต้บรรทัดแรก " ฉันควรปฏิบัติต่อปัจจัย xxx ว่าเป็นแบบคงที่หรือสุ่มหรือไม่ ":

จุดหนึ่งที่มีความเกี่ยวข้องเป็นพิเศษกับการประมาณค่าแบบจำลองแบบ 'สมัยใหม่' (แทนที่จะเป็นแบบ 'แบบดั้งเดิม' แบบประมาณช่วงเวลา) คือเพื่อการใช้งานจริงจะต้องมีระดับผลกระทบแบบสุ่มจำนวนมาก (เช่นบล็อก) - มากกว่า 5 หรือ 6 อย่างน้อยที่สุด

ดังนั้นคุณอยู่ที่ขอบเขตล่าง แต่ทางด้านขวาของมัน

— เฮนริก
แหล่งที่มา

12

ในความพยายามที่จะหาจำนวนกลุ่มขั้นต่ำสำหรับโมเดลหลายระดับฉันดูหนังสือการวิเคราะห์ข้อมูลโดยใช้ Regression และโมเดล Mulitilevel / Hierarchicalโดย Gelman and Hill (2007)

พวกเขาจะกล่าวถึงหัวข้อนี้ในบทที่ 11 ตอนที่ 5 (หน้า 247) ซึ่งพวกเขาเขียนว่าเมื่อมี <5 กลุ่มจากนั้นโมเดลหลายระดับมักจะเพิ่มโมเดลคลาสสิกเล็กน้อย อย่างไรก็ตามพวกเขาดูเหมือนจะเขียนว่ามีความเสี่ยงเล็กน้อยในการใช้แบบจำลองหลายระดับ

ผู้เขียนคนเดียวกันกลับมาที่หัวข้อนี้ในบทที่ 12 ตอนที่ 9 (หน้า 275-276) ที่นั่นพวกเขาเขียนคำแนะนำว่าจำนวนกลุ่มขั้นต่ำสำหรับโมเดลหลายระดับนั้นเข้าใจผิด พวกเขากล่าวอีกครั้งว่าแบบหลายระดับมักจะเพิ่มรูปแบบคลาสสิกเล็กน้อยเมื่อจำนวนกลุ่มมีขนาดเล็ก อย่างไรก็ตามพวกเขายังเขียนด้วยว่าแบบจำลองหลายระดับไม่ควรเลวร้ายไปกว่าการถดถอยแบบไม่รวมกำไร

ในหน้า 275-276 ผู้เขียนมีส่วนย่อยเฉพาะสำหรับกรณีของหนึ่งหรือสองกลุ่ม (เช่นผู้ชายกับผู้หญิง) ที่นี่พวกเขาเขียนว่าพวกเขามักจะแสดงแบบจำลองในรูปแบบคลาสสิก อย่างไรก็ตามพวกเขาระบุว่าการสร้างแบบจำลองหลายระดับอาจมีประโยชน์แม้จะมีเพียงหนึ่งหรือสองกลุ่ม พวกเขาเขียนว่าด้วยการสร้างแบบจำลองหลายระดับหนึ่งหรือสองกลุ่มลดการถดถอยแบบคลาสสิก

ความประทับใจของฉันจากสิ่งนี้คือการถดถอยแบบคลาสสิกเป็นจุดสิ้นสุดของโมเดลแบบต่อเนื่องเช่นกรณีพิเศษของโมเดลหลายระดับ

จากที่กล่าวมาข้างต้นความประทับใจของฉันคือการถดถอยแบบคลาสสิกและการสร้างแบบหลายระดับจะคืนค่าการประมาณที่เหมือนกันเมื่อมีเพียงสองกลุ่มและการใช้แบบจำลองหลายระดับที่มีเพียงหนึ่งสอง, สาม, สี่, ห้าหรือหกกลุ่ม

ฉันจะพยายามแก้ไขคำตอบนี้ในอนาคตด้วยRรหัสและชุดข้อมูลขนาดเล็กเปรียบเทียบการประมาณที่ได้จากทั้งสองวิธีเมื่อใช้สองกลุ่ม

— มาร์คมิลเลอร์
แหล่งที่มา

10

สำหรับสิ่งที่คุ้มค่าฉันได้ทำการศึกษาแบบจำลองเพื่อดูความเสถียรของการประมาณค่าความแปรปรวนสำหรับ LMM ที่ค่อนข้างง่าย (โดยใช้sleepstudyชุดข้อมูลที่มีให้lme4) วิธีแรกสร้างชุดค่าผสมเรื่องที่เป็นไปได้ทั้งหมดสำหรับngroupsจำนวนวัตถุและปรับโมเดลสำหรับชุดค่าผสมแต่ละชุดที่เป็นไปได้ ที่สองใช้เวลาหลายชุดย่อยของวิชาแบบสุ่ม

library(lme4)
library(ggplot2)
library(tidyr)

m0 <- lmer(Reaction ~ Days + (1|Subject), data = sleepstudy,
           control = lmerControl(optimizer = "nloptwrap"))
# set the number of factor levels
ngroups <- 3:18 
# generate all possible combinations
combos <- lapply(X = ngroups, 
                 FUN = function(x) combn(unique(sleepstudy$Subject), x)) 

# allocate output (sorry, this code is entirely un-optimized)
out <- list(matrix(NA, ncol(combos[[1]]), 1), matrix(NA, ncol(combos[[2]]), 1),
            matrix(NA, ncol(combos[[3]]), 1), matrix(NA, ncol(combos[[4]]), 1),
            matrix(NA, ncol(combos[[5]]), 1), matrix(NA, ncol(combos[[6]]), 1),
            matrix(NA, ncol(combos[[7]]), 1), matrix(NA, ncol(combos[[8]]), 1),
            matrix(NA, ncol(combos[[9]]), 1), matrix(NA, ncol(combos[[10]]), 1),
            matrix(NA, ncol(combos[[11]]), 1), matrix(NA, ncol(combos[[12]]), 1),
            matrix(NA, ncol(combos[[13]]), 1), matrix(NA, ncol(combos[[14]]), 1),
            matrix(NA, ncol(combos[[15]]), 1), matrix(NA, ncol(combos[[16]]), 1))
# took ~ 2.5 hrs on my laptop, commented out for safety
#system.time(for(ii in 1:length(combos)) {
#    for(jj in 1:ncol(combos[[ii]])) {
#    sls <- sleepstudy[sleepstudy$Subject %in% combos[[ii]][,jj],]
#    out[[ii]][jj] <- attr(VarCorr(update(m0, data = sls))$Subject, 'stddev')
#        }
#    })

# pad with zeros, not all were equal
# from http://stackoverflow.com/questions/11148429/r-convert-asymmetric-list-to-matrix-number-of-elements-in-each-sub-list-diffe
max.len <- max(sapply(out, length))
corrected.list <- lapply(out, function(x) {c(x, rep(NA, max.len - length(x)))})
mat <- do.call(rbind, corrected.list)
mat <- data.frame(t(mat))
names(mat) <- paste0('s',3:18)
mat <- gather(mat, run, value)

ggplot(mat, aes(x = value, fill = run)) + 
    geom_histogram(bins = 60) +
    geom_vline(xintercept = 37.12, linetype =  'longdash', 
               aes(colour = 'original')) +
    facet_wrap(~run, scales = 'free_y') +
    scale_x_continuous(breaks = seq(0, 100, by = 20)) + 
    theme_bw() + 
    guides(fill = FALSE)

เส้นสีดำประเป็นจุดประมาณการเดิมของความแปรปรวนและแง่มุมแทนตัวเลขที่แตกต่างกันของอาสาสมัคร ( s3กลุ่มความเป็นอยู่ของสามวิชาs4เป็นสี่ ฯลฯ )

และทางเลือก:

ngroups <- 3:18
reps <- 500
out2<- matrix(NA, length(ngroups), reps)

for (ii in 1:length(ngroups)) {
    for(j in 1:reps) {
        sls <- sleepstudy[sleepstudy$Subject %in% sample(unique(sleepstudy$Subject), ngroups[i], replace = FALSE),]
        out2[i,j] <- attr(VarCorr(update(m0, data = sls))$Subject, 'stddev')
    }
}
out2 <- data.frame(t(out2))
names(out2) <- paste0('s',3:18)
out2 <- gather(out2, run, value)

ggplot(out2, aes(x = value, fill = run)) + 
    geom_histogram(bins = 60) +
    geom_vline(xintercept = 37.12, linetype =  'longdash', 
               aes(colour = 'original')) +
    facet_wrap(~run, scales = 'free_y') +
    scale_x_continuous(breaks = seq(0, 100, by = 20)) + 
    theme_bw() + 
    guides(fill = FALSE)

ปรากฏขึ้น (สำหรับตัวอย่างนี้) ว่าความแปรปรวนไม่ได้ทำให้เสถียรจริงๆจนกว่าจะมีอย่างน้อย 14 เรื่องหากไม่ได้มาภายหลัง

— alexforrence
แหล่งที่มา

1

+1 แน่นอนว่าจำนวนอาสาสมัครที่น้อยลงก็จะยิ่งมีความแปรปรวนของตัวประมาณค่าความแปรปรวนมากขึ้น แต่ฉันไม่คิดว่านี่เป็นสิ่งสำคัญที่นี่ คำถามคือสิ่งที่จำนวนวิชาที่ช่วยให้ได้ผลลัพธ์ที่เหมาะสมบางอย่าง? หากเรากำหนดผลลัพธ์ที่ "ไม่สมเหตุสมผล" เป็นการรับความแปรปรวนเป็นศูนย์จากนั้นในการจำลองของคุณมันจะเกิดขึ้นค่อนข้างบ่อยด้วย n = 5 หรือน้อยกว่า เริ่มต้นจาก n = 6 หรือ n = 7 คุณแทบไม่เคยได้รับค่าประมาณความแปรปรวน 0 อย่างแน่นอนเช่นตัวแบบกำลังแปลงเป็นโซลูชันที่ไม่เสื่อม ข้อสรุปของฉันคือ n = 6 เป็นที่ยอมรับในระดับเขตแดน

— อะมีบากล่าวว่า Reinstate Monica

1

BTW นี้อยู่ในสายกับrpubs.com/bbolker/4187

— อะมีบาพูดว่า Reinstate Monica

8

Angrist และ Pischke "Econometrics อันตรายส่วนใหญ่"มีหัวข้อที่ "น้อยกว่า 42 กลุ่ม" ซึ่งพวกเขาพูดติดตลกกึ่ง -

ดังนั้นต่อไปนี้ ... dictum ที่คำตอบของชีวิตจักรวาลและทุกสิ่งคือ 42 เราเชื่อว่าคำถามคือ: มีกี่คลัสเตอร์ที่เพียงพอสำหรับการอนุมานที่เชื่อถือได้โดยใช้การปรับคลัสเตอร์แบบมาตรฐาน [คล้ายกับตัวประมาณค่าความแปรปรวนใน GEE]

วิธีที่ผู้สอนเศรษฐมิติใช้ในการตอบคำถามแบบคุณ "อเมริกาเป็นประเทศเสรีคุณสามารถทำอะไรก็ได้ที่คุณต้องการ แต่ถ้าคุณต้องการตีพิมพ์บทความคุณต้องปกป้องสิ่งที่คุณทำ " กล่าวอีกนัยหนึ่งคุณน่าจะสามารถเรียกใช้รหัส R หรือ Stata หรือ HLM หรือ Mplus หรือ SAS PROC GLIMMIX ที่มี 6 วิชา (และเปลี่ยนไปใช้แพคเกจทางเลือกเหล่านี้หากตัวเลือกที่คุณเลือกไม่ทำงาน) แต่คุณอาจจะมี เวลาที่ยากลำบากมากในการปกป้องวิธีการนี้

ฉันเชื่อว่าโดยค่าเริ่มต้นรวมถึงตัวแปรเป็นความชันแบบสุ่มหมายถึงรวมถึงผลกระทบคงที่เช่นกันและคุณต้องข้ามวนไวยากรณ์มากถ้าคุณต้องการให้มันเป็นผลแบบสุ่มด้วยค่าเฉลี่ยของ ศูนย์. นั่นเป็นทางเลือกที่สมเหตุสมผลที่นักพัฒนาซอฟต์แวร์ได้ทำเพื่อคุณ

— StasK
แหล่งที่มา

1

ฉันขอกล่าวในประเด็นที่คำตอบของคำถามคือ "ส่วนใดของสตริง" แต่ฉันจะไม่เชื่อมั่นมากนักในการประมาณค่าเฉลี่ยหรือความแปรปรวนจากกลุ่มตัวอย่างที่น้อยกว่า 15-20 ดังนั้นกฎของหัวแม่มือแบบเดียวกันจะไม่มีผลกับระดับของเอฟเฟกต์แบบสุ่ม ฉันไม่เคยเห็นใครเลยที่มี ID หัวเรื่องเป็นแบบคงที่และมีผลแบบสุ่มในการศึกษาระยะยาว - นี่เป็นเรื่องธรรมดาหรือไม่

— คริส

ด้านบนของกลุ่มตัวอย่างจำนวนน้อยในเอฟเฟ็กต์แบบสุ่มนั้นไม่มีการสุ่มสังเกตดังนั้นคุณต้องแซวพวกเขาออกจากข้อมูลและคุณต้องการข้อมูลที่ค่อนข้างมากเพื่อทำสิ่งนั้นอย่างน่าเชื่อถือมากกว่าเพียงแค่ประมาณค่าเฉลี่ยและ ความแปรปรวนเมื่อสังเกตทุกอย่าง ดังนั้น 42 กับ 15-20 :) ฉันคิดว่าฉันหมายถึงความลาดชันแบบสุ่มเนื่องจากคุณถูกต้องในรหัสเรื่องที่คิดว่าเป็นเอฟเฟกต์แบบสุ่มเท่านั้นไม่เช่นนั้นจะไม่มีการระบุตัวตน นักเศรษฐศาสตร์ไม่เชื่อในเอฟเฟกต์แบบสุ่มและเผยแพร่สิ่งที่พวกเขาเรียกว่า "เอฟเฟ็กต์คงที่" โดยเฉพาะนั่นคือการประมาณภายในเรื่อง

— StasK

2

+1 @StasK สำหรับคำตอบที่ดีมากสำหรับคำถามที่จัดการได้ยาก ฉันคิดว่ามีการเสียดสีที่ไม่จำเป็นแม้ว่าคุณอาจพิจารณาแก้ไขคำตอบของคุณเพื่อที่จะเคารพ OP มากขึ้น

— Michael R. Chernick

@Michael คุณอาจพูดถูกว่านี่เป็นคำตอบที่น่ารำคาญและอาจไม่จำเป็น OP ยอมรับคำตอบที่พวกเขาต้องการได้ยินดังนั้นเขาจึงได้รับการแก้ไขในเรื่องนี้ คำตอบที่จริงจังมากขึ้นจะชี้ไปที่หลักฐานการจำลองที่ดีหรือการวิเคราะห์เชิงเส้นกำกับที่สูงขึ้น

— StasK

3

สำหรับสิ่งที่คุ้มค่าฉันคิดว่าเลขเวทย์มนตร์ "42" ไม่เกี่ยวกับเมื่อเอฟเฟกต์แบบสุ่มเป็นธรรม แต่เมื่อเราสามารถออกไปได้โดยไม่ต้องกังวลเกี่ยวกับการแก้ไขขนาด จำกัด (เช่นการคิดเกี่ยวกับองศาอิสระ วิธีการอื่นที่คล้ายคลึงกัน)

— Ben Bolker

7

คุณยังสามารถใช้แบบผสมแบบเบย์ - ในกรณีนั้นความไม่แน่นอนในการประมาณค่าของเอฟเฟกต์แบบสุ่มนั้นจะได้รับการดูแลอย่างเต็มที่ในการคำนวณระยะเวลาการทำนาย 95% ที่น่าเชื่อถือ ตัวอย่างเช่นแพคเกจ R brmsและฟังก์ชั่นbrmใหม่ช่วยให้การเปลี่ยนจากlme4แบบผสมเป็นประจำไปเป็นแบบเบย์ได้ง่ายเนื่องจากมีไวยากรณ์ใกล้เคียงกัน

— Tom Wenseleers
แหล่งที่มา

4

ฉันจะไม่ใช้โมเดลเอฟเฟกต์แบบสุ่มเพียง 6 ระดับ แบบจำลองที่ใช้เอฟเฟกต์แบบสุ่มระดับ 6 ระดับบางครั้งสามารถเรียกใช้โดยใช้โปรแกรมทางสถิติจำนวนมากและบางครั้งก็ให้ค่าประมาณที่เป็นกลาง

ฉันคิดว่ามีฉันทามติโดยพลการในชุมชนสถิติที่ 10-20 เป็นจำนวนขั้นต่ำ หากคุณต้องการเผยแพร่งานวิจัยของคุณคุณจะได้รับคำแนะนำให้มองหาวารสารที่ไม่มีการตรวจสอบทางสถิติ (หรือสามารถพิสูจน์การตัดสินใจของคุณโดยใช้ภาษาที่ค่อนข้างซับซ้อน)
มีกลุ่มน้อยดังนั้นความแปรปรวนระหว่างคลัสเตอร์น่าจะประมาณได้ไม่ดี การประมาณค่าที่ไม่ดีของความแปรปรวนของคลัสเตอร์มักแปลเป็นค่าประมาณที่ไม่ดีของข้อผิดพลาดมาตรฐานของสัมประสิทธิ์ความสนใจ (โมเดลเอฟเฟ็กต์แบบสุ่มขึ้นอยู่กับจำนวนของกลุ่มตามทฤษฎีแล้วจะไม่มีที่สิ้นสุด)
บ่อยครั้งที่แบบจำลองไม่ได้มาบรรจบกัน คุณลองใช้แบบจำลองของคุณแล้วหรือยัง? ฉันจะแปลกใจกับการวัดเพียง 12-16 ต่อเรื่องที่แบบจำลองมาบรรจบกัน เมื่อฉันจัดการเพื่อให้รูปแบบนี้มาบรรจบกันฉันมีการวัดหลายร้อยต่อคลัสเตอร์

ปัญหานี้ได้รับการแก้ไขในตำรามาตรฐานส่วนใหญ่ในฟิลด์และคุณได้เรียงคำถามเหล่านั้นในคำถาม ฉันไม่คิดว่าฉันจะให้ข้อมูลใหม่แก่คุณ

— ชาร์ลส์
แหล่งที่มา

เหตุผลนี้เกี่ยวข้องกับเนื้อหาด้านเทคนิคหรือไม่?

— N Brouwer

คุณใช้ข้อมูลประเภทใด ฉันไม่แน่ใจว่าทำไมคุณถึงประหลาดใจที่ได้ยินว่าโมเดลจะมาบรรจบกันที่ 12-16 มาตรการต่อคน ฉันไม่สามารถแสดงความคิดเห็นเกี่ยวกับความเอนเอียงในแบบจำลองที่ได้ แต่ฉันไม่เคยมีปัญหาเกี่ยวกับการลู่เข้าในlme4แบบจำลองที่หลากหลายและฉันมักจะเรียกใช้พวกมันในขนาดตัวอย่างที่คล้ายกันเป็น OP (ฉันยังทำงานกับชุดข้อมูลชีววิทยา)

— RTbecard

1

มันเป็นเวลานานนับตั้งแต่คำถามเดิม แต่ฉันคิดว่าฉันอาจเพิ่มบางประเด็นที่เกี่ยวข้องกับการเลือกแบบจำลอง

1 - ตราบใดที่โมเดลนั้นถูกระบุ (เช่นคุณมีดีกรีอิสระในพื้นที่พารามิเตอร์) คุณควรลอง TRY ให้พอดีกับโมเดล ทั้งนี้ขึ้นอยู่กับรูปแบบวิธีการเพิ่มประสิทธิภาพอาจหรือไม่อาจรวม ไม่ว่าในกรณีใดฉันจะไม่พยายามรวมเอฟเฟกต์แบบสุ่มมากกว่า 1 หรือ 2 ครั้งและการโต้ตอบข้ามระดับไม่เกิน 1 ครั้ง ในกรณีที่เฉพาะเจาะจงของปัญหาที่นำเสนอที่นี่หากเราสงสัยว่ามีปฏิสัมพันธ์ระหว่างลักษณะเฉพาะของจิ้งจก (เช่นอายุขนาด ฯลฯ ) และลักษณะการรักษา / การวัดขนาดกลุ่ม 6 อาจไม่เพียงพอที่จะทำให้การประมาณการแม่นยำเพียงพอ

2 - ในฐานะที่เป็นคำตอบสองคำที่กล่าวถึงการบรรจบกันอาจเป็นปัญหา อย่างไรก็ตามประสบการณ์ของฉันคือในขณะที่ข้อมูลทางสังคมศาสตร์มีปัญหาการบรรจบกันอย่างมากเนื่องจากปัญหาการวัดวิทยาศาสตร์เพื่อชีวิตและโดยเฉพาะอย่างยิ่งการใช้มาตรการทางเคมีชีวภาพซ้ำ ๆ มีข้อผิดพลาดมาตรฐานน้อยกว่ามาก ทุกอย่างขึ้นอยู่กับกระบวนการสร้างข้อมูล ในข้อมูลทางสังคมและเศรษฐกิจเราต้องทำงานในระดับต่าง ๆ ของสิ่งที่เป็นนามธรรม ในข้อผิดพลาดทางชีวภาพและเคมีและแน่นอนที่สุดในการวัดข้อมูลทางดาราศาสตร์นั้นเป็นปัญหาน้อยกว่า

— m_e_s
แหล่งที่มา