โอกาสที่อาจเกิดความสับสนในการออกแบบการทดสอบ


12

ภาพรวมของคำถาม

คำเตือน: คำถามนี้ต้องมีการตั้งค่าจำนวนมาก กรุณาทนกับฉัน

เพื่อนร่วมงานของฉันและฉันกำลังทำงานในการออกแบบการทดสอบ การออกแบบต้องแก้ไขข้อ จำกัด จำนวนมากซึ่งฉันจะแสดงรายการด้านล่าง ฉันได้พัฒนาการออกแบบที่สอดคล้องกับข้อ จำกัด และนั่นทำให้เราประเมินค่าผลกระทบที่น่าสนใจของเราโดยไม่ลำเอียง อย่างไรก็ตามเพื่อนร่วมงานของฉันเชื่อว่ามีความสับสนในการออกแบบ เราโต้เถียงประเด็นนี้ได้โดยไม่ต้องมีการแก้ปัญหาดังนั้น ณ จุดนี้ฉันต้องการความเห็นจากภายนอก

ฉันจะอธิบายถึงเป้าหมายของการศึกษาข้อ จำกัด ของเราความสับสนที่อาจเกิดขึ้นและสาเหตุที่ฉันเชื่อว่า "ความสับสน" นี้ไม่ใช่ปัญหาด้านล่าง เมื่อคุณอ่านแต่ละส่วนโปรดจำไว้ว่าคำถามโดยรวมของฉัน:

มีความสับสนในการออกแบบที่ฉันอธิบายหรือไม่

[รายละเอียดของการทดลองนี้ได้รับการแก้ไข แต่องค์ประกอบสำคัญที่จำเป็นในการถามคำถามของฉันยังคงเหมือนเดิม]

เป้าหมายการทดสอบ

เราต้องการตรวจสอบว่าเรียงความที่เขียนโดยตัวผู้สีขาวได้รับการประเมินอย่างดีกว่าเรียงความที่เขียนโดยตัวเมียสีขาวตัวผู้ผิวดำหรือตัวเมียดำ ( ตัวแปรการประพันธ์เรียงความ ) นอกจากนี้เรายังต้องการตรวจสอบว่าอคติใด ๆ ที่เราพบปรากฏขึ้นในทุนที่มีคุณภาพสูงหรือต่ำ ( ตัวแปรคุณภาพ ) สุดท้ายเราต้องการรวมบทความที่เขียนประมาณ 12 หัวข้อที่แตกต่างกัน ( ตัวแปรหัวข้อ ) อย่างไรก็ตามมีเพียงสองตัวแปรแรกเท่านั้นที่น่าสนใจ แม้ว่าหัวข้อจะต้องแตกต่างกันไปตามแต่ละบทความ แต่เราไม่สนใจอย่างมากว่าการประเมินแตกต่างกันอย่างไรในแต่ละหัวข้อ

ข้อ จำกัด

  1. มีข้อ จำกัด ทั้งจำนวนผู้เข้าร่วมและจำนวนเรียงความที่เราสามารถรวบรวมได้ ผลที่ได้คือการประพันธ์ไม่สามารถควบคุมได้อย่างสมบูรณ์ระหว่างผู้เข้าร่วมและไม่สามารถจัดการได้อย่างสมบูรณ์ระหว่างการเขียนเรียงความ (กล่าวคือการเขียนเรียงความแต่ละเรื่องจะต้องถูกกำหนดให้หลายเงื่อนไข)
  2. ถึงแม้ว่าการเขียนเรียงความแต่ละครั้งจะมีตัวผู้สีขาวตัวเมียสีขาวตัวผู้ตัวผู้และตัวดำ แต่ตัวเรียงความแต่ละอันนั้นจะมีคุณภาพสูงและต่ำเพียงหนึ่งเรื่องเท่านั้น หรือเพื่อทำให้ข้อ จำกัด นี้แตกต่างกันไม่ว่าจะเป็นเรื่องคุณภาพหรือหัวข้อในบทความเนื่องจากมันเป็นลักษณะโดยธรรมชาติของเรียงความที่กำหนด
  3. เนื่องจากความเหนื่อยล้าจึงมีการ จำกัด จำนวนบทความที่ผู้เข้าร่วมสามารถประเมินได้
  4. เรียงความทั้งหมดที่ผู้อ่านที่ระบุต้องเป็นหัวข้อเดียว กล่าวอีกนัยหนึ่งไม่สามารถสุ่มเรียงความทั้งหมดให้กับผู้เข้าร่วมได้เนื่องจากเราต้องแน่ใจว่าผู้เข้าร่วมแต่ละคนอ่านบทความในหัวข้อที่คล้ายกันเท่านั้น
  5. ผู้เข้าร่วมแต่ละคนสามารถดูบทความที่เขียนโดยนักเขียนชายผิวขาวคนหนึ่งเท่านั้นเนื่องจากเราไม่ต้องการให้ผู้เข้าร่วมสงสัยเกี่ยวกับจุดประสงค์ของการทดสอบเพราะมีบทความมากเกินไปเขียนโดยนักเขียนดำหรือหญิง

การออกแบบที่เสนอ

การออกแบบที่เสนอของฉันก่อนจะจัดเรียงแต่ละเรียงความเป็น 4 รุ่นที่ต่างกัน (ชายผิวขาวหญิงผิวขาว ฯลฯ ) เรียงความสี่ชุดจากหัวข้อที่คล้ายกันจากนั้นใช้เพื่อกำหนด "ชุด" ซึ่งแต่ละชุดประกอบด้วยเรียงความคุณภาพสูงสองชุดและชุดคุณภาพต่ำสองชุด ผู้เข้าร่วมแต่ละคนได้รับเรียงความสามชุดจากชุดดังต่อไปนี้ในรูปที่ให้ไว้ด้านล่าง จากนั้นผู้เข้าร่วมแต่ละคนจะได้รับการจัดเรตเดี่ยวสำหรับแต่ละเรียงความที่ได้รับมอบหมาย

การออกแบบการทดลอง

ศักยภาพที่สับสน

เพื่อนร่วมงานของฉันเชื่อว่าการออกแบบด้านบนมีความสับสน ปัญหาเขาบอกว่าคือเมื่อเรียงความที่มีคุณภาพสูงได้รับมอบหมายให้เขียนโดยนักเขียนที่ไม่ใช่ชายผิวขาวมันจะจับคู่กับเรียงความที่มีคุณภาพสูงหนึ่งเสมอและเรียงความที่มีคุณภาพต่ำหนึ่ง (สำหรับเรียงความ 1 ดูผู้เข้าร่วม 1-3 ในรูป) ในทางตรงกันข้ามเมื่อเรียงความเดียวกันนั้นได้รับมอบหมายให้เขียนโดยนักเขียนชายผิวขาวมันถูกจับคู่กับเรียงความคุณภาพสูงหนึ่งรายการและเรียงความคุณภาพต่ำหนึ่งครั้งสามครั้ง (สำหรับเรียงความ 1 เข้าร่วม 4-6) และเรียงความคุณภาพต่ำสองสามรายการ ครั้ง (สำหรับเรียงความ 1 ผู้เข้าร่วม 7-9)

มีปัญหาที่คล้ายกันสำหรับบทความคุณภาพต่ำ เมื่อการเขียนเรียงความคุณภาพต่ำมีนักเขียนชายผิวขาวที่ไม่ใช่งานเขียนก็จะเห็นบทความที่มีคุณภาพต่ำและเรียงความที่มีคุณภาพสูง (สำหรับเรียงความ 3 ดูที่ผู้เข้าร่วม 7-9) อย่างไรก็ตามเมื่อเรียงความเดียวกันนั้นมีผู้แต่งชายผิวขาวมันจะเห็นด้วยเรียงความที่มีคุณภาพสูงหนึ่งและเรียงความที่มีคุณภาพต่ำหนึ่งครั้งสามครั้ง (สำหรับเรียงความ 3, เข้าร่วม 10-12) และมีสองเรียงความที่มีคุณภาพสูงสองครั้ง ผู้เข้าร่วม 1-3)

เหตุผลที่รูปแบบข้างต้นอาจเป็นปัญหาคือถ้าเราถือว่าการมีอยู่ของ "ผลกระทบความคมชัด" โดยเฉพาะถ้าเรียงความที่มีคุณภาพสูงได้รับการประเมินโดยเฉลี่ยดีกว่าเมื่อพวกเขาถูกจับคู่กับสองบทความที่มีคุณภาพต่ำกว่าเมื่อพวกเขาจับคู่กับเรียงความที่มีคุณภาพต่ำหนึ่งและเรียงความที่มีคุณภาพสูงหนึ่ง หญิงผิวขาว, ชายผิวดำ, และผู้หญิงผิวดำเรียงความด้วยเหตุผลอื่นนอกเหนือจากผลงาน

ผลกระทบความคมชัดสำหรับเรียงความที่มีคุณภาพสูงอาจจะหรืออาจจะไม่สมดุลโดยผลกระทบความคมชัดสำหรับเรียงความที่มีคุณภาพต่ำ; นั่นคือมันอาจจะใช่หรือไม่ใช่กรณีที่บทความคุณภาพต่ำที่จับคู่กับบทความคุณภาพสูงสองฉบับได้รับการประเมินโดยเฉพาะอย่างยิ่งไม่เอื้ออำนวย ไม่ว่าเพื่อนร่วมงานของฉันจะอ้างว่าโอกาสที่จะได้รับผลกระทบจากความขัดแย้งใด ๆ ที่ทำให้เกิดปัญหาการออกแบบนี้เพื่อวัตถุประสงค์ในการพิจารณาว่าบทความที่เขียนโดยเพศชายผิวขาวได้รับการประเมินอย่างเหมาะสมมากกว่าบทความของผู้เขียนคนอื่น

ทำไมฉันเชื่อว่าโอกาสที่จะเกิดความสับสนนั้นไม่ใช่ปัญหา

สิ่งที่สำคัญสำหรับฉันคือเราสามารถประเมินระดับการเขียนเรียงความของชายผิวขาวที่ได้รับการประเมินแตกต่างจากบทความอื่น ๆ (เช่นว่าเราสามารถประเมินผลกระทบที่เราสนใจ) แม้ในที่ที่มีความคมชัด ดังนั้นฉันจึงทำการจำลองที่ฉันจำลองชุดข้อมูล 50 ชุดที่มีเอฟเฟกต์ความคมชัดและพอดีกับโมเดลที่ทดสอบผลกระทบที่เราสนใจ

โมเดลเฉพาะคือโมเดลเอฟเฟ็กต์แบบผสมที่มีการสกัดกั้นแบบสุ่มสำหรับเรียงความ (เรียงความแต่ละเรื่องประเมินโดยผู้เข้าร่วมหลายคน) และผู้เข้าร่วม (ผู้เข้าร่วมแต่ละคนประเมินเรียงความหลายชุด) ระดับเรียงความยังมีความลาดชันแบบสุ่มสำหรับการแข่งขันเพศและปฏิสัมพันธ์ของพวกเขา (ตัวแปรทั้งสองได้รับการจัดการภายในเรียงความ) และระดับผู้เข้าร่วมมีความลาดชันแบบสุ่มสำหรับคุณภาพ (มีการจัดการคุณภาพภายในผู้เข้าร่วม) ผลกระทบที่น่าสนใจคือผลกระทบของเชื้อชาติเพศการมีปฏิสัมพันธ์ระหว่างเผ่าพันธุ์และเพศและการมีปฏิสัมพันธ์ที่สูงขึ้นระหว่างตัวแปรและคุณภาพเหล่านี้ เป้าหมายของการจำลองนี้เพื่อตรวจสอบว่าการแนะนำผลกระทบที่ขัดแย้งกันในข้อมูลจะสร้างผลกระทบที่น่าเกรงขามของเผ่าพันธุ์เพศการมีปฏิสัมพันธ์ระหว่างเผ่าพันธุ์และเพศหรือไม่ และการโต้ตอบที่มีลำดับสูงกว่าระหว่างตัวแปรและคุณภาพเหล่านี้ ดูรหัสก้อนด้านล่างสำหรับรายละเอียดเพิ่มเติม

จากการจำลองสถานการณ์การปรากฏตัวของความเปรียบต่างไม่ได้มีอคติกับการประเมินผลกระทบใด ๆ ที่เราสนใจ นอกจากนี้ยังสามารถประมาณขนาดของเอฟเฟกต์ความคมชัดได้ในโมเดลสถิติเดียวกับเอฟเฟกต์อื่น ๆ ในการออกแบบ สำหรับฉันแล้วนี่แสดงให้เห็นว่า "ผลตรงกันข้าม" ที่ระบุโดยเพื่อนร่วมงานของฉันไม่ได้เป็นความสับสน อย่างไรก็ตามเพื่อนร่วมงานของฉันยังคงสงสัย

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

อีกครั้งคำถามโดยรวมของฉันคือมีความสับสนในการออกแบบที่ฉันได้อธิบาย? หากไม่มีความสับสนฉันจะสนใจคำอธิบายว่าทำไม "เอฟเฟ็กต์ความเปรียบต่าง" ที่อาจเกิดขึ้นไม่ได้ทำให้สับสนเพื่อให้ฉันสามารถอธิบายสิ่งนี้กับเพื่อนร่วมงานของฉัน


2
เพียงความคิดเห็น: เรียงความจะถูกจัดอันดับอย่างไร ฉันถามเพราะถ้ามีผู้ประเมินหลายคนกำลังจะถูกว่าจ้างคุณต้องจำไว้ว่าการให้คะแนนผู้ประเมินที่ต่างกันนั้นไม่สอดคล้องกันดังนั้นคุณควรจำความแปรปรวนระหว่างผู้ประเมินด้วย
ทิม

ผู้เข้าร่วมแต่ละคนให้คะแนนหนึ่งชุดสำหรับเรียงความแต่ละชุดจากสามบทความที่ได้รับมอบหมาย
Patrick S. Forscher

ฉันได้เพิ่มรายละเอียดเกี่ยวกับขั้นตอนการให้คะแนนลงในเนื้อความของคำถาม
Patrick S. Forscher

สำหรับพวกเราที่ไม่คุ้นเคยกับ lmer () คุณสามารถอธิบายการวิเคราะห์และ "ผลประโยชน์ที่น่าสนใจ" ได้หรือไม่?
แอนโทนี่

ไม่มีปัญหา @Anony ฉันได้เพิ่มรายละเอียดเหล่านั้นในคำถาม
Patrick S. Forscher

คำตอบ:


1

ฉันกังวลเกี่ยวกับความสับสนที่เกี่ยวข้อง - 'ผู้เข้าร่วมแต่ละคนสามารถดูบทความที่เขียนโดยนักเขียนที่ไม่ใช่ชายผิวขาวคนเดียวเท่านั้นเนื่องจากเราไม่ต้องการให้ผู้เข้าร่วมสงสัยเกี่ยวกับจุดประสงค์ของการทดสอบเพราะมีบทความมากเกินไป เขียนโดยนักเขียนผิวดำหรือเพศหญิง '

ซึ่งหมายความว่าไม่ว่าผลลัพธ์จะเป็นเช่นไรคุณจะไม่สามารถตัดสินได้ว่าเป็นเพราะความแตกต่างระหว่างการประพันธ์ชายผิวขาวกับการประพันธ์อื่น ๆ หรือระหว่าง 'การประพันธ์เสียงส่วนใหญ่' กับ 'การประพันธ์ชนกลุ่มน้อย'

หากการออกแบบตามที่แสดงสะท้อนถึงลำดับงานนำเสนอ (ฉันคิดว่ามันไม่ได้ แต่ดีกว่าที่จะตรวจสอบ) ก็ดูเหมือนว่าจะเป็นปัญหาอื่น


ตัวเลขไม่สะท้อนลำดับการนำเสนอ
Patrick S. Forscher

1
ฉันถือว่าด้วยการประพันธ์ "เสียงส่วนใหญ่" และ "ชนกลุ่มน้อย" คุณหมายถึงสัดส่วนของบทความที่มีการผสมผสานระหว่างเชื้อชาติ / เพศ (เช่น 2/3 ชายผิวขาวคนอื่น ๆ 1/3)? เป็นเรื่องจริงที่ผู้เข้าร่วมแต่ละคนบทความเกี่ยวกับชายผิวขาวประกอบด้วยสัดส่วนของบทความที่มากกว่าคนอื่น อย่างไรก็ตามเพศชายผิวขาวประกอบด้วยสัดส่วนที่มากขึ้นของประชากรของนักเขียนเรียงความที่เราต้องการศึกษา เราได้ตัดสินใจแล้วว่า "ความสับสน" นี้ (ซึ่งอันที่จริงอาจเป็นส่วนหนึ่งของปัญหา) นั้นมีปัญหาน้อยกว่าการสร้างสถานการณ์เทียมซึ่งมีครึ่งหนึ่งของชายผิวขาวและเรียงความที่เขียนโดยชนกลุ่มน้อย
Patrick S. Forscher

1

การออกแบบจะไม่ง่ายกว่านี้หากผู้เข้าร่วมแต่ละคนให้คะแนนเรียงความเพียงสองบทความ (ชายผิวขาวคนหนึ่งและอีกคนหนึ่ง) ดังนั้นให้ผู้เข้าร่วมให้คะแนนสองบทความ แต่ให้พวกเขาเชื่อว่ากองมีบทความเรียงความส่วนใหญ่เป็นเพศชาย พวกเขาเพิ่งจะได้รับสองคนนี้โดยบังเอิญ นักมายากลไพ่เรียกสิ่งนี้ว่า "การบังคับ" หากต้องการผู้เข้าร่วมมากเกินไปให้ทดสอบน้อยกว่า 12 หัวข้อ สิบสองเป็นจำนวนมาก


1

ด้วยขนาดตัวอย่างนี้คุณจะสรุปอะไรได้บ้าง หากคุณทำการทดลองซ้ำหลายครั้งเครื่องหมายทั้งสี่ที่ให้ทั้งตัวผู้สีขาวและตัวผู้สีดำจะให้คะแนนตัวผู้ที่ดีกว่าในการทดลองหนึ่งครั้งจาก 16 ครั้ง


นี่เป็นรุ่นที่เล็กมากของการศึกษานี้ การศึกษาเต็มรูปแบบมี 432 คนประเมินเรียงความ
Patrick S. Forscher
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.