ภาพรวมของคำถาม
คำเตือน: คำถามนี้ต้องมีการตั้งค่าจำนวนมาก กรุณาทนกับฉัน
เพื่อนร่วมงานของฉันและฉันกำลังทำงานในการออกแบบการทดสอบ การออกแบบต้องแก้ไขข้อ จำกัด จำนวนมากซึ่งฉันจะแสดงรายการด้านล่าง ฉันได้พัฒนาการออกแบบที่สอดคล้องกับข้อ จำกัด และนั่นทำให้เราประเมินค่าผลกระทบที่น่าสนใจของเราโดยไม่ลำเอียง อย่างไรก็ตามเพื่อนร่วมงานของฉันเชื่อว่ามีความสับสนในการออกแบบ เราโต้เถียงประเด็นนี้ได้โดยไม่ต้องมีการแก้ปัญหาดังนั้น ณ จุดนี้ฉันต้องการความเห็นจากภายนอก
ฉันจะอธิบายถึงเป้าหมายของการศึกษาข้อ จำกัด ของเราความสับสนที่อาจเกิดขึ้นและสาเหตุที่ฉันเชื่อว่า "ความสับสน" นี้ไม่ใช่ปัญหาด้านล่าง เมื่อคุณอ่านแต่ละส่วนโปรดจำไว้ว่าคำถามโดยรวมของฉัน:
มีความสับสนในการออกแบบที่ฉันอธิบายหรือไม่
[รายละเอียดของการทดลองนี้ได้รับการแก้ไข แต่องค์ประกอบสำคัญที่จำเป็นในการถามคำถามของฉันยังคงเหมือนเดิม]
เป้าหมายการทดสอบ
เราต้องการตรวจสอบว่าเรียงความที่เขียนโดยตัวผู้สีขาวได้รับการประเมินอย่างดีกว่าเรียงความที่เขียนโดยตัวเมียสีขาวตัวผู้ผิวดำหรือตัวเมียดำ ( ตัวแปรการประพันธ์เรียงความ ) นอกจากนี้เรายังต้องการตรวจสอบว่าอคติใด ๆ ที่เราพบปรากฏขึ้นในทุนที่มีคุณภาพสูงหรือต่ำ ( ตัวแปรคุณภาพ ) สุดท้ายเราต้องการรวมบทความที่เขียนประมาณ 12 หัวข้อที่แตกต่างกัน ( ตัวแปรหัวข้อ ) อย่างไรก็ตามมีเพียงสองตัวแปรแรกเท่านั้นที่น่าสนใจ แม้ว่าหัวข้อจะต้องแตกต่างกันไปตามแต่ละบทความ แต่เราไม่สนใจอย่างมากว่าการประเมินแตกต่างกันอย่างไรในแต่ละหัวข้อ
ข้อ จำกัด
- มีข้อ จำกัด ทั้งจำนวนผู้เข้าร่วมและจำนวนเรียงความที่เราสามารถรวบรวมได้ ผลที่ได้คือการประพันธ์ไม่สามารถควบคุมได้อย่างสมบูรณ์ระหว่างผู้เข้าร่วมและไม่สามารถจัดการได้อย่างสมบูรณ์ระหว่างการเขียนเรียงความ (กล่าวคือการเขียนเรียงความแต่ละเรื่องจะต้องถูกกำหนดให้หลายเงื่อนไข)
- ถึงแม้ว่าการเขียนเรียงความแต่ละครั้งจะมีตัวผู้สีขาวตัวเมียสีขาวตัวผู้ตัวผู้และตัวดำ แต่ตัวเรียงความแต่ละอันนั้นจะมีคุณภาพสูงและต่ำเพียงหนึ่งเรื่องเท่านั้น หรือเพื่อทำให้ข้อ จำกัด นี้แตกต่างกันไม่ว่าจะเป็นเรื่องคุณภาพหรือหัวข้อในบทความเนื่องจากมันเป็นลักษณะโดยธรรมชาติของเรียงความที่กำหนด
- เนื่องจากความเหนื่อยล้าจึงมีการ จำกัด จำนวนบทความที่ผู้เข้าร่วมสามารถประเมินได้
- เรียงความทั้งหมดที่ผู้อ่านที่ระบุต้องเป็นหัวข้อเดียว กล่าวอีกนัยหนึ่งไม่สามารถสุ่มเรียงความทั้งหมดให้กับผู้เข้าร่วมได้เนื่องจากเราต้องแน่ใจว่าผู้เข้าร่วมแต่ละคนอ่านบทความในหัวข้อที่คล้ายกันเท่านั้น
- ผู้เข้าร่วมแต่ละคนสามารถดูบทความที่เขียนโดยนักเขียนชายผิวขาวคนหนึ่งเท่านั้นเนื่องจากเราไม่ต้องการให้ผู้เข้าร่วมสงสัยเกี่ยวกับจุดประสงค์ของการทดสอบเพราะมีบทความมากเกินไปเขียนโดยนักเขียนดำหรือหญิง
การออกแบบที่เสนอ
การออกแบบที่เสนอของฉันก่อนจะจัดเรียงแต่ละเรียงความเป็น 4 รุ่นที่ต่างกัน (ชายผิวขาวหญิงผิวขาว ฯลฯ ) เรียงความสี่ชุดจากหัวข้อที่คล้ายกันจากนั้นใช้เพื่อกำหนด "ชุด" ซึ่งแต่ละชุดประกอบด้วยเรียงความคุณภาพสูงสองชุดและชุดคุณภาพต่ำสองชุด ผู้เข้าร่วมแต่ละคนได้รับเรียงความสามชุดจากชุดดังต่อไปนี้ในรูปที่ให้ไว้ด้านล่าง จากนั้นผู้เข้าร่วมแต่ละคนจะได้รับการจัดเรตเดี่ยวสำหรับแต่ละเรียงความที่ได้รับมอบหมาย
ศักยภาพที่สับสน
เพื่อนร่วมงานของฉันเชื่อว่าการออกแบบด้านบนมีความสับสน ปัญหาเขาบอกว่าคือเมื่อเรียงความที่มีคุณภาพสูงได้รับมอบหมายให้เขียนโดยนักเขียนที่ไม่ใช่ชายผิวขาวมันจะจับคู่กับเรียงความที่มีคุณภาพสูงหนึ่งเสมอและเรียงความที่มีคุณภาพต่ำหนึ่ง (สำหรับเรียงความ 1 ดูผู้เข้าร่วม 1-3 ในรูป) ในทางตรงกันข้ามเมื่อเรียงความเดียวกันนั้นได้รับมอบหมายให้เขียนโดยนักเขียนชายผิวขาวมันถูกจับคู่กับเรียงความคุณภาพสูงหนึ่งรายการและเรียงความคุณภาพต่ำหนึ่งครั้งสามครั้ง (สำหรับเรียงความ 1 เข้าร่วม 4-6) และเรียงความคุณภาพต่ำสองสามรายการ ครั้ง (สำหรับเรียงความ 1 ผู้เข้าร่วม 7-9)
มีปัญหาที่คล้ายกันสำหรับบทความคุณภาพต่ำ เมื่อการเขียนเรียงความคุณภาพต่ำมีนักเขียนชายผิวขาวที่ไม่ใช่งานเขียนก็จะเห็นบทความที่มีคุณภาพต่ำและเรียงความที่มีคุณภาพสูง (สำหรับเรียงความ 3 ดูที่ผู้เข้าร่วม 7-9) อย่างไรก็ตามเมื่อเรียงความเดียวกันนั้นมีผู้แต่งชายผิวขาวมันจะเห็นด้วยเรียงความที่มีคุณภาพสูงหนึ่งและเรียงความที่มีคุณภาพต่ำหนึ่งครั้งสามครั้ง (สำหรับเรียงความ 3, เข้าร่วม 10-12) และมีสองเรียงความที่มีคุณภาพสูงสองครั้ง ผู้เข้าร่วม 1-3)
เหตุผลที่รูปแบบข้างต้นอาจเป็นปัญหาคือถ้าเราถือว่าการมีอยู่ของ "ผลกระทบความคมชัด" โดยเฉพาะถ้าเรียงความที่มีคุณภาพสูงได้รับการประเมินโดยเฉลี่ยดีกว่าเมื่อพวกเขาถูกจับคู่กับสองบทความที่มีคุณภาพต่ำกว่าเมื่อพวกเขาจับคู่กับเรียงความที่มีคุณภาพต่ำหนึ่งและเรียงความที่มีคุณภาพสูงหนึ่ง หญิงผิวขาว, ชายผิวดำ, และผู้หญิงผิวดำเรียงความด้วยเหตุผลอื่นนอกเหนือจากผลงาน
ผลกระทบความคมชัดสำหรับเรียงความที่มีคุณภาพสูงอาจจะหรืออาจจะไม่สมดุลโดยผลกระทบความคมชัดสำหรับเรียงความที่มีคุณภาพต่ำ; นั่นคือมันอาจจะใช่หรือไม่ใช่กรณีที่บทความคุณภาพต่ำที่จับคู่กับบทความคุณภาพสูงสองฉบับได้รับการประเมินโดยเฉพาะอย่างยิ่งไม่เอื้ออำนวย ไม่ว่าเพื่อนร่วมงานของฉันจะอ้างว่าโอกาสที่จะได้รับผลกระทบจากความขัดแย้งใด ๆ ที่ทำให้เกิดปัญหาการออกแบบนี้เพื่อวัตถุประสงค์ในการพิจารณาว่าบทความที่เขียนโดยเพศชายผิวขาวได้รับการประเมินอย่างเหมาะสมมากกว่าบทความของผู้เขียนคนอื่น
ทำไมฉันเชื่อว่าโอกาสที่จะเกิดความสับสนนั้นไม่ใช่ปัญหา
สิ่งที่สำคัญสำหรับฉันคือเราสามารถประเมินระดับการเขียนเรียงความของชายผิวขาวที่ได้รับการประเมินแตกต่างจากบทความอื่น ๆ (เช่นว่าเราสามารถประเมินผลกระทบที่เราสนใจ) แม้ในที่ที่มีความคมชัด ดังนั้นฉันจึงทำการจำลองที่ฉันจำลองชุดข้อมูล 50 ชุดที่มีเอฟเฟกต์ความคมชัดและพอดีกับโมเดลที่ทดสอบผลกระทบที่เราสนใจ
โมเดลเฉพาะคือโมเดลเอฟเฟ็กต์แบบผสมที่มีการสกัดกั้นแบบสุ่มสำหรับเรียงความ (เรียงความแต่ละเรื่องประเมินโดยผู้เข้าร่วมหลายคน) และผู้เข้าร่วม (ผู้เข้าร่วมแต่ละคนประเมินเรียงความหลายชุด) ระดับเรียงความยังมีความลาดชันแบบสุ่มสำหรับการแข่งขันเพศและปฏิสัมพันธ์ของพวกเขา (ตัวแปรทั้งสองได้รับการจัดการภายในเรียงความ) และระดับผู้เข้าร่วมมีความลาดชันแบบสุ่มสำหรับคุณภาพ (มีการจัดการคุณภาพภายในผู้เข้าร่วม) ผลกระทบที่น่าสนใจคือผลกระทบของเชื้อชาติเพศการมีปฏิสัมพันธ์ระหว่างเผ่าพันธุ์และเพศและการมีปฏิสัมพันธ์ที่สูงขึ้นระหว่างตัวแปรและคุณภาพเหล่านี้ เป้าหมายของการจำลองนี้เพื่อตรวจสอบว่าการแนะนำผลกระทบที่ขัดแย้งกันในข้อมูลจะสร้างผลกระทบที่น่าเกรงขามของเผ่าพันธุ์เพศการมีปฏิสัมพันธ์ระหว่างเผ่าพันธุ์และเพศหรือไม่ และการโต้ตอบที่มีลำดับสูงกว่าระหว่างตัวแปรและคุณภาพเหล่านี้ ดูรหัสก้อนด้านล่างสำหรับรายละเอียดเพิ่มเติม
จากการจำลองสถานการณ์การปรากฏตัวของความเปรียบต่างไม่ได้มีอคติกับการประเมินผลกระทบใด ๆ ที่เราสนใจ นอกจากนี้ยังสามารถประมาณขนาดของเอฟเฟกต์ความคมชัดได้ในโมเดลสถิติเดียวกับเอฟเฟกต์อื่น ๆ ในการออกแบบ สำหรับฉันแล้วนี่แสดงให้เห็นว่า "ผลตรงกันข้าม" ที่ระบุโดยเพื่อนร่วมงานของฉันไม่ได้เป็นความสับสน อย่างไรก็ตามเพื่อนร่วมงานของฉันยังคงสงสัย
require(lme4)
require(plyr)
participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black",
"white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female",
"female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female")
d <- data.frame(participant, essay, quality, race, gender)
for(i in 1:35)
{
participant <- participant + 12
essay <- essay + 4
newdat <- data.frame(participant, essay, quality, race, gender)
d <- rbind(d, newdat)
}
check_var <- function(var)
{
tab <- table(var)
newvar <- character()
for(i in var)
{
if(i == names(tab[tab == 1]))
{
newvar <- c(newvar, "different")
} else
{
newvar <- c(newvar, "same")
}
}
return(newvar)
}
# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))
# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)
# Random seed
set.seed(2352)
# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)
# For each simulation
for(i in 1:reps)
{
# Fixed effects. A quality effect and a contrast effect for quality
d$score <- .5 * d$quality + 1 * d$different * d$quality
# Random effects at the participant level
d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
r_q = rnorm(1, sd = .5),
score = score + r_int + r_q * quality)
# Random effects at the essay level
d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
g_r = rnorm(1, sd = .5),
g_g = rnorm(1, sd = .5),
g_r_g = rnorm(1, sd = .5),
score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)
# Observation-level error
d$score <- d$score + rnorm(dim(d)[1], sd = 1)
# Fit the model
mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)
# Store the coefficients
colnames(effs) <- names(fixef(mod))
effs[i, ] <- fixef(mod)
# Print the current simulation
print(i)
}
# Results
round(colMeans(effs), digits = 2)
(Intercept) race gender quality
0.00 -0.03 0.02 0.50
different race:gender race:quality gender:quality
0.01 -0.03 0.00 0.03
quality:different race:gender:quality
0.97 -0.02
อีกครั้งคำถามโดยรวมของฉันคือมีความสับสนในการออกแบบที่ฉันได้อธิบาย? หากไม่มีความสับสนฉันจะสนใจคำอธิบายว่าทำไม "เอฟเฟ็กต์ความเปรียบต่าง" ที่อาจเกิดขึ้นไม่ได้ทำให้สับสนเพื่อให้ฉันสามารถอธิบายสิ่งนี้กับเพื่อนร่วมงานของฉัน