Потенциальная путаница в дизайне эксперимента

Обзор вопроса

Предупреждение: этот вопрос требует много настроек. Пожалуйста, потерпите меня.

Мой коллега и я работаем над проектом эксперимента. Дизайн должен работать с большим количеством ограничений, которые я перечислю ниже. Я разработал схему, которая удовлетворяет ограничениям и дает нам объективные оценки наших эффектов интереса. Тем не менее, мой коллега считает, что в дизайне есть путаница. Мы спорили по этому вопросу до тошноты, не придя к решению, поэтому на данном этапе мне хотелось бы получить несколько внешних мнений.

Я опишу цель исследования, наши ограничения, потенциальную путаницу и почему я считаю, что эта «путаница» не является проблемой ниже. Читая каждый раздел, помните мой общий вопрос:

Есть ли путаница в дизайне, который я описываю?

[Детали этого эксперимента были изменены, но основные элементы, необходимые для того, чтобы задать мой вопрос, остались прежними]

Цели эксперимента

Мы хотим определить, оцениваются ли эссе, написанные белыми мужчинами, более благоприятно, чем эссе, написанные белыми, черными или черными женщинами ( переменная авторства эссе ). Мы также хотим определить, проявляется ли какое-либо отклонение, которое мы обнаруживаем, в грантах высокого или низкого качества ( переменная качества ). Наконец, мы хотим включить сочинения, написанные по 12 различным темам ( переменная темы ). Однако только первые две переменные представляют существенный интерес; хотя тема должна варьироваться в зависимости от эссе, мы не заинтересованы в том, как оценки варьируются в зависимости от темы.

Ограничения

Существуют ограничения как по количеству участников, так и по количеству сочинений, которые мы можем собрать. В результате авторство нельзя манипулировать полностью между участниками, а также нельзя полностью манипулировать между эссе (т. Е. Каждое отдельное эссе должно быть назначено нескольким условиям).
Хотя каждое эссе может иметь версии «Белое мужское», «Белое женское», «Черное мужское» и «Черное женское», каждое эссе может быть только одного высокого и низкого качества и может касаться только одной темы. Или, чтобы поставить это ограничение по-другому, ни качество, ни тема не могут быть манипулированы в эссе, поскольку они являются неотъемлемыми характеристиками данного эссе.
Из-за усталости количество эссе, которое может оценить каждый участник, ограничено.
Все эссе, которые читает данный человек, должны быть посвящены одной теме. Другими словами, эссе нельзя назначать участникам совершенно случайно, так как мы должны следить за тем, чтобы каждый участник читал только эссе на аналогичную тему.
Каждый участник может просматривать только одно эссе, предположительно написанное не белым автором-мужчиной, поскольку мы не хотим, чтобы участники подозревали цель эксперимента, потому что слишком много их эссе написано черными или женщинами-авторами.

Предлагаемый дизайн

Мой предложенный дизайн сначала манипулирует каждым эссе в 4 различных авторских версиях (белый мужчина, белая женщина и т. Д.). Четыре эссе из аналогичной темы затем используются для определения «набора», каждый из которых состоит из двух эссе высокого и двух низкого качества. Каждый участник получает три эссе из данного набора, как показано на рисунке ниже. Каждый участник затем предоставляет один рейтинг для каждого из трех эссе, которые он или она назначен.

Дизайн эксперимента

Потенциальная путаница

Мой коллега считает, что приведенный выше дизайн содержит путаницу. Проблема, говорит он, состоит в том, что, когда эссе высокого качества назначается автором, написанным не Белым мужчиной, оно всегда соединяется с одним эссе высокого качества и одним эссе низкого качества (для эссе 1 см. Участники 1-3 на рисунке). С другой стороны, когда одно и то же эссе назначается автором белых писателей-мужчин, оно соединяется с одним эссе высокого качества и одним эссе низкого качества три раза (для эссе 1, участники 4-6) и двумя эссе низкого качества три раз (для эссе 1, участники 7-9).

Аналогичная проблема существует для эссе низкого качества. Когда у эссе низкого качества есть автор, не принадлежащий белым людям, его всегда можно увидеть с эссе низкого качества и эссе высокого качества (для эссе 3 см. Участников 7-9). Однако, когда у того же эссе есть белый мужской автор, оно просматривается с одним эссе высокого качества и одним эссе низкого качества три раза (для эссе 3, участники 10-12) и с тремя эссе высокого качества три раза (для эссе 3, Участники 1-3).

Причина, по которой вышеприведенные шаблоны могут быть проблематичными, заключается в том, что мы предполагаем существование «контрастных эффектов». В частности, если эссе высокого качества оцениваются в среднем более благоприятно, когда они сочетаются с двумя эссе низкого качества, чем когда они сочетаются с одним эссе низкого качества и одним эссе высокого качества (разумное предположение), эссе белых мужчин могут получить более высокие оценки, чем Белые женские, черные мужские и черные женские эссе по другой причине, чем авторство.

Эффект контраста для эссе высокого качества может или не может быть уравновешен эффектом контраста для эссе низкого качества; то есть, может быть, а может и нет, что эссе низкого качества в сочетании с двумя эссе высокого качества оцениваются особенно неблагоприятно. Независимо от того, утверждает мой коллега, потенциальные эффекты контраста любого рода делают этот дизайн проблематичным для определения того, оцениваются ли эссе, написанные белыми мужчинами, более благоприятно, чем эссе других авторов.

Почему я считаю, что потенциальная путаница не проблема

Для меня важно то, можем ли мы оценить степень, в которой эссе белых мужчин оцениваются иначе, чем другие эссе (т. Е. Можем ли мы оценить наши эффекты интереса), даже при наличии контрастных эффектов. Поэтому я провел симуляцию, в которой я имитировал 50 наборов данных, которые содержали эффекты контраста, и соответствовал модели, которая проверяет наши эффекты, представляющие интерес.

Конкретная модель представляет собой модель смешанных эффектов со случайными перехватами для эссе (каждое эссе оценивается несколькими участниками) и участника (каждый участник оценивает несколько эссе). Уровень эссе также содержит случайные наклоны для расы, пола и их взаимодействия (обе переменные управляются в эссе), а уровень участника содержит случайный наклон для качества (качество управляется внутри участников). Интересными являются эффекты расы, пола, взаимодействия расы и пола, а также взаимодействия высшего порядка между каждой из этих переменных и качеством. Цель этого моделирования состояла в том, чтобы определить, будет ли введение контрастных эффектов в данные создавать ложные эффекты расы, пола, взаимодействия между расой и полом, и взаимодействия высшего порядка между этими переменными и качеством. Смотрите фрагмент кода ниже для более подробной информации.

Согласно моделированию, наличие контрастных эффектов не смещает оценки любого из наших интересных эффектов. Кроме того, размер эффекта контраста может быть оценен в той же статистической модели, что и другие эффекты в проекте; для меня это уже говорит о том, что «контрастные эффекты», выявленные моим коллегой, не являются путаницей. Мой коллега, однако, остается скептиком.

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

Еще раз, мой общий вопрос: есть ли путаница в дизайне, который я описал? Если нет путаницы, меня интересует описание того, почему потенциальные «контрастные эффекты» не смешиваются, чтобы я мог объяснить это своему коллеге.

— Патрик С. Форшер
источник

Просто комментарий: как будут оцениваться эссе? Я спрашиваю, потому что, если будет работать несколько оценщиков, вы должны помнить, что оценки разных оценщиков не очень последовательны, поэтому вы должны также помнить об изменчивости между оценщиками.

— Тим

Каждый участник присваивает один рейтинг каждому из трех эссе, которые ему назначены.

— Патрик С. Форшер

Я добавил подробности о процедуре оценки в основную часть вопроса.

— Патрик С. Форшер

Для тех из нас, кто не знаком с lmer (), не могли бы вы кратко объяснить анализ и «эффекты интереса»?

— Энтони

Нет проблем, @ Энтони. Я добавил эти детали к вопросу.

— Патрик С. Форшер

Я был бы обеспокоен связанным с этим путаницей: «Каждый участник может просматривать только одно эссе, предположительно написанное не белым автором-мужчиной, поскольку мы не хотим, чтобы участники подозревали цель эксперимента, потому что слишком много их эссе написанный черными или женскими авторами.

Это означает, что независимо от результата вы не сможете определить, связано ли это с разницей между авторством белых мужчин и другим авторством, или просто между «авторством большинства» и «авторством меньшинства».

Если показанный дизайн также отражает порядок представления (я предполагаю, что это не так, но лучше проверить), то это, кажется, другая проблема.

— Чарли
источник

Рисунок не отражает порядок представления.

— Патрик С. Форшер

Я предполагаю, что под авторством «большинства» и «меньшинства» вы имеете в виду долю эссе, представляющих собой данную расу / пол (например, 2/3 белого мужчины, 1/3 другого)? Это правда, что для каждого участника эссе Белого мужчины составляют большую часть эссе, чем другие. Тем не менее, белые мужчины составляют большую часть писателей, которые мы хотим изучать. Мы решили, что это «замешательство» (которое на самом деле может быть частью проблемы) менее проблематично, чем создание искусственной ситуации, в которой есть ровно половина эссе, написанных белыми мужчинами и меньшинствами.

— Патрик С. Форшер

Разве дизайн не был бы проще, если бы каждый участник оценивал только два эссе (один белый мужчина и один другой)? Это так, пусть участники оценивают два эссе, но пусть они считают, что в куче в основном были мужские эссе. Они просто случайно получили этих двоих. Карты магов называют это «принуждением». Если для этого потребуется слишком много участников, протестируйте менее 12 тем. Двенадцать это много.

— dragice
источник

С этим размером выборки, как вы можете сделать вывод? Если вы повторили этот эксперимент много раз, то четыре маркера, которые получают как белого, так и черного мужчин, наградят белых мужчин лучшими оценками в одном испытании из 16.

— Хью Моррис
источник

Это очень маленькая версия этого исследования. В полном исследовании 432 человека оценивают сочинения.

— Патрик С.