Предвзятость в выборе жюри?

14

Друг представляет клиента по апелляции после уголовного процесса, в ходе которого выясняется, что выбор присяжных был расистским.

Жюри состояло из 30 человек в 4 расовых группах. Обвинение использовало императивные вызовы, чтобы исключить 10 из этих людей из пула. Количество людей и количество реальных проблем в каждой расовой группе были, соответственно:

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

Обвиняемый был из расовой группы C, а жертвы - из расовых групп A и D, поэтому априори беспокоит вопрос о том, является ли группа C чрезмерно оспоренной, а группы A и D - менее оспариваемой. С юридической точки зрения (IIUC; IANAL) защита не должна доказывать расовую предвзятость, а просто демонстрировать, что данные, по-видимому, указывают на предвзятость, что затем возлагает бремя на обвинение, чтобы объяснить каждую проблему нерасовым.

Является ли следующий анализ правильным в своем подходе? (Я думаю, что расчеты в порядке.)

Существует nCr (30,10) = 30,045,015 различных наборов из 10 членов пула. Из этих отдельных наборов я считаю, что 433 377 наборов включают как (не более 2 членов группы A и D вместе взятых), так и (не менее 4 членов группы C).

Таким образом, вероятность достижения наблюдаемого уровня явного смещения в пользу групп A и D по сравнению с группой C (где предпочтительные средства не входят в набор из 10 испытаний) будет равна их соотношению, 433/30045 = 1,44%.

Таким образом, нулевая гипотеза (без такого смещения) отклоняется на уровне значимости 5%.

Если этот анализ является методологически правильным, каков будет самый краткий способ описать его в суде, включая академическую / профессиональную ссылку (т.е. не Википедию)? Хотя аргумент кажется простым, как можно наиболее ясно и лаконично продемонстрировать суду, что это правильно, а не махинации?

Обновление: этот вопрос рассматривался в качестве третичного аргумента в апелляционной записке. Учитывая техническую сложность (с точки зрения адвоката) обсуждения здесь и очевидное отсутствие правового прецедента, адвокат решил не поднимать его, поэтому на данный момент этот вопрос носит в основном теоретический / образовательный характер.

Чтобы ответить на одну деталь: я считаю, что количество задач, 10, было установлено заранее.

Изучив вдумчивые и сложные ответы и комментарии (спасибо всем!), Кажется, что здесь есть 4 отдельных вопроса. По крайней мере, для меня было бы очень полезно рассмотреть их отдельно (или выслушать аргументы, почему они не отделимы).

1) Является ли рассмотрение рас как обвиняемых, так и потерпевших при рассмотрении дел с участием присяжных заседателей априорным вопросом ? Цель апелляционной жалобы будет состоять лишь в том, чтобы вызвать разумную обеспокоенность, что может привести к вынесению судебного постановления о том, что обвинение устанавливает причину для каждого отдельного вызова. Мне кажется, что это не статистический вопрос, а скорее социальный / правовой вопрос, который юрист может решать или нет.

2) Предполагая (1), правдоподобен ли мой выбор альтернативной гипотезы (качественно: предвзятость в отношении присяжных, которые разделяют расу обвиняемого, в пользу тех, кто разделяет расы жертв), или это недопустимо постфактумно ? С моей точки зрения, это самый сложный вопрос - да, конечно, никто бы не поднял его, если бы не наблюдал! Проблема, как я понимаю, заключается в предвзятости выбора: в тестах следует учитывать не только этот пул присяжных, но и совокупность всех таких пулов присяжных, включая все те, в которых защита не наблюдала расхождения и, следовательно, не испытывала соблазна поднять проблему. , Как можно решить эту проблему? (Например, как тест Энди решает эту проблему?) Кажется, хотя я могу ошибаться по этому поводу, что большинство респондентов не обеспокоены потенциально пост-случайным1-сторонние тесты на предвзятость исключительно в отношении группы обвиняемого. Как было бы методологически отличаться для одновременной проверки предвзятости для групп жертв, предполагая (1)?

3) Если кто-то оговаривает мой выбор качественной альтернативной гипотезы, как указано в (2), то какая статистика подходит для ее проверки? Именно здесь я больше всего озадачен ответами, потому что соотношение, которое я предлагаю, кажется немного более консервативным аналогом теста Энди для более простой альтернативной гипотезы «предвзятого отношения к С» (более консервативный, потому что мой тест также подсчитывает все случаи дальше в хвосте, а не только точный наблюдаемый счет.)

Оба теста являются простыми счетными тестами с одним и тем же знаменателем (одним и тем же набором выборок) и с числителями, точно соответствующими частоте тех выборок, которые соответствуют соответствующим альтернативным гипотезам. Итак, @whuber, почему это не тождественно так же верно для моего теста подсчета, как у Энди, что он «может быть основан на оговоренных нулевых [одинаковых] и альтернативных [как описано] гипотезах и обоснован с помощью леммы Неймана-Пирсона»?

4) Если кто-то оговаривает (2) и (3), есть ли в прецедентном праве ссылки, которые убедили бы скептический апелляционный суд? Из доказательств на сегодняшний день, вероятно, нет. Кроме того, на данном этапе апелляции нет никакой возможности для какого-либо "эксперта-свидетеля", поэтому ссылки - это все

— JD марта
источник

Вопрос обновляется (добавляется) после изучения ответов и комментариев.

— JD марта

Спасибо за отличное резюме! Чтобы ответить на пункт (3), меня беспокоит то, что ваш тест (если я правильно понимаю) принимает альтернативную гипотезу, которая была мотивирована самими данными. Таким образом, похоже, что он был создан апостериорно, чтобы результаты были как можно более сильными. Тест, основанный на максимально возможном предполагаемом, соответствующем классе альтернатив a priori и проведенный с областью отклонения Неймана-Пирсона, имеет более прочную логическую основу и менее подвержен критике, чем он, тем не менее, был предложен после просмотра данных.

— whuber

Спасибо, @whuber, это правдоподобная и полезная критика - очень много о чем я спрашивал с самого начала. Но разве это не приведет к сбою my (2), даже до (3)? Если это так, то my (3), по-видимому, все еще остается без ответа - то есть, будет ли это хорошей статистикой, если одна оговорена (2)?

— JD март

7

Вот как я могу подойти к ответу на ваш вопрос, используя стандартные статистические инструменты.

Ниже приведены результаты анализа вероятности отказа от участия в группе присяжных.

Во-первых, вот как выглядят данные. У меня есть 30 наблюдений группы и бинарный отклоненный индикатор:

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30

Вот отдельные предельные эффекты, а также совместный тест:

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

Здесь мы проверяем отдельные гипотезы о том, что различия в вероятности отклонения для групп A, C и D по сравнению с группой B равны нулю. Если бы все были с такой же вероятностью отклонены, как и группа B, они были бы равны нулю. В последнем выводе говорится, что присяжные заседателей групп A и D с меньшей вероятностью будут отклонены, а присяжные заседателей группы C с большей вероятностью будут отвергнуты. Эти различия не являются статистически значимыми в отдельности, хотя признаки согласуются с вашей гипотезой.

Однако мы можем отказаться от совместной гипотезы о том, что все три различия равны нулю при . $p=0.0436$

Приложение:

Если я объединю группы A и D в одну, так как они разделяют расы жертв, результаты пробита становятся сильнее и имеют хорошую симметрию:

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

Это также позволяет точному результату Фишера давать совпадающие результаты (хотя и не на уровне 5%):

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060

— Димитрий Васильевич Мастеров
источник

Спасибо, высоко ценится! Не могли бы вы помочь мне понять методологические вопросы здесь? В частности, (1) тесты ненаправленного сравнения (IIUC), несмотря на особенности априорной проблемы, и (2) причины использовать тест, который делает предположения о распределении, а не просто комбинаторные аргументы?

— ДД

Я не уверен, что понимаю (1). Для (2) я получаю очень похожие результаты с моделью логита, которая делает различные предположения о распределении, поэтому существует некоторая устойчивость. Недостаточно данных, чтобы сделать что-то менее параметрическое, хотя это может быть моим собственным невежеством в этой области.

— Дмитрий Васильевич Мастеров

1

Re (1). Что я имею в виду - кажется, что ваш тест - 2-хвостовый, в то время как априорная проблема допускает 1-хвост?

— JD марта

1

Один аспект этого анализа, который вызывает у меня беспокойство, заключается в том, что его кажущееся значение (во всяком случае, на уровне 5%) связано не только с проблемами, возникающими в группе C, но также с относительной нехваткой проблем в группе A. Последнее может показаться быть неуместным: было бы это подозревать априори ? Привилегированная роль группы C очевидна (в сопоставлении с группой ответчика), но предпочтительная роль для любой другой группы - или даже (гипотетически) очевидного неравенства между другими группами - как представляется, не имеет отношения к заявлению ответчика о дискриминация против них по признаку их группы .

— whuber

Кстати, кажется, вы провели анализ группы B, а не группы C.

— whuber

3

Я бы подумал, что введение специального статистического метода не будет разрешено суду. Лучше использовать методы, которые являются «стандартной практикой». В противном случае вы, вероятно, сможете доказать свою квалификацию для разработки новых методов.

Чтобы быть более точным, я не думаю, что ваш метод будет соответствовать стандарту Даубера. Я также очень сомневаюсь, что ваш метод сам по себе является академическим ориентиром. Вам, вероятно, придется пойти по пути найма свидетеля-статиста, чтобы представить его. Я думаю, это будет легко противостоять.

Основной вопрос здесь, вероятно, звучит так: «Был ли вызов присяжных независимым от расовой группировки?»

$\chi^2$

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

Использование точного теста Фишера дает похожие результаты:

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

$2\times2$

Моя интерпретация заключается в том, что нет особых доказательств в пользу расовой предвзятости.

— jvbraun
источник

1

χ^{2}

$\chi^2$

Спасибо, @jvbraun, твоя точка зрения о том, что специальные методы запрещены, кажется убедительной; хотя подсчет и деление не кажутся мне особенно эксцентричными, очевидно, что другие не находят это убедительным!

— JD марта

На самом деле это один из случаев, когда маргинальные значения являются фиксированными, поэтому точный критерий Фишера должен быть более приемлемым для многих. Когда вы обсуждаете Даубера, у вас это немного задом наперед, когда вы вызываете эксперта, тогда они подчиняются движению Даубера. (По иронии судьбы, некоторые утверждают, что непрофессионалы, представляющие статистику, не подлежат таким оценкам, продиктованным Правилом 702.) ИМО все приводимые здесь аргументы хорошо сформулированы и вряд ли будут признаны неприемлемыми. Я сомневаюсь, что какой-либо из этих статистических методов имеет юриспруденцию в этих конкретных обстоятельствах.

— Энди W

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$

2 / 2

$2/2$

4 / 6

$4/6$

3

Я задавал подобный вопрос ранее (для справки здесь частный случай, который я обсуждаю). Защита должна просто показать случай дискриминации prima facia в вызовах Бэтсона (с учетом уголовного законодательства США), поэтому проверка гипотез, вероятно, является более тяжелым бременем, чем необходимо.

Таким образом, для:

$n = 30$
$p = 6$
$k = 4$
$d = 10$

Предыдущий ответ Уубера дает вероятность того, что этот конкретный результат продиктован гипергеометрическим распределением :

\frac{(\binom{p}{k}) (\binom{n - p}{d - k})}{(\binom{n}{d})}

$\frac{{p \choose k} {n-p \choose d-k} }{{n \choose d}}$

То, что Wolfram-Alpha говорит, равно в этом случае:

\frac{(\binom{6}{4}) (\binom{30 - 6}{10 - 4})}{(\binom{30}{10})} = \frac{76}{1131} \approx 0.07

$\frac{{6 \choose 4} {30-6 \choose 10-4} }{{30 \choose 10}} = \frac{76}{1131} \approx 0.07$

К сожалению, у меня нет ссылки, кроме ссылок, которые я предоставил - я думаю, что вы можете найти подходящую ссылку для гипергеометрического распределения со страницы Википедии.

Это игнорирует вопрос о том, являются ли расовые группы A и D "недостаточно изученными". Я скептически вы могли бы сделать юридический аргумент для этого - это было бы странно поворот на п о равной защите, Эта конкретная группа слишком защищена! , что я не думаю, что летал бы. (Хотя я не юрист, так что возьмите с собой немного соли.)

$30 \choose 10$ $\chi^2$

Я обновил некоторые из моих мыслей в блоге . Мой пост посвящен вызовам Батсона, поэтому неясно, ищите ли вы другую ситуацию (ваши обновления для 1 и 2 не имеют смысла в контексте вызовов Батсона.)

Мне удалось найти одну связанную статью (полностью доступна по ссылке):

Gastwirth, JL (2005). Комментарий к делу: статистические тесты для анализа данных по императивным вызовам: уточнение стандарта доказывания, необходимого для установления первичного случая дискриминации по делу Джонсон против Калифорнии. Закон, вероятность и риск , 4 (3), 179-185.

Это дало такое же предположение для использования гипергеометрического распределения. В своем блоге я показываю, как если вы разделите категории на две группы, это будет эквивалентно Точному тесту Фишера.

$k$ $k = 5$ $k = 6$ $n$ $n$ $d$

Если кто-то узнает о прецедентном праве, которое фактически использует это (или что-то кроме дробей), я был бы заинтересован.

— Энди У
источник

1

Спасибо, Энди. (1) Мой друг-адвокат считает вполне приемлемым / полезным утверждать, что С подвергся слишком серьезному сомнению, а А - меньше. (2) Вы говорите «что такое статистика теста». Я нахожу это странным - какую статистику теста вы используете, когда вычисляете 0,07 с использованием гипергеометрии? То, что это делает, вычисляет вероятность как отношение подозрительных случаев к общему количеству случаев. Кроме того, именно это и делает мой анализ, за исключением определения подозрительных случаев более узко, чем вы.

— ДД

@JonathanMarch - я не использую тестовую статистику. Это вероятность того, что 4 из 6 класса C будут выбраны (с учетом других условий) случайным образом в соответствии с гипергеометрическим распределением. Я понимаю мотивацию для направленных тестов, но это не обычный случай t-теста. В этом случае у вас есть непрерывное нулевое распределение, поэтому, чтобы дать p-значение, вам нужно определить альтернативу как область. Нет явной необходимости делать это с распределением PMF, как здесь.

— Энди W

1

k = 5

$k = 5$

k = 6

$k = 6$

0.07

$0.07$

1

86 / 1131 \approx 7.6 %

$86/1131\approx 7.6\%$

1

Джонатан, для твоей пользы я тебя устрою (как и эксперт по оппозиции). Я считаю, что ваш подход неверен, потому что вы используете специальную статистику без теоретического обоснования; Кажется, он создан исключительно для получения небольшого значения p. Статистика Энди может быть основана на оговоренных нулевых и альтернативных гипотезах и обоснована с использованием леммы Неймана-Пирсона. Ваша статистика , кажется, на основе постфактум экспертизы результатов и не по всей видимости, соответствуют какой - либо альтернативной гипотезе , которая была бы заявленной до (то есть, независимо друг от друга) из допроса .

— whuber

0

Давайте не будем забывать проблему множественного тестирования. Представьте себе 100 адвокатов, каждый из которых ищет основания для апелляции. Все отклонения присяжного были выполнены путем подбрасывания монет или бросания костей для каждого будущего присяжного. Поэтому ни одно из отказов не было расистским.

Каждый из 100 юристов сейчас проводит любой статистический тест, с которым все вы, ребята, согласны. Примерно пять из этих 100 отвергнут нулевую гипотезу «непредвзятости» и будут иметь основания для апелляции.

— Эмиль Фридман
источник

IIUC, они будут искать основания для того, чтобы судья назначил проверку причин каждого отдельного отказа. Действительно ли это будет проблемой, если такое обследование будет проведено в 5 из этих 100 случаев?

— JD марта