Азиатский случай дискриминации Палантира: как рассчитывались вероятности?


14

Я читал эту статью о деле Палантира, где Министерство труда обвиняет их в дискриминации азиатов. Кто-нибудь знает, откуда они взяли эти оценки вероятности?

Я не получаю 1/741 в пункте (а).

(a) На должность инженера по контролю качества из группы из более чем 730 квалифицированных кандидатов, примерно 77% из которых были азиатами, Палантир нанял шесть неазиатских и только одного азиатского кандидата. Неблагоприятное воздействие, рассчитанное OFCCP, превышает три стандартных отклонения. Вероятность того, что этот результат произошел по случайности, приблизительно равна 741.

(b) На должность инженера-программиста из группы из более чем 1 160 квалифицированных кандидатов (примерно 85% из которых были азиаты) Палантир нанял 14 неазиатских и только 11 азиатских заявителей. Неблагоприятное воздействие, рассчитанное OFCCP, превышает пять стандартных отклонений. Вероятность того, что этот результат произошел по случайности, составляет примерно 1 к 3,4 миллиона.

(c) Для стажировки инженера по контролю качества из группы из более чем 130 квалифицированных кандидатов, примерно 73% из которых были азиатами, Палантир нанял 17 неазиатских и только четыре азиатских кандидата. Неблагоприятное воздействие, рассчитанное OFCCP, превышает шесть стандартных отклонений. Вероятность того, что этот результат произошел по случайности, составляет примерно один на миллиард.


Можете ли вы показать расчет, который вы сделали, чтобы получить что-то кроме 1/741?
Бен Болкер,

1
Моя оценка была односторонней - если вы удвоите ее, чтобы сделать ее похожей на двусторонний тест гипотезы, вы получите довольно близко к этому числу 1/741.
Грегор, - восстановите Монику

3
Я согласен, что удвоение не имеет никакого смысла в этом случае, я просто пытался угадать, что могло быть сделано. Вопрос не в том, что является правильным ответом, а в том, как они пришли к этой оценке .
Грегор - восстановить Монику

1
Было бы замечательно, если бы кто-то преобразовал снимок экрана в формате PDF в текстовую цитату ...
говорит Амеба, восстановите Монику

1
Мне удалось распознать ваш скриншот с помощью finereaderonline.com .
говорит амеба, восстановите Монику

Ответы:


20

Я собираюсь перепроектировать это из опыта с случаями дискриминации. Я точно могу определить, откуда взялись значения «один в 741» и т . Д. Однако при переводе было потеряно столько информации, что остальная часть моей реконструкции основана на том, как люди наблюдают за статистикой в ​​зале суда. Я могу только догадываться о некоторых деталях.


Со времени принятия антидискриминационных законов в 1960-х годах (Раздел VI) суды в Соединенных Штатах научились смотреть на значения p и сравнивать их с пороговыми значениями и 0,01 . Они также научились смотреть на стандартизированные эффекты, обычно называемые «стандартными отклонениями», и сравнивать их с порогом «двух-трех стандартных отклонений». Для того, чтобы установить prima facie случай для иска о дискриминации, истцы обычно пытаются статистический расчет, показывающий «несопоставимое воздействие», которое превышает эти пороговые значения. Если такой расчет не может быть поддержан, дело обычно не может продвигаться вперед.0.050.01

Статистические эксперты для истцов часто пытаются сформулировать свои результаты в этих знакомых терминах. Некоторые из экспертов проводят статистический тест, в котором нулевая гипотеза выражает «отсутствие неблагоприятного воздействия», предполагая, что решения о трудоустройстве были чисто случайными и не зависели от каких-либо других характеристик работников. (Является ли это односторонним или двусторонним вариантом, может зависеть от специалиста и обстоятельств.) Затем они преобразуют значение p этого теста в ряд «стандартных отклонений», ссылаясь на стандартное нормальное распределение - - даже если стандартная норма не имеет отношения к исходному тесту. На этом окольном пути они надеются четко сообщить свои выводы судье.

Предпочтительным тестом для данных, которые можно суммировать в таблицах непредвиденных обстоятельств, является точный тест Фишера. Появление «точного» в его названии особенно приятно истцам, поскольку оно означает статистическое определение, которое было сделано без ошибок (что бы это ни было!).

Вот моя (умозрительная реконструкция) расчеты Министерства труда.

  1. χ2

  2. Они преобразовали его p-значение в нормальную Z-оценку («число стандартных отклонений»).

  3. Они округлили Z балл до ближайшего целого числа: «превышает три стандартных отклонения», «превышает пять стандартных отклонений» и «превышает шесть стандартных отклонений». (Поскольку некоторые из этих Z-показателей округляли до более стандартных отклонений, я не могу оправдать «превышение»; все, что я могу сделать, это процитировать его.)

  4. В жалобе эти интегральные Z-оценки были преобразованы обратно в p-значения! Снова использовалось стандартное нормальное распределение.

  5. Эти p-значения описываются (возможно, вводящим в заблуждение) как «вероятность того, что этот результат произошел по случайности».

1/12801/5650001/58000000730116013073011601303.164.645.521/7411/35000001/1000000000


Вот некоторый Rкод, используемый для выполнения этих расчетов.

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))

6
Ничего себе, я не мог предположить, что это могло быть сделано. Это страшно.
Аксакал почти наверняка бинарный

7
(+1) CSI: Статистика.
Firebug

5

Как правильно рассчитать pvals с использованием гипергеометрического распределения:

knKN

Для одностороннего теста, в MATLAB, вы можете позвонить pval = hygecdf(k, N, K, n);или в этом случае, pval = hygecdf(1, 730, 562, 7)который составляет около .0007839.

Среднее и стандартное отклонение определяются как:

μ=nKNs=nKNNKNNnN1

χ2

В поисках формул, которые OFCCP может использовать, этот сайт, который я видел, может быть полезен: http://www.hr-software.net/EmploymentStatistics/DisparateImpact.htm

Краткое изложение некоторых расчетов:

Number and methodPart APart BPart CPVal from hypergeometric CDF7.839e-041.77e-061.72e-08χ2 stat15.6833.6837.16χ2 pval7.49e-056.47e-091.09e-09Pval from above document.001352.94e-071.00e-09

χ2(expectedactual)2expected


1
Я получил тот же результат, но по-другому. Это не близко к 1/741
Аксакал почти наверняка бинарный
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.