Как следует интерпретировать сравнение средств из разных размеров выборки?


49

Возьмите случай с рейтингами книг на сайте. Книгу А оценивают 10000 человек со средним рейтингом 4,25 и дисперсией . Точно так же книга B оценивается 100 людьми и имеет рейтинг 4,5 с .σ=0.5σ=0.25

Теперь из-за большого размера выборки Книги А «среднее значение стабилизировалось» до 4,25. Теперь для 100 человек может оказаться, что если больше людей прочитают Книгу B, средний рейтинг может упасть до 4 или 4,25.

  • Как следует интерпретировать сравнение средств из разных образцов и каковы наилучшие выводы, которые можно / нужно сделать?

Например, можем ли мы действительно сказать, что Книга Б лучше, чем Книга А.


Вас конкретно интересует контекст рейтинга?
Джером Энглим

@JeromyAnglim - Хммм ... наверное. Точно сказать не могу. Это самый распространенный пример. Что у тебя было на уме?
PhD

2
Смотрите мой ответ относительно байесовских рейтинговых систем ниже. Прикладные рейтинговые контексты обычно имеют сотни или тысячи оцениваемых объектов, и цель часто состоит в том, чтобы сформировать наилучшую оценку рейтинга для объекта с учетом доступной информации. Это очень отличается от простого сравнения двух групп, как вы можете сказать, скажем, в медицинском эксперименте с двумя группами.
Джером Энглим

Ответы:


57

Вы можете использовать t-тест, чтобы оценить, есть ли различия в средствах. Различные размеры выборки не создают проблем для t-теста и не требуют интерпретации результатов с особой тщательностью. В конечном счете, вы можете даже сравнить одно наблюдение с бесконечной популяцией с известным распределением, средним значением и SD; например, кто-то с IQ 130 умнее, чем 97,7% людей. Однако следует отметить, что для данного (т. Е. Общего размера выборки) мощность максимизируется, если группы равны; При очень неравных размерах групп вы не получаете столько дополнительного разрешения при каждом дополнительном наблюдении. Nn

Чтобы прояснить мою точку зрения о мощи, вот очень простая симуляция, написанная для R:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

Обратите внимание, что во всех случаях , но что в первом случае & , во втором случае & , а в последнем случае и . Кроме того, обратите внимание, что стандартизированная средняя разница / процесс создания данных был одинаковым во всех случаях. Тем не менее, в то время как тест был «значимым» в 70% случаев для образца 50–50, мощность составила 56% при 75–25 и только 33% при размерах группы 90–10. N=100n1=50n2=50n1=75n2=25n1=90n2=10

Я думаю об этом по аналогии. Если вы хотите знать площадь прямоугольника, а периметр фиксирован, то область будет максимальной, если длина и ширина равны (т. Е. Если прямоугольник является квадратом ). С другой стороны, по мере расхождения длины и ширины (по мере удлинения прямоугольника) площадь уменьшается.


сила максимизирована ?? Я не совсем уверен, что понимаю. Не могли бы вы привести пример, если это возможно?
PhD

5
Причина, по которой t-критерий может обрабатывать неравные размеры выборки, заключается в том, что он учитывает стандартную ошибку оценок средних значений для каждой группы. Это стандартное отклонение распределения группы, деленное на квадратный корень размера выборки группы. Группа с гораздо большим размером выборки будет иметь меньшую стандартную ошибку, если стандартные отклонения популяции равны или почти равны.
Майкл Черник

@ Gung - Я не уверен, что действительно знаю, на каком «языке» написано это моделирование. Я угадал 'R'? и я все еще пытаюсь расшифровать это :)
PhD

2
Код для R. Я прокомментировал его, чтобы было легче следовать. Вы можете просто скопировать и вставить его в R и запустить его самостоятельно, если у вас есть R; set.seed()функция гарантирует , вы получите одинаковую производительность. Дайте мне знать, если все еще слишком сложно следовать.
gung - Восстановить Монику

8
Аналогия с областью в этом ответе не просто наводит на мысль о том, что происходит, это точно к сути . Есть очень прямой смысл в том, что (учитывая фиксированный общий размер выборки - т.е. половину «периметра» прямоугольника ), максимизируя произведение («площадь»), максимизируется точность оценка разницы в средствах (и, следовательно, способность идентифицировать это не ноль). Это алгебраически тривиально, поэтому я не буду вдаваться в подробности, но вы не могли бы выбрать более подходящую аналогию. N=n1+n2n1×n2n1n2
Glen_b

10

В дополнение к ответу, упомянутому @gung со ссылкой на t-тест, звучит так, что вас могут заинтересовать байесовские рейтинговые системы (например, вот обсуждение ). Веб-сайты могут использовать такие системы для ранжирования элементов заказа, которые различаются по количеству полученных голосов. По существу, такие системы работают, назначая оценку, которая является составной частью среднего рейтинга всех элементов плюс среднее значение выборки оценок для конкретного объекта. По мере увеличения количества оценок вес, назначенный среднему значению для объекта, увеличивается, а вес, назначенный среднему значению для всех предметов, уменьшается. Возможно, проверьте байесовские средние .

Конечно, все может стать намного сложнее, если вы решите широкий круг вопросов, таких как фальсификация голосования, изменения во времени и т. Д.


Сладкий. Никогда не слышал об этом. Я определенно посмотрю на это. Может быть, это то, что я после, в конце концов :)
PhD
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.