Смысл 2.04 стандартных ошибок? Значительно разные средства, когда доверительные интервалы широко перекрываются?


10

Изображение ниже из этой статьи в психологической науке . Коллега указал на две необычные вещи об этом:

  1. Согласно подписи, столбцы ошибок показывают «± 2,04 стандартных ошибок, 95% доверительный интервал». Я только видел, как ± 1,96 SE использовался для 95% -ного КИ, и я не могу найти ничего о том, что 2.04 SE используется для каких-либо целей. Имеет ли 2.04 SE какое-то общепринятое значение ?
  2. В тексте говорится, что запланированные парные сравнения обнаружили существенные различия для средней величины испуга в ошибке по сравнению с правильными предсказуемыми испытаниями (t (30) = 2,51, р <0,01) и ошибками по сравнению с правильными непредсказуемыми испытаниями (t (30) = 2,61, р <.01) (критерий омнибуса F также был значимым при p <.05). Тем не менее, график показывает столбцы ошибок для всех трех условий, существенно перекрывающихся. Если интервалы ± 2,04 SE совпадают, как значения могут значительно отличаться при p <0,05? Перекрытие достаточно велико, поэтому я предполагаю, что интервалы ± 1,96 SE также перекрываются.

гистограмма, показывающая 2,04 ошибки SE


1
Отличные ответы. Я хотел бы подчеркнуть, что (как уже отмечалось) сравнение 95% доверительных интервалов не совпадает с проведением статистических тестов на уровне значимости 0,05. Есть, конечно, документы, связанные с этим. Если доверительные интервалы являются единственной доступной статистикой, Пэйтон и др. Предлагают использовать 85% -ые интервалы для уровня значимости 0,05 для гауссовых данных. Они следят за своей работой здесь .
Мартин Берглунд,

1
Спасибо, @Martin. Чтобы замкнуть цикл: хотя я не смотрел на статью Пэйтон и др. , Основа для 85% ясна: значение z, соответствующее 84%, в квадрате равно ; добавление двух из них дает ; его квадратный корень равен , что в значительной степени соответствует значению z, соответствующему интервалу 95%. Я полагаю, Payton округлил 84% до 85%. Другими словами, их рекомендация (как бы она ни была получена) может быть объяснена тем же анализом, который я предоставил. 242
whuber

@MartinBerglund and whuber Наткнулся на ваши ответы, задаваясь вопросом, был ли мой независимый расчет 83,4% доверительных интервалов для выполнения статистических тестов на уровне 0,05 оригинальным - очевидно, нет! Спасибо за реферат, очень помогли.
Тристан

Ответы:


11
  1. 2.04 - это множитель для использования с распределением Student t с 31 степенью свободы. Цитаты указывают на степеней свободы, и в этом случае правильный множитель равен .302.0422722.04

  2. Средства сравниваются с точки зрения стандартных ошибок . Стандартная ошибка обычно в раз стандартного отклонения, где (предположительно около здесь) - размер выборки. Если заголовок является правильным при названии этих столбцов «стандартными ошибками», то стандартные отклонения должны быть как минимум раз больше, чем значения приблизительно как показано. Набор данных из положительных значений со стандартным отклонением и средним значением от до должен иметь большинство значений около1/nn30+1=31315.56316×5.5=3314180и небольшое количество колоссальных ценностей, что кажется маловероятным. (Если бы это было так, тогда весь анализ, основанный на статистике Стьюдента, в любом случае был бы неверным.) Мы должны сделать вывод, что на рисунке, скорее всего, показаны стандартные отклонения, а не стандартные ошибки .

  3. Сравнение средних значений не основано на перекрытии (или его отсутствии) доверительных интервалов. Два 95% ДИ могут перекрываться, но все же могут свидетельствовать о значительных различиях. Причина заключается в том, что стандартная ошибка разности ( независимых ) средних составляет, по меньшей мере, приблизительно, квадратный корень из суммы квадратов стандартных ошибок средних. Например, если стандартная ошибка среднего равна а стандартная ошибка среднего равна , то CI первого среднего (с кратным ) увеличится с до а CI второй продлится с1411712.0411.9216.0814.92до , с существенным перекрытием. Тем не менее SE разности будет равно . Разница средних, , более чем в раза превышает это значение: она значительна.19.0312+121.411714=32.04

  4. Это парные сравнения. Отдельные значения могут демонстрировать большую изменчивость, в то время как их различия могут быть весьма непротиворечивыми. Например, набор пар, таких как , , , и т. Д., вариации в каждом компоненте, но различия последовательно составляют . Хотя эта разница невелика по сравнению с любым из компонентов, ее согласованность показывает, что она статистически значима.( 15 , 15.01 ) ( 16 , 16.01 ) ( 17 , 17.01 ) 0.01(14,14.01)(15,15.01)(16,16.01)(17,17.01) 0.01


Большое спасибо. В статье нигде не говорится, что специальные тесты представляли собой парные сравнения ответов каждого участника на два типа испытаний, и поэтому я пришел к выводу, что они рассматривают его как сравнение между субъектами (даже если это будет менее подходящий и менее мощный). Я думаю, что вы должны быть правы, и они делали более чувствительный (и более сложный для анализа) тест. Что касается пункта № 3, мой единственный ответ заключается в том, что мне явно необходимо заново
изучить

Я подхватил фразу в вашем вопросе «запланированные парные сравнения». Остальные результаты, которые вы цитируете, тем не менее, предполагают, что они не были парными сравнениями, но, скорее всего, были получены из расчета, подобного тому, что указано в пункте № 3 моего ответа.
whuber

Под этим я имел в виду то, что они проводили специальные тесты, сравнивая два из трех условий друг с другом напрямую, а не сводный тест, который сравнивал все три условия. Извините за путаницу. Но теперь, когда я смотрю на это, я думаю, вы все равно были правы. То, как они сообщают статистику омнибусного теста ( F(2,60)=5.64, p<.05), подразумевает, что это был тест с повторными измерениями, так что, скорее всего, были и специальные тесты.
2012 г.

Спасибо за ваш отличный ответ. «Причина в том, что стандартная ошибка разности (независимых) средних значений является, по меньшей мере, приблизительно квадратным корнем из суммы квадратов стандартных ошибок средних». Я ищу ссылки, которые обсуждают это, но не могут найти. Я был бы признателен за некоторые рекомендации в этом отношении. Может, кто-нибудь может мне помочь?
Йоханнес

@Johannes Квадрат SE пропорционален дисперсии среднего значения выборки. (Константа пропорциональности зависит от определения и может незначительно отличаться в зависимости от размера выборки.) Независимость подразумевает, что дисперсия распределения выборки разности средних представляет собой сумму квадратов SE.
whuber

3

Часть путаницы здесь - это запутанное представление данных. Похоже, что это план повторных измерений, но столбцы ошибок - это доверительные интервалы того, насколько хорошо было оценено истинное среднее значение. Основная цель повторных измерений - избежать сбора достаточного количества данных для получения качественной оценки необработанного среднего значения. Поэтому полосы ошибок, подобные представленным, действительно не имеют никакого отношения к рассказываемой истории. Значение критического интереса - это эффект. С учетом того, что графики должны быть направлены на то, чтобы осветить основной смысл истории, графическое представление эффектов и их доверительных интервалов было бы более уместным.


Спасибо! Я изо всех сил пытался объяснить, почему график, похоже, не отражает анализ.
октября
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.