Почему преобразование квадратного корня рекомендуется для данных подсчета?


57

Часто рекомендуется брать квадратный корень, когда у вас есть данные подсчета. (Некоторые примеры CV можно найти в ответе @ HarveyMotulsky здесь или в ответе @ whuber здесь .) С другой стороны, при подборе обобщенной линейной модели с переменной отклика, распределенной как Пуассон, журнал является канонической ссылкой . Это похоже на преобразование журнала ваших данных ответа (хотя точнее - преобразование журнала , параметра, управляющего распределением ответа). Таким образом, между этими двумя есть некоторая напряженность. λ

  • Как вы примиряете это (кажущееся) несоответствие?
  • Почему квадратный корень лучше, чем логарифм?

Ответы:


45

Квадратный корень приблизительно стабилизирует дисперсию для Пуассона . Существует целый ряд вариантов квадратного корня, которые улучшают свойства, такие как добавление38 перед извлечением квадратного корня или Freeman-Tukey ( - хотя это часто корректируется и на среднее значение).X+X+1

введите описание изображения здесь

Преобразование квадратного корня несколько улучшает симметрию - хотя и не так хорошо, как степень [1]:23

введите описание изображения здесь

Если вы особенно хотите почти нормальность (пока параметр Пуассона не очень мал) и не заботитесь о / можете приспособиться к гетероскедастичности, попробуйте power.23

Каноническая связь обычно не является особенно хорошим преобразованием для данных Пуассона ; лог ноль - это особая проблема (другая - гетероскедастичность; вы также можете получить асимметрию влево, даже если у вас нет нулей). Если наименьшие значения не слишком близки к 0, это может быть полезно для линеаризации среднего значения. Это хорошая «трансформация» для условного среднего по Пуассону в ряде контекстов, но не всегда по пуассоновским данным. Однако, если вы хотите преобразовать, одной из распространенных стратегий является добавление константы которая позволяет избежать проблемы . В таком случае мы должны рассмотреть, какую константу добавить. Не отходя слишком далеко от рассматриваемого вопроса, значения междуy=log(y+c)0c0.4и работают очень хорошо (например, в отношении смещения в оценке наклона) в диапазоне значений . Я обычно просто использую так как это просто, со значениями около часто немного лучше.0.5μ120.43

Что касается того, почему люди выбирают одно преобразование другому (или ни одного) - это действительно вопрос того, что они делают, чтобы добиться этого.

[1]: Сюжеты, созданные по образцу сюжетов Хенрика Бенгтссона в его раздаточном материале «Обобщенные линейные модели и преобразованные остатки», см. Здесь (см. Первый слайд на стр. 4). Я добавил немного y-дрожания и пропустил строки.


1
Хорошо, я думал о том, что вы положили здесь, и вот мой синтез: оптимальные преобразования различаются в этих двух ситуациях, потому что то, что вы пытаетесь достичь, отличается. Sqrt лучше для стабилизации дисперсии и нормализации распределения. Журнал отображает интервал в что позволяет преобразованию среднего значения быть линейным по параметрам модели. У sqrt нет этого свойства. С GLiM, не имеет значения, что дисперсия не постоянна, потому что распределение ответов установлено как Пуассон. Это примерно так? (0,+)(,+)λ
gung - Восстановить Монику

2
То, что будет линейным по параметрам, зависит от модели . Вполне возможно, что эта линейность будет в исходном масштабе или в квадратно-коренном масштабе или в каком-либо другом масштабе. Даже - полезное / важное - свойство «сопоставлять с реальной линией» не является уникальным для функции log. Причина, по которой лог-ссылка является «естественной», заключается в том, что она упрощает GLM, имея достаточную статистику . Xy
Glen_b

1
+1 Квадратный корень - это просто отправная точка для работы с данными счета. Логарифм также является хорошим выбором. Данные часто говорят вам, какой из них более успешен в получении полезного и краткого описания. Гунг, в ответе, на который вы ссылаетесь , демонстрация того, что квадратный корень был хорошим выбором, заключается в симметричном распределении непохожих остатков, показанных на рисунке справа. Когда вы измените параметры симуляции, вы обнаружите, что симметрия сохраняется.
whuber

1
@ Глен Я не говорил, что журналы всегда хороший выбор. Но иногда они превосходят корни. Когда появляются нулевые значения, тогда да, вам нужен логарифм «запущен» . Другие темы здесь обсуждали способы получения начального значения . Если в данных нет нулевых отсчетов, тогда вообще не будет проблем с журналами.
whuber

2
@Tomas Что касается того, почему Freeman-Tukey или 3/8 а не или для некоторых других , есть веские причины как для Freeman-Tukey, так и для (например, чтобы сделать асимметрию ближе к 0), но если вы захотите вникнуть в детали, это будет совершенно новый вопрос. x+3/8xx+ccx+3/8
Glen_b
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.