Я ищу лучшее распределение для рассматриваемой независимой переменной, или чтобы уменьшить влияние выбросов или что-то еще?
Я ищу лучшее распределение для рассматриваемой независимой переменной, или чтобы уменьшить влияние выбросов или что-то еще?
Ответы:
Я всегда стесняюсь заходить в цепочку с таким большим количеством превосходных ответов, как это, но мне кажется, что лишь немногие из ответов дают какую-либо причину предпочесть логарифм другим преобразованиям, которые «сдавливают» данные, такие как корень или ответ.
Прежде чем перейти к этому, давайте подведем итоги мудрости в существующих ответах в более общем виде. Некоторое нелинейное повторное выражение зависимой переменной указывается, когда применимо любое из следующего:
Остатки имеют перекошенное распределение. Целью преобразования является получение остатков, которые приблизительно симметрично распределены (конечно, около нуля).
Разброс остатков систематически изменяется со значениями зависимой переменной («гетероскедастичность»). Цель трансформации состоит в том, чтобы устранить это систематическое изменение в распространении, достигнув приблизительной «гомоскедастичности».
Чтобы линеаризовать отношения.
Когда научная теория указывает. Например, химия часто предлагает выражать концентрации в виде логарифмов (давая активность или даже общеизвестный pH).
Когда более туманная статистическая теория предлагает, остатки отражают «случайные ошибки», которые не накапливаются аддитивно.
Упростить модель. Например, иногда логарифм может упростить количество и сложность терминов «взаимодействие».
(Эти признаки могут противоречить друг другу; в таких случаях требуется суждение.)
Итак, когда конкретно указывается логарифм вместо какого-либо другого преобразования?
Остатки имеют «сильно» положительно перекошенное распределение. В своей книге об EDA Джон Тьюки предоставляет количественные способы оценки трансформации (в пределах семейства Бокса-Кокса, или силовых трансформаций) на основе ранговых статистик невязок. Это действительно сводится к тому факту, что если взятие логарифма симметрирует остатки, это, вероятно, была правильная форма повторного выражения; в противном случае необходимо другое выражение.
Когда SD остатков прямо пропорционально установленным значениям (а не какой-то степени установленных значений).
Когда отношения близки к экспоненциальным.
Когда считается, что остатки отражают мультипликативно накапливающиеся ошибки.
Вы действительно хотите модель, в которой предельные изменения в объясняющих переменных интерпретируются как мультипликативные (процентные) изменения в зависимой переменной.
И, наконец, некоторые не- причины использовать повторное выражение :
Создание выбросов не похоже на выбросы. Выделение - это элемент данных, который не вписывается в какое-то скупое, относительно простое описание данных. Изменение своего описания, чтобы улучшить внешний вид выбросов, обычно является неправильным изменением приоритетов: сначала получите научно обоснованное, статистически хорошее описание данных, а затем изучите любые выбросы. Не позволяйте случайным выбросам определять, как описать остальные данные!
Потому что программное обеспечение автоматически сделало это. (Достаточно сказано!)
Потому что все данные положительные. (Позитивность часто подразумевает положительную асимметрию, но это не обязательно. Более того, другие преобразования могут работать лучше. Например, корень часто лучше всего работает с подсчитанными данными.)
Чтобы «плохие» данные (возможно, низкого качества) выглядели хорошо.
Чтобы иметь возможность построить данные. (Если преобразование необходимо для построения графика данных, возможно, оно необходимо по одной или нескольким веским причинам, которые уже упоминались. Если единственная причина преобразования действительно заключается в построении графика, продолжайте и сделайте это - но только для построения графика данные. Оставьте данные без преобразования для анализа.)
Я всегда говорю студентам, что есть три причины для преобразования переменной, взяв натуральный логарифм. Причина регистрации переменной будет определять, хотите ли вы зарегистрировать независимую переменную (переменные), зависимую или обе. Чтобы было ясно, я говорю о натуральном логарифме.
Во-первых, для улучшения подгонки модели, как отмечали другие постеры. Например, если ваши остатки обычно не распределяются, то взятие логарифма перекошенной переменной может улучшить подгонку, изменив масштаб и сделав переменную более «нормально» распределенной. Например, доход усекается до нуля и часто демонстрирует положительный перекос. Если переменная имеет отрицательный перекос, вы можете сначала инвертировать переменную, прежде чем брать логарифм. Я имею в виду, в частности, шкалы Лайкерта, которые вводятся как непрерывные переменные. Хотя это обычно относится к зависимой переменной, иногда возникают проблемы с остатками (например, гетероскедастичностью), вызванными независимой переменной, которые иногда можно исправить, взяв логарифм этой переменной. Например, при запуске модели, объясняющей оценки лектора на наборе лектора и класса, переменная «размер класса» (т. Е. Количество студентов в лекции) имела выбросы, которые вызывали гетероскедастичность, потому что дисперсия в оценках лектора была меньше в большем когорты, чем меньшие когорты. Регистрация переменной студента может помочь, хотя в этом примере либо расчет робастных стандартных ошибок, либо использование взвешенных наименьших квадратов может облегчить интерпретацию.
Вторая причина регистрации одной или нескольких переменных в модели - для интерпретации. Я называю это удобной причиной. Если вы зарегистрируете как зависимую (Y), так и независимую (X) переменную (и), ваши коэффициенты регрессии ( ) будут эластичными, и интерпретация будет выглядеть следующим образом: увеличение X на 1% приведет к при прочих равных условиях % увеличение Y (в среднем). Регистрация только одной стороны регрессионного «уравнения» приведет к альтернативным интерпретациям, как показано ниже:
Y и X - увеличение X на одну единицу приведет к увеличению / уменьшению Y
Log Y и Log X - увеличение X на 1% приведет к увеличению / уменьшению Y на %
Записать Y и X - увеличение X на одну единицу приведет к % увеличению / уменьшению Y
Y и Log X - увеличение X на 1% приведет к увеличению / уменьшению Y
И, наконец, может быть теоретическая причина для этого. Например, некоторые модели, которые мы хотели бы оценить, являются мультипликативными и, следовательно, нелинейными. Взятие логарифмов позволяет оценивать эти модели с помощью линейной регрессии. Хорошие примеры этого включают производственную функцию Кобба-Дугласа в экономике и уравнение Минцера в образовании. Производственная функция Кобба-Дугласа объясняет, как входы преобразуются в выходы:
где
- общий объем производства или продукции некоторой организации, например, фирмы, фермы и т. Д.
- общая производительность факторов (изменение объема производства, не вызванное входными данными, например, технологическим изменением или погодой)
- трудозатраты
- капитал
& - выходная эластичность.
Принятие логарифмов этого упрощает оценку функции с использованием линейной регрессии OLS как таковой:
Более подробно об отличном замечании Уубера о причинах предпочтения логарифма некоторым другим преобразованиям, таким как корень или обратное преобразование, но при этом особое внимание уделяется уникальной интерпретируемости коэффициентов регрессии, возникающих в результате лог-преобразования по сравнению с другими преобразованиями, см .:
Оливер Н. Кин. Преобразование журнала является особенным. Статистика в медицине 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF с сомнительной законностью доступен по адресу http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).
Если вы записываете независимую переменную x в основание b , вы можете интерпретировать коэффициент регрессии (и CI) как изменение зависимой переменной y на b - кратное увеличение x . (Журналы на базе 2, следовательно, часто полезны, поскольку они соответствуют изменению y на удвоение по x , или журналы на базе 10, если x изменяется во многих порядках, что реже). Другие преобразования, такие как квадратный корень, не имеют такой простой интерпретации.
Если вы зарегистрируете зависимую переменную y (не исходный вопрос, а вопрос, на который были адресованы несколько предыдущих ответов), то я нахожу идею Тима Коула о «симперсентах» привлекательной для представления результатов (я даже использовал их в статье один раз), хотя они, кажется, не завоевали популярность:
Тим Дж. Коул. Симперценты: симметричные процентные различия по шкале 100 log (e) упрощают представление преобразованных данных журнала. Статистика в медицине 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Я так рад, что Stat Med прекратил использовать SICI в качестве DOI ...]
Обычно берется журнал входной переменной для его масштабирования и изменения распределения (например, чтобы сделать его нормально распределенным). Это не может быть сделано вслепую, однако; Вы должны быть осторожны при любом масштабировании, чтобы гарантировать, что результаты по-прежнему интерпретируемы.
Это обсуждается в большинстве вводных статистических текстов. Вы также можете прочитать статью Эндрю Гельмана «Масштабирование регрессионных входов путем деления на два стандартных отклонения» для обсуждения этого вопроса. У него также есть очень хорошее обсуждение этого вопроса в начале «Анализ данных с использованием регрессии и многоуровневых / иерархических моделей» .
Взятие журнала не является подходящим методом для работы с плохими данными / выбросами.
Вы склонны вести журналы данных, когда есть проблема с остатками. Например, если вы вычерчиваете остатки по отношению к конкретному ковариате и наблюдаете растущий / убывающий паттерн (форма воронки), тогда преобразование может быть уместным. Неслучайные остатки обычно указывают на то, что допущения вашей модели неверны, то есть ненормальные данные.
Некоторые типы данных автоматически поддаются логарифмическим преобразованиям. Например, я обычно беру журналы, когда имею дело с концентрацией или возрастом.
Хотя преобразования в основном не используются для борьбы с выбросами, они помогают, поскольку взятие журналов уничтожает ваши данные.
Преобразование независимой переменной - это один из случаев, когда можно быть эмпирическим, не искажая умозаключения, если честно оценивать количество степеней свободы в игре. Одним из способов является использование сплайнов регрессии для непрерывного известно, действует линейно. Для меня это не вопрос логарифма или оригинального масштаба; вопрос в том, какое преобразование соответствует данным. Нормальность остатков здесь не является критерием.
Когда сильно искажен, куб необходимый для функций кубического сплайна, приводит к экстремальным значениям, которые иногда могут вызывать численные проблемы. Я решаю это путем подгонки кубической сплайн-функции к . R пакет рассматривает сокровенные переменный в качестве предсказателя, так черчения предсказанных значений будут на Оу. Пример:rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
Это соответствует ограниченному кубическому сплайну в с 5 узлами в местах квантилей по умолчанию. пригодный имеет 4 DF (один линейный член, 3 нелинейные члены). Полосы достоверности и тесты ассоциации соблюдают эти 4 df, полностью признавая «неопределенность преобразования».
Я хотел бы ответить на вопрос пользователя 1690130, который был оставлен в качестве комментария к первому ответу 26 октября 12 года, и гласит: «Как насчет переменных, таких как плотность населения в регионе или соотношение детей и учителей для каждого школьного округа или Число убийств на 1000 в популяции? Я видел, как профессора берут журнал этих переменных. Мне не понятно, почему. Например, процент убийств уже не процент? Журнал будет процентное изменение Оцените? Почему журнал соотношение детей и учителей предпочтительнее? "
Я пытался ответить на аналогичную проблему и хотел поделиться тем, что об этом говорит мой старый учебник по статистике ( Джеффри Вулдридж. 2006. Вводная эконометрика - современный подход, 4-е издание. Глава 6 Множественный регрессионный анализ: дополнительные вопросы. 191 ). Вулдридж советует:
Переменные, которые отображаются в процентной или процентной форме, такие как уровень безработицы, уровень участия в пенсионном плане, процент студентов, сдающих стандартизированный экзамен, и процент арестов по зарегистрированным преступлениям, могут отображаться в исходной или логарифмической форме. , хотя есть тенденция использовать их в формах уровня . Это связано с тем, что любые коэффициенты регрессии, включающие исходную переменную - будь то зависимая или независимая переменная - будут иметь интерпретацию изменения процентной точки. Если мы используем, скажем, log ( unem ) в регрессии, где unem - это процент безработных, мы должны быть очень осторожны, чтобы различать процентное изменение и процентное изменение. Помните, что если UNEMувеличивается с 8 до 9, это увеличение на один процентный пункт, но увеличение на 12,5% по сравнению с первоначальным уровнем безработицы. Использование журнала означает, что мы смотрим на процентное изменение уровня безработицы: log (9) - log (8) = 0,118 или 11,8%, что является логарифмическим приближением к фактическому увеличению на 12,5%.
Исходя из этого и копилки на предыдущем комментарии пользователя whuber к вопросу пользователя 1690130, я бы не стал использовать логарифм переменной плотности или процентной ставки для упрощения интерпретации, если только использование формы журнала не приводит к серьезному компромиссу, такому как возможность уменьшить асимметрию плотности или переменная скорость.
Идея Шейна о том, что использование журнала для обработки неверных данных вполне оправдано. Как и Колин относительно важности нормальных остатков. На практике я обнаружил, что обычно вы можете получить нормальные остатки, если входные и выходные переменные также относительно нормальные. На практике это означает наблюдение за распределением преобразованных и нетрансформированных наборов данных и уверенность в том, что они стали более нормальными, и / или проведение тестов на нормальность (например, тесты Шапиро-Вилка или Колмогорова-Смирнова) и определение того, является ли результат более нормальным. Интерпретабельность и традиции также важны. Например, в когнитивной психологии часто используются лог-преобразования времени реакции, однако, по крайней мере, для меня интерпретация лог-RT неясна. Более того,