Преобразование данных: все переменные или только ненормальные?

В «Обнаружении статистики Энди Филда с использованием SPSS» он утверждает, что все переменные должны быть преобразованы.

Однако в публикации: «Изучение пространственно меняющихся взаимосвязей между землепользованием и качеством воды с использованием географически взвешенной регрессии I: проектирование и оценка модели», в частности, они утверждают, что были преобразованы только ненормальные переменные.

Этот анализ специфичен? Например, при сравнении средств сравнение журналов с необработанными данными, очевидно, дало бы значительную разницу, тогда как при использовании чего-то вроде регрессии для исследования взаимосвязи между переменными это становится менее важным.

Изменить: Вот полнотекстовая страница в разделе «Преобразование данных»:

А вот и ссылка на статью: http://www.sciencedirect.com/science/article/pii/S0048969708009121

normal-distribution data-transformation

— Я бьюсь сердцем
источник

Судя по тому, что вы разместили новое изображение, автор путает «переменную» с «наблюдением». На вершине р. 154 он справедливо подчеркивает, что когда вы преобразовываете переменную, вы должны преобразовывать все ее значения (наблюдения) одинаково, иначе невозможно будет что-либо сравнить. (Утверждение этого «не изменит отношения между переменными» требует, однако, чрезвычайно щедрой интерпретации, чтобы быть правильной.) Нижняя часть р. 154 настолько явно неверно, предложение за предложением (даже в сносках), что даже не стоит тратить время на перечисление всех проблем с ним.

— whuber

Ответы:

Вы цитируете несколько советов, каждый из которых, без сомнения, предназначен для нас, но в них трудно найти много достоинств.

В каждом случае я полностью полагаюсь на то, что вы приводите в качестве резюме. В защиту авторов я хотел бы полагать, что они добавляют соответствующие квалификации в окружающий или другой материал. (Полные библиографические ссылки в обычном (ых) названии (ах), дате, названии, (издатель, место) или (название журнала, том, страницы) улучшат этот вопрос.)

поле

Этот совет полезен, но в лучшем случае значительно упрощен. Совет Филда, кажется, предназначен вообще; Например, ссылка на тест Левена подразумевает некоторую временную сосредоточенность на анализе отклонений.

Например, предположим, у меня есть один предиктор, который по разным причинам должен быть зарегистрирован, и другая переменная индикатора, которая . Последний (а) не может быть зарегистрирован (б) не должен быть зарегистрирован. (Действительно, любое преобразование индикаторной переменной в любые два различных значения не имеет важного эффекта.) $(1,0)$

В целом, во многих областях обычная ситуация - это то, что некоторые предикторы должны быть преобразованы, а остальные оставлены как есть.

Это правда, что столкновение в статье или диссертации смеси трансформаций, применяемых по-разному к разным предикторам (в том числе как частный случай, трансформация идентичности или оставление как есть), часто вызывает беспокойство у читателя. Является ли смесь хорошо продуманным выбором или она была произвольной и капризной?

Кроме того, в серии исследований согласованность подхода (всегда применяя логарифмы к ответу или никогда не делая этого) действительно очень помогает при сравнении результатов, а другой подход делает его более трудным.

Но это не значит, что никогда не может быть причин для сочетания преобразований.

Я не вижу, что большая часть цитируемого вами раздела имеет большое значение для ключевого совета, который вы выделите желтым цветом. Это само по себе вызывает беспокойство: странно объявлять абсолютное правило, а потом не объяснять его. И наоборот, предписание «Помни» предполагает, что основания Филда были указаны ранее в книге.

Анонимная бумага

Контекст здесь - регрессионные модели. Как часто разговоры об OLS странным образом подчеркивают метод оценки, а не модель, но мы можем понять, что предполагается. GWR я рассматриваю как географически взвешенную регрессию.

Аргумент здесь заключается в том, что вы должны преобразовать ненормальные предикторы и оставить другие как есть. Опять же, возникает вопрос о том, что вы можете и должны делать с переменными индикатора, которые не могут быть нормально распределены (на что, как указано выше, можно ответить, указав, что ненормальность в этом случае не является проблемой). Но судебный запрет имеет обратную сторону, подразумевая, что проблема заключается в ненормальности предикторов. Не так; регрессионное моделирование не является частью предположения о предельных распределениях предикторов.

На практике, если вы сделаете предикторы более нормальными, то вы будете часто применять преобразования, которые делают функциональную форму более близкой к данным, что я бы назвал главной причиной трансформации, несмотря на огромный акцент на структура ошибок во многих текстах. Другими словами, ведение журнала предикторов, чтобы приблизить их к нормальному состоянию, может делать правильные вещи по неправильной причине, если вы приближаетесь к линейности в преобразованном пространстве. $X\beta$

На этом форуме так много необычайно хороших советов по трансформации, что я сосредоточился на обсуждении того, что вы цитируете.

PS Вы добавляете оператор, начинающийся с «Например, при сравнении средств сравнение журналов с необработанными данными, очевидно, даст значительную разницу». Я не понимаю, что вы имеете в виду, но сравнение значений для одной группы с логарифмами значений для другой группы было бы просто бессмысленным. Я не понимаю остальную часть вашего заявления.

— Ник Кокс
источник

Ник, я хотел изложить свою точку зрения быстро и кратко, что, как я чувствую, я сделал. В мире Google я предоставил достаточно информации, чтобы легко получить доступ к оригинальным документам, если они потребуются. Спасибо, что ответили, хотя и в несколько раз, вы предоставили мне именно ту информацию, которую я искал: необходимость преобразовывать все переменные, как это было предложено Филдом, в его разделе преобразования данных - неправильный подход к преобразованию данных.

— I Heart Beats

+1. Я поражаюсь тому, как тактично вам удалось разобраться с материалами, которые так явно неверны. Сканирование страниц здесь и там в книге SPSS дает представление о некоторых действительно запутанных вопросах, которые мы получаем на этом сайте: я думаю, что они должны исходить от читателей этой книги. Он полон ошибок, дезинформации и откровенной конфабуляции.

— whuber

@I Heart Beats Рад, что вы нашли ответ полезным, но моя просьба о правильных ссылках стоит. Можно также сказать, что неполные ссылки всегда оправданы, потому что заинтересованные люди всегда могут Google. Наоборот, хорошей науке и науке помогает хорошая библиографическая практика, дающая полную информацию и не заставляющая (многих) читателей выполнять ненужную работу.

— Ник Кокс

@ Ник посмотри правки в моем вопросе. Я считаю, что статья с открытым исходным кодом, и я добавил полную страницу текста для контекста.

— I Heart Beats

Спасибо за расширение ссылок. Вы цитировали больше из поля. Есть еще один видимый раздел, включающий утверждение, что «преобразование данных не изменит отношения между переменными». Либо это основывается на своеобразном значении «отношения», либо (более вероятно, я боюсь), это бесполезно, на самом деле совершенно неправильно. Я сожалею (в каком-то смысле), что согласен с @whuber по поводу рассматриваемой книги о доказательствах перед нами . (Обновление: whuber высказывал, по сути, одну и ту же мысль одновременно: см. Его комментарий к вопросу.)

— Ник Кокс

Прежде всего, обе кавычки вводят в заблуждение, поскольку любое преобразование, применяемое к данным, предназначенным для использования в регрессионной модели, не делается для более равномерного распределения переменных PDF, это делается для того, чтобы сделать остатки модели более симметричными, поскольку одно предположение в классической регрессии что ошибки гауссовы. Это подразумевает более глубокий уровень строгости и строгости, чем простая симметризация PDF.

Кроме того, обе цитаты являются слабыми в том, что ни один из них не вникает в мотивации своих рецептов (по крайней мере, на основе предоставленной информации). Как это происходит, я не согласен с обоими.

В выделенном вами отрывке книга SPSS утверждает, что смеси преобразований (например, натуральный логарифм для одной переменной, квадратный корень для другой) недопустимы. Почему это незаконно? Смеси трансформаций не противоречат регрессионным предположениям, о которых я знаю. Пожалуйста, проверьте любые регрессионные тексты на предположениях регрессии, чтобы подтвердить, что это так. Смеси преобразования могут представлять существенную описательную проблему с точки зрения их интерпретации, но это не вопрос того, являются ли смеси незаконными. Парень SPSS не прав.

Что касается второго текста, опять же, преобразования полностью зависят от выбора аналитика - делает ли он их вообще, преобразует ли все входные данные или некоторые переменные, а не другие. Ничто из этого не нарушает никаких предположений.

Я думаю, что вторая цитата сходит с рельсов: утверждение ... "чтобы избежать потенциальной мультиколлинеарности ... был использован только один индикатор землепользования ...". Это явно плохой совет и звучит как Некоторые аналитики будут делать такие вещи, как метод уменьшения размеров, где они будут анализировать множество переменных и выбирать самую высокую переменную загрузки для каждого фактора. Эта эвристика существует уже много лет, и я не использую ее или не рекомендую. Опять же, это вопрос предпочтений аналитика и обучения. Но этот момент не предназначен для ответа на ваши конкретные вопросы.

В конце дня обе цитаты становятся подтверждением мнений авторов в отсутствие каких-либо подтверждающих доказательств, основанных на предоставленной информации.

— Майк Хантер
источник

Мы приводим в общих чертах сходные моменты, но я хочу добавить, что хорошие тексты объясняют, что ошибки Гаусса являются наименее важным допущением в регрессионном моделировании и не нужны для многих целей.

— Ник Кокс

Хороший текст: stat.columbia.edu/~gelman/arm :)

— Мэтью Друри