В статистике мы делаем линейные регрессии, самые их начала. В общем, мы знаем, что чем выше тем лучше, но существует ли когда-нибудь сценарий, в котором высокий R 2 будет бесполезной моделью?
В статистике мы делаем линейные регрессии, самые их начала. В общем, мы знаем, что чем выше тем лучше, но существует ли когда-нибудь сценарий, в котором высокий R 2 будет бесполезной моделью?
Ответы:
Да. Критерии оценки статистической модели зависят от конкретной проблемы и не являются какой-либо механической функцией или статистической значимостью (хотя они имеют значение). Соответствующий вопрос: «Модель помогает вам понять данные?»
Самый простой способ получить высокое значение - это сделать некоторый эквивалент регрессии правой обуви на левой обуви. Скажите мне размер вашей правой обуви, и я могу предсказать размер вашей левой обуви с большой точностью. Огромный R 2 ! Какая отличная статистическая модель! За исключением того, что означает дудли пу. Вы можете получить отличный R 2 , поместив одну и ту же переменную в левую и правую части регрессии, но эта огромная регрессия R 2 почти наверняка окажется бесполезной.
Есть и другие случаи, когда включение переменной с правой стороны является концептуально неправильным действием (даже если оно поднимает ). Допустим, вы пытаетесь оценить, подвергаются ли дискриминации какие-либо меньшинства и имеют меньше шансов получить работу. Вам не следует проверять, перезвонила ли компания после подачи заявления о приеме на работу, поскольку вероятность того, что реакция на заявления о приеме на работу меньшинств может быть ниже, может быть каналом, через который происходит дискриминация! Добавление неправильного контроля может сделать вашу регрессию бессмысленной.
Вы всегда можете увеличить , добавив больше регрессоров! Я могу продолжать добавлять регрессоры к правой стороне, пока не получу R 2, который мне нравится. Чтобы предсказать заработок, я мог бы добавить элементы управления образованием, возрастные ограничения, четверть фиксированных эффектов, фиксированные эффекты почтового индекса, фиксированные эффекты занятости, фиксированные эффекты семьи, фиксированные эффекты семьи, фиксированные эффекты домашних животных, длину волос и т. Д. ... перестать иметь смысл, но R 2 продолжает расти. Добавление всего в качестве регрессора называется регрессией «кухонной раковины». Вы можете получить высокое значение R 2, но можете значительно перегрузить данные: ваша модель отлично предсказывает выборку, использованную для оценки модели (имеет высокое значение R ) но оценочная модель ужасно терпит неудачу на новых данных.
Та же идея может проявиться при подгонке полиномиальной кривой. Дайте мне случайные данные, и я, вероятно, смогу получить отличный , подобрав полином 200 градусов. По новым данным, однако, предполагаемый полином не сработает из-за переоснащения. Опять же, высокий R 2 для предполагаемой модели, но оценочная модель бесполезна.
Точка (3-4) - это то, почему мы скорректировали , что дает некоторое наказание за добавление большего количества регрессоров, но скорректированный R 2, как правило, все еще можно улучшить путем подгонки данных. У этого также есть удивительно бессмысленная особенность, что это может стать отрицательным.
«Чем выше, тем лучше» - плохое эмпирическое правило для R-квадрата.
Дон Моррисон написал несколько известных статей несколько лет назад, демонстрируя, что R-квадраты, приближающиеся к нулю, могут все еще быть действенными и прибыльными, в зависимости от отрасли. Например, в прямом маркетинговом прогнозировании ответа на рассылку журналов, рассылаемую 10 миллионам домохозяйств, R-квадраты в младших однозначных числах могут привести к прибыльным кампаниям (на основе ROI), если рассылка основана на 2 или 3 верхних ответных ответах. вероятность.
Другой социолог (чье имя ускользает от меня) сегментировал R-квадраты по типу данных, отметив, что по результатам исследования R-квадраты в диапазоне 10-20% были нормой, тогда как для бизнес-данных R-квадраты в диапазоне 40-60% следовало ожидать. Далее они отметили, что R-квадраты в 80-90% и более, вероятно, нарушали фундаментальные предположения регрессии. Тем не менее, этот автор не имел опыта работы с маркетинговым комплексом, данными временных рядов или моделями, содержащими полный набор «причинных» функций (например, классические 4 «Ps» цены, продвижения, места и продукта), которые могут и будут производить R- квадраты приближаются к 100%.
Тем не менее, даже разумные, практические эмпирические правила, такие как эти, не очень помогают при работе с технически неграмотными, чей первый вопрос о прогнозирующей модели всегда будет: «Что такое R-квадрат?»
Другие ответы предлагают отличные теоретические объяснения многих способов, которыми значения R-квадрата могут быть исправлены / подделаны / вводят в заблуждение / и т. Д. Вот практическая демонстрация, которая всегда придерживалась меня, закодированная в r
:
y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))
Это может обеспечить R-квадрат значения> 0,90. Добавление достаточного количества регрессоров и даже случайных значений может «предсказать» случайные значения.
set.seed(1)
и set.seed(2)
.