Является ли высокий

В статистике мы делаем линейные регрессии, самые их начала. В общем, мы знаем, что чем выше тем лучше, но существует ли когда-нибудь сценарий, в котором высокий будет бесполезной моделью? $R^2$ $R^2$

regression r-squared

— Ричард Харди
источник

Ответ на stats.stackexchange.com/questions/13314 может дать вам несколько идей.

— whuber

Там одна ситуация обсуждается здесь , с примера. Например, если вы регрессировали результаты coin1 на coin2 в приведенном здесь примере, вы получите

более 85%, но эти очевидные отношения являются полностью ложными.

R^{2}

$R^2$

— Glen_b

не является моделью. Поэтому вы должны сказать «... высокий

будет получен из бесполезной модели» или что-то подобное, а не «... высокий

будет бесполезной моделью».

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

— Ричард Харди

проверьте эту ссылку: Что такое хорошее значение для R в квадрате

— Haitao Du

Соответствующая тема: stats.stackexchange.com/q/414349/121522

— mkt - Восстановить Монику

Ответы:

Да. Критерии оценки статистической модели зависят от конкретной проблемы и не являются какой-либо механической функцией или статистической значимостью (хотя они имеют значение). Соответствующий вопрос: «Модель помогает вам понять данные?» $R^2$

Бессмысленные регрессии с высоким $R^2$

Самый простой способ получить высокое значение - это сделать некоторый эквивалент регрессии правой обуви на левой обуви. Скажите мне размер вашей правой обуви, и я могу предсказать размер вашей левой обуви с большой точностью. Огромный ! Какая отличная статистическая модель! За исключением того, что означает дудли пу. Вы можете получить отличный , поместив одну и ту же переменную в левую и правую части регрессии, но эта огромная регрессия почти наверняка окажется бесполезной. $R^2$ $R^2$ $R^2$ $R^2$
Есть и другие случаи, когда включение переменной с правой стороны является концептуально неправильным действием (даже если оно поднимает ). Допустим, вы пытаетесь оценить, подвергаются ли дискриминации какие-либо меньшинства и имеют меньше шансов получить работу. Вам не следует проверять, перезвонила ли компания после подачи заявления о приеме на работу, поскольку вероятность того, что реакция на заявления о приеме на работу меньшинств может быть ниже, может быть каналом, через который происходит дискриминация! Добавление неправильного контроля может сделать вашу регрессию бессмысленной. $R^2$
Вы всегда можете увеличить , добавив больше регрессоров! Я могу продолжать добавлять регрессоры к правой стороне, пока не получу мне нравится. Чтобы предсказать заработок, я мог бы добавить элементы управления образованием, возрастные ограничения, четверть фиксированных эффектов, фиксированные эффекты почтового индекса, фиксированные эффекты занятости, фиксированные эффекты семьи, фиксированные эффекты семьи, фиксированные эффекты домашних животных, длину волос и т. Д. ... перестать иметь смысл, но продолжает расти. Добавление всего в качестве регрессора называется регрессией «кухонной раковины». Вы можете получить высокое значение но можете значительно перегрузить данные: ваша модель отлично предсказывает выборку, использованную для оценки модели (имеет высокое значение $R^2$ $R^2$ $R^2$ $R^2$ ) но оценочная модель ужасно терпит неудачу на новых данных. $R^2$
Та же идея может проявиться при подгонке полиномиальной кривой. Дайте мне случайные данные, и я, вероятно, смогу получить отличный , подобрав полином 200 градусов. По новым данным, однако, предполагаемый полином не сработает из-за переоснащения. Опять же, высокий для предполагаемой модели, но оценочная модель бесполезна. $R^2$ $R^2$
Точка (3-4) - это то, почему мы скорректировали , что дает некоторое наказание за добавление большего количества регрессоров, но скорректированный как правило, все еще можно улучшить путем подгонки данных. У этого также есть удивительно бессмысленная особенность, что это может стать отрицательным. $R^2$ $R^2$

$R^2$ $R^2$ $R^2$

— Мэтью Ганн
источник

+1 за много хороших очков. Я пытаюсь понять, что сказать о тоне ....

— rolando2

R^{2}

$R^2$

R^{2}

$R^2$

«Чем выше, тем лучше» - плохое эмпирическое правило для R-квадрата.

Дон Моррисон написал несколько известных статей несколько лет назад, демонстрируя, что R-квадраты, приближающиеся к нулю, могут все еще быть действенными и прибыльными, в зависимости от отрасли. Например, в прямом маркетинговом прогнозировании ответа на рассылку журналов, рассылаемую 10 миллионам домохозяйств, R-квадраты в младших однозначных числах могут привести к прибыльным кампаниям (на основе ROI), если рассылка основана на 2 или 3 верхних ответных ответах. вероятность.

Другой социолог (чье имя ускользает от меня) сегментировал R-квадраты по типу данных, отметив, что по результатам исследования R-квадраты в диапазоне 10-20% были нормой, тогда как для бизнес-данных R-квадраты в диапазоне 40-60% следовало ожидать. Далее они отметили, что R-квадраты в 80-90% и более, вероятно, нарушали фундаментальные предположения регрессии. Тем не менее, этот автор не имел опыта работы с маркетинговым комплексом, данными временных рядов или моделями, содержащими полный набор «причинных» функций (например, классические 4 «Ps» цены, продвижения, места и продукта), которые могут и будут производить R- квадраты приближаются к 100%.

Тем не менее, даже разумные, практические эмпирические правила, такие как эти, не очень помогают при работе с технически неграмотными, чей первый вопрос о прогнозирующей модели всегда будет: «Что такое R-квадрат?»

— Майк Хантер
источник

Другие ответы предлагают отличные теоретические объяснения многих способов, которыми значения R-квадрата могут быть исправлены / подделаны / вводят в заблуждение / и т. Д. Вот практическая демонстрация, которая всегда придерживалась меня, закодированная в r:

y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))

Это может обеспечить R-квадрат значения> 0,90. Добавление достаточного количества регрессоров и даже случайных значений может «предсказать» случайные значения.

— Адам С
источник

Интересно: контраст set.seed(1)и set.seed(2).

— PatrickT

Является ли высокий

Бессмысленные регрессии с высоким R2R2R^2

Бессмысленные регрессии с высоким $R^2$