Регрессия, основанная, например, на днях недели

11

Мне нужна небольшая помощь, чтобы двигаться в правильном направлении. Прошло много времени с тех пор, как я изучал статистику, и, похоже, жаргон изменился.

Представьте, что у меня есть набор данных, связанных с автомобилем, таких как

Время в пути от города А до города Б
Расстояние от города А до города Б
Размер двигателя
Размер обуви водителя
Марка и модель автомобиля
День недели

Я хочу предсказать время в пути.

Я полагаю, что существует сильная корреляция между временем и расстоянием и, возможно, более слабая зависимость от размера двигателя (а не от размера обуви). Предположительно множественный регрессионный анализ / ANOVA является инструментом для использования. Но как мне включить день недели, потому что просто кодировать его как воскресенье = 1, понедельник = 2 и т. Д. Кажется очень неправильным?

Например, используя инструмент регрессии Excel, как мне интерпретировать результаты? Предположительно, если R близко к 1, это хорошо (хотя, если имеется много элементов данных, кажется, что они могут быть небольшими, но все же существенными). Но некоторые источники ссылаются на r-квадрат, который кажется SD, поэтому значение, близкое к нулю, является хорошим. Он также показывает t Stat, P-значение, F и значение F, какими бы они ни были. Кто-нибудь может порекомендовать хороший справочный источник?

regression categorical-data categorical-encoding

— Земля
источник

2

Напомним, что эти вопросы (о интерпретации результатов регрессии) были заданы здесь в другой ветке , но вопрос был настолько плохо сформулирован, что не получил хороших ответов. Это фундаментальный вопрос, который заслуживает «канонического» ответа, который является элементарным, но тщательным, ясным и хорошо объясненным.

— whuber

26

Что вам нужно, это серьезный обзор методологии регрессии. Тем не менее, эти вопросы достаточно просты (не поймите это неправильно), что даже хороший обзор базовой статистики, вероятно, принесет вам пользу. Хауэлл написал очень популярный учебник, который обеспечивает широкую концептуальную основу, не требуя плотной математики. Это может стоить вашего времени, чтобы прочитать это. Здесь невозможно охватить весь этот материал. Тем не менее, я могу попытаться начать с некоторых ваших конкретных вопросов.

Во-первых, дни недели включаются через схему кодирования, Наиболее популярным является кодирование «эталонной категории» (обычно называемое фиктивным кодированием). Давайте представим, что ваши данные представлены в виде матрицы, а ваши дела - в строках, а переменные - в столбцах. В этой схеме, если бы у вас было 7 категориальных переменных (например, для дней недели), вы бы добавили 6 новых столбцов. Вы бы выбрали один день в качестве справочной категории, обычно такой, которая считается стандартной. Часто это определяется теорией, контекстом или вопросом исследования. Я понятия не имею, что будет лучше для дней недели, но это также не имеет большого значения, вы можете просто выбрать любой старый. Как только у вас есть справочная категория, вы можете назначить другие новые 6 переменных, а затем просто указать, будет ли эта переменная получена для каждого случая. Например, скажем, вы выбрали воскресенье в качестве справочной категории, ваши новые столбцы / переменные будут с понедельника по субботу. Каждое наблюдение, имевшее место в понедельник, будет обозначено $1$ в столбце понедельника и другом месте. То же самое произошло бы с наблюдениями по вторникам и так далее. Обратите внимание, что ни в одном случае нельзя получить столбцы в 2 или более, и что наблюдения, которые проводились в воскресенье (контрольная категория), будут иметь во всех ваших новых переменных. Есть много других возможных схем кодирования, и ссылка делает хорошую работу по их внедрению. Вы можете проверить, имеет ли значение день недели, протестировав вложенную модель с опущенными всеми 6 новыми переменными по сравнению с полной моделью со всеми 6 включенными. Обратите внимание, что вы не должны использовать тесты, о которых сообщается со стандартным выводом, поскольку они не являются независимыми и имеют внутренние проблемы множественного сравнения. $0$ $1$ $0$

Прошло много времени с тех пор, как я смотрел на то, как Excel выполняет статистику, и я не очень хорошо это помню, так что кто-то еще может помочь вам в этом. Эта страница, кажется, содержит некоторую информацию о специфике регрессии в Excel. Я могу рассказать вам немного больше о статистике, обычно сообщаемой в результатах регрессии:

-score , что близко к указывает на то, что переменная отклика значение может быть почти полностью определяется значениями предикторов. Ясно, что это было бы большим эффектом , но априори не ясно, что это «хорошо» - это совершенно другая и философски непростая проблема. $r$ $1$
Не ясно, что они подразумевают под « », учитывая, что вы делаете множественную регрессию (где обычно не сообщается). « » - это мера линейной, двумерной ассоциации , то есть она применяется к линейным отношениям между (только) 2 переменными. Однако можно получить балл между прогнозируемыми значениями из вашей модели и значениями ответов . В этом случае вы используете 2 переменные (и если ваша модель указана надлежащим образом, связь должна быть линейной). Эта версия называется «множественный score», но она редко обсуждается или сообщается программным обеспечением. $r$ $r$ $r$ $r$ $r$
R-квадрат - это просто квадрат (т. ); это не стандартное отклонение. Он также будет стремиться к поскольку отношения становятся более определенными, а не . Таким образом, если вы думаете, $r$ $r\times r$ $1$ $0$ $r$ $1$ $R^2$ $1$ $r$ $R^2$ ) сильно смещен в множественной регрессии. То есть, чем больше предикторов вы добавите в свою модель, тем выше будет эта статистика, независимо от того, есть ли связь или нет. Таким образом, вы должны быть осторожны в их интерпретации.
$t$ $F$
$p$
$t$ $F$ $p$ $F$ $1$ $F$
$F$ $F$

И последнее, на что стоит обратить внимание: этот процесс нельзя отделить от контекста. Чтобы хорошо анализировать данные, вы должны помнить свои базовые знания и вопросы исследования. Я упомянул об этом выше в отношении выбора справочной категории. Например, вы заметили, что размер обуви не должен быть релевантным, но для Flintstones это, вероятно, было! Я просто хочу включить этот факт, потому что он часто кажется забытым.

— Gung - Восстановить Монику
источник

5

(+1) Excel на самом деле может выполнять множественную регрессию и имеет команду, способную создать стандартную сводную таблицу. Учитывая его историческую тенденцию быть (очень) неаккуратным с вычислением распределенных значений, способность должна рассматриваться как собака Сэмюэля Джонсона : «... собака идет на задних лапах. Это не сделано хорошо; но вы удивитесь, обнаружив, что это сделано на всех. "

— whuber

3

Вы заканчиваете множеством вопросов, которые требуют «обучения» регрессии. Позвольте мне сказать, что чем выше R ^ 2, тем лучше, но есть предостережения. R ^ 2 всегда возрастает, когда вы добавляете переменные, чтобы вы могли искусственно их раздувать. Посмотрите на тесты значимости, посмотрите остаточную диагностику и т. Д. Что касается дня недели, понедельник = 1, вторник = 2 и т. Д. Не будет подходящим способом. Вам нужны переменные сезонного индикатора: 0/1 в понедельник, 0/1 во вторник и т. Д.

— Badgerman
источник