В чем разница между предсказанием и выводом?


37

Я читаю « Введение в статистическое обучение ». В главе 2 они обсуждают причину оценки функции .f

2.1.1 Зачем оценивать ?f

Есть две основные причины, по которым мы можем захотеть оценить f : прогноз и умозаключение . Мы обсуждаем каждый по очереди.

Я читал это несколько раз, но мне все еще неясно, в чем разница между предсказанием и выводом. Может ли кто-нибудь привести (практический) пример различий?


5
Авторы «Введение в статистическое обучение» оказали нам здесь медвежью услугу. Каждый делает выводы, чтобы делать предсказания, точно так же, как делает выводы, чтобы понять причины и следствия. Merriam-webster.com определяет «вывод» главным образом как «вывод как вывод из фактов или предпосылок». Это охватывает как причинно-следственную, так и прогнозную аргументацию. Это вводит в заблуждение, вводит в заблуждение и противоречит долгосрочному стандартному использованию, чтобы сузить определение «сделать вывод», включив в него только вопросы причинности. Итак: давайте сопоставим предсказательный вывод с причинным выводом.
rolando2

2
@ rolando2: Тогда, я думаю, нам также понадобится описательный вывод , то есть вывод о параметрах в описательных (не причинных) моделях.
kjetil b halvorsen

Ответы:


29

Вывод: учитывая набор данных, вы хотите сделать вывод, как вывод генерируется как функция данных.

Предсказание: учитывая новое измерение, вы хотите использовать существующий набор данных для построения модели, которая надежно выбирает правильный идентификатор из набора результатов.


Вывод: Вы хотите узнать, как влияет возраст, класс пассажиров и пол на выживание после Титанического бедствия. Вы можете составить логистическую регрессию и сделать вывод о влиянии каждой характеристики пассажира на выживаемость.

Предсказание: учитывая некоторую информацию о пассажире Титаника, вы хотите выбрать из набора и быть точным как можно чаще. (См. Прогноз отклонения от смещения для прогноза на случай, если вам интересно, как правильно быть как можно чаще.){lives,dies}


Предсказание не вращается вокруг установления наиболее точной связи между входом и выходом, точный прогноз заботится о том, чтобы как можно чаще помещать новые наблюдения в правильный класс.

Таким образом, «практический пример» сводится к следующему различию: учитывая набор данных о пассажирах для одного пассажира, подход логического вывода дает вам вероятность выживания, классификатор дает вам выбор между жизнью или смертью.

Настройка классификаторов является очень интересной и важной темой, так же как и правильная интерпретация значений p и доверительных интервалов.


1
Хороший ответ. Но когда некоторые люди слышат слово «вывод», они думают «причинный вывод». Вы также можете сказать что-то об этом, даже если (или, возможно, особенно потому, что) ISLR не сфокусирован на этом.
generic_user

1
Я думаю, что в мире глубокого изучения умозаключения во многом совпадают с предсказаниями, например. blogs.nvidia.com/blog/2016/08/22/...
user1893354

1
Это кажется мне очень хорошим ответом.
gung - Восстановить Монику

3
Я считаю, что этот ответ неправильный, в частности, «подход логического вывода дает вам вероятность выживания, классификатор дает вам выбор между жизнью или смертью», даже более конкретно, в первой части. Расчет вероятности выживания пассажира является прогнозом, в частности вероятностным. В непрерывном случае это будет прогноз плотности. Затем мы можем ограничить эту предсказанную вероятность, чтобы получить жесткую классификацию , да. ...
С. Коласса - Восстановить Монику

3
... Принимая во внимание, что предсказание - это предсказание результатов , умозаключение - это понимание отношения входов к результату: какой вход имеет такое отношение, и как мы можем отличить «истинное» отношение от случайной ковариации (где значения p заходи)? Может кто-нибудь объяснить мне, где я ошибаюсь?
С. Коласса - Восстановить Монику

12

Как правило, при анализе данных мы представляем, что существует некий «процесс генерирования данных», который порождает данные, и логический вывод относится к изучению структуры этого процесса, в то время как прогнозирование означает возможность на самом деле прогнозировать поступающие из него данные. , Часто они идут вместе, но не всегда.

Примером, где эти два идут рука об руку, будет простая модель линейной регрессии

Yi=β0+β1xi+ϵi.

Вывод в этом случае будет означать оценку параметров модели и и наши прогнозы будут просто рассчитываться на основе наших оценок этих параметров. Но есть другие типы моделей, в которых можно делать разумные прогнозы, но модель не обязательно приводит к осмысленному пониманию того, что происходит за кулисами. Некоторыми примерами таких моделей могут быть сложные ансамблевые методы, которые могут привести к хорошим прогнозам, но иногда их трудно или невозможно понять.β 1β0β1


3
«Но модель не обязательно приводит к осмысленному пониманию того, что происходит за кулисами». На ум приходит термин « черный ящик ». :)
Алексис

или многослойные нейронные сети
Шихаб Шахриар Хан

«Но есть и другие типы моделей, в которых можно делать разумные прогнозы, но модель не обязательно приводит к осмысленному пониманию того, что происходит за кулисами», кого это волнует? Проблема вывода, как вы ее определили, по-прежнему связана с определением параметров модели. Я не понимаю, почему вы начинаете это предложение с «Но» и почему вы даже написали это предложение в отношении вашего определения вывода и предсказания.
nbro

1
Использование «но» объясняется тем, что оба описания предыдущей и последующей моделей являются правильными, однако следующая модель отличается от природы первой такими способами, которых вы не ожидали, пока не поймете различие между предсказанием и выводом это иллюстрируется. Я уже знаком с различием, тем не менее, я считаю этот пример проницательным и полезным. +1
gung - Восстановить Монику

11

На странице 20 книги авторы приводят прекрасный пример, который помог мне понять разницу.

Вот параграф из книги: Введение в статистическое обучение

« Например , в условиях недвижимости можно попытаться связать стоимость домов с такими факторами, как уровень преступности, зонирование, расстояние от реки, качество воздуха, школы, уровень дохода сообщества, размер домов и т. Д.». В этом случае может возникнуть интерес к тому, как отдельные входные переменные влияют на цены, т. Е. Сколько будет стоить дом, если он имеет вид на реку? Это проблема логического вывода . В качестве альтернативы можно просто заинтересоваться при прогнозировании стоимости дома с учетом его характеристик: этот дом недооценен или переоценен? Это проблема прогнозирования ».


5

Прогнозирование использует предполагаемое f для прогноза на будущее. Предположим, вы наблюдаете переменную , возможно, это доход магазина. Вы хотите строить финансовые планы для своего бизнеса и должны прогнозировать доход в следующем квартале. Вы подозреваете, что доход зависит от доходов населения в этом квартале и времени года . Итак, вы утверждаете, что это функция: x 1 , t x 2 , t y t = f ( x 1 , t - 1 , x 2 , t - 1 ) + ε tytx1,tx2,t

yt=f(x1,t1,x2,t1)+εt

Теперь, если вы получите данные о доходах, скажем, ряд личных располагаемых доходов от BEA, и построите переменную времени года, вы можете оценить функцию f , а затем включить в нее последние значения дохода населения и времени года. функция. Это даст прогноз на следующий квартал выручки магазина.

f/x2tβ2x2,t1

xкоррелируют, труднее отделить влияние предиктора от влияния других предикторов. Для прогноза это не имеет значения, все, что вас волнует, это качество прогноза.


3

Представьте, вы врач в отделении интенсивной терапии. У вас есть пациент с сильной лихорадкой и определенным количеством клеток крови, с заданным весом тела и сотней различных данных, и вы хотите предсказать, выживет ли он или она. Если да, он собирается скрыть эту историю о своем другом ребенке своей жене, если нет, ему важно раскрыть ее, пока он может.

Врач может сделать этот прогноз, основываясь на данных бывших пациентов, которые он имел в своем отделении. Основываясь на своих знаниях программного обеспечения, он может прогнозировать, используя обобщенную линейную регрессию (glm) или через нейронную сеть (nn).

1. Обобщенная линейная модель

Существует много взаимосвязанных параметров для glm, поэтому, чтобы получить результат, врач должен будет сделать предположения (линейность и т. Д.) И решения о том, какие параметры могут оказать влияние. GLM вознаградит его t-тестом значимости для каждого из его параметров, чтобы он мог собрать убедительные доказательства того, что пол и лихорадка оказывают значительное влияние, а вес тела не обязательно так.

2. Нейронная сеть

Нейронная сеть проглотит и переварит всю информацию, которая есть в выборке бывших пациентов. Это не будет заботиться о том, коррелируют ли предикторы, и не будет раскрывать так много информации о том, кажется ли влияние массы тела важным только в имеющейся выборке или в целом (по крайней мере, не на уровне опыта, который врач может предложить). Это просто вычислит результат.

Что лучше

Какой метод выбрать, зависит от того, с какой точки зрения вы смотрите на проблему: как пациент, я бы предпочел нейронную сеть, которая использует все доступные данные для лучшего предположения о том, что произойдет со мной без сильных и явно ошибочных предположений, таких как линейность. Как врач, который хочет представить некоторые данные в журнале, ему нужны p-значения. Медицина очень консервативна: они будут просить р-значения. Поэтому врач хочет сообщить, что в такой ситуации пол оказывает существенное влияние. Для пациента это не имеет значения, просто используйте любое влияние, которое образец может быть наиболее вероятным.

В этом примере пациент хочет предсказания, ученая сторона доктора хочет умозаключения. Главным образом, когда вы хотите понять систему, тогда вывод это хорошо. Если вам нужно принять решение, когда вы не можете понять систему, прогнозирования будет достаточно.


1
«Как пациент, я бы предпочел нейронную сеть ...» Вы, кажется, игнорируете тот факт, что в клинической науке может быть чрезвычайно трудно найти большие объемы данных. Наборы данных, состоящие всего из нескольких наблюдений на группу, не редкость из-за безопасности, конфиденциальности и этических соображений. Если вы можете сделать оправданные предположения относительно процесса генерирования данных, вы можете сделать эти данные более эффективными.
Франс Роденбург

Предполагалось, что это гипотетический сценарий, в котором легко можно понять, почему, казалось бы, одна и та же проблема может вызвать вопросы логического вывода и проблемы прогнозирования и почему они не совпадают. Я не предлагал методов, позволяющих на самом деле предсказать шансы на выживание пациентов, и да, я очень хорошо знаю, насколько трудно получить надежные клинические данные заметного размера. ИМХО хорошие предположения / знание процесса генерирования данных помогут в прогнозировании, а также в умозаключениях, таким образом, не так уж много в различении.
Бернхард

1

Вы не одиноки здесь. Прочитав ответы, я больше не растерялся - не потому, что я понимаю разницу, а потому, что я понимаю, что это в глазах смотрящего и словесно навязанного. Я уверен, что теперь эти два термина являются политическими определениями, а не научными. Возьмем, к примеру, объяснение из книги, которое колледжи пытались использовать как хорошее: «Сколько будет стоить дом, если у него будет вид на реку? Это проблема логического вывода». С моей точки зрения, это абсолютно прогнозируемая проблема. Вы являетесь владельцем строительной компании, и вы хотите выбрать лучший участок для строительства следующего набора домов. Вы должны выбрать между двумя местами в одном городе, один рядом с рекой, другой рядом с железнодорожной станцией. Вы хотите предсказатьцены на оба места. Или вы хотите сделать вывод . Вы собираетесь применять точные методы статистики, но вы называете процесс. :)


Идея, что вид на реку потребует определенной цены, является причинной интерпретацией. Прогноз не зависит от причинно-следственной связи: я могу предсказать эффекты от причин, причины от последствий или 1 эффект от другого эффекта с аналогичными причинами. Рассмотрим моего друга Билли, которому 5'10 "и у которого есть идентичный близнец Бобби, которого я никогда не встречал. Тем не менее, я могу предсказать, что Бобби 5'10", но если я сделаю Билли выше, дав ему обувь для лифта, Я не могу предсказать, что Билли тоже будет выше.
gung - Восстановить Монику

Приведенный вами пример - просто плохой пример, поэтому он сбивает с толку. Разница между умозаключением и предсказанием определенно больше, чем «политика».
Ричард Харди

1

Есть хорошие исследования, показывающие, что надежный прогноз того, будут ли заемщики погашать свои кредиты, заключается в том, используют ли они войлок, чтобы защитить свои полы от царапин на ножках мебели. Эта «чувствовавшая» переменная будет явным подспорьем для прогностической модели, в которой результатом является погашение вместо дефолта. Тем не менее, если кредиторы хотят получить больше рычагов воздействия на этот результат, они будут упущены, думая, что они могут сделать это, распределяя чувствовал как можно шире.

"Насколько вероятно, что этот заемщик погасит?" проблема прогнозирования; "Как я могу повлиять на результат?" проблема причинного вывода.


-1

y = f (x) тогда

прогноз (каково значение Y с заданным значением х: если конкретное значение х, что может быть значением Y

вывод (как у изменяется с изменением по х): что может повлиять на Y, если х изменится

Пример прогнозирования: предположим, что y представляет зарплату человека, тогда, если мы введем данные, такие как годы опыта, степень в качестве входных переменных, тогда наша функция прогнозирует зарплату сотрудника.

Пример логического вывода: предположим, что изменится стоимость жизни, а затем изменение зарплаты


Я не понимаю, почему этот ответ заслуживает двух отрицательных ответов.
gung - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.