О важности предположения IID в статистическом обучении


54

В статистическом обучении, неявно или явно, всегда предполагается, что обучающий набор состоит из наборов ввода / ответа , которые независимо взяты из одного и того же совместного распределения сD={X,y}NP ( X , y )(Xi,yi) P(X,y)

p(X,y)=p(y|X)p(X)

и отношения, которые мы пытаемся охватить с помощью определенного алгоритма обучения. Математически это предположение iid пишет:p(y|X)

(Xi,yi)P(X,y),i=1,...,N(Xi,yi) independent of (Xj,yj),ij{1,...,N}

Я думаю, что мы все можем согласиться с тем, что это предположение редко выполняется на практике, см. Этот связанный вопрос SE и мудрые комментарии @Glen_b и @Luca.

Поэтому мой вопрос:

Где именно предположение iid становится критическим на практике?

[Контекст]

Я спрашиваю об этом, потому что могу вспомнить многие ситуации, когда такое строгое предположение не требуется для обучения определенной модели (например, методы линейной регрессии), или, по крайней мере, можно обойти предположение iid и получить надежные результаты. На самом деле результаты , как правило, останутся прежними, скорее изменится вывод, который можно сделать (например, согласованные оценки гетероскедастичности и автокорреляции HAC в линейной регрессии: идея состоит в том, чтобы повторно использовать старые добрые весовые коэффициенты регрессии OLS, но для адаптации поведение конечно-выборочного метода оценки МНК с учетом нарушения предположений Гаусса-Маркова).

Поэтому я предполагаю, что предположение iid требуется не для того, чтобы обучать конкретный алгоритм обучения, а для того, чтобы гарантировать, что такие методы, как перекрестная проверка, действительно могут быть использованы для получения надежного показателя способности модели хорошо обобщать , что это единственное, что нас интересует в конце дня в статистическом обучении, потому что оно показывает, что мы действительно можем извлечь уроки из данных. Интуитивно я действительно могу понять, что использование перекрестной проверки зависимых данных может быть оптимистичным (как показано / объяснено в этом интересном примере ).

Таким образом, для меня iid не имеет ничего общего с обучением конкретной модели, а связано с универсальностью этой модели . Похоже, это согласуется с работой, которую я нашел Huan Xu et al., См. «Робастность и обобщаемость для марковских образцов» здесь .

Ты бы согласился с этим?

[Пример]

Если это может помочь обсуждению, рассмотрите проблему использования алгоритма LASSO для выполнения интеллектуального выбора среди функций с учетом обучающих выборок с Далее мы можем предположить, что:Н ( Х я , у я ) я = 1 , . , , , Н Х я = [ X я 1 , . , , , X i P ]PN(Xi,yi)i=1,...,N

Xi=[Xi1,...,XiP]
  • Входные данные являются зависимыми, что приводит к нарушению предположения iid (например, для каждого признака мы наблюдаем временных рядов точек, следовательно, вводя временную автокорреляцию)J=1,. , ,ПНXij=1,..,PN
  • ответы являются независимыми.yi|Xi
  • Мы имеем .PN

Каким образом нарушение предположения iid может создать проблему в этом случае, если предположить, что мы планируем определить коэффициент штрафования LASSO используя метод перекрестной проверки (для полного набора данных) + использовать вложенную перекрестную проверку чтобы почувствовать ошибку обобщения этой стратегии обучения (мы можем оставить в стороне обсуждение, касающееся врожденных достоинств и недостатков LASSO, за исключением случаев, когда это полезно).λ


1
Можете ли вы дать справочную структуру, которая вас интересует, чтобы обсуждение не было слишком широким по всем методам. Мы говорим о линейной регрессии здесь? Или мы говорим о точечной оценке параметров с помощью, скажем, MLE? Или мы говорим о структуре CLT?
Greenparker

2
Если вы также зависимость от , то при штрафной логистической регрессии штрафуется вероятность логарифмической вероятности. Если данные не являются независимыми, то вы не можете записать совместную логарифмическую вероятность и, следовательно, не можете завершить связанную с оптимизацией проблему. yi
Greenparker

1
Нет, я думаю наоборот - если вы быстро перейдете к предположению iid, вы можете не включить лаги , которые ложно (для целей, таких как непредвзятость, но также наносят ущерб предсказательной силе), полагая, что они не нужны. y
Кристоф Ханк

3
Я не согласен с тем, что предположение о независимости "обычно нарушается". Временные ряды - это особый случай, скорее исключение, чем типичный пример. Предположение Iid позволяет вам упростить вашу модель и построить более экономную модель, и это может быть сделано часто (например, ваши случаи выбираются случайным образом , поэтому их можно считать независимыми).
Тим

2
В примере, второй пункт, не следует считать условно iid. Они могут считаться условно независимыми, но считается, что условное распределение зависит от и, следовательно, изменяется с . X i iyiXii
NRH

Ответы:


32

Предположение iid о парах , , часто делается в статистике и в машинном обучении. Иногда по уважительной причине, иногда из-за удобства, а иногда просто потому, что мы обычно делаем это предположение. Чтобы ответить удовлетворительно, если предположение действительно необходимо, и каковы последствия того, что это предположение не будет сделано, я легко запишу книгу (если вы когда-нибудь легко сделаете что-то подобное). Здесь я постараюсь дать краткий обзор того, что я считаю наиболее важными аспектами.(Xi,yi)i=1,,N

Фундаментальное предположение

Давайте предположим, что мы хотим изучить вероятностную модель заданную , которую мы называем . Мы не делаем никаких предположений об этой модели в качестве приоритета, но сделаем минимальное предположение, что такая модель существует так, чтоyXp(yX)

  • условное распределение учетом равно .yiXip(yiXi)

В этом предположении стоит отметить, что условное распределение зависит от только через . Это то, что делает модель полезной, например, для прогнозирования. Предположение имеет место как следствие одинаково распределенной части в предположении iid, но оно слабее, потому что мы не делаем никаких предположений относительно 's.yiiXiXi

В дальнейшем основное внимание будет уделяться роли независимости.

моделирование

Существует два основных подхода к изучению модели заданной . Один подход известен как дискриминационное моделирование, а другой - генеративное моделирование.yX

  • Дискриминационное моделирование : мы моделируем напрямую, например, модель логистической регрессии, нейронная сеть, дерево или случайный лес. Работы моделирования предположения , как правило , будет что «ы условно независим , учитывая » s, хотя методы оценки , опираясь на подвыборки или бутстрапировании наибольшего смысла под IID или более слабые обмениваемости предположения (см ниже). Но, как правило, для дискриминационного моделирования нам не нужно делать предположения о распределении . p(yX)yiXiXi
  • Генеративное моделирование . Мы моделируем совместное распределение of обычно путем моделирования условного распределения и маргинального распределение . Затем мы используем формулу Байеса для вычисления . Линейный дискриминантный анализ и наивные байесовские методы являются примерами. Работает моделирование предположение обычно будет н.о.р. предположение.p(X,y)(X,y)p(Xy)p(y)p(yX)

Для обоих подходов к моделированию допущение о рабочем моделировании используется для получения или предложения методов обучения (или оценок). Это может быть достигнуто путем максимального (оштрафованного) логарифмического правдоподобия, минимизации эмпирического риска или использования байесовских методов. Даже если предположение о рабочем моделировании неверно, результирующий метод все равно может обеспечить разумное соответствие . p(yX)

Некоторые методы, используемые вместе с дискриминационным моделированием, такие как пакетирование (агрегация начальной загрузки), работают путем подгонки многих моделей к данным, случайно выбранным из набора данных. Без предположения iid (или взаимозаменяемости) наборы данных с передискретизацией не будут иметь совместного распределения, аналогичного распределению исходного набора данных. Любая структура зависимости стала «испорченной» в результате повторной выборки. Я не задумывался об этом глубоко, но я не понимаю, почему это обязательно должно нарушать метод как метод изучения . По крайней мере, не для методов, основанных на предположениях о независимости работы. Я счастлив, что оказался здесь неправым.p(yX)

Согласованность и границы ошибок

Центральный вопрос для всех методов обучения заключается в том, приводят ли они к моделям, близким к . Существует обширная теоретическая литература по статистике и машинному обучению, посвященная согласованности и границам ошибок. Основная цель этой литературы - доказать, что изученная модель близка к когда велико. Согласованность является качественной гарантией, в то время как границы ошибок обеспечивают (полу) явный количественный контроль близости и дают скорости сходимости.p(yX)p(yX)N

Все теоретические результаты основаны на предположениях о совместном распределении наблюдений в наборе данных. Часто делаются предположения о рабочем моделировании, упомянутые выше (то есть, условная независимость для дискриминационного моделирования и IDID для генеративного моделирования). Для дискриминационного моделирования границы согласованности и ошибок потребуют, чтобы выполнял определенные условия. В классической регрессии одним из таких условий является то, что для , где обозначает матрицу дизайна с строкиXi1NXTXΣNXXiT, Более слабые условия могут быть достаточными для согласованности. При редком обучении другим таким условием является условие ограниченного собственного значения, см., Например, Об условиях, используемых для доказательства результатов оракула для Лассо . Предположение iid вместе с некоторыми техническими предположениями о распределении подразумевают, что некоторые такие достаточные условия выполняются с большой вероятностью, и, таким образом, предположение iid может оказаться достаточным, но не необходимым предположением для получения согласованности и границ ошибок для дискриминационного моделирования.

Допущение независимости рабочего моделирования может быть неверным для любого из подходов моделирования. В качестве приблизительного практического правила все еще можно ожидать согласованности, если данные поступают из эргодического процесса , и можно ожидать определенных границ ошибок, если процесс достаточно быстрое смешивание . Точное математическое определение этих понятий уводит нас слишком далеко от основного вопроса. Достаточно отметить, что помимо предположения iid существуют структуры зависимости, для которых можно доказать, что методы обучения работают, когда стремится к бесконечности.N

Если у нас есть более подробные знания о структуре зависимостей, мы можем заменить предположение о рабочей независимости, используемое для моделирования, моделью, которая также отражает структуру зависимости. Это часто делается для временных рядов. Лучшая рабочая модель может привести к более эффективному методу.

Модель оценки

Вместо того, чтобы доказывать, что метод обучения дает модель, близкую к имеет большую практическую ценность получить (относительную) оценку «насколько хороша изученная модель». Такие оценки оцениваются для двух или более изученных моделей, но они не дают абсолютной оценки того, насколько близка изученная модель к . Оценки оценочных баллов обычно рассчитываются эмпирически на основе разделения набора данных на обучающий и тестовый наборы данных или с использованием перекрестной проверки.p ( y X )p(yX)p(yX)

Как и в случае с пакетами, случайное разбиение набора данных «испортит» любую структуру зависимости. Однако для методов, основанных на допущениях о рабочей независимости, допущений об эргодичности, более слабых, чем iid, должно быть достаточно для того, чтобы оценочные оценки были разумными, хотя стандартные ошибки в этих оценках будут очень трудно найти.

[ Редактировать: Зависимость между переменными приведет к распределению изученной модели, которое отличается от распределения в предположении iid. Оценка, произведенная перекрестной проверкой, явно не связана с ошибкой обобщения. Если зависимость сильная, это, скорее всего, будет плохая оценка.]

Резюме (tl; dr)

Все вышесказанное предполагает, что существует фиксированная модель условной вероятности . Таким образом, не может быть тенденций или внезапных изменений в условном распределении, не охваченных .Xp(yX)X

При изучении модели заданным независимость играет рольXyX

  • полезное рабочее моделирование, которое позволяет нам выводить методы обучения
  • достаточное, но необязательное предположение для подтверждения согласованности и определения границ ошибок
  • достаточное, но не необходимое предположение для использования случайных методов разделения данных, таких как пакетирование для обучения и перекрестная проверка для оценки.

Точное понимание того, какие альтернативы iid также являются достаточными, является нетривиальным и в некоторой степени предметом исследования.


2
Это очень хорошо отработанный ответ. Это на месте и дает мне достаточно ссылки для самостоятельного изучения, большое спасибо за то, что @NRH я в восторге. Я просто оставлю щедрость, чтобы поощрять другие варианты ответа на вопрос, но я уже пометил это как принятый ответ, поскольку он прекрасно отвечает всем моим первоначальным проблемам.
Quantuple

10

Что IID допущений состояния является то , что случайные величины независимы и одинаково распределены . Вы можете формально определить, что это значит, но неофициально говорится, что все переменные предоставляют одинаковый вид информации независимо друг от друга (вы также можете прочитать о связанной взаимозаменяемости ).

От абстрактных идей давайте на мгновение перейдем к конкретному примеру: в большинстве случаев ваши данные могут храниться в матрице с наблюдениями по строкам и переменными по столбцам. Если вы предполагаете, что ваши данные являются iid , то это означает, что вам нужно беспокоиться только об отношениях между столбцами и не беспокоиться об отношениях между строками. Если вы обеспокоены обоими вариантами, то смоделируете зависимость столбцов от столбцов и строк от строк, то есть всего от всего. Очень сложно сделать упрощения и построить статистическую модель всего, что зависит от всего.

Вы правильно заметили, что exchengeability позволяет нам использовать такие методы, как перекрестная проверка или начальная загрузка, но также позволяет использовать центральную предельную теорему и позволяет упростить моделирование для понимания (мышление в терминах столбцов). ).

Как вы заметили в примере LASSO, допущение независимости часто смягчается до условной независимости . Даже в таком случае нам нужны независимые и одинаково распределенные «части». Подобное, более мягкое предположение часто делается для моделей временных рядов, о которых вы упомянули, которые предполагают стационарность (так что есть зависимость, но есть и общее распределение, и ряды стабилизируются во времени - опять же, «iid» части). Это вопрос наблюдения ряда похожих вещей, которые несут ту же идею о каком-то общем явлении. Если у нас есть несколько различных и зависимых вещей, мы не можем делать никаких обобщений.

Вы должны помнить, что это только предположение, мы не строги в этом. Речь идет о достаточном количестве вещей, которые независимо друг от друга передают сходную информацию о каком-то распространенном явлении. Если бы вещи влияли друг на друга, они, очевидно, передавали бы подобную информацию, поэтому они не были бы такими полезными.

Представьте, что вы хотите узнать о способностях детей в классе, поэтому вы даете им несколько тестов. Вы можете использовать результаты теста в качестве показателя способностей детей, только если они сделали их самостоятельно, независимо друг от друга. Если бы они взаимодействовали, то вы, вероятно, измерили бы способности самого умного ребенка или самого влиятельного. Это не означает, что вы должны предполагать, что между детьми вообще не было никакого взаимодействия или зависимости, а просто то, что они сами проводили тесты. Дети также должны быть «одинаково распределены», чтобы они не могли приехать из разных стран, говорить на разных языках, быть в разном возрасте, так как это затруднит интерпретацию результатов (возможно, они не поняли вопросы и ответили случайным образом). Если вы можете предположить , что ваши данные н.о.р.тогда вы можете сосредоточиться на построении общей модели. Вы можете иметь дело с неидеальными данными, но тогда вам придется гораздо больше беспокоиться о «шуме» в ваших данных.


Помимо вашего основного вопроса вы также спрашиваете о перекрестной проверке с неидеальными данными. Хотя вы, кажется, недооцениваете важность предположения iid , в то же время вы преувеличиваете проблемы несоблюдения этого предположения, которые представляют собой перекрестную проверку. Есть несколько способов, как мы можем работать с такими данными, используя методы повторной выборки, такие как начальная загрузка или перекрестная проверка. Если вы имеете дело с временными рядами, вы не можете предполагать, что значения являются независимыми, поэтому взятие случайной доли значений было бы плохой идеей, поскольку при этом игнорировалась бы автокоррелированная структура данных. Из-за этого во временных рядах мы обычно используем перекрестную проверку на один шаг впередт.е. вы принимаете участие в серии, чтобы предсказать следующее значение (не используется для моделирования). Точно так же, если ваши данные имеют кластерную структуру , вы выбираете целые кластеры, чтобы сохранить природу данных. Так , как с моделированием, мы можем иметь дело с не- н.о.р. -sness также при выполнении перекрестной проверки, но мы должны адаптировать наши методы к природе данных , так как методы , предназначенным для н.о.р. данных не применяется в таких случаях.


yi|XiXi

(ctd) ... Другими словами, хотя ваш ответ определенно проливает некоторый свет на концепцию iid, я хотел бы узнать больше на технической основе: когда это нарушается, каковы последствия?
Quantuple

@Quantuple, затем вы используете методы для данных не-iid, например, во временных выборках целых блоков данных в начальной загрузке и т. Д.
Тим

Еще раз спасибо. Я действительно помню, что читал где-то о таких методах. Есть ли источник, который обсуждает все потенциальные методы-кандидаты? Я только что натолкнулся на статью К. Бергмейра, Р. Хиндмана, Б. Ку «Записка о валидности перекрестной проверки для оценки прогноза временных рядов», которую я постараюсь прочитать как можно скорее.
Quantuple

1
Классическая проверка @Quantuple «Введение в Bootstrap» Эфрона и Тибширани и «Методы начальной загрузки и их применение» Дэвисона и Хинкли, чтобы прочитать о начальной загрузке (те же идеи применимы к перекрестной проверке); Справочники временных рядов описывают, как использовать перекрестную проверку и начальную загрузку для таких данных (т.е. перекрестная проверка на шаг впереди). Проверьте также мое редактирование.
Тим

3

Единственное место, где можно смело игнорировать iid, - это курсы студенческой статистики и машинного обучения. Вы написали, что:

можно обойти предположение iid и получить надежные результаты. На самом деле результаты, как правило, останутся прежними, скорее изменится вывод, который можно сделать ...

Это верно только в том случае, если предполагается, что функциональная форма моделей в основном правильная. Но такое предположение даже менее правдоподобно, чем iid.

Существует как минимум два способа, в которых iid является критически важным с точки зрения прикладного моделирования:

  1. Это явное предположение в большинстве статистических выводов, как вы отмечаете в своем вопросе. В большинстве реальных моделей на каком-то этапе нам нужно использовать логический вывод для проверки спецификации, например, во время выбора переменных и сравнения моделей. Таким образом, несмотря на то, что каждая конкретная модель подходит, несмотря на нарушения iid, вы все равно можете выбрать неправильную модель.

  2. Я считаю, что размышление о нарушениях iid - это полезный способ подумать о механизме генерации данных, который, в свою очередь, помогает мне априори подумать о соответствующей спецификации модели. Два примера:

    • Если данные кластеризованы, это является нарушением iid. Средство от этого может быть смешанная модель. Вывод, который я сделаю из смешанных моделей, как правило, полностью отличается от того, который я делаю из OLS.
    • Нелинейные отношения между зависимыми и независимыми переменными часто обнаруживаются при проверке остатков как части исследования iid.

Конечно, в почти любой модели, которую я когда-либо строил, мне не удалось свести к минимуму распределение остатков к чему-то близкому к действительно нормальному распределению. Но, тем не менее, я всегда много выигрываю, очень, очень стараясь это сделать.


Спасибо за ваш ответ, который очень проницательный. Под последним предложением (1) вы подразумеваете, что у вас может быть несколько моделей с приличным соответствием наблюдаемым данным, но когда вы будете использовать стандартные методы выбора моделей (например, перекрестную проверку), вы не выберете лучшую ( с точки зрения обобщения) потому что вывод, который вы сделаете, будет смещен из-за нарушения IID? (2) Мне кажется, что вы говорите об остатках IID как части функциональной спецификации (например, остатков регрессии), которая не делает недействительным то, что вы пишете (ctd) ...
Quantuple

(ctd) ... но первоначальный вопрос был связан с примерами обучения не iid (x, y), а не с остатками не iid после оценки модели. Я предполагаю, что мой вопрос может быть, когда у вас есть не обучающие примеры iid (например, временные ряды), нужно ли добавить шаг предварительной обработки, чтобы сделать их iid? Если вы этого не сделаете, и примените стандартную процедуру для оценки / перекрестной проверки вашей модели, где предостережение?
Quantuple

1
Когда у вас есть обучающие примеры не-iid, идея состоит в том, чтобы найти модель, которая учитывает природу не-iid и производит остатки, которые являются iid. Хотя есть некоторые проблемы, когда имеет смысл предварительно обрабатывать данные (например, преобразования переменных в линейной регрессии), многие проблемы iid лучше решать путем поиска модели, которая явно решает проблему iid. Например, передаточные функции во временных рядах или иерархические модели в данных поперечного сечения.
Тим

Я согласен с тем фактом, что, поскольку данные временного ряда обычно демонстрируют некоторую форму зависимости, естественно стремиться к получению этой информации с помощью статистических моделей, специально предназначенных для этого, например, передаточных функций. Это касается обучения. Теперь, что касается перекрестной проверки (CV), я думаю, что мне также нужны специальные методы для учета неидеальности? Я имею в виду, что использование передаточных функций не изменило тот факт, что мои данные не были в первую очередь. Есть ли где-нибудь список таких специальных методов? Насколько велика оптимистическая предвзятость при использовании стандартного метода CV с данными не-iid?
Quantuple

1
Это будет зависеть от характера метода перекрестной проверки и проблемы. Я думаю, что хитрость заключается в том, чтобы использовать методы перекрестной проверки, которые неявно структурированы вокруг iid. Например, воровка имела бы мало смысла. Но, разделив выборку на образцы для оценки, тестирования и проверки, вероятно, будет. Но этот вопрос действительно отличается от вашего первоначального вопроса, и это не моя область знаний.
Тим

2

На мой взгляд, есть две довольно приземленные причины, по которым предположение iid важно в статистическом обучении (или статистике в целом).

  1. Много закулисной математики зависит от этого предположения. Если вы хотите доказать, что ваш метод обучения на самом деле работает для более чем одного набора данных, предположение iid в конечном итоге сработает. Этого можно избежать, но математика становится в несколько раз сложнее.

  2. Если вы хотите чему-то научиться на основе данных, вы должны предположить, что есть чему поучиться. Обучение невозможно, если каждая точка данных генерируется различным механизмом. Поэтому важно предположить, что что-то объединяет данный набор данных. Если мы предположим, что данные случайные, то это что-то, естественно, является распределением вероятностей, поскольку распределение вероятностей охватывает всю информацию о случайной переменной.

    x1,...,xnxiFn

    (x1,...,xn)Fn.

    FnFmnmnFnFnnFn=Fn,xiFFnFmnF


xyx

(ctd) ... но, как вы заявили в первом пункте, предположение о примерах обучения iid вернется, когда мы рассмотрим обобщающие свойства LASSO. Что было бы хорошо (и то, что я отчаянно ищу, я думаю), так это справочное / простое техническое объяснение, которое показывает, как нарушение предположения iid вносит оптимистический уклон, например, в оценку перекрестной проверки.
Quantuple

yi=α+β1x1i+εii=1,...,n/2yi=α+β2x2i+εii=n/2+1,...,nx1ix2i

i=1,...,n/2i=n/2+1,...,n

xE[y|X]

1

Я хотел бы подчеркнуть, что в некоторых случаях данные не являются внутренними и статистическое обучение все еще возможно. Крайне важно иметь опознаваемую модель для совместного распределения всех наблюдений; если наблюдения выполнены, то это совместное распределение легко получить из предельного распределения отдельных наблюдений. Но в некоторых случаях совместное распределение дается напрямую, не прибегая к предельному распределению.

Y=Xα+Zu+ε
YRnXRn×pαRpZRn×quRqεRnXZαuuN(0,τIq)εN(0,σ2In)τσ2

Y

YN(Xα,τZZ+σ2In).
ατσ2Yn
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.