Предположение iid о парах , , часто делается в статистике и в машинном обучении. Иногда по уважительной причине, иногда из-за удобства, а иногда просто потому, что мы обычно делаем это предположение. Чтобы ответить удовлетворительно, если предположение действительно необходимо, и каковы последствия того, что это предположение не будет сделано, я легко запишу книгу (если вы когда-нибудь легко сделаете что-то подобное). Здесь я постараюсь дать краткий обзор того, что я считаю наиболее важными аспектами.(Xi,yi)i=1,…,N
Фундаментальное предположение
Давайте предположим, что мы хотим изучить вероятностную модель заданную , которую мы называем . Мы не делаем никаких предположений об этой модели в качестве приоритета, но сделаем минимальное предположение, что такая модель существует так, чтоyXp(y∣X)
- условное распределение учетом равно .yiXip(yi∣Xi)
В этом предположении стоит отметить, что условное распределение зависит от только через . Это то, что делает модель полезной, например, для прогнозирования. Предположение имеет место как следствие одинаково распределенной части в предположении iid, но оно слабее, потому что мы не делаем никаких предположений относительно 's.yiiXiXi
В дальнейшем основное внимание будет уделяться роли независимости.
моделирование
Существует два основных подхода к изучению модели заданной . Один подход известен как дискриминационное моделирование, а другой - генеративное моделирование.yX
- Дискриминационное моделирование : мы моделируем напрямую, например, модель логистической регрессии, нейронная сеть, дерево или случайный лес. Работы моделирования предположения , как правило , будет что «ы условно независим , учитывая » s, хотя методы оценки , опираясь на подвыборки или бутстрапировании наибольшего смысла под IID или более слабые обмениваемости предположения (см ниже). Но, как правило, для дискриминационного моделирования нам не нужно делать предположения о распределении . p(y∣X)yiXiXi
- Генеративное моделирование . Мы моделируем совместное распределение of обычно путем моделирования условного распределения и маргинального распределение . Затем мы используем формулу Байеса для вычисления . Линейный дискриминантный анализ и наивные байесовские методы являются примерами. Работает моделирование предположение обычно будет н.о.р. предположение.p(X,y)(X,y)p(X∣y)p(y)p(y∣X)
Для обоих подходов к моделированию допущение о рабочем моделировании используется для получения или предложения методов обучения (или оценок). Это может быть достигнуто путем максимального (оштрафованного) логарифмического правдоподобия, минимизации эмпирического риска или использования байесовских методов. Даже если предположение о рабочем моделировании неверно, результирующий метод все равно может обеспечить разумное соответствие . p(y∣X)
Некоторые методы, используемые вместе с дискриминационным моделированием, такие как пакетирование (агрегация начальной загрузки), работают путем подгонки многих моделей к данным, случайно выбранным из набора данных. Без предположения iid (или взаимозаменяемости) наборы данных с передискретизацией не будут иметь совместного распределения, аналогичного распределению исходного набора данных. Любая структура зависимости стала «испорченной» в результате повторной выборки. Я не задумывался об этом глубоко, но я не понимаю, почему это обязательно должно нарушать метод как метод изучения . По крайней мере, не для методов, основанных на предположениях о независимости работы. Я счастлив, что оказался здесь неправым.p(y∣X)
Согласованность и границы ошибок
Центральный вопрос для всех методов обучения заключается в том, приводят ли они к моделям, близким к . Существует обширная теоретическая литература по статистике и машинному обучению, посвященная согласованности и границам ошибок. Основная цель этой литературы - доказать, что изученная модель близка к когда велико. Согласованность является качественной гарантией, в то время как границы ошибок обеспечивают (полу) явный количественный контроль близости и дают скорости сходимости.p(y∣X)p(y∣X)N
Все теоретические результаты основаны на предположениях о совместном распределении наблюдений в наборе данных. Часто делаются предположения о рабочем моделировании, упомянутые выше (то есть, условная независимость для дискриминационного моделирования и IDID для генеративного моделирования). Для дискриминационного моделирования границы согласованности и ошибок потребуют, чтобы выполнял определенные условия. В классической регрессии одним из таких условий является то, что для , где обозначает матрицу дизайна с строкиXi1NXTX→ΣN→∞XXTi, Более слабые условия могут быть достаточными для согласованности. При редком обучении другим таким условием является условие ограниченного собственного значения, см., Например, Об условиях, используемых для доказательства результатов оракула для Лассо . Предположение iid вместе с некоторыми техническими предположениями о распределении подразумевают, что некоторые такие достаточные условия выполняются с большой вероятностью, и, таким образом, предположение iid может оказаться достаточным, но не необходимым предположением для получения согласованности и границ ошибок для дискриминационного моделирования.
Допущение независимости рабочего моделирования может быть неверным для любого из подходов моделирования. В качестве приблизительного практического правила все еще можно ожидать согласованности, если данные поступают из эргодического процесса , и можно ожидать определенных границ ошибок, если процесс достаточно быстрое смешивание . Точное математическое определение этих понятий уводит нас слишком далеко от основного вопроса. Достаточно отметить, что помимо предположения iid существуют структуры зависимости, для которых можно доказать, что методы обучения работают, когда стремится к бесконечности.N
Если у нас есть более подробные знания о структуре зависимостей, мы можем заменить предположение о рабочей независимости, используемое для моделирования, моделью, которая также отражает структуру зависимости. Это часто делается для временных рядов. Лучшая рабочая модель может привести к более эффективному методу.
Модель оценки
Вместо того, чтобы доказывать, что метод обучения дает модель, близкую к имеет большую практическую ценность получить (относительную) оценку «насколько хороша изученная модель». Такие оценки оцениваются для двух или более изученных моделей, но они не дают абсолютной оценки того, насколько близка изученная модель к . Оценки оценочных баллов обычно рассчитываются эмпирически на основе разделения набора данных на обучающий и тестовый наборы данных или с использованием перекрестной проверки.p ( y ∣ X )p(y∣X)p(y∣X)
Как и в случае с пакетами, случайное разбиение набора данных «испортит» любую структуру зависимости. Однако для методов, основанных на допущениях о рабочей независимости, допущений об эргодичности, более слабых, чем iid, должно быть достаточно для того, чтобы оценочные оценки были разумными, хотя стандартные ошибки в этих оценках будут очень трудно найти.
[ Редактировать: Зависимость между переменными приведет к распределению изученной модели, которое отличается от распределения в предположении iid. Оценка, произведенная перекрестной проверкой, явно не связана с ошибкой обобщения. Если зависимость сильная, это, скорее всего, будет плохая оценка.]
Резюме (tl; dr)
Все вышесказанное предполагает, что существует фиксированная модель условной вероятности . Таким образом, не может быть тенденций или внезапных изменений в условном распределении, не охваченных .Xp(y∣X)X
При изучении модели заданным независимость играет рольXyX
- полезное рабочее моделирование, которое позволяет нам выводить методы обучения
- достаточное, но необязательное предположение для подтверждения согласованности и определения границ ошибок
- достаточное, но не необходимое предположение для использования случайных методов разделения данных, таких как пакетирование для обучения и перекрестная проверка для оценки.
Точное понимание того, какие альтернативы iid также являются достаточными, является нетривиальным и в некоторой степени предметом исследования.