Какое определение «наилучший» используется в терминах «наилучшее соответствие» и перекрестная проверка?

16

Если вы подгоняете нелинейную функцию к набору точек (при условии, что для каждой абсциссы есть только одна ордината), результатом может быть:

очень сложная функция с небольшими остатками
очень простая функция с большими остатками

Перекрестная проверка обычно используется, чтобы найти «лучший» компромисс между этими двумя крайностями. Но что значит «лучший»? Это "скорее всего"? Как бы вы начали доказывать, что является наиболее вероятным решением?

Мой внутренний голос говорит мне, что CV находит какое-то минимальное энергетическое решение. Это заставляет меня думать об энтропии, которая, как я смутно знаю, встречается как в статистике, так и в физике.

Мне кажется, что «наилучшее» соответствие генерируется путем минимизации суммы функций сложности и ошибки, т.е.

minimising m where m = c(Complexity) + e(Error)

Есть ли в этом смысл? Какими будут функции с и е?

Пожалуйста, вы можете объяснить, используя не математический язык, потому что я не буду понимать много математики.

model-selection cross-validation

— Барт
источник

1

Лучшей является модель с наименьшей ошибкой в будущем, и перекрестная проверка дает вам эту оценку. Причина использования формул c (сложность) + e (ошибка) заключается в том, что вы можете использовать ошибку в обучающих данных в качестве оценки будущей ошибки, но это слишком оптимистично, поэтому вы добавляете термин, чтобы сделать эту оценку беспристрастной, что обычно является некоторой функцией Модель сложности

— Ярослав Булатов

С другой стороны, рассуждение в свете феномена Рунге (опять-таки вдохновение физики) приводит к выводу, что будущая ошибка связана с Сложностью / Train_Error.

Мэтт Краузе дал отличный ответ на подобный вопрос здесь: stats.stackexchange.com/a/21925/14640 Перефразируя из своего ответа: цель состоит в том, чтобы сбалансировать сложность модели с объяснительной силой модели, поэтому концепция скупости лучше мера соответствия модели, чем концепция наилучшего соответствия ошибкам. Это потому, что очень сложная модель может переписать данные, не имея возможности лучше прогнозировать или объяснять новые результаты.

— Асад Эбрахим

6

Я думаю, что это отличный вопрос. Я собираюсь перефразировать это, просто чтобы убедиться, что я правильно понял:

Казалось бы, есть много способов выбрать функцию штрафа за сложность и функцию штрафа за ошибку . Какой выбор "лучший". Что лучше всего иметь в виду ? $c$ $e$

Я думаю, что ответ (если таковой имеется) выведет вас за рамки простой перекрестной проверки. Мне нравится, как этот вопрос (и тема в целом) хорошо соотносится с бритвой Оккама и общей концепцией скупости, которая является фундаментальной для науки. Я ни в коем случае не эксперт в этой области, но нахожу этот вопрос чрезвычайно интересным. Лучший текст, который я знаю по таким вопросам, - « Универсальный искусственный интеллект » Маркуса Хаттера (хотя не задавайте мне никаких вопросов по этому поводу, я не читал большую его часть). Я ходил на разговор Хаттера и пару лет назад и был очень впечатлен.

Вы правы, думая , что есть как минимум энтропии аргумент где - то там (используется для сложности штрафной функции каким - либо образом). Хаттер выступает за использование колмогоровской сложности вместо энтропии. Кроме того, определение «лучшего» Хаттера (насколько я помню) является (неформально) моделью, которая лучше всего предсказывает будущее (то есть лучше всего предсказывает данные, которые будут наблюдаться в будущем). Я не могу вспомнить, как он формализует это понятие. $c$

— Робби МакКиллиам
источник

Вы понимаете вопрос. Я пойду по ссылкам.

— Барт

Вы должны знать, что эти ссылки вряд ли приведут вас куда-либо "практично". Если вы пытаетесь создать что-то, используя перекрестную проверку (или какой-либо другой тип выбора модели), то на практике это, скорее всего, всегда сводится к чему-то эвристическому и немного специальному (хотя я согласен, что это неудовлетворительно).

— Робби МакКиллиам

Теперь мы куда-то добираемся. en.wikipedia.org/wiki/Minimum_message_length кажется тем, о чем я думал. Благодарность!

— Барт

Не стоит беспокоиться. Это просто отражение, а не практическое.

— Барт

9

Я предложу краткий интуитивный ответ (на довольно абстрактном уровне), пока кто-то другой не предложит лучший ответ:

Во-первых, обратите внимание, что сложные функции / модели достигают лучшего соответствия (т. Е. Имеют меньшие невязки), поскольку они используют некоторые локальные особенности (представьте себе шум) набора данных, которые отсутствуют в глобальном масштабе (представьте систематические шаблоны).

Во-вторых, при выполнении перекрестной проверки мы разделяем данные на два набора: обучающий набор и набор проверки.

Таким образом, когда мы выполняем перекрестную проверку, сложная модель может не очень хорошо предсказывать, потому что по определению сложная модель будет использовать локальные особенности обучающего набора. Однако локальные характеристики обучающего набора могут сильно отличаться по сравнению с локальными характеристиками проверочного набора, что приводит к плохой прогностической эффективности. Поэтому у нас есть тенденция выбирать модель, которая учитывает глобальные особенности обучающих и проверочных наборов данных.

Таким образом, перекрестная проверка защищает от переоснащения, выбирая модель, которая фиксирует глобальные шаблоны набора данных, и избегая моделей, использующих некоторые локальные особенности набора данных.

@Srikant Я все это знаю. Резюме - это средство для поиска «лучших». Какое определение для "best"?

— Барт

@bart 'best model' = модель, которая 'best' фиксирует глобальные шаблоны, избегая при этом локальных особенностей данных. Это лучшее, что я могу сделать для нематематического описания. Возможно, кто-то еще может уточнить немного или быть более конкретным.

@bart: «лучший» означает функцию, которая наилучшим образом соответствует обучающим данным и которая хорошо «обобщает» данные набора проверочных / невидимых испытаний. Я думаю, это ясно из ответа Сриканта. Есть много способов формально определить хорошее обобщающее поведение. В неформальном смысле вы можете думать об этом как о поиске функции, которая является «гладкой» и не слишком волнистой. Попытка подгонки исключительно к обучающим данным может привести к волнистой функции, в то время как гладкость обычно гарантирует, что эта функция будет достаточно хорошо работать как с данными обучения, так и с данными проверки / тестирования.

— ebony1

@ebony: Вы упускаете суть. Я перефразировал вопрос, чтобы, надеюсь, прояснить его

— Барт

5

В общем виде машинного обучения ответ довольно прост: мы хотим построить модель, которая будет иметь самую высокую точность при прогнозировании новых данных (незаметно во время обучения). Поскольку мы не можем напрямую протестировать это (у нас нет данных из будущего), мы проводим симуляцию Монте-Карло такого теста - и это в основном идея под перекрестной проверкой.

Могут возникнуть некоторые вопросы о том, что такое точность (например, бизнес-клиент может заявить, что перерегулирование стоит 5 € за единицу и недооценка 0,01 € за единицу, поэтому лучше построить менее точную, но более низкую модель), но в целом это это довольно интуитивный процент истинных ответов в классификации и широко используется объясненная дисперсия регрессии.

3

У многих людей есть отличные ответы, вот мои $ 0,02.

Есть два способа взглянуть на «лучшую модель» или «выбор модели», говоря статистически:

1 Объяснение настолько простое, насколько это возможно, но не проще (Attrib. Einstein)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research

2 Прогноз - это интерес, похожий на инженерные разработки.

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

Распространенная (неправильная) концепция:

Выбор модели эквивалентен выбору лучшей модели

Для объяснения мы должны быть готовы к тому, что существует несколько (примерно) одинаково хороших объяснительных моделей. Простота помогает как в передаче концепций, воплощенных в модели, так и в том, что психологи называют обобщением, способность «работать» в сценариях, сильно отличающихся от тех, в которых изучалась модель. Так что есть премиум на несколько моделей.

Для прогноза: (Доктор Рипли) хорошая аналогия - это выбор между мнениями экспертов: если у вас есть доступ к большой группе экспертов, как бы вы использовали их мнения?

Перекрестная проверка заботится о аспекте прогнозирования. Для получения подробной информации о CV, пожалуйста, обратитесь к этой презентации доктора BD Ripley. Доктор Брайан Д. Ripley.

Цитата: Обратите внимание, что все в этом ответе из презентации, приведенной выше. Я большой поклонник этой презентации, и мне это нравится. Другие мнения могут отличаться. Название презентации: «Выбор среди больших классов моделей» и было дано на симпозиуме в честь 80-летия Джона Нелдера, Имперский колледж, 29/30 марта 2004 г., доктором Брайаном Д. Рипли.

— suncoolsu
источник

3

Хорошая дискуссия здесь, но я думаю о перекрестной проверке иначе, чем до сих пор ответы (я думаю, mbq и я на одной странице). Итак, я положу свои два цента, рискуя испачкать воду ...

Перекрестная проверка - это статистический метод оценки изменчивости и систематической ошибки, обусловленной ошибкой выборки, в способности модели подбирать и прогнозировать данные. Таким образом, «наилучшей» будет модель, которая обеспечивает наименьшую ошибку обобщения, которая будет в единицах изменчивости и смещения. Такие методы, как Байесовское и Bootstrap Model Averaging, могут использоваться для обновления модели алгоритмическим способом на основе результатов перекрестной проверки.

Этот FAQ предоставляет хорошую информацию для большего контекста того, что сообщает мое мнение.

— Джош Хеманн
источник

1

Функция ошибки - это ошибка вашей модели (функции) в данных обучения. Сложность - это некоторая норма (например, квадрат l2 нормы) функции, которую вы пытаетесь выучить. Минимизация термина сложности существенно способствует плавным функциям, которые хорошо работают не только с данными обучения, но и с данными испытаний. Если вы представляете свою функцию набором коэффициентов (скажем, если вы делаете линейную регрессию), штрафование сложности по квадрату нормы приведет к малым значениям коэффициентов в вашей функции (штрафование других норм приведет к различным понятиям управления сложностью).

— ebony1
источник

1

С точки зрения оптимизации, проблема (с $(p,q)\geq 1,\;\lambda>0$ ),

$(1)\;\underset{\beta|\lambda,x,y}{Arg\min.}||y-m(x,\beta)||_p+\lambda||\beta||_q$

is equivalent to

$(2)\;\underset{\beta|\lambda,x,y}{Arg\min.}||y-m(x,\beta)||_p$

$s.t.$ $||\beta||_q\leq\lambda$

Which simply incorporates unto the objective function the prior information that $||\beta||_q\leq\lambda$ . If this prior turns out to be true, then it can be shown ( $q=1,2$ ) that incorporating it unto the objective function minimizes the risk associated with $\hat{\beta}$ (i.e. very unformaly, improves the accuracy of $\hat{\beta}$ )

$\lambda$ is a so called meta-parameter (or latent parameter) that is not being optimized over (in which case the solution would trivially reduce to $\lambda=\infty$ ), but rather, reflects information not contained in the sample $(x,y)$ used to solve $(1)-(2)$ (for example other studies or expert's opinion). Cross validation is an attempt at constructing a data induced prior (i.e. slicing the dataset so that part of it is used to infer reasonable values of $\lambda$ and part of it used to estimate $\hat{\beta}|\lambda$ ).

As to your subquestion (why $e()=||y-m(x,\beta)||_p$ ) this is because for $p=1$ ( $p=2$ ) this measure of distance between the model and the observations has (easely) derivable assymptotical properties (strong convergence to meaningfull population couterparts of $m()$ ).

— user603
источник

1

Is

λ

$\lambda$ a parameter that is free to be chosen?

— Robby McKilliam

@Robby:> thanks. I slightly appended the text to make the distinction between parameters and hyperparameters clear.

— user603

@kwak: I'm sorry to say I haven't a clue what this means. What do the symbols p, q, lambda, x, y, m and beta signify?

— bart

@bart:> My answer is essentially the same as Srikant's. Where he provides an intuitive explication, I wanted to add a more rigorous one for the benefits of future visitors that may have the same question as you, but are more familliar with math than non-formal language. All the symbols you mention are defined in my answer (altough, again, this is done formally).

— user603

@kwak: Where, for example, is p defined?

— bart