Этот ответ будет в основном сфокусирован на , но большая часть этой логики распространяется на другие метрики, такие как AUC и так далее.R2
Читатели из CrossValidated почти наверняка не смогут ответить на этот вопрос. Не существует неконтекстного способа решить, хороши ли метрики модели, такие как , или нетR2 . В крайних случаях обычно можно получить консенсус от широкого круга экспертов: равное почти 1, обычно указывает на хорошую модель, а значение, близкое к 0, указывает на ужасную модель. Между ними лежит диапазон, в котором оценки носят субъективный характер. В этом диапазоне требуется больше, чем просто статистическая экспертиза, чтобы ответить, хороша ли ваша метрика модели. Требуются дополнительные знания в вашей области, которых, вероятно, нет у читателей CrossValidated.R2
Почему это? Позвольте мне проиллюстрировать это на примере из моего собственного опыта (мелкие детали изменены).
Я имел обыкновение делать лабораторные эксперименты по микробиологии. Я бы поставил колбы с клетками на разные уровни концентрации питательных веществ и измерил рост плотности клеток (то есть наклон плотности клеток во времени, хотя эта деталь не важна). Когда я затем смоделировал это соотношение роста / питательных веществ, было обычно достигать значений > 0,90.R2
Теперь я ученый-эколог. Я работаю с наборами данных, содержащих измерения с натуры. Если я попытаюсь приспособить точно такую же модель, описанную выше, к этим наборам данных «поля», я буду удивлен, если достигнет 0,4.R2
В этих двух случаях используются одни и те же параметры с очень похожими методами измерения, модели, написанные и смонтированные с использованием одних и тех же процедур, и даже один и тот же человек выполняет подгонку! Но в одном случае 0,7 было бы ужасно низким, а в другом - подозрительно высоким.R2
Кроме того, мы бы взяли некоторые химические измерения наряду с биологическими измерениями. Модели для стандартных химических кривых имели бы около 0,99, а значение 0,90 было бы крайне низким .R2
Что приводит к этим большим различиям в ожиданиях? Контекст. Этот расплывчатый термин охватывает обширную область, поэтому позвольте мне попытаться разделить его на несколько более конкретных факторов (это, вероятно, не полностью):
1. Что такое выплата / последствия / заявка?
Вот где природа вашей области, вероятно, будет наиболее важной. Как бы я ни ценил свою работу, увеличение моей модели с на 0,1 или 0,2 не произведет революцию в мире. Но есть приложения, где такая величина изменений будет огромной! Гораздо меньшее улучшение модели прогноза акций может означать десятки миллионов долларов для фирмы, которая ее разрабатывает.R2
Это еще проще проиллюстрировать для классификаторов, поэтому я собираюсь переключить мое обсуждение метрик с на точность для следующего примера (игнорируя слабость метрики точности на данный момент). Рассмотрим странный и прибыльный мир куриного пола . После нескольких лет тренировок человек может быстро определить разницу между цыплятами мужского и женского пола, когда им всего 1 день. Самцов и самок кормят по-разному, чтобы оптимизировать производство мяса и яиц, поэтому высокая точность позволяет сэкономить огромные суммы нерационально распределенных инвестиций в миллиардыR2птиц. Еще несколько десятилетий назад точность в 85% считалась высокой в США. В настоящее время ценность достижения очень высокой точности, около 99%? Заработная плата, которая, по-видимому, может варьироваться от 60 000 до, возможно, 180 000 долларов в год (на основе некоторого быстрого поиска в Google). Поскольку люди все еще ограничены в скорости, с которой они работают, алгоритмы машинного обучения, которые могут достигать аналогичной точности, но позволяют выполнять сортировку быстрее, могут стоить миллионы.
(Надеюсь, вам понравился пример - альтернатива была удручающей в отношении очень сомнительной алгоритмической идентификации террористов).
2. Насколько сильно влияние немоделируемых факторов в вашей системе?
Во многих экспериментах вы можете позволить себе роскошь изолировать систему от всех других факторов, которые могут на нее повлиять (в конце концов, это отчасти цель экспериментов). Природа грязнее. Продолжая более ранний пример микробиологии: клетки растут, когда питательные вещества доступны, но на них влияют и другие вещи - насколько жарко, сколько хищников их есть, есть ли в воде токсины. Все они вместе с питательными веществами и друг с другом сложным образом. Каждый из этих других факторов приводит к изменению данных, которые не собираются вашей моделью. Питательные вещества могут быть не важны в вариациях вождения по сравнению с другими факторами, и поэтому, если я исключу эти другие факторы, моя модель моих полевых данных обязательно будет иметь более низкое .R2
3. Насколько точны и точны ваши измерения?
Измерение концентрации клеток и химических веществ может быть чрезвычайно точным и точным. Измерение (например) эмоционального состояния сообщества на основе трендов хештегов в Твиттере, скорее всего, будет… меньше. Если вы не можете быть точными в своих измерениях, маловероятно, что ваша модель сможет когда-либо достичь высокого . Насколько точны измерения в вашей области? Мы, вероятно, не знаем.R2
4. Сложность и обобщения модели
Если вы добавите в модель больше факторов, даже случайных, вы в среднем увеличите модель (скорректированная величина частично решает эту проблему). Это переоснащение . Модель перехвата не будет хорошо обобщать новые данные, т.е. будет иметь более высокую погрешность прогнозирования, чем ожидалось, на основе соответствия исходному (обучающему) набору данных. Это потому, что он соответствует шуму в исходном наборе данных. Это частично объясняет, почему модели штрафуются за сложность процедур выбора моделей или подвергаются регуляризации.R2R2
Если переоснащение игнорируется или не может быть успешно предотвращено, оценочное значение будет смещено вверх, т.е. выше, чем должно быть. Другими словами, ваше значение может дать вам неверное представление о производительности вашей модели, если она не подходит.R2R2
ИМО, переоснащение на удивление распространено во многих областях. Как избежать этого - сложная тема, и я рекомендую прочитать о процедурах регуляризации и выборе модели на этом сайте, если вы заинтересованы в этом.
5. Диапазон данных и экстраполяция
Распространяется ли ваш набор данных на существенную часть диапазона значений X, которые вас интересуют? Добавление новых точек данных за пределы существующего диапазона данных может оказать большое влияние на оценку , поскольку это метрика, основанная на дисперсии X и Y.R2
Помимо этого, если вы подгоняете модель к набору данных и хотите предсказать значение за пределами диапазона X этого набора данных (т. Е. Экстраполировать ), вы можете обнаружить, что ее производительность ниже, чем вы ожидаете. Это связано с тем, что оцененные вами отношения вполне могут измениться за пределами установленного вами диапазона данных. На рисунке ниже, если вы проводили измерения только в диапазоне, указанном зеленым квадратом, вы можете представить, что прямая линия (красным) хорошо описывает данные. Но если вы попытаетесь предсказать значение за пределами этого диапазона с помощью этой красной линии, вы будете совершенно неверны.
[Фигура является отредактированной версией этой , найденной через быстрый поиск в Google по «кривой Монода».]
6. Метрики дают вам только часть картины
Это на самом деле не критика метрик - они являются сводными данными, что означает, что они также выбрасывают информацию по своему замыслу. Но это означает, что любая метрика не учитывает информацию, которая может иметь решающее значение для ее интерпретации. Хороший анализ учитывает более одной метрики.
Предложения, исправления и другие отзывы приветствуются. И другие ответы тоже, конечно.