Подходит ли значение R-квадрата для сравнения моделей?

Я пытаюсь определить лучшую модель для прогнозирования цен на автомобили, используя цены и функции, доступные на сайтах, рекламируемых автомобилями.

Для этого я использовал пару моделей из библиотеки scikit-learn и модели нейронной сети из pybrain и neurolab. Подход, который я использовал до сих пор, состоит в том, чтобы прогонять фиксированный объем данных через некоторые модели (алгоритмы машинного обучения) и сравнивать там значения $R^2$ которые были рассчитаны с помощью модуля показателей scikit-learn.

Является ли $R^2$ хорошим методом для сравнения производительности разных моделей?
Хотя я получил вполне приемлемые результаты для таких моделей, как Эластичная сеть и Случайные леса, я получил очень плохие значения $R^2$ для моделей нейронных сетей, поэтому является ли $R^2$ подходящим методом для оценки нейронных сетей (или нелинейных методов)?

— Маник
источник

Краткий ответ - нет . Это может помочь вам прочитать мой ответ здесь: Оценка модели и сравнение для выбора лучшей модели , которая довольно тесно связана с вашим вопросом. Возможное решение описано здесь . Для более общего понимания вы можете попробовать прочитать некоторые темы на сайте, отнесенные к тегу выбора модели .

— gung - Восстановить Монику

@ gung Спасибо! Могу я спросить, что было бы подходящим критерием соответствия для регрессии с использованием нейронных сетей?

— Маник

Я думаю, что важнейшая часть, которую следует учитывать при ответе на ваш вопрос,

Я пытаюсь определить лучшую модель для прогнозирования цен на автомобили

потому что это утверждение подразумевает кое-что о том, почему вы хотите использовать модель. Выбор и оценка модели должны основываться на том, чего вы хотите достичь с вашими установленными значениями.

Во-первых, давайте вспомним, что делает $R^2$ : он вычисляет масштабированную меру на основе функции квадратичной потери, которую, я уверен, вы уже знаете. Чтобы убедиться в этом, определить остаточные для г-го наблюдения и соответствующее встроено значение . Используя удобные обозначения , $e_i = y_i - \hat{y}_i$ $y_i$ $\hat{y}_i$ $SSR := \sum_{i=1}^Ne_i^2$ ,является просто определена как. $SST:=\sum_{i=1}^N(y_i - \bar{y})^2$ $R^2$ $R^2 = 1 - SSR/SST$

Во-вторых, давайте посмотрим, что означает использование для выбора / оценки модели $R^2$ . Предположим, мы выбираем из набора предсказаний которые были сгенерированы с использованием модели , где - коллекция рассматриваемых моделей (в вашем примере эта коллекция будет содержать нейронные сети, случайные леса, упругие сети, ...). Так как будет оставаться постоянной среди всех моделей, если свести к минимуму вы будете выбирать именно ту модель , которая сводит к минимуму . Другими словами, вы выберете $\bar{Y}_M$ $M:M \in \mathcal{M}$ $\mathcal{M}$ $SST$ $R^2$ $SSR$ который дает минимальную квадратную потерю ошибки! $M \in \mathcal{M}$

$R^2$ $SSR$ $L^2$ $L^1$

$R^2$ $L^p$ $1 \leqslant p <2$ $p=1$ $L^p$ $L^p$

Таким образом, выбор / оценка модели не может рассматриваться независимо от цели модели.

— Иеремия К
источник