Матричная запись для логистической регрессии

В линейной регрессии (квадрат потери), используя матрицу, мы получаем очень краткие обозначения для цели

minimize ‖ A x - b ‖^{2}

$\text{minimize}~~ \|Ax-b\|^2$

Где $A$ - матрица данных, $x$ - коэффициенты, а $b$ - ответ.

Существует ли аналогичная матричная запись для цели логистической регрессии? Все записи, которые я видел, не могут избавиться от суммы по всем точкам данных (что-то вроде $\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx)$ ).

РЕДАКТИРОВАТЬ: спасибо за joceratops и отличный ответ AdamO. Их ответ помог мне понять, что еще одна причина, по которой линейная регрессия имеет более лаконичное обозначение, заключается в том, что определение нормы, заключающей в себе квадрат и сумму, или $e^\top e$ . Но в логистических потерях нет такого определения, которое делает обозначение немного более сложным.

— Хайтау Ду
источник

Ответы:

В линейной регрессии решение Максимизировать правдоподобие (MLE) для оценки имеет следующее решение в закрытой форме (при условии, что A является матрицей с полным рангом столбца): $x$

{\hat{x}}_{lin} = \underset{x}{argmin} ‖ A x - b ‖_{2}^{2} = (A^{T} A)^{- 1} A^{T} b

$\hat{x}_\text{lin}=\underset{x}{\text{argmin}} \|Ax-b\|_2^2 = (A^TA)^{-1}A^Tb$

Это читается как «найти который минимизирует целевую функцию, ». Хорошая вещь о представлении целевой функции линейной регрессии таким образом состоит в том, что мы можем хранить все в матричной записи и решать вручную для . Как отмечает Алекс Р., на практике мы часто не рассматриваем напрямую, поскольку он неэффективен в вычислительном отношении, а часто не соответствует критериям полного ранга. Вместо этого мы обратимся к псевдообратному Муру-Пенроуза . Детали вычислительного решения для псевдообратного типа могут включать разложение Холецкого или разложение сингулярного значения. $x$ $\|Ax-b\|_2^2$ $\hat{x}_\text{lin}$ $(A^TA)^{-1}$ $A$

Альтернативно, решение MLE для оценки коэффициентов в логистической регрессии:

{\hat{x}}_{log} = \underset{x}{argmin} \sum_{i = 1}^{N} y^{(i)} \log (1 + e^{- x^{T} a^{(i)}}) + (1 - y^{(i)}) \log (1 + e^{x^{T} a^{(i)}})

$\hat{x}_\text{log} = \underset{x}{\text{argmin}} \sum_{i=1}^{N} y^{(i)}\log(1+e^{-x^Ta^{(i)}}) + (1-y^{(i)})\log(1+e^{x^T a^{(i)}})$

где (при условии, что каждая выборка данных хранится построчно):

$x$ представляет вектор представляет коэффициенты регрессии

$a^{(i)}$ - это вектор, представляющий образец / строку в матрице данных $i^{th}$ $A$

$y^{(i)}$ является скаляром в , а этикетку , соответствующую образца $\{0, 1\}$ $i^{th}$ $i^{th}$

$N$ есть число выборок данных / количество строк в матрице данных . $A$

Опять же, это читается как «найти который минимизирует целевую функцию». $x$

Если вы хотите, вы можете сделать еще один шаг и представить в матричной записи следующим образом: $\hat{x}_\text{log}$

{\hat{x}}_{log} = \underset{x}{argmin} [\begin{matrix} 1 & (1 - y^{(1)}) \\ ⋮ & ⋮ \\ 1 & (1 - y^{(N)}) \end{matrix}] [\begin{matrix} \log (1 + e^{- x^{T} a^{(1)}}) & . . . & \log (1 + e^{- x^{T} a^{(N)}}) \\ \log (1 + e^{x^{T} a^{(1)}}) & . . . & \log (1 + e^{x^{T} a^{(N)}}) \end{matrix}]

$\hat{x}_\text{log} = \underset{x}{\text{argmin}} \begin{bmatrix} 1 & (1-y^{(1)}) \\ \vdots & \vdots \\ 1 & (1-y^{(N)})\\\end{bmatrix} \begin{bmatrix} \log(1+e^{-x^Ta^{(1)}}) & ... & \log(1+e^{-x^Ta^{(N)}}) \\\log(1+e^{x^Ta^{(1)}}) & ... & \log(1+e^{x^Ta^{(N)}}) \end{bmatrix}$

но вы ничего не получите от этого. Логистическая регрессия не имеет решения в закрытой форме и не получает тех же преимуществ, что и линейная регрессия, представляя ее в матричной записи. Для решения используются такие методы оценки, как градиентный спуск и метод Ньютона-Рафсона. Используя некоторые из этих методов (например, Ньютона-Рафсона), аппроксимируется и представляется в матричной записи ( см. Ссылку, предоставленную Алексом Р. ). $\hat{x}_\text{log}$ $\hat{x}_\text{log}$

— joceratops
источник

Отлично. Благодарю. Я думаю, что причина, по которой у нас нет такого решения, как заключается в том, что мы не делаем этот шаг больше, чтобы сделать матричную запись и избежать символа суммы.

A^{⊤} A x = A^{⊤} b

$A^\top A x=A^\top b$

— Haitao Du

У нас есть преимущество в том, чтобы сделать еще один шаг вперед, умножив его на умножение матриц, код станет проще, и во многих платформах, таких как matlab, цикл for с суммой по всем данным намного медленнее, чем операции с матрицами.

— Haitao Du

@ hxd1011: Небольшой комментарий: сводиться к матричным уравнениям не всегда целесообразно. В случае самом деле вам не следует пытаться искать матрицу, обратную , а делать что-то вроде разложения Холецкого, которое будет намного быстрее и более численно устойчивым. Для логистической регрессии существует множество различных итерационных схем, которые действительно используют матричные вычисления. Большой обзор смотрите здесь: research.microsoft.com/en-us/um/people/minka/papers/logreg/…

A^{T} A x = A^{T} b

$A^TAx=A^Tb$

A^{T} A

$A^TA$

— Алекс Р.

@AlexR. большое Вам спасибо. Я узнал, что с помощью нормального уравнения матрица условного числа получит квадрат. И QR или Cholesky были бы намного лучше. Ваша ссылка отличная, такой обзор численными методами всегда то, что я хотел.

— Haitao Du

Ответ @joceratops посвящен проблеме оптимизации максимальной вероятности оценки. Это действительно гибкий подход, который поддается многим типам проблем. Для оценки большинства моделей, включая модели линейной и логистической регрессии, существует другой общий подход, основанный на методе оценки моментов.

Оценщик линейной регрессии также можно сформулировать как корень уравнения оценки:

0 = X^{T} (Y - X β)

$0 = \mathbf{X}^T(Y - \mathbf{X}\beta)$

В этом отношении рассматривается как значение, которое извлекает средний остаток 0. Для такой интерпретации не нужно полагаться на какую-либо основную вероятностную модель. Тем не менее, интересно получить уравнения для оценки для нормальной вероятности, вы увидите, что они принимают именно ту форму, которая показана выше. Максимизация вероятности регулярного экспоненциального семейства для линейной модели (например, линейной или логистической регрессии) эквивалентна получению решений для их балльных уравнений. $\beta$

0 = \sum_{i = 1}^{n} S_{i} (α, β) = \frac{\partial}{\partial β} \log L (β, α, X, Y) = X^{T} (Y - g (X β))

$0 = \sum_{i=1}^n S_i(\alpha, \beta) = \frac{\partial}{\partial \beta} \log \mathcal{L}( \beta, \alpha, X, Y) = \mathbf{X}^T (Y - g(\mathbf{X}\beta))$

Где имеет ожидаемое значение . В оценке GLM называется обратной функцией связи. В нормальных уравнениях правдоподобия - тождественная функция, а в логистической регрессии - логит-функция. Более общий подход будет требовать $Y_i$ $g(\mathbf{X}_i \beta)$ $g$ $g^{-1}$ $g^{-1}$ $0 = \sum_{i=1}^n Y - g(\mathbf{X}_i\beta)$

$\frac{\partial g(\mathbf{X}\beta)}{\partial \beta} = \mathbf{V}(g(\mathbf{X}\beta))$ $p = g(\mathbf{X}\beta)$ $\mbox{var}(Y_i) = p_i(1-p_i)$ , Это говорит о том, что интерпретация модели GLM с ошибочной спецификацией означает, что она дает 0 средних невязок Пирсона. Это также предполагает обобщение, позволяющее получать непропорциональные функциональные средние производные и отношения средней дисперсии.

Подход обобщенного оценочного уравнения определил бы линейные модели следующим образом:

0 = \frac{\partial g (X β)}{\partial β} V^{- 1} (Y - g (X β))

$0 = \frac{\partial g(\mathbf{X}\beta)}{\partial \beta} \mathbf{V}^{-1}\left(Y - g(\mathbf{X}\beta)\right)$

$\mathbf{V}$ $g(\mathbf{X}\beta)$

$g$ $V_{ii}$ $g(\mathbf{X}_i \beta)(1-g(\mathbf{X}\beta))$ $\beta$ , Который - учитывая хорошо документированные ловушки при интерпретации OR как RR - должен заставить меня спросить, почему кто-то больше подходит для моделей логистической регрессии.

— Adamo
источник

+1 отличный ответ. сформулировать это как корень нахождения на производной действительно новый для меня. и второе уравнение действительно лаконично.

— Haitao Du