Вопросы с тегом «loss-functions»

Функция, используемая для количественной оценки разницы между наблюдаемыми данными и прогнозируемыми значениями в соответствии с моделью. Минимизация функций потерь - это способ оценки параметров модели.

2
Почему k-means не оптимизировано с использованием градиентного спуска?
Я знаю, что k-средних обычно оптимизируется с использованием максимизации ожиданий . Однако мы можем оптимизировать его функцию потерь так же, как мы оптимизируем любую другую! Я нашел несколько работ, которые на самом деле используют стохастический градиентный спуск для больших k-средних, но я не смог получить ответ на свой вопрос. Итак, …

1
Смещение дисперсии
В разделе 3.2 Бишопа «Распознавание образов и машинное обучение» он обсуждает разложение смещения дисперсии, утверждая, что для квадрата функции потерь ожидаемая потеря может быть разложена на квадрат смещения (который описывает, насколько средние прогнозы далеки от истинных модель), дисперсионный термин (который описывает разброс прогнозов вокруг среднего) и шумовой термин (который дает …

1
Почему наивный байесовский классификатор оптимален для проигрыша 0-1?
Наивный байесовский классификатор - это классификатор, который назначает элементы xxx классу CCC на основе максимизации апостериорного P(C|x)P(C|x)P(C|x) для членства в классе и предполагает, что характеристики элементов независимы. Потеря 0-1 - это потеря, которая присваивает любой ошибочной классификации потерю «1», а потерю «0» - любой правильной классификации. Я часто читаю (1), …

2
Классификация с шумными метками?
Я пытаюсь обучить нейронную сеть для классификации, но у меня довольно шумные ярлыки (около 30% ярлыков ошибочны). Потеря перекрестной энтропии действительно работает, но мне было интересно, есть ли альтернативы, более эффективные в этом случае? или потеря кросс-энтропии является оптимальной? Я не уверен, но я думаю о некоторой «отсечке» кросс-энтропийной потери, …

2
Почему функция потерь 0-1 неразрешима?
В книге глубокого обучения Яна Гудфеллоу написано, что Иногда функция потерь, о которой мы действительно заботимся (скажем, ошибка классификации), не может быть эффективно оптимизирована. Например, точное минимизация ожидаемых потерь 0-1 обычно трудно (экспоненциально во входном измерении) даже для линейного классификатора. В таких ситуациях обычно вместо этого оптимизируют функцию суррогатных потерь, …

2
Различные определения функции кросс-энтропийной потери
Я начал с изучения нейронных сетей с помощью учебника по нейронным сетям и углублённому изучению точек. В частности, в 3-й главе есть раздел о функции кросс-энтропии, который определяет потерю кросс-энтропии как: С= - 1NΣИксΣJ( уJперaLJ+ ( 1 - уJ) пер( 1 - аLJ) )C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln …

1
Градиент для функции логистической потери
Я хотел бы задать вопрос, связанный с этим . Я нашел пример написания пользовательской функции потерь для xgboost здесь : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We …

5
Какую функцию потери я должен использовать для двоичного обнаружения в обнаружении лица / не лица в CNN?
Я хочу использовать глубокое обучение для обучения двоичному обнаружению лица / лица, какую потерю я должен использовать, я думаю, что это SigmoidCrossEntropyLoss или Hinge-loss . Это правильно, но мне также интересно, должен ли я использовать softmax, но только с двумя классами?

1
Аппроксимация второго порядка функции потерь (Книга глубокого обучения, 7.33)
В книге Гудфеллоу (2016) о глубоком обучении он говорил об эквивалентности раннего прекращения регуляризации L2 ( https://www.deeplearningbook.org/contents/regularization.html стр. 247). Квадратичная аппроксимация функции стоимости jjj определяется как: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

3
Какую функцию потерь следует использовать для получения двоичного классификатора с высокой точностью или высокой степенью отзыва?
Я пытаюсь сделать детектор объектов, которые встречаются очень редко (в изображениях), планируя использовать двоичный классификатор CNN, применяемый в скользящем окне с измененным размером. Я построил сбалансированные положительно-отрицательные обучающие и тестовые наборы (кстати, правильно ли это делать в таком случае?), И классификатор отлично справляется с тестовым набором с точки зрения точности. …

1
Функция потери биномиального отклонения Scikit
Это функция биномиального отклонения Scikit GradientBoosting, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * np.sum(sample_weight …

2
Процентные функции потери
Решение проблемы: минмЕ[ | м - х| ]minmE[|m−X|] \min_{m} \; E[|m-X|] Хорошо известно, что это медиана , но как выглядит функция потерь для других процентилей? Пример: 25-й процентиль X является решением для:ИксXX минмЕ[ L ( м , х) ]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] Что такое LLL в этом случае?

3
MAP является решением
Я столкнулся с этими слайдами (слайд № 16 и № 17) на одном из онлайн-курсов. Преподаватель пытался объяснить, как максимальная апостериорная оценка (MAP) на самом деле является решением L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}] , где - истинный параметр.θ∗θ∗\theta^{*} Может кто-нибудь объяснить, пожалуйста, как это следует? Изменить: Добавлены слайды, если ссылка …

1
Какую функцию потерь я должен использовать для оценки модели seq2seq RNN?
Я работаю над статьей Cho 2014, в которой была представлена ​​архитектура кодер-декодер для моделирования seq2seq. В статье они, похоже, используют вероятность выходных данных при заданном входном сигнале (или его отрицательной логарифмической вероятности) в качестве функции потерь для входного сигнала длины и выходного сигнала длины :xxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y_1, …, y_N | x_1, …

1
Как оценка, которая минимизирует взвешенную сумму квадратов смещения и дисперсии, вписывается в теорию принятия решений?
Хорошо, мое оригинальное сообщение не смогло получить ответ; Итак, позвольте мне поставить вопрос по-другому. Я начну с объяснения моего понимания оценки с точки зрения теории решения. У меня нет формального обучения, и меня не удивит, если мое мышление каким-то образом ошибочно. Предположим , у нас есть некоторая функция потерь L(θ,θ^(x))L(θ,θ^(x))L(\theta,\hat\theta(x)) …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.