Статистика и большие данные gradient-descent

2

Как мини-пакетный градиентный спуск обновляет веса для каждого примера в пакете?

Если мы обрабатываем, скажем, 10 примеров в пакете, я понимаю, что мы можем суммировать потери для каждого примера, но как работает обратное распространение в отношении обновления весов для каждого примера? Например: Пример 1 -> потеря = 2 Пример 2 -> потеря = -2 Это приводит к средней потере 0 (E …

12 neural-networks gradient-descent backpropagation tensorflow

1

Градиент для функции логистической потери

Я хотел бы задать вопрос, связанный с этим . Я нашел пример написания пользовательской функции потерь для xgboost здесь : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We …

12 r machine-learning gradient-descent boosting loss-functions

2

Можно ли оценить GLM в Python / scikit-learn, используя распределения Пуассона, Гаммы или Твиди как семейство для распределения ошибок?

Пытаюсь выучить немного Python и Sklearn, но для своей работы мне нужно запустить регрессии, которые используют распределения ошибок из семейств Пуассона, Гаммы и особенно семейства Твиди. Я ничего не вижу в документации о них, но они есть в нескольких частях дистрибутива R, поэтому мне было интересно, видел ли кто-нибудь где-нибудь …

12 generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

2

Связаны ли остаточные сети с повышением градиента?

Недавно мы увидели появление остаточной нейронной сети, в которой каждый уровень состоит из вычислительного модуля и ярлыка соединения, которое сохраняет входные данные для уровня, такие как выходные данные i-го уровня: Сеть позволяет извлекать остаточные элементы и обеспечивает более глубокую глубину, в то же время будучи более устойчивой к исчезающей проблеме …

11 machine-learning neural-networks deep-learning gradient-descent residual-networks

1

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

4

Когда использовать градиентный спуск против Монте-Карло в качестве метода численной оптимизации

Когда набор уравнений не может быть решен аналитически, тогда мы можем использовать алгоритм градиентного спуска. Но, похоже, существует также метод моделирования Монте-Карло, который можно использовать для решения задач, которые не имеют аналитических решений. Как определить, когда использовать градиентный спуск, а когда - Монте-Карло? Или я просто путаю термин «симуляция» с …

11 monte-carlo gradient-descent

2

Как обучить SVM через обратное распространение?

Мне было интересно, можно ли обучить SVM (скажем, линейный, чтобы упростить задачу) с использованием обратного распространения? В настоящее время я нахожусь в затруднительном положении, потому что я могу думать только о том, чтобы записать вывод классификатора как f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) Следовательно, когда мы пытаемся вычислить …

10 machine-learning neural-networks svm gradient-descent backpropagation

1

Можно ли обучить модель P (Y | X) с помощью стохастического градиентного спуска из неидеальных выборок P (X) и iid выборок P (Y | X)?

При обучении параметризованной модели (например, для максимизации вероятности) посредством стохастического градиентного спуска на некотором наборе данных обычно предполагается, что обучающие выборки извлекаются из распределения обучающих данных. Таким образом, если цель состоит в том, чтобы смоделировать совместное распределение , то каждый обучающий образец должен быть взят из этого распределения.P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) Если вместо …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

4

Оптимизация градиентного спуска

Я пытаюсь понять оптимизацию градиентного спуска в алгоритмах ML (машинного обучения). Я понимаю , что есть стоимость функция, где цель состоит в том, чтобы свести к минимуму ошибки у - у . В случае , когда вес ш 1 , ж 2 оптимизируются , чтобы дать минимальную ошибку, и используются …

9 optimization gradient-descent

2

Почему мои шаги становятся меньше при использовании фиксированного размера шага при градиентном спуске?

Предположим, что мы делаем игрушечный пример с градиентом приличия, минимизируя квадратичную функцию , используя фиксированный размер шага α = 0,03 . ( A = [ 10 , 2 ; 2 , 3 ] )ИксTхxTAxx^TAxα = 0,03α=0.03\alpha=0.03A = [ 10 , 2 ; 2 , 3 ]A=[10,2;2,3]A=[10, 2; 2, 3] Если …

9 r machine-learning optimization gradient-descent

1

Почему проксимальный градиентный спуск вместо простых субградиентных методов для Лассо?

Я думал решить Лассо с помощью ванильных субградиентных методов. Но я читал людей, предлагающих использовать проксимальный градиентный спуск. Может ли кто-нибудь подчеркнуть, почему для лассо используются проксимальный GD вместо ванильных субградиентных методов?

9 machine-learning optimization lasso gradient-descent

1

Как повышение градиента, как градиентный спуск?

Я читаю полезную статью в Википедии о повышении градиента ( https://en.wikipedia.org/wiki/Gradient_boosting ) и пытаюсь понять, как / почему мы можем аппроксимировать невязки с помощью шага наискорейшего спуска (также называемого псевдоградиентом). ). Кто-нибудь может дать мне интуицию о том, как самый крутой спуск связан / похож на остатки? Помощь очень ценится!

9 self-study gradient-descent

2

Определить оптимальную скорость обучения для градиентного спуска в линейной регрессии

Как определить оптимальную скорость обучения для градиентного спуска? Я думаю, что я мог бы автоматически настроить его, если функция стоимости возвращает большее значение, чем в предыдущей итерации (алгоритм не будет сходиться), но я не совсем уверен, какое новое значение он должен принимать.

9 regression machine-learning gradient-descent

Вопросы с тегом «gradient-descent»