Вопросы с тегом «optimization»

Используйте этот тег для любого использования оптимизации в статистике.

4
Зачем использовать регуляризацию в полиномиальной регрессии вместо понижения степени?
При выполнении регрессии, например, два гиперпараметра, которые нужно выбрать, часто являются емкостью функции (например, наибольшим показателем многочлена) и величиной регуляризации. Что меня смущает, так это почему бы просто не выбрать функцию с низкой пропускной способностью, а затем игнорировать любую регуляризацию? Таким образом, это не будет соответствовать. Если у меня есть …

1
Целевая функция PCA: какова связь между максимизацией дисперсии и минимизацией ошибки?
Алгоритм PCA может быть сформулирован в терминах корреляционной матрицы (предположим, что данные уже нормализованы, и мы рассматриваем только проекцию на первый ПК). Целевая функция может быть записана как:XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. Это хорошо, и мы используем множители Лагранжа, чтобы решить это, то есть переписать …
32 pca  optimization 

6
Почему бы не использовать третью производную для численной оптимизации?
Если гессианы так хороши для оптимизации (см., Например , метод Ньютона ), зачем останавливаться на достигнутом? Давайте использовать третий, четвертый, пятый и шестой производные? Почему бы нет?

1
Приближение функции потерь XGBoost с расширением Тейлора
В качестве примера возьмем целевую функцию модели XGBoost на -й итерации:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) где - функция потерь, - выходной файл ', а - регуляризация. Одним из (многих) ключевых шагов для быстрого расчета является приближение:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), где и - первая и вторая производные функции потерь.gigig_ihihih_i То, что я прошу, это убедительные …

1
Вычисление повторяемости эффектов по модели Лмера
Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Могут ли степени свободы быть нецелым числом?
Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
Каково влияние выбора различных функций потерь в классификации для приблизительной оценки 0-1?
Мы знаем, что некоторые объективные функции легче оптимизировать, а некоторые - сложные. И есть много функций потерь, которые мы хотим использовать, но трудно использовать, например, потеря 0-1. Таким образом, мы находим некоторые функции потери прокси для выполнения этой работы. Например, мы используем потерю петли или логистическую потерю, чтобы «приблизить» потерю …

6
Зачем изучать выпуклую оптимизацию для теоретического машинного обучения?
Я работаю над теоретическим машинным обучением - по переводному обучению, если быть точным - для моего доктора философии. Из любопытства, почему я должен пройти курс по выпуклой оптимизации? Какие выводы из выпуклой оптимизации я могу использовать в своих исследованиях теоретического машинного обучения?

6
Почему меньшие веса приводят к упрощению моделей в регуляризации?
Я закончил курс по машинному обучению Эндрю Нг около года назад, и сейчас я пишу свои исследования по математике в старших классах по методам логистической регрессии и методам оптимизации производительности. Одним из таких методов является, конечно, регуляризация. Целью регуляризации является предотвращение переоснащения путем расширения функции стоимости, чтобы включить цель простоты …

1
Пошаговый пример автоматического дифференцирования в обратном режиме
Не уверен, принадлежит ли этот вопрос здесь, но он тесно связан с градиентными методами в оптимизации, которая, кажется, здесь уместна. В любом случае, не стесняйтесь мигрировать, если считаете, что какое-то другое сообщество обладает большим опытом в этой теме. Короче говоря, я ищу пошаговый пример автоматического дифференцирования в обратном режиме . …

1
Какие классические обозначения в статистике, линейной алгебре и машинном обучении? И какие связи между этими обозначениями?
Когда мы читаем книгу, понимание обозначений играет очень важную роль в понимании содержания. К сожалению, разные сообщества имеют разные условные обозначения для формулировки модели и задачи оптимизации. Может ли кто-нибудь суммировать некоторые обозначения формулировки здесь и указать возможные причины? Я приведу здесь пример: в литературе по линейной алгебре классическая книга …

6
Для выпуклых задач всегда ли градиент в Стохастическом градиентном спуске (SGD) указывает на глобальное экстремальное значение?
Учитывая выпуклую функцию стоимости, используя SGD для оптимизации, мы будем иметь градиент (вектор) в определенной точке в процессе оптимизации. Мой вопрос, учитывая точку на выпуклом, градиент только указывает в направлении, в котором функция увеличивается / уменьшается быстрее всего, или градиент всегда указывает на оптимальную / крайнюю точку функции стоимости ? …

3
По какой причине Adam Optimizer считается устойчивым к значению своих гиперпараметров?
Я читал об оптимизаторе Адама для Deep Learning и натолкнулся на следующее предложение в новой книге « Deep Learning » Бенджо, Гудфеллоу и Курвилля: Адам, как правило, считается достаточно устойчивым к выбору гиперпараметров, хотя скорость обучения иногда необходимо изменить по сравнению с предложенным значением по умолчанию. если это правда, то …

1
Как определить условие завершения градиентного спуска?
На самом деле, я хотел спросить вас, как я могу определить условие завершения градиентного спуска. Могу ли я остановить его, основываясь на количестве итераций, т.е. учитывая значения параметров, скажем, для 100 итераций? Или мне следует подождать, чтобы различия в значениях двух параметров 'new' и 'old' были очень малы, скажем, ? …

4
Оценка максимального правдоподобия EM для распределения Вейбулла
Примечание: я отправляю вопрос от моего бывшего студента, который не может публиковать сообщения самостоятельно по техническим причинам. Для данного iid образца Икс1, … , ХNИкс1,...,ИксNx_1,\ldots,x_n из распределения Вейбулла pdf еК( х ) = к хк - 1е- хКх > 0еК(Икс)знак равноКИксК-1е-ИксКИкс>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 есть ли …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.