Вопросы с тегом «neural-networks»

Искусственные нейронные сети (ИНС) представляют собой широкий класс вычислительных моделей, в основе которых лежат биологические нейронные сети. Они включают в себя NN с прямой связью (включая "глубокие" NN), сверточные NN, рекуррентные NN и т. Д.

1
Тензоры в литературе по нейронным сетям: какое самое простое определение?
В литературе по нейронным сетям часто встречается слово «тензор». Это отличается от вектора? А из матрицы? У вас есть конкретный пример, который разъясняет его определение? Я немного запутался в его определении. Википедия не помогает, и иногда у меня складывается впечатление, что ее определение зависит от конкретной используемой среды машинного обучения …

2
Современное состояние обучения на основе данных 69 года
Я пытаюсь понять контекст знаменитой книги Мински и Пейперта «Перцептроны» 1969 года, столь критичной для нейронных сетей. Насколько я знаю, не было никаких других общих алгоритмов обучения под наблюдением, за исключением персептрона: деревья решений начали становиться действительно полезными только в конце 70-х, случайные леса и SVM - 90-х. Кажется, что …

3
tanh против сигмовидной в нейронной сети
Я заранее прошу прощения за то, что до сих пор не тороплюсь с этим. Я пытаюсь понять плюсы и минусы использования tanh (карта от -1 до 1) против сигмовидной (карта от 0 до 1) для моей функции активации нейронов. Из моего чтения это звучало как незначительная вещь с незначительными различиями. …

1
количество карт характеристик в сверточных нейронных сетях
При изучении сверточной нейронной сети у меня возникают вопросы относительно следующего рисунка. 1) C1 в слое 1 имеет 6 карт характеристик, означает ли это, что имеется шесть сверточных ядер? Каждое сверточное ядро ​​используется для генерации карты объектов на основе входных данных. 2) S1 в слое 2 имеет 6 карт характеристик, …

3
Что делает шаг свертки в сверточной нейронной сети?
Я изучаю сверточные нейронные сети (CNN) из-за их применения в компьютерном зрении. Я уже знаком со стандартными нейронными сетями feed-foward, поэтому я надеюсь, что некоторые люди здесь могут помочь мне сделать дополнительный шаг в понимании CNN. Вот что я думаю о CNN: В традиционных NN с прямой связью у нас …

2
Какие есть альтернативы VC-измерению для измерения сложности нейронных сетей?
Я сталкивался с некоторыми основными способами измерения сложности нейронных сетей: Наивный и неформальный: подсчитайте количество нейронов, скрытых нейронов, слоев или скрытых слоев VC-измерение (Эдуардо Д. Сонтаг [1998] "VC-измерение нейронных сетей" [ pdf ].) Конечно-гранулированная и асимптотическая вычислительная сложность измеряется эквивалентностью TC0dTCd0TC^0_d . Есть ли другие альтернативы? Это предпочтительно: Если показатель …

2
Начало работы с нейронными сетями для прогнозирования
Мне нужны ресурсы, чтобы начать использовать нейронные сети для прогнозирования временных рядов. Я настороженно отношусь к реализации некоторых документов, а затем выясняю, что они значительно переоценили потенциал своих методов. Так что если у вас есть опыт работы с методами, которые вы предлагаете, это будет еще более круто.

3
Многослойный персептрон против глубокой нейронной сети
Это вопрос терминологии. Иногда я вижу, что люди называют глубокие нейронные сети «многослойными персептронами», почему это так? Как мне преподавали, персептрон - это однослойный классификатор (или регрессор) с двоичным пороговым выходным значением, использующий определенный способ тренировки весов (не back-prop). Если выходные данные персептрона не совпадают с выходными данными цели, мы …

5
Объяснение функции Йоло Лосс
Я пытаюсь понять функцию потери Yolo v2: λcoord∑i=0S2∑j=0B1objij[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1objij[(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2]+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21obji∑с ∈ C л с ы е с( ря( с ) - р^я( с ) )2λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2]+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21iobj∑c∈classes(pi(c)−p^i(c))2\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in …

2
Является ли обычной практикой минимизация средней потери по партиям вместо суммы?
В Tensorflow есть пример учебника по классификации CIFAR-10 . В учебном пособии средняя кросс-энтропийная потеря по партии сведена к минимуму. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor …

2
Объяснение Пиков в потере обучения против итераций с Adam Optimizer
Я тренирую нейронную сеть, используя i) SGD и ii) Adam Optimizer. При использовании обычного SGD я получаю плавную кривую потери обучения и итерации, как показано ниже (красная). Тем не менее, когда я использовал Adam Optimizer, кривая тренировочных потерь имела некоторые всплески. Чем объясняются эти спайки? Детали модели: 14 узлов ввода …

3
Могу ли я использовать маленький набор для проверки?
Я понимаю причину разделения данных на наборы тестов и наборов валидации. Я также понимаю, что размер раскола будет зависеть от ситуации, но обычно будет варьироваться от 50/50 до 90/10. Я построил RNN, чтобы исправить орфографию и начать с набора данных ~ 5м предложений. Я брею 500 тыс. Предложений, а затем …

2
Хорошая точность, несмотря на высокое значение потерь
Во время обучения простого нейронного бинарного классификатора я получаю высокую величину потерь, используя кросс-энтропию. Несмотря на это, значение точности на проверочном наборе остается достаточно хорошим. Это имеет какое-то значение? Нет строгой корреляции между потерей и точностью? У меня на тренировке и проверке есть следующие значения: 0,4011 - соотв: 0,8224 - …

4
Точность градиентной машины уменьшается с увеличением числа итераций
Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Какова допустимая длина последовательности для RNN для моделирования?
Я изучаю использование LSTM ( долговременной кратковременной памяти ) версии рекуррентной нейронной сети (RNN) для моделирования данных временных рядов. По мере увеличения длины последовательности данных сложность сети возрастает. Поэтому мне любопытно, какую длину последовательностей можно было бы моделировать с хорошей точностью? Я хотел бы использовать относительно простую версию LSTM без …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.