Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

2
ImageNet: что такое топ-1 и топ-5 ошибок?
В классификационных документах ImageNet показатели ошибок топ-1 и топ-5 являются важными единицами измерения успешности некоторых решений, но каковы эти коэффициенты ошибок? В классификации ImageNet с глубокими сверточными нейронными сетями Крижевский и соавт. каждое решение, основанное на одной CNN (стр. 7), не имеет топ-5 ошибок, в то время как решения с …

3
Будет ли PCA работать для логических (двоичных) типов данных?
Я хочу уменьшить размерность систем более высокого порядка и захватить большую часть ковариации предпочтительно в двухмерном или одномерном поле. Я понимаю, что это можно сделать с помощью анализа основных компонентов, и я использовал PCA во многих сценариях. Однако я никогда не использовал его с логическими типами данных, и мне было …

3
Руководство по выбору гиперпараметров в Deep Learning
Я ищу статью, которая могла бы помочь дать руководство о том, как выбирать гиперпараметры глубокой архитектуры, такие как многоуровневые авто-кодеры или сети с глубоким доверием. Существует много гиперпараметров, и я очень запутался в том, как их выбирать. Также использование перекрестной проверки не вариант, так как обучение действительно занимает много времени!

2
Это необычно для MEAN превзойти ARIMA?
Недавно я применил ряд методов прогнозирования (MEAN, RWF, ETS, ARIMA и MLP) и обнаружил, что MEAN оказался на удивление хорошо. (СРЕДСТВО: где все будущие прогнозы предсказываются как равные среднему арифметическому наблюдаемых значений.) Средство даже превосходило ARIMA в трех сериях, которые я использовал. Что я хочу знать, если это необычно? Означает …

3
Как работает приближение седловой точки?
Как работает приближение седловой точки? Для каких проблем это хорошо? (Не стесняйтесь использовать конкретный пример или примеры в качестве иллюстрации) Есть ли какие-либо недостатки, трудности, вещи, на которые стоит обратить внимание, или ловушки для неосторожных?

3
Онлайн против автономного обучения?
В чем разница между автономным и онлайн обучением ? Это просто вопрос обучения по всему набору данных (в автономном режиме) или обучения постепенно (по одному экземпляру за раз)? Какие примеры алгоритмов используются в обоих?

1
Вычисленный вручную
Я знаю, что это довольно специфический Rвопрос, но я могу думать о неправильной пропорции, объясненной, R2R2R^2 . Вот оно. Я пытаюсь использовать Rпакет randomForest. У меня есть некоторые тренировочные данные и данные тестирования. Когда я подгоняю модель случайного леса, randomForestфункция позволяет вам вводить новые данные тестирования для тестирования. Затем он …

3
Применить вложения слов ко всему документу, чтобы получить вектор объектов
Как использовать вложение слов для сопоставления документа с вектором объектов, подходящим для использования с контролируемым обучением? Слово вложение отображает каждое слово к вектору , где некоторые не слишком большое количество (например, 500). Популярные вложения слова включают в себя word2vec и Glove .весвесwv ∈ Rdv∈рdv \in \mathbb{R}^dddd Я хочу применять контролируемое …

2
A / B тесты: z-тест против t-теста против хи-квадрат против точного теста Фишера
Я пытаюсь понять причину, выбирая конкретный подход к тестированию при работе с простым A / B-тестом - (т.е. две вариации / группы с двоичным респоном (преобразованным или нет). В качестве примера я буду использовать данные ниже Version Visits Conversions A 2069 188 B 1826 220 Верхний ответ здесь хорош и …

4
Что такое трансляционная инвариантность в компьютерном зрении и сверточной нейронной сети?
У меня нет компьютерного зрения, но когда я читаю некоторые статьи и статьи, связанные с обработкой изображений и сверточными нейронными сетями, я постоянно сталкиваюсь с термином translation invarianceили translation invariant. Или я много читал, что обеспечивает операция свертки translation invariance? !! что это значит? Я сам всегда переводил это себе, …

3
Каковы различия между «эпохой», «партией» и «мини-партией»?
Насколько я знаю, при принятии Stochastic Gradient Descent в качестве алгоритма обучения кто-то использует «эпоху» для полного набора данных и «пакет» для данных, используемых на одном этапе обновления, тогда как другой использует соответственно «пакет» и «мини-пакет», и другие используют «эпоху» и «минибат». Это приносит много путаницы при обсуждении. Так что …

1
PCA и анализ соответствия в их отношении к Biplot
Биплот часто используется для отображения результатов анализа основных компонентов (и связанных с ним методов). Это двойная или наложенная диаграмма рассеяния, показывающая загрузки компонентов и оценки компонентов одновременно. Сегодня @amoeba сообщил мне, что он дал ответ, отходящий от моего комментария, на вопрос, который спрашивает о том, как создаются / масштабируются координаты …

3
Производная дисперсия коэффициента регрессии в простой линейной регрессии
В простой линейной регрессии имеем , где . Я вывел оценщик: где и - примерные значения и .y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy Теперь я хочу найти дисперсию . Я …

3
Случайное число-Set.seed (N) в R [дубликат]
На этот вопрос уже есть ответ здесь: Что такое семя в генераторе случайных чисел? 3 ответа Я понимаю, что один использует set.seed()в R для генерации псевдослучайных чисел. Я также понимаю, что, используя тот же номер, например, set.seed(123)страхует, вы можете воспроизвести результаты. Но я не понимаю, что означают сами ценности. Я …

2
Интерпретация вывода R для биномиальной регрессии
Я довольно новичок в этом вопросе с тестами на биномиальные данные, но мне нужно было сделать один, и теперь я не уверен, как интерпретировать результат. Переменная y, переменная отклика, является биномиальной, а объясняющие факторы непрерывны. Вот что я получил при подведении итогов: glm(formula = leaves.presence ~ Area, family = binomial, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.