Статистика и большие данные

5

О важности предположения IID в статистическом обучении

В статистическом обучении, неявно или явно, всегда предполагается, что обучающий набор состоит из наборов ввода / ответа , которые независимо взяты из одного и того же совместного распределения сD ={ X , y }D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNNP ( X , y )( Xя, уя)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) …

54 machine-learning cross-validation non-independent iid

3

Бокс-Кокса как преобразование для независимых переменных?

Существует ли преобразование типа Бокса-Кокса для независимых переменных? То есть преобразование, которое оптимизирует переменную так, чтобы она более подходила для линейной модели?Иксxxy~f(x) Если да, есть ли функция для выполнения этого R?

53 r regression data-transformation normality-assumption

3

API данных / каналы доступны как пакеты в R

РЕДАКТИРОВАТЬ: Представление задачи « Веб-технологии и службы CRAN» содержит гораздо более полный список источников данных и API-интерфейсов, доступных в R. Вы можете отправить запрос на извлечение на github, если вы хотите добавить пакет в представление задач. Я делаю список различных каналов данных, которые уже подключены к R или которые легко …

53 r references dataset

4

Как генерировать коррелированные случайные числа (с учетом средних, дисперсий и степени корреляции)?

Извините, если это кажется слишком основополагающим, но я думаю, что я просто пытаюсь подтвердить понимание здесь. У меня есть чувство, что я должен сделать это в два этапа, и я начал пытаться получить матрицы корреляции, но это только начинает казаться действительно вовлеченным. Я ищу краткое объяснение (в идеале с подсказками …

53 probability correlation conditional-probability random-generation

10

Машинное обучение с использованием Python

Я рассматриваю возможность использования библиотек Python для проведения экспериментов по машинному обучению. До сих пор я полагался на WEKA, но в целом был довольно недоволен. Это связано прежде всего с тем, что я обнаружил, что WEKA не так хорошо поддерживается (очень мало примеров, документации мало, а поддержка сообщества менее чем …

53 machine-learning python

5

Лучшая практика при анализе схем контроля до лечения

Представьте себе следующий общий дизайн: 100 участников случайным образом распределяются либо на лечение, либо на контрольную группу зависимая переменная является числовой и измеряется до и после обработки Три очевидных варианта для анализа таких данных: Проверьте эффект взаимодействия группы по времени в смешанном ANOVA Сделайте ANCOVA с условием в качестве IV …

53 anova ancova clinical-trials change-scores

6

Эффективная онлайн линейная регрессия

Я анализирую некоторые данные, в которых я хотел бы выполнить обычную линейную регрессию, однако это невозможно, поскольку я имею дело с настройкой в режиме онлайн с непрерывным потоком входных данных (который быстро станет слишком большим для памяти), и мне необходимо обновить оценки параметров, пока они потребляются. т.е. я не могу …

53 time-series regression algorithms real-time

10

Измерение энтропии / информации / паттернов двумерной двоичной матрицы

Я хочу измерить энтропию / плотность информации / подобие шаблона двумерной двоичной матрицы. Позвольте мне показать некоторые фотографии для уточнения: Этот дисплей должен иметь довольно высокую энтропию: A) Это должно иметь среднюю энтропию: B) Эти фотографии, наконец, должны иметь почти нулевую энтропию: C) D) E) Есть ли какой-то индекс, который …

53 algorithms binary-data entropy pattern-recognition information

30

Самые известные статистики

Каковы наиболее важные статистики, и что сделало их известными? (Ответьте только одному ученому за ответ, пожалуйста.)

53 methodology history

5

Каковы недостатки моделей пространства состояний и фильтра Калмана для моделирования временных рядов?

Учитывая все хорошие свойства моделей пространства состояний и KF, я задаюсь вопросом - каковы недостатки моделирования пространства состояний и использования фильтра Калмана (или EKF, UKF или фильтра частиц) для оценки? Допустим, скажем, обычные методологии, такие как ARIMA, VAR или специальные / эвристические методы. Их сложно откалибровать? Они сложны и трудно …

53 time-series arima kalman-filter var

7

Обнаружение периода общего временного ряда

Этот пост является продолжением другого поста, относящегося к универсальному методу обнаружения выбросов во временных рядах . По сути, на данный момент меня интересует надежный способ обнаружить периодичность / сезонность общего временного ряда, на который влияет много шума. С точки зрения разработчика, я хотел бы простой интерфейс, такой как: unsigned int …

53 time-series algorithms frequency real-time

6

Адам оптимизатор с экспоненциальным затуханием

В большинстве кодов Tensorflow, которые я видел, используется Adam Optimizer с постоянной скоростью обучения 1e-4(т.е. 0,0001). Код обычно выглядит следующим образом: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

53 neural-networks deep-learning gradient-descent tensorflow adam

2

Как искусственная нейронная сеть ANN может использоваться для неконтролируемой кластеризации?

Я понимаю, как artificial neural network (ANN)можно обучаться контролируемым образом с использованием обратного распространения для улучшения подгонки путем уменьшения ошибки в прогнозах. Я слышал, что ANN можно использовать для обучения без учителя, но как это можно сделать без какой-либо функции затрат, которая бы направляла этапы оптимизации? С помощью k-средних или …

53 clustering neural-networks unsupervised-learning self-organizing-maps

2

Что означает наличие «постоянной дисперсии» в модели линейной регрессии?

Что означает наличие «постоянной дисперсии» в термине ошибки? На мой взгляд, у нас есть данные с одной зависимой переменной и одной независимой переменной. Постоянная дисперсия является одним из предположений о линейной регрессии. Мне интересно, что означает гомоскедастичность. Поскольку даже если бы у меня было 500 строк, у меня было бы …

53 regression heteroscedasticity

5

Когда несбалансированные данные действительно являются проблемой в машинном обучении?

У нас уже было несколько вопросов о несбалансированных данных при использовании логистической регрессии , SVM , деревьев решений , пакетов и ряда других подобных вопросов, что делает эту тему очень популярной! К сожалению, каждый из вопросов, похоже, зависит от алгоритма, и я не нашел каких-либо общих рекомендаций по работе с …

53 machine-learning classification predictive-models unbalanced-classes