Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

5
О важности предположения IID в статистическом обучении
В статистическом обучении, неявно или явно, всегда предполагается, что обучающий набор состоит из наборов ввода / ответа , которые независимо взяты из одного и того же совместного распределения сD ={ X , y }D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNNP ( X , y )( Xя, уя)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) …

3
Бокс-Кокса как преобразование для независимых переменных?
Существует ли преобразование типа Бокса-Кокса для независимых переменных? То есть преобразование, которое оптимизирует переменную так, чтобы она более подходила для линейной модели?Иксxxy~f(x) Если да, есть ли функция для выполнения этого R?

3
API данных / каналы доступны как пакеты в R
РЕДАКТИРОВАТЬ: Представление задачи « Веб-технологии и службы CRAN» содержит гораздо более полный список источников данных и API-интерфейсов, доступных в R. Вы можете отправить запрос на извлечение на github, если вы хотите добавить пакет в представление задач. Я делаю список различных каналов данных, которые уже подключены к R или которые легко …
53 r  references  dataset 

4
Как генерировать коррелированные случайные числа (с учетом средних, дисперсий и степени корреляции)?
Извините, если это кажется слишком основополагающим, но я думаю, что я просто пытаюсь подтвердить понимание здесь. У меня есть чувство, что я должен сделать это в два этапа, и я начал пытаться получить матрицы корреляции, но это только начинает казаться действительно вовлеченным. Я ищу краткое объяснение (в идеале с подсказками …

10
Машинное обучение с использованием Python
Я рассматриваю возможность использования библиотек Python для проведения экспериментов по машинному обучению. До сих пор я полагался на WEKA, но в целом был довольно недоволен. Это связано прежде всего с тем, что я обнаружил, что WEKA не так хорошо поддерживается (очень мало примеров, документации мало, а поддержка сообщества менее чем …

5
Лучшая практика при анализе схем контроля до лечения
Представьте себе следующий общий дизайн: 100 участников случайным образом распределяются либо на лечение, либо на контрольную группу зависимая переменная является числовой и измеряется до и после обработки Три очевидных варианта для анализа таких данных: Проверьте эффект взаимодействия группы по времени в смешанном ANOVA Сделайте ANCOVA с условием в качестве IV …

6
Эффективная онлайн линейная регрессия
Я анализирую некоторые данные, в которых я хотел бы выполнить обычную линейную регрессию, однако это невозможно, поскольку я имею дело с настройкой в ​​режиме онлайн с непрерывным потоком входных данных (который быстро станет слишком большим для памяти), и мне необходимо обновить оценки параметров, пока они потребляются. т.е. я не могу …

10
Измерение энтропии / информации / паттернов двумерной двоичной матрицы
Я хочу измерить энтропию / плотность информации / подобие шаблона двумерной двоичной матрицы. Позвольте мне показать некоторые фотографии для уточнения: Этот дисплей должен иметь довольно высокую энтропию: A) Это должно иметь среднюю энтропию: B) Эти фотографии, наконец, должны иметь почти нулевую энтропию: C) D) E) Есть ли какой-то индекс, который …


5
Каковы недостатки моделей пространства состояний и фильтра Калмана для моделирования временных рядов?
Учитывая все хорошие свойства моделей пространства состояний и KF, я задаюсь вопросом - каковы недостатки моделирования пространства состояний и использования фильтра Калмана (или EKF, UKF или фильтра частиц) для оценки? Допустим, скажем, обычные методологии, такие как ARIMA, VAR или специальные / эвристические методы. Их сложно откалибровать? Они сложны и трудно …

7
Обнаружение периода общего временного ряда
Этот пост является продолжением другого поста, относящегося к универсальному методу обнаружения выбросов во временных рядах . По сути, на данный момент меня интересует надежный способ обнаружить периодичность / сезонность общего временного ряда, на который влияет много шума. С точки зрения разработчика, я хотел бы простой интерфейс, такой как: unsigned int …

6
Адам оптимизатор с экспоненциальным затуханием
В большинстве кодов Tensorflow, которые я видел, используется Adam Optimizer с постоянной скоростью обучения 1e-4(т.е. 0,0001). Код обычно выглядит следующим образом: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

2
Как искусственная нейронная сеть ANN может использоваться для неконтролируемой кластеризации?
Я понимаю, как artificial neural network (ANN)можно обучаться контролируемым образом с использованием обратного распространения для улучшения подгонки путем уменьшения ошибки в прогнозах. Я слышал, что ANN можно использовать для обучения без учителя, но как это можно сделать без какой-либо функции затрат, которая бы направляла этапы оптимизации? С помощью k-средних или …

2
Что означает наличие «постоянной дисперсии» в модели линейной регрессии?
Что означает наличие «постоянной дисперсии» в термине ошибки? На мой взгляд, у нас есть данные с одной зависимой переменной и одной независимой переменной. Постоянная дисперсия является одним из предположений о линейной регрессии. Мне интересно, что означает гомоскедастичность. Поскольку даже если бы у меня было 500 строк, у меня было бы …

5
Когда несбалансированные данные действительно являются проблемой в машинном обучении?
У нас уже было несколько вопросов о несбалансированных данных при использовании логистической регрессии , SVM , деревьев решений , пакетов и ряда других подобных вопросов, что делает эту тему очень популярной! К сожалению, каждый из вопросов, похоже, зависит от алгоритма, и я не нашел каких-либо общих рекомендаций по работе с …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.