Наука о данных

1

Как обработать нулевой фактор в расчете наивного байесовского классификатора?

Если у меня есть набор обучающих данных, и я обучаю его наивному байесовскому классификатору, и у меня есть значение атрибута, вероятность которого равна нулю. Как мне справиться с этим, если позже я хочу предсказать классификацию на новых данных? Проблема в том, что если в расчете есть ноль, то все произведение …

14 classification naive-bayes-classifier

5

Делают ли современные библиотеки R и / или Python SQL устаревшим?

Я работаю в офисе, где SQL Server является основой всего, что мы делаем, от обработки данных до очистки. Мой коллега специализируется на написании сложных функций и хранимых процедур для методической обработки входящих данных, чтобы их можно было стандартизировать и использовать в проектах отчетов, визуализаций и аналитики. До начала работы у …

14 python r data-cleaning data sql

3

Doc2vec (gensim) - Как я могу вывести ярлык невидимых предложений?

https://radimrehurek.com/gensim/models/doc2vec.html Например, если мы обучили doc2vec с "aaaaaAAAAAaaaaaa" - "ярлык 1" «BbbbbbBBBBBbbbb» - «метка 2» мы можем сделать вывод, что «aaaaAAAAaaaaAA» - это метка 1 с использованием Doc2vec? Я знаю, что Doc2vec может обучать векторы слов и метить векторы. Используя эти векторы, можем ли мы вывести невидимые предложения (комбинацию обученных …

14 gensim

1

В чем разница между (динамической) байесовской сетью и HMM?

Я читал, что HMM, Particle Filters и Kalman - особые случаи динамических байесовских сетей. Однако я знаю только HMM и не вижу разницы с динамическими байесовскими сетями. Может кто-нибудь объяснить, пожалуйста? Было бы неплохо, если бы ваш ответ мог быть похож на следующий, но для байесовских сетей: Скрытые марковские модели …

14 bayesian-networks pgm

2

Многомерные данные: какие полезные методы нужно знать?

Из-за различных проклятий размерности точность и скорость многих из общих методов прогнозирования ухудшаются на данных большого размера. Каковы некоторые из наиболее полезных методов / уловок / эвристик, которые помогают эффективно работать с многомерными данными? Например, Являются ли определенные статистические / моделирующие методы эффективными для многомерных наборов данных? Можем ли мы …

14 machine-learning statistics dimensionality-reduction

3

Когда p-значения обманчивы?

Каковы условия данных, на которые мы должны обратить внимание, когда p-значения не могут быть лучшим способом определения статистической значимости? Существуют ли конкретные типы проблем, которые попадают в эту категорию?

14 bigdata statistics

3

Изменение размера изображения и отступ для CNN

Я хочу обучить CNN распознаванию изображений. Изображения для обучения не имеют фиксированного размера. Я хочу, чтобы размер ввода для CNN был 50x100 (высота х ширина), например. Когда я изменяю размер изображения небольшого размера (например, 32x32) до входного размера, содержимое изображения слишком сильно растягивается по горизонтали, но для некоторых изображений среднего …

14 machine-learning image-classification preprocessing image-recognition

1

Деревья решений: листовое (лучшее-первое) и горизонтальное дерево

Выпуск 1: Меня смущает описание LightGBM относительно способа расширения дерева. Они заявляют: Большинство алгоритмов обучения дерева решений растут по дереву по уровню (глубине), как показано на следующем рисунке: Вопросы 1 : Какие «большинство» алгоритмов реализованы таким образом? Насколько я знаю, C4.5 и CART используют DFS. XGBoost использует BFS. Какие другие …

14 decision-trees xgboost

3

Преимущества штабелирования LSTM?

Мне интересно, в каких ситуациях выгодно складывать LSTM?

14 machine-learning neural-network deep-learning lstm

3

Зачем замышлять, если Max Pooling все равно собирается уменьшить изображение?

Идея применения фильтров для идентификации чего-либо, например, для идентификации ребер, является довольно крутой идеей Например, вы можете получить изображение 7. С некоторыми фильтрами вы можете получить преобразованные изображения, которые подчеркивают различные характеристики исходного изображения. Оригинал 7: может восприниматься сетью как: Обратите внимание на то, как каждое изображение выделяло разные края …

14 neural-network

4

Как инициализировать новую модель word2vec с предварительно подготовленными весами модели?

Я использую Gensim Library в Python для использования и обучения модели word2vector. Недавно я смотрел на инициализацию весов моей модели с помощью некоторой предварительно обученной модели word2vec, такой как (предварительно обученная модель GoogleNewDataset). Я боролся с этим пару недель. Теперь я только что выяснил, что в gesim есть функция, которая …

14 python nlp word-embeddings word2vec gensim

8

Подходит ли Python для больших данных

В этом посте я прочитал, подходит ли язык R для больших данных, из которых состоят большие данные 5TB, и хотя он хорошо справляется с предоставлением информации о возможности работы с данными такого типа, Rон предоставляет очень мало информации Python. Мне было интересно, Pythonможно ли работать с таким большим количеством данных.

14 bigdata python

2

Как подходят попарно ранжирования моделей в xgBoost?

Насколько я знаю, обучать обучение моделей ранга, вам нужно иметь три вещи в наборе данных: ярлык или релевантность идентификатор группы или запроса характерный вектор Например, набор данных Microsoft Learning to Rank использует этот формат (метка, идентификатор группы и функции). 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... Я …

14 search ranking xgboost gbm

3

Что означает вывод функции model.predict из Keras?

Я построил модель LSTM для прогнозирования повторяющихся вопросов в официальном наборе данных Quora. Метки теста - 0 или 1. 1 означает, что пара вопросов дублируется. После построения модели с использованием model.fit, я тестирую модель, используя model.predictданные теста. Вывод представляет собой массив значений примерно так: [ 0.00514298] [ 0.15161049] [ 0.27588326] …

14 machine-learning python neural-network keras lstm

6

Хорошие пакеты для «частого анализа последовательности» в Python?

Кто-нибудь использовал (и любил) какие-либо хорошие пакеты для "частого анализа последовательности" в Python, кроме FPM в MLLib? Я ищу стабильную посылку, предпочтительнее для тех, кто поддерживается. Спасибо!

14 python sequential-pattern-mining