Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

1
Как обработать нулевой фактор в расчете наивного байесовского классификатора?
Если у меня есть набор обучающих данных, и я обучаю его наивному байесовскому классификатору, и у меня есть значение атрибута, вероятность которого равна нулю. Как мне справиться с этим, если позже я хочу предсказать классификацию на новых данных? Проблема в том, что если в расчете есть ноль, то все произведение …

5
Делают ли современные библиотеки R и / или Python SQL устаревшим?
Я работаю в офисе, где SQL Server является основой всего, что мы делаем, от обработки данных до очистки. Мой коллега специализируется на написании сложных функций и хранимых процедур для методической обработки входящих данных, чтобы их можно было стандартизировать и использовать в проектах отчетов, визуализаций и аналитики. До начала работы у …
14 python  r  data-cleaning  data  sql 

3
Doc2vec (gensim) - Как я могу вывести ярлык невидимых предложений?
https://radimrehurek.com/gensim/models/doc2vec.html Например, если мы обучили doc2vec с "aaaaaAAAAAaaaaaa" - "ярлык 1" «BbbbbbBBBBBbbbb» - «метка 2» мы можем сделать вывод, что «aaaaAAAAaaaaAA» - это метка 1 с использованием Doc2vec? Я знаю, что Doc2vec может обучать векторы слов и метить векторы. Используя эти векторы, можем ли мы вывести невидимые предложения (комбинацию обученных …
14 gensim 

1
В чем разница между (динамической) байесовской сетью и HMM?
Я читал, что HMM, Particle Filters и Kalman - особые случаи динамических байесовских сетей. Однако я знаю только HMM и не вижу разницы с динамическими байесовскими сетями. Может кто-нибудь объяснить, пожалуйста? Было бы неплохо, если бы ваш ответ мог быть похож на следующий, но для байесовских сетей: Скрытые марковские модели …

2
Многомерные данные: какие полезные методы нужно знать?
Из-за различных проклятий размерности точность и скорость многих из общих методов прогнозирования ухудшаются на данных большого размера. Каковы некоторые из наиболее полезных методов / уловок / эвристик, которые помогают эффективно работать с многомерными данными? Например, Являются ли определенные статистические / моделирующие методы эффективными для многомерных наборов данных? Можем ли мы …

3
Когда p-значения обманчивы?
Каковы условия данных, на которые мы должны обратить внимание, когда p-значения не могут быть лучшим способом определения статистической значимости? Существуют ли конкретные типы проблем, которые попадают в эту категорию?

3
Изменение размера изображения и отступ для CNN
Я хочу обучить CNN распознаванию изображений. Изображения для обучения не имеют фиксированного размера. Я хочу, чтобы размер ввода для CNN был 50x100 (высота х ширина), например. Когда я изменяю размер изображения небольшого размера (например, 32x32) до входного размера, содержимое изображения слишком сильно растягивается по горизонтали, но для некоторых изображений среднего …

1
Деревья решений: листовое (лучшее-первое) и горизонтальное дерево
Выпуск 1: Меня смущает описание LightGBM относительно способа расширения дерева. Они заявляют: Большинство алгоритмов обучения дерева решений растут по дереву по уровню (глубине), как показано на следующем рисунке: Вопросы 1 : Какие «большинство» алгоритмов реализованы таким образом? Насколько я знаю, C4.5 и CART используют DFS. XGBoost использует BFS. Какие другие …


3
Зачем замышлять, если Max Pooling все равно собирается уменьшить изображение?
Идея применения фильтров для идентификации чего-либо, например, для идентификации ребер, является довольно крутой идеей Например, вы можете получить изображение 7. С некоторыми фильтрами вы можете получить преобразованные изображения, которые подчеркивают различные характеристики исходного изображения. Оригинал 7: может восприниматься сетью как: Обратите внимание на то, как каждое изображение выделяло разные края …

4
Как инициализировать новую модель word2vec с предварительно подготовленными весами модели?
Я использую Gensim Library в Python для использования и обучения модели word2vector. Недавно я смотрел на инициализацию весов моей модели с помощью некоторой предварительно обученной модели word2vec, такой как (предварительно обученная модель GoogleNewDataset). Я боролся с этим пару недель. Теперь я только что выяснил, что в gesim есть функция, которая …

8
Подходит ли Python для больших данных
В этом посте я прочитал, подходит ли язык R для больших данных, из которых состоят большие данные 5TB, и хотя он хорошо справляется с предоставлением информации о возможности работы с данными такого типа, Rон предоставляет очень мало информации Python. Мне было интересно, Pythonможно ли работать с таким большим количеством данных.
14 bigdata  python 

2
Как подходят попарно ранжирования моделей в xgBoost?
Насколько я знаю, обучать обучение моделей ранга, вам нужно иметь три вещи в наборе данных: ярлык или релевантность идентификатор группы или запроса характерный вектор Например, набор данных Microsoft Learning to Rank использует этот формат (метка, идентификатор группы и функции). 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... Я …
14 search  ranking  xgboost  gbm 

3
Что означает вывод функции model.predict из Keras?
Я построил модель LSTM для прогнозирования повторяющихся вопросов в официальном наборе данных Quora. Метки теста - 0 или 1. 1 означает, что пара вопросов дублируется. После построения модели с использованием model.fit, я тестирую модель, используя model.predictданные теста. Вывод представляет собой массив значений примерно так: [ 0.00514298] [ 0.15161049] [ 0.27588326] …

6
Хорошие пакеты для «частого анализа последовательности» в Python?
Кто-нибудь использовал (и любил) какие-либо хорошие пакеты для "частого анализа последовательности" в Python, кроме FPM в MLLib? Я ищу стабильную посылку, предпочтительнее для тех, кто поддерживается. Спасибо!

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.