Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

4
R: машинное обучение на GPU
Существуют ли какие-либо пакеты машинного обучения для R, которые могут использовать графический процессор для повышения скорости обучения (что-то вроде theano из мира питонов)? Я вижу, что есть пакет под названием gputools, который позволяет выполнять код в gpu, но я ищу более полную библиотеку для машинного обучения.

5
Библиотека Python для реализации скрытых марковских моделей
Какую стабильную библиотеку Python я могу использовать для реализации скрытых марковских моделей? Мне нужно, чтобы это было достаточно хорошо задокументировано, потому что я никогда раньше не использовал эту модель. В качестве альтернативы, есть ли более прямой подход к выполнению анализа временных рядов на наборе данных с использованием HMM?

4
Инструменты Data Science с использованием Scala
Я знаю, что Spark полностью интегрирован со Scala. Это вариант использования специально для больших наборов данных. Какие другие инструменты имеют хорошую поддержку Scala? Подходит ли Scala для больших наборов данных? Или это также подходит для небольших наборов данных?

4
Как указать важные атрибуты?
Предположим, что набор данных со слабой структурой (например, веб-таблицы / связанные открытые данные) состоит из множества источников данных. Не существует общей схемы, за которой следуют данные, и каждый источник может использовать атрибуты синонимов для описания значений (например, «национальность» или «рожденный»). Моя цель - найти некоторые «важные» атрибуты, которые каким-то образом …

2
В чем разница между Hadoop и noSQL
Я слышал о многих инструментах / платформах, помогающих людям обрабатывать свои данные (среда больших данных). Один называется Hadoop, а другой - концепцией noSQL. Какая разница в точке обработки? Они дополняют друг друга?

2
Раздвижное окно приводит к переоснащению в LSTM?
Буду ли я переоснащать свой LSTM, если я обучу его с помощью метода скользящих окон? Почему люди не используют его для LSTM? Для упрощенного примера предположим, что мы должны предсказать последовательность символов: A B C D E F G H I J K L M N O P Q R …

3
Почему мы преобразуем перекос данных в нормальное распределение
Я проходил решение конкурса цен на жилье на Kaggle ( ядро Human Analog по ценам на жилье : методы предварительной регрессии ) и наткнулся на эту часть: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew …

4
Сходство между двумя словами
Я ищу библиотеку Python, которая помогает мне определить сходство между двумя словами или предложениями. Я буду выполнять преобразование аудио в текст, что приведет к появлению английского словаря или словарных слов (это может быть имя человека или компании). После этого мне нужно сравнить его с известным словом или словами. Пример: 1) …
15 nlp  nltk 

1
удаление строк после определенного символа в данном тексте
У меня есть набор данных, как показано ниже. Я хочу удалить все символы после символа ©. Как я могу сделать это в R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)
15 r  data-cleaning 

2
Почему функции активации должны быть монотонными?
В настоящее время я готовлюсь к экзамену по нейронным сетям. В нескольких протоколах предыдущих экзаменов я читал, что функции активации нейронов (в многослойных персептронах) должны быть монотонными. Я понимаю, что функции активации должны быть дифференцируемыми, иметь производную, которая не равна 0 в большинстве точек, и быть нелинейной. Я не понимаю, …

5
Научные проекты с открытым исходным кодом
Вклад в проекты с открытым исходным кодом, как правило, является хорошим способом получить некоторую практику для новичков и попробовать новую область для опытных исследователей данных и аналитиков. Какие проекты вы вносите? Пожалуйста, предоставьте ссылку intro + на Github.

2
Разница в рекомендациях, основанных на предметах и ​​пользователях в Mahout
Я хотел бы знать, насколько точно рекомендации пользователей и продуктов отличаются друг от друга. Это определяет, что На основе пользователя : Рекомендовать элементы путем поиска похожих пользователей. Это часто сложнее масштабировать из-за динамического характера пользователей. На основе предметов: Рассчитать сходство между предметами и дать рекомендации. Элементы обычно не сильно меняются, …

2
K-средства против онлайн K-средства
K-средних - это хорошо известный алгоритм кластеризации, но есть также онлайн-вариант такого алгоритма (онлайн-K-средства). Каковы плюсы и минусы этих подходов и когда следует отдавать предпочтение каждому из них?

3
Параллельные и распределенные вычисления
В чем разница между параллельными и распределенными вычислениями? Когда речь идет о масштабируемости и эффективности, очень часто можно увидеть решения, связанные с вычислениями, в кластерах машин, а иногда это называется параллельной обработкой или распределенной обработкой. В определенном смысле вычисления кажутся всегда параллельными, поскольку есть вещи, выполняющиеся одновременно. Но связано ли …

1
обратное распространение в CNN
У меня есть следующий CNN: Я начинаю с входного изображения размером 5х5 Затем я применяю свертку, используя ядро ​​2x2 и шаг = 1, что дает карту характеристик размером 4x4. Затем я применяю максимальный пул 2x2 с шагом = 2, который уменьшает карту объектов до размера 2x2. Затем я применяю логистический …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.