Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

6
Есть ли инструменты для разработки функций?
В частности, я ищу инструменты с определенной функциональностью, которая специфична для разработки функций. Я хотел бы иметь возможность легко сглаживать, визуализировать, заполнять пробелы и т. Д. Что-то похожее на MS Excel, но в качестве базового языка вместо RB используется R.

4
Краткое руководство по обучению сильно несбалансированных наборов данных
У меня проблема с классификацией примерно 1000 положительных и 10000 отрицательных образцов в тренировочном наборе. Так что этот набор данных довольно несбалансированный. Обычный случайный лес просто пытается пометить все тестовые образцы как мажоритарный класс. Некоторые хорошие ответы о подвыборке и взвешенном случайном лесе приведены здесь: Каковы последствия для обучения ансамбля …

6
Как сделать SVD и PCA с большими данными?
У меня есть большой набор данных (около 8 ГБ). Я хотел бы использовать машинное обучение для его анализа. Итак, я думаю, что я должен использовать SVD, а затем PCA, чтобы уменьшить размерность данных для эффективности. Однако MATLAB и Octave не могут загрузить такой большой набор данных. Какие инструменты я могу …

4
Как работают последующие слои свертки?
Этот вопрос сводится к тому, «как сделать сверток слоев именно работу. Предположим, у меня есть изображение в оттенках серого . Таким образом, изображение имеет один канал. В первом слое я применяю свертку с фильтрами и заполнением. Тогда у меня есть еще один слой свертки с сверток и фильтров. Сколько карт …

3
Выбор между CPU и GPU для обучения нейронной сети
Я видел дискуссии о «накладных расходах» графического процессора и о том, что для «небольших» сетей обучение на процессоре (или сети процессоров) может быть быстрее, чем на графическом процессоре. Что означает «маленький»? Например, будет ли «однослойный» MLP со 100 скрытыми единицами «маленьким»? Меняется ли наше определение «малого» для рекуррентных архитектур? Есть …


4
Нейронная сеть разбирает данные строки?
Итак, я только начинаю изучать, как нейронная сеть может работать для распознавания шаблонов и категоризации входных данных, и я видела, как искусственная нейронная сеть может анализировать данные изображений и классифицировать изображения ( демонстрация с convnetjs ), и ключ к этому является уменьшение изображения, и каждый пиксель стимулирует один входной нейрон …

4
Когда использовать Random Forest поверх SVM и наоборот?
Когда можно использовать Random Forestснова SVMи наоборот? Я понимаю, что cross-validationсравнение моделей является важным аспектом выбора модели, но здесь я хотел бы узнать больше о практических правилах и эвристике этих двух методов. Может кто-нибудь объяснить, какие тонкости, сильные и слабые стороны классификаторов, а также проблемы, которые лучше всего подходят для …

4
Какие алгоритмы я должен использовать для выполнения классификации работы на основе данных резюме?
Обратите внимание, что я делаю все в R. Проблема заключается в следующем: В основном, у меня есть список резюме (резюме). Некоторые кандидаты будут иметь опыт работы раньше, а некоторые нет. Цель здесь состоит в том, чтобы: основываясь на тексте их резюме, я хочу классифицировать их по различным секторам работы. Я …

4
Следует ли переподготовить модель, если появятся новые наблюдения?
Итак, я не смог найти никакой литературы по этому вопросу, но мне кажется, что стоит подумать: Каковы лучшие практики в обучении и оптимизации моделей, если доступны новые наблюдения? Есть ли способ определить период / частоту переобучения модели до того, как прогнозы начнут ухудшаться? Является ли это чрезмерным, если параметры повторно …

3
Понимание Forex_Proba из MultiOutputClassifier
Я следую этому примеру на веб-сайте scikit-learn, чтобы выполнить многопользовательскую классификацию с использованием модели Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y = …

6
В чем разница между гиперпараметрами модели и параметрами модели?
Я заметил, что такие термины, как гиперпараметр модели и параметр модели , использовались в сети взаимозаменяемо без предварительного разъяснения. Я думаю, что это неправильно и нуждается в объяснении. Рассмотрим модель машинного обучения, классификатор или распознаватель изображений на основе SVM / NN / NB - все, что сначала приходит на ум. …

3
Гипертюнинг параметров XGBoost
XGBoost проделал большую работу, когда речь идет о работе как с категориальными, так и с непрерывно зависимыми переменными. Но как выбрать оптимизированные параметры для проблемы XGBoost? Вот как я применил параметры для недавней проблемы Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, …
27 r  python  xgboost 

4
Приложения и различия для сходства Жакара и сходства косинусов
Сходство Жакара и косинусное сходство - два очень распространенных измерения при сравнении сходства предметов. Однако мне не очень понятно, в какой ситуации какой из них должен быть предпочтительнее другого. Может ли кто-нибудь помочь прояснить различия этих двух измерений (различие в концепции или принципе, а не в определении или вычислении) и …
27 similarity 

1
RNN с несколькими функциями
У меня есть немного самообучаемых знаний по работе с алгоритмами машинного обучения (базовый материал типа «Случайный лес» и «Линейная регрессия»). Я решил расшириться и начать изучать RNN с Керасом. Рассматривая большинство примеров, которые обычно включают прогнозирование запасов, я не смог найти каких-либо базовых примеров реализации нескольких функций, кроме одного столбца, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.