Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

5
Должен ли я пойти на «сбалансированный» набор данных или «представительный» набор данных?
Моя задача «машинного обучения» - отделить доброкачественный интернет-трафик от вредоносного. В сценарии реального мира большая часть (скажем, 90% или более) интернет-трафика является доброкачественной. Таким образом, я почувствовал, что должен выбрать аналогичную настройку данных для обучения своих моделей. Но я наткнулся на одну или две исследовательские работы (в своей области работы), …

9
Как бороться с управлением версиями больших объемов (двоичных) данных
Я аспирант геофизики и работаю с большими объемами графических данных (сотни ГБ, десятки тысяч файлов). Я хорошо знаю svnи gitприхожу оценивать историю проекта в сочетании с возможностью легко работать вместе и иметь защиту от повреждения диска. Я нахожу gitтакже чрезвычайно полезным для создания последовательных резервных копий, но я знаю, что …

9
Альтернативы IDE для R-программирования (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)
Я использую RStudio для программирования R. Я помню твердые IDE из других технологических стеков, таких как Visual Studio или Eclipse. У меня есть два вопроса: Какие другие IDE, кроме RStudio, используются (пожалуйста, подумайте над предоставлением краткого описания для них). Есть ли у кого-нибудь из них заметные преимущества перед RStudio? В …
46 r  tools  rstudio  programming 

10
Машинное обучение - особенности проектирования из данных даты / времени
Каковы общие / лучшие практики для обработки данных о времени для приложения машинного обучения? Например, если в наборе данных есть столбец с отметкой времени события, например «2014-05-05», как вы можете извлечь полезные функции из этого столбца, если таковые имеются? Заранее спасибо!

9
Какой объем данных является работой ученого по обработке данных?
В настоящее время я работаю специалистом по обработке данных в розничной компании (моя первая работа в DS, поэтому этот вопрос может быть результатом моего отсутствия опыта). У них огромное количество действительно важных проектов в области науки о данных, которые могут оказать большое положительное влияние в случае их реализации. Но. В …

3
Количество параметров в модели LSTM
Сколько параметров у одного стекового LSTM? Количество параметров накладывает нижнюю границу на количество необходимых обучающих примеров, а также влияет на время обучения. Следовательно, знание количества параметров полезно для моделей обучения, использующих LSTM.

4
Добавление функций к модели временных рядов LSTM
немного читал о LSTM и их использовании для временных рядов, и это было интересно, но в то же время сложно. У меня возникли трудности с пониманием - это подход к добавлению дополнительных функций в список временных рядов. Предположим, у вас есть такой набор данных: т-3, Т-2, Т-1, выход Теперь предположим, …

6
Как я могу преобразовать имена в конфиденциальный набор данных, чтобы сделать его анонимным, но сохранить некоторые характеристики имен?
мотивация Я работаю с наборами данных, которые содержат информацию, позволяющую установить личность (PII), и иногда мне приходится делиться частью набора данных с третьими сторонами таким образом, чтобы не подвергать PII и не подвергать моего работодателя ответственности. Наш обычный подход - полностью скрыть данные или, в некоторых случаях, уменьшить их разрешение; …

1
В чем разница между LeakyReLU и PReLU?
f(x)=max(x,αx) with α∈(0,1)f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Керас, однако, выполняет обе функции в документах . Leaky ReLU Источник LeakyReLU : return K.relu(inputs, alpha=self.alpha) Следовательно (см. Код relu ) е1( x ) = max ( 0 , x ) - α …

9
ValueError: Входные данные содержат NaN, бесконечность или значение, слишком большое для dtype ('float32')
Я получил ValueError при прогнозировании тестовых данных с использованием модели RandomForest. Мой код: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Ошибка: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Как найти неверные значения в тестовом наборе данных? Кроме …

2
Как подготовить / дополнить изображения для нейронной сети?
Я хотел бы использовать нейронную сеть для классификации изображений. Я начну с предварительно обученного CaffeNet и обучу его для моего приложения. Как подготовить входные изображения? В этом случае все изображения имеют один и тот же объект, но с вариациями (подумайте: контроль качества). Они находятся в несколько разных масштабах / разрешениях …

6
Косинусное сходство против точечного произведения как метрики расстояния
Похоже, что косинусное сходство двух признаков - это просто их точечное произведение, масштабированное произведением их величин. Когда косинусное сходство делает лучшую метрику расстояния, чем скалярное произведение? Т.е. имеют ли точечное произведение и косинусное сходство разные сильные или слабые стороны в разных ситуациях?

5
GBM против XGBOOST? Ключевые отличия?
Я пытаюсь понять ключевые различия между GBM и XGBOOST. Я пытался найти его в Google, но не смог найти хороших ответов, объясняющих различия между двумя алгоритмами и почему xgboost почти всегда работает лучше, чем GBM. Что делает XGBOOST таким быстрым?

10
Почему модели машинного обучения называют черными ящиками?
Я читал этот пост в блоге под названием «Финансовый мир хочет открыть черные ящики ИИ» , где автор неоднократно называет модели ML «черными ящиками». Подобная терминология использовалась в нескольких местах при обращении к моделям ML. Почему это так? Не то чтобы инженеры ML не знали, что происходит внутри нейронной сети. …

4
Почему размер мини-партии лучше, чем одна «партия» со всеми данными обучения?
Я часто читаю, что в случае моделей глубокого обучения обычная практика - применять мини-партии (как правило, маленькие, 32/64) в течение нескольких тренировочных эпох. Я не могу понять причину этого. Если я не ошибаюсь, размер пакета - это количество обучающих экземпляров, которые модель увидит во время итерации обучения; и эпоха - …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.