Наука о данных

5

Я пытаюсь решить следующую проблему: у меня есть набор предложений в качестве моего набора данных, и я хочу иметь возможность набрать новое предложение и найти предложение, которое новое наиболее похоже в наборе данных. Пример будет выглядеть так: Новое предложение: " I opened a new mailbox" Прогноз на основе набора данных: …

15 python nlp scikit-learn similarity text

1

В чем преимущество сохранения размера партии равным 2?

При обучении моделей машинному обучению, почему иногда выгодно поддерживать размер пакета в степени 2? Я подумал, что было бы лучше использовать размер, который больше всего подходит для вашей памяти GPU / RAM. Этот ответ утверждает, что для некоторых пакетов степень 2 лучше, чем размер пакета. Может ли кто-нибудь предоставить подробное …

15 machine-learning training

2

Кластеризация уникальных посетителей по useragent, ip, session_id

С учетом данных о доступе веб-сайта в форме session_id, ip, user_agentи, при желании, отметки времени, в соответствии с приведенными ниже условиями, как бы вы наилучшим образом сгруппировали сеансы в уникальных посетителей? session_id: это идентификатор для каждого нового посетителя. Срок его действия не истекает, однако, если пользователь не принимает куки-файлы / …

15 clustering

6

Keras - Трансферное обучение - изменение формы входного тензора

Этот пост, кажется, указывает на то, что то, чего я хочу достичь, невозможно. Однако я не уверен в этом - учитывая то, что я уже сделал, я не понимаю, почему то, что я хочу сделать, не может быть достигнуто ... У меня есть два набора данных изображений, где у одного …

15 keras

4

Дерево решений против KNN

В каких случаях лучше использовать дерево решений, а в других случаях - KNN? Зачем использовать один из них в определенных случаях? А другие в разных случаях? (Глядя на его функциональность, а не на алгоритм) У кого-нибудь есть объяснения или ссылки по этому поводу?

15 machine-learning data-mining decision-trees

2

Наука о данных без знания конкретной темы, стоит ли заниматься карьерой? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Data Stack Exchange. Закрыто 5 лет назад . Недавно я разговаривал с кем-то и упомянул о моем интересе к анализу данных и о том, кого я …

15 education beginner career

2

Почему переменные данных обучения и испытаний определяются с использованием заглавной буквы (в Python)?

Я надеюсь, что этот вопрос является наиболее подходящим на этом сайте ... В Python обычно имя класса определяется с использованием заглавной буквы в качестве первого символа, например class Vehicle: ... Однако в области машинного обучения часто данные обучения и испытаний определяются как Xи Y- не xи y. Например, я сейчас …

15 python dataset

4

Как масштабировать массив целых чисел со знаком в диапазоне от 0 до 1?

Я использую мозг для обучения нейронной сети на наборе функций, который включает в себя как положительные, так и отрицательные значения. Но Brain требует входных значений от 0 до 1. Как лучше всего нормализовать мои данные?

15 machine-learning neural-network feature-scaling normalization javascript

4

Различный набор тестов и распределение обучающих наборов

Я работаю на соревновании по науке о данных, для которого распределение моего тестового набора отличается от учебного набора. Я хочу отобрать наблюдения из учебного набора, который очень похож на тестовый набор. Как я могу это сделать?

15 preprocessing

2

Как работает SelectKBest?

Я смотрю на этот учебник: https://www.dataquest.io/mission/75/improving-your-submission В разделе 8, найдя лучшие функции, он показывает следующий код. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the …

15 python scikit-learn

3

GAN (генеративные состязательные сети) также возможны для текста?

Являются ли ГАН - порождающие состязательные сети - хорошими только для изображений или могут использоваться также и для текста? Мол, обучите сеть генерировать значимые тексты из резюме. UPD - цитаты изобретателя GAN Яна Гудфеллоу. GAN не были применены к NLP, потому что GAN определены только для реальных данных. ( 2016 …

14 gan

1

PyTorch против Tensorflow стремятся

Google недавно включил в ночной сборку tenorflow свой режим Eager , обязательный API для доступа к возможностям вычисления tenorflow. Как тензор потока готовы сравнивать с PyTorch? Некоторые аспекты, которые могут повлиять на сравнение: Преимущества и недостатки стремления из-за его статического графа наследства (например, имена в узлах). Внутренние ограничения у одного …

14 deep-learning tensorflow pytorch

4

Можем ли мы сгенерировать огромный набор данных с помощью генерирующих состязательных сетей?

Я имею дело с проблемой, когда я не мог найти достаточно набора данных (изображений) для подачи в мою глубокую нейронную сеть для обучения. Я был так вдохновлен работой « Генеративный состязательный текст в синтез изображения», опубликованной Скоттом Ридом и соавт. о порождающих состязательных сетях. Мне было интересно узнать, могу ли …

14 deep-learning gan

1

Нужна ли стратифицированная выборка (случайный лес, Python)?

Я использую Python для запуска модели случайного леса на моем несбалансированном наборе данных (целевой переменной был двоичный класс). Разделяя набор данных обучения и тестирования, я боролся, использовать ли стратифицированную выборку (как показано в коде) или нет. До сих пор я наблюдал в своем проекте, что стратифицированный случай приведет к более …

14 machine-learning python random-forest sampling training

3

Почему ансамбли так неоправданно эффективны?

Кажется, стало аксиоматичным, что ансамбль учащихся приводит к наилучшим возможным результатам модели - и это становится все более редким, например, для отдельных моделей, чтобы выиграть соревнования, такие как Kaggle. Есть ли теоретическое объяснение, почему ансамбли так чертовски эффективны?

14 machine-learning data-mining predictive-modeling