Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

5
Предсказание сходства предложений
Я пытаюсь решить следующую проблему: у меня есть набор предложений в качестве моего набора данных, и я хочу иметь возможность набрать новое предложение и найти предложение, которое новое наиболее похоже в наборе данных. Пример будет выглядеть так: Новое предложение: " I opened a new mailbox" Прогноз на основе набора данных: …

1
В чем преимущество сохранения размера партии равным 2?
При обучении моделей машинному обучению, почему иногда выгодно поддерживать размер пакета в степени 2? Я подумал, что было бы лучше использовать размер, который больше всего подходит для вашей памяти GPU / RAM. Этот ответ утверждает, что для некоторых пакетов степень 2 лучше, чем размер пакета. Может ли кто-нибудь предоставить подробное …

2
Кластеризация уникальных посетителей по useragent, ip, session_id
С учетом данных о доступе веб-сайта в форме session_id, ip, user_agentи, при желании, отметки времени, в соответствии с приведенными ниже условиями, как бы вы наилучшим образом сгруппировали сеансы в уникальных посетителей? session_id: это идентификатор для каждого нового посетителя. Срок его действия не истекает, однако, если пользователь не принимает куки-файлы / …
15 clustering 

6
Keras - Трансферное обучение - изменение формы входного тензора
Этот пост, кажется, указывает на то, что то, чего я хочу достичь, невозможно. Однако я не уверен в этом - учитывая то, что я уже сделал, я не понимаю, почему то, что я хочу сделать, не может быть достигнуто ... У меня есть два набора данных изображений, где у одного …
15 keras 

4
Дерево решений против KNN
В каких случаях лучше использовать дерево решений, а в других случаях - KNN? Зачем использовать один из них в определенных случаях? А другие в разных случаях? (Глядя на его функциональность, а не на алгоритм) У кого-нибудь есть объяснения или ссылки по этому поводу?

2
Наука о данных без знания конкретной темы, стоит ли заниматься карьерой? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Data Stack Exchange. Закрыто 5 лет назад . Недавно я разговаривал с кем-то и упомянул о моем интересе к анализу данных и о том, кого я …

2
Почему переменные данных обучения и испытаний определяются с использованием заглавной буквы (в Python)?
Я надеюсь, что этот вопрос является наиболее подходящим на этом сайте ... В Python обычно имя класса определяется с использованием заглавной буквы в качестве первого символа, например class Vehicle: ... Однако в области машинного обучения часто данные обучения и испытаний определяются как Xи Y- не xи y. Например, я сейчас …
15 python  dataset 

4
Как масштабировать массив целых чисел со знаком в диапазоне от 0 до 1?
Я использую мозг для обучения нейронной сети на наборе функций, который включает в себя как положительные, так и отрицательные значения. Но Brain требует входных значений от 0 до 1. Как лучше всего нормализовать мои данные?

4
Различный набор тестов и распределение обучающих наборов
Я работаю на соревновании по науке о данных, для которого распределение моего тестового набора отличается от учебного набора. Я хочу отобрать наблюдения из учебного набора, который очень похож на тестовый набор. Как я могу это сделать?

2
Как работает SelectKBest?
Я смотрю на этот учебник: https://www.dataquest.io/mission/75/improving-your-submission В разделе 8, найдя лучшие функции, он показывает следующий код. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the …

3
GAN (генеративные состязательные сети) также возможны для текста?
Являются ли ГАН - порождающие состязательные сети - хорошими только для изображений или могут использоваться также и для текста? Мол, обучите сеть генерировать значимые тексты из резюме. UPD - цитаты изобретателя GAN Яна Гудфеллоу. GAN не были применены к NLP, потому что GAN определены только для реальных данных. ( 2016 …
14 gan 

1
PyTorch против Tensorflow стремятся
Google недавно включил в ночной сборку tenorflow свой режим Eager , обязательный API для доступа к возможностям вычисления tenorflow. Как тензор потока готовы сравнивать с PyTorch? Некоторые аспекты, которые могут повлиять на сравнение: Преимущества и недостатки стремления из-за его статического графа наследства (например, имена в узлах). Внутренние ограничения у одного …

4
Можем ли мы сгенерировать огромный набор данных с помощью генерирующих состязательных сетей?
Я имею дело с проблемой, когда я не мог найти достаточно набора данных (изображений) для подачи в мою глубокую нейронную сеть для обучения. Я был так вдохновлен работой « Генеративный состязательный текст в синтез изображения», опубликованной Скоттом Ридом и соавт. о порождающих состязательных сетях. Мне было интересно узнать, могу ли …

1
Нужна ли стратифицированная выборка (случайный лес, Python)?
Я использую Python для запуска модели случайного леса на моем несбалансированном наборе данных (целевой переменной был двоичный класс). Разделяя набор данных обучения и тестирования, я боролся, использовать ли стратифицированную выборку (как показано в коде) или нет. До сих пор я наблюдал в своем проекте, что стратифицированный случай приведет к более …

3
Почему ансамбли так неоправданно эффективны?
Кажется, стало аксиоматичным, что ансамбль учащихся приводит к наилучшим возможным результатам модели - и это становится все более редким, например, для отдельных моделей, чтобы выиграть соревнования, такие как Kaggle. Есть ли теоретическое объяснение, почему ансамбли так чертовски эффективны?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.