Наука о данных

4

Я новичок в углубленном изучении. Есть ли способ использовать TensorFlow с графическими процессорами Intel? Если да, пожалуйста, укажите мне в правильном направлении. Если нет, пожалуйста, дайте мне знать, какую платформу (Keras, Theano и т. Д.) Можно использовать для моего интегрированного графического контроллера Intel Core Xeon E3-1200 v3 / 4-го поколения.

20 tensorflow keras theano gpu

3

StandardScaler до и после разделения данных

Когда я читал об использовании StandardScaler, большинство рекомендаций говорили, что вы должны использовать StandardScaler перед разбивать данные на обучающие / тестовые данные, но когда я проверял некоторые коды, размещенные в сети (используя sklearn), было два основных применения. 1- Использование StandardScalerна всех данных. Например from sklearn.preprocessing import StandardScaler sc = StandardScaler() …

20 machine-learning scikit-learn preprocessing

2

Sparse_categorical_crossentropy vs категорическая_кросентропия (керас, точность)

Что лучше для точности или они одинаковые? Конечно, если вы используете categoryorical_crossentropy, вы используете одну горячую кодировку, а если вы используете sparse_categorical_crossentropy, вы кодируете как обычные целые числа. Кроме того, когда один лучше другого?

20 neural-network keras loss-function encoding

1

Если один горячий вектор масштабируется с числовыми атрибутами

В случае наличия комбинации категориальных и числовых атрибутов я обычно конвертирую категориальные атрибуты в один горячий вектор. Мой вопрос заключается в том, чтобы оставить эти векторы как есть и масштабировать числовые атрибуты посредством стандартизации / нормализации, или мне следует масштабировать один горячий вектор вместе с числовыми атрибутами?

20 feature-engineering feature-scaling data-science-model

4

Несбалансированные мультиклассовые данные с XGBoost

У меня есть 3 класса с этим распределением: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 И я использую xgboostдля классификации. Я знаю, что есть параметр с именем scale_pos_weight. Но как это обрабатывается для случая «мультикласса», и как я могу правильно установить его?

20 classification xgboost multiclass-classification unbalanced-classes

2

Что способствует альфа- и бета-гиперпараметрам при распределении скрытого Дирихле?

У LDA есть два гиперпараметра, настройка их меняет навязанные темы. Что альфа- и бета-гиперпараметры влияют на LDA? Как меняется тема, если один или другой гиперпараметр увеличивается или уменьшается? Почему они гиперпараметры, а не просто параметры?

19 topic-model lda parameter

1

Что такое расстояние Хеллингера и когда его использовать?

Мне интересно знать, что на самом деле происходит на расстоянии Хеллингера (простыми словами). Кроме того, мне также интересно узнать, какие типы проблем мы можем использовать для расстояния Хеллингера? Каковы преимущества использования Hellinger Distance?

19 machine-learning data-mining text-mining distance

2

Как получить p-значение и доверительный интервал в LogisticRegression с помощью sklearn?

Я строю полиномиальную логистическую регрессию с помощью sklearn (LogisticRegression). Но после ее завершения, как я могу получить p-значение и доверительный интервал моей модели? Похоже, что sklearn обеспечивает только коэффициент и перехват. Большое тебе спасибо.

19 scikit-learn logistic-regression

3

Как выполнить проектирование функций на неизвестных функциях?

Я участвую в соревнованиях по борьбе. Набор данных имеет около 100 объектов, и все они неизвестны (с точки зрения того, что на самом деле они представляют). В основном это просто цифры. Люди выполняют много функций по разработке этих функций. Мне интересно, как именно можно выполнить разработку функций для функций, которые …

19 machine-learning feature-selection feature-extraction feature-engineering kaggle

2

Текстовая категоризация: объединение различных видов функций

Проблема, с которой я сталкиваюсь, состоит в классификации коротких текстов на несколько классов. Мой текущий подход заключается в использовании частотных терминов tf-idf и изучении простого линейного классификатора (логистическая регрессия). Это работает достаточно хорошо (около 90% макроса F-1 в тестовом наборе, почти 100% в тренировочном наборе). Большой проблемой являются невидимые слова …

19 machine-learning classification feature-selection logistic-regression information-retrieval

3

Как создать синтетический набор данных, используя модель машинного обучения, изученную с использованием исходного набора данных?

Как правило, модель машинного обучения построена на наборах данных. Я хотел бы знать, существует ли какой-либо способ генерирования синтетического набора данных с использованием такой обученной модели машинного обучения, сохраняющей исходные характеристики набора данных? [оригинальные данные -> построить модель машинного обучения -> использовать модель ml для генерации синтетических данных .... !!!] …

19 machine-learning dataset

2

Можете ли вы объяснить разницу между SVC и LinearSVC в scikit-learn?

Я недавно начал учиться работать с sklearnи только что столкнулся с этим странным результатом. Я использовал digitsдоступный набор данных, sklearnчтобы попробовать разные модели и методы оценки. Когда я тестировал модель машины опорных векторов на данных, я обнаружил, что есть два разных класса sklearnдля классификации SVM: SVCи LinearSVC, где первый использует …

19 svm scikit-learn

3

Как вырастить список связанных слов на основе начальных ключевых слов?

Недавно я увидел интересную функцию, которая когда- то была доступна в Google Sheets: вы начинаете с написания нескольких связанных ключевых слов в последовательных ячейках, скажем: «синий», «зеленый», «желтый», и автоматически генерирует похожие ключевые слова (в данном случае другие цвета). Смотрите больше примеров в этом видео на YouTube . Я хотел …

19 nlp text-mining freebase

3

Как мне создать сложную радиолокационную карту?

Итак, я хочу создать радиолокационную диаграмму профиля игрока примерно так: Не только шкала каждой переменной различна, но также я хочу использовать обратную шкалу для некоторых статистических данных, таких как «лишенная» статистика, где меньше означает «хорошо». Одним из решений для переменной шкалы для каждой статистики может быть установление контрольного показателя и …

19 visualization

4

Какую статистическую модель я должен использовать, чтобы проанализировать вероятность того, что одно событие повлияло на продольные данные

Я пытаюсь найти формулу, метод или модель, которые можно использовать для анализа вероятности того, что конкретное событие повлияло на некоторые продольные данные. Мне трудно понять, что искать в Google. Вот пример сценария: Представьте, что вы владеете бизнесом, в котором ежедневно посещают в среднем 100 клиентов. Однажды вы решаете, что хотите …

19 machine-learning data-mining statistics