Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

4
Использование TensorFlow с Intel GPU
Я новичок в углубленном изучении. Есть ли способ использовать TensorFlow с графическими процессорами Intel? Если да, пожалуйста, укажите мне в правильном направлении. Если нет, пожалуйста, дайте мне знать, какую платформу (Keras, Theano и т. Д.) Можно использовать для моего интегрированного графического контроллера Intel Core Xeon E3-1200 v3 / 4-го поколения.
20 tensorflow  keras  theano  gpu 

3
StandardScaler до и после разделения данных
Когда я читал об использовании StandardScaler, большинство рекомендаций говорили, что вы должны использовать StandardScaler перед разбивать данные на обучающие / тестовые данные, но когда я проверял некоторые коды, размещенные в сети (используя sklearn), было два основных применения. 1- Использование StandardScalerна всех данных. Например from sklearn.preprocessing import StandardScaler sc = StandardScaler() …

2
Sparse_categorical_crossentropy vs категорическая_кросентропия (керас, точность)
Что лучше для точности или они одинаковые? Конечно, если вы используете categoryorical_crossentropy, вы используете одну горячую кодировку, а если вы используете sparse_categorical_crossentropy, вы кодируете как обычные целые числа. Кроме того, когда один лучше другого?

1
Если один горячий вектор масштабируется с числовыми атрибутами
В случае наличия комбинации категориальных и числовых атрибутов я обычно конвертирую категориальные атрибуты в один горячий вектор. Мой вопрос заключается в том, чтобы оставить эти векторы как есть и масштабировать числовые атрибуты посредством стандартизации / нормализации, или мне следует масштабировать один горячий вектор вместе с числовыми атрибутами?

4
Несбалансированные мультиклассовые данные с XGBoost
У меня есть 3 класса с этим распределением: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 И я использую xgboostдля классификации. Я знаю, что есть параметр с именем scale_pos_weight. Но как это обрабатывается для случая «мультикласса», и как я могу правильно установить его?

2
Что способствует альфа- и бета-гиперпараметрам при распределении скрытого Дирихле?
У LDA есть два гиперпараметра, настройка их меняет навязанные темы. Что альфа- и бета-гиперпараметры влияют на LDA? Как меняется тема, если один или другой гиперпараметр увеличивается или уменьшается? Почему они гиперпараметры, а не просто параметры?

1
Что такое расстояние Хеллингера и когда его использовать?
Мне интересно знать, что на самом деле происходит на расстоянии Хеллингера (простыми словами). Кроме того, мне также интересно узнать, какие типы проблем мы можем использовать для расстояния Хеллингера? Каковы преимущества использования Hellinger Distance?

2
Как получить p-значение и доверительный интервал в LogisticRegression с помощью sklearn?
Я строю полиномиальную логистическую регрессию с помощью sklearn (LogisticRegression). Но после ее завершения, как я могу получить p-значение и доверительный интервал моей модели? Похоже, что sklearn обеспечивает только коэффициент и перехват. Большое тебе спасибо.

3
Как выполнить проектирование функций на неизвестных функциях?
Я участвую в соревнованиях по борьбе. Набор данных имеет около 100 объектов, и все они неизвестны (с точки зрения того, что на самом деле они представляют). В основном это просто цифры. Люди выполняют много функций по разработке этих функций. Мне интересно, как именно можно выполнить разработку функций для функций, которые …

2
Текстовая категоризация: объединение различных видов функций
Проблема, с которой я сталкиваюсь, состоит в классификации коротких текстов на несколько классов. Мой текущий подход заключается в использовании частотных терминов tf-idf и изучении простого линейного классификатора (логистическая регрессия). Это работает достаточно хорошо (около 90% макроса F-1 в тестовом наборе, почти 100% в тренировочном наборе). Большой проблемой являются невидимые слова …

3
Как создать синтетический набор данных, используя модель машинного обучения, изученную с использованием исходного набора данных?
Как правило, модель машинного обучения построена на наборах данных. Я хотел бы знать, существует ли какой-либо способ генерирования синтетического набора данных с использованием такой обученной модели машинного обучения, сохраняющей исходные характеристики набора данных? [оригинальные данные -> построить модель машинного обучения -> использовать модель ml для генерации синтетических данных .... !!!] …

2
Можете ли вы объяснить разницу между SVC и LinearSVC в scikit-learn?
Я недавно начал учиться работать с sklearnи только что столкнулся с этим странным результатом. Я использовал digitsдоступный набор данных, sklearnчтобы попробовать разные модели и методы оценки. Когда я тестировал модель машины опорных векторов на данных, я обнаружил, что есть два разных класса sklearnдля классификации SVM: SVCи LinearSVC, где первый использует …
19 svm  scikit-learn 

3
Как вырастить список связанных слов на основе начальных ключевых слов?
Недавно я увидел интересную функцию, которая когда- то была доступна в Google Sheets: вы начинаете с написания нескольких связанных ключевых слов в последовательных ячейках, скажем: «синий», «зеленый», «желтый», и автоматически генерирует похожие ключевые слова (в данном случае другие цвета). Смотрите больше примеров в этом видео на YouTube . Я хотел …

3
Как мне создать сложную радиолокационную карту?
Итак, я хочу создать радиолокационную диаграмму профиля игрока примерно так: Не только шкала каждой переменной различна, но также я хочу использовать обратную шкалу для некоторых статистических данных, таких как «лишенная» статистика, где меньше означает «хорошо». Одним из решений для переменной шкалы для каждой статистики может быть установление контрольного показателя и …

4
Какую статистическую модель я должен использовать, чтобы проанализировать вероятность того, что одно событие повлияло на продольные данные
Я пытаюсь найти формулу, метод или модель, которые можно использовать для анализа вероятности того, что конкретное событие повлияло на некоторые продольные данные. Мне трудно понять, что искать в Google. Вот пример сценария: Представьте, что вы владеете бизнесом, в котором ежедневно посещают в среднем 100 клиентов. Однажды вы решаете, что хотите …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.