Вопросы с тегом «data-preprocessing»

1
Горячее против фиктивного кодирования в Scikit-Learn
Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых имеет n значений. Одно горячее кодирование заканчивается переменными kn , а …

2
Нужен ли случайный лес масштабируемым или центрированным входным переменным?
Мои входные переменные имеют разные размеры. Некоторые переменные являются десятичными, а некоторые - сотнями. Необходимо ли центрировать (вычитать среднее) или масштабировать (делить на стандартное отклонение) эти входные переменные, чтобы сделать данные безразмерными при использовании случайного леса?

2
Нейронные сети: одна горячая переменная подавляющая непрерывная?
У меня есть необработанные данные, которые имеют около 20 столбцов (20 функций). Десять из них являются непрерывными данными, а 10 - категориальными. Некоторые из категориальных данных могут иметь около 50 различных значений (штаты США). После предварительной обработки данных 10 непрерывных столбцов превращаются в 10 подготовленных столбцов, а 10 категориальных значений …

3
Какие алгоритмы требуют горячего кодирования?
Я никогда не уверен, когда использовать одно горячее кодирование для неупорядоченных категориальных переменных, а когда нет. Я использую его всякий раз, когда алгоритм использует метрику расстояния для вычисления сходства. Может ли кто-нибудь дать общее эмпирическое правило относительно того, какие типы алгоритмов требуют, чтобы неупорядоченные категориальные функции были закодированы горячим способом, …

1
Вопрос о вычитании среднего значения в поезде / действительном / тестовом наборе
Я делаю предварительную обработку данных и собираюсь создать Convonets на моих данных после. Мой вопрос: скажем, у меня есть общие наборы данных со 100 изображениями, я вычислял среднее значение для каждого из 100 изображений, а затем вычитал его из каждого из изображений, затем делил его на набор обучающих и проверочных …

2
Что такое бакетизация?
Я собирался найти четкое объяснение "сгибания" в машинном обучении без удачи. Что я понимаю до сих пор, так это то, что бекетирование аналогично квантованию в цифровой обработке сигналов, когда диапазон непрерывных значений заменяется одним дискретным значением. Это правильно? Каковы плюсы и минусы (помимо очевидного влияния потери информации) применения букетизации? Существуют …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.