Вопросы с тегом «feature-construction»

Разработка функций - это процесс использования знаний о данных в предметной области для создания функций для моделей машинного обучения. Этот тег предназначен как для теоретических, так и для практических вопросов, связанных с проектированием функций, за исключением вопросов, касающихся кода, которые не будут рассматриваться в CrossValidated.

6
Принципиальный способ свертывания категориальных переменных со многими уровнями?
Какие методы доступны для объединения (или объединения) многих категорий в несколько с целью использования их в качестве входных данных (предиктора) в статистической модели? Рассмотрим переменную, например, степень студента колледжа (дисциплина, выбранная студентом). Он неупорядочен и категоричен, но потенциально может иметь десятки различных уровней. Допустим, я хочу использовать майор в качестве …

2
Автоэнкодеры не могут выучить значимые функции
У меня есть 50000 изображений, таких как эти два: Они изображают графики данных. Я хотел извлечь функции из этих изображений, поэтому я использовал код автоэнкодера, предоставленный Theano (deeplearning.net). Проблема в том, что эти автоэнкодеры, похоже, не изучают никаких функций. Я попробовал RBM, и это то же самое. Набор данных MNIST …

7
Как изобразить географию или почтовый индекс в модели машинного обучения или в системе рекомендаций?
Я строю модель, и я думаю, что географическое местоположение, вероятно, будет очень хорошим для предсказания моей целевой переменной. У меня есть почтовый индекс каждого из моих пользователей. Я не совсем уверен в том, как лучше всего включить в мою модель почтовый индекс в качестве предиктора. Хотя почтовый индекс является числом, …

2
Как инициализировать элементы матрицы фильтра?
Я пытаюсь лучше понять сверточные нейронные сети, написав код Python, который не зависит от библиотек (например, Convnet или TensorFlow), и я застрял в литературе о том, как выбирать значения для матрицы ядра, когда выполнение свертки на изображении. Я пытаюсь понять детали реализации в шаге между картами объектов на изображении ниже, …

2
Когда мы должны дискретизировать / bin непрерывные независимые переменные / функции, а когда нет?
Когда мы должны дискретизировать / bin независимые переменные / функции, а когда нет? Мои попытки ответить на вопрос: В общем, мы не должны bin, потому что binning потеряет информацию. Биннинг на самом деле увеличивает степень свободы модели, поэтому после биннинга возможна чрезмерная подгонка. Если у нас модель «высокого смещения», биннинг …

5
Почему работает особенность инженерии?
Недавно я узнал, что одним из способов найти лучшее решение проблем ОД является создание функций. Это можно сделать, например, суммируя две особенности. Например, мы обладаем двумя функциями «атака» и «защита» какого-то героя. Затем мы создаем дополнительную функцию под названием «общее», которая представляет собой сумму «атаки» и «защиты». Теперь, что мне …

2
Учебники для разработки функций
Как всем известно, разработка функций чрезвычайно важна для машинного обучения, однако я нашел немного материалов, связанных с этой областью. Я участвовал в нескольких соревнованиях в Kaggle и считаю, что в некоторых случаях хорошие характеристики могут быть даже важнее, чем хороший классификатор. Кто-нибудь знает какие-либо учебники по проектированию функций, или это …

1
Оптимальное построение дневной функции в нейронных сетях
Работая над проблемой регрессии, я начал думать о представлении функции «день недели». Интересно, какой подход будет работать лучше: одна особенность; значение 1/7 для понедельника; 2/7 для вторника ... 7 функций: (1, 0, 0, 0, 0, 0, 0) для понедельника; (0, 1, 0, 0, 0, 0, 0) для вторника ... Это …

1
Что такое «характерное пространство»?
Какое определение для "пространственного объекта"? Например, читая о SVM, я читал о «сопоставлении с пространством объектов». Когда я читал о CART, я читал о «разбиении на функциональное пространство». Я понимаю, что происходит, особенно для CART, но я думаю, что есть какое-то определение, которое я пропустил. Есть ли общее определение «пространственного …

2
Смешивать непрерывные и двоичные данные с линейным SVM?
Так что я играл с SVM, и мне интересно, хорошо ли это делать: У меня есть набор непрерывных функций (от 0 до 1) и набор категориальных функций, которые я преобразовал в фиктивные переменные. В этом конкретном случае я кодирую дату измерения в фиктивной переменной: У меня есть 3 периода, из …

5
Лучше ли проводить анализ разведочных данных только на наборе обучающих данных?
Я делаю предварительный анализ данных (EDA) на наборе данных. Затем я выберу некоторые функции для прогнозирования зависимой переменной. Вопрос в том, должен ли я делать EDA только для своего набора данных для обучения? Или я должен объединить учебные и тестовые наборы данных, а затем выполнить EDA для них обоих и …

2
Максимальное среднее расхождение (распределение по расстоянию)
У меня есть два набора данных (исходные и целевые данные), которые следуют за разным распределением. Я использую MMD - это непараметрическое распределение расстояний - для вычисления предельного распределения между исходными и целевыми данными. исходные данные, хз целевые данные, Xt Матрица адаптации А * Проецируемые данные, Zs = A '* Xs …

1
Особенности построения и нормализации в машинном обучении
Допустим, я хочу создать классификатор логистики для фильма М. Мои особенности будут примерно такими, как возраст человека, пол, род занятий, местоположение. Так что тренировочный набор будет примерно таким: Возраст Пол Род занятий Расположение Нравится (1) / Не нравится (0) 23 M Software США 1 24 F Doctor UK 0 и …

1
Автоматическое извлечение ключевых слов: использование косинусных сходств в качестве функций
У меня есть матрица термина документа , и теперь я хотел бы извлечь ключевые слова для каждого документа с помощью контролируемого метода обучения (SVM, Naive Bayes, ...). В этой модели я уже использую Tf-idf, тег Pos, ...MMM Но теперь я задаюсь вопросом о nexts. У меня есть матрица с косинусом …

2
Инженерно-независимый признак, который сохраняет смысловой смысл?
Функциональное проектирование часто является важным компонентом машинного обучения (оно активно использовалось для победы в KDD Cup в 2010 году ). Тем не менее, я считаю, что большинство технических характеристик техники либо уничтожить любое интуитивное значение основных функций или очень специфичны для конкретного домена или даже определенных типов функций. Классическим примером …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.