Как выбрать соответствующие характеристики данных?


11

Недавно я работал над проблемой, чтобы провести некоторый анализ затрат на определенный ресурс. Я обычно принимаю некоторые ручные решения из анализа и планирую соответственно.

У меня есть большой набор данных в формате Excel и с сотнями столбцов, определяющих использование ресурса в различных временных рамках и типах (другие различные подробные использования). У меня также есть информация о моих предыдущих 4-х летних данных и фактическом использовании ресурсов и стоимости, понесенной соответственно.

Я надеялся обучить NN заранее прогнозировать свои расходы и планировать еще до того, как смогу выполнить анализ затрат вручную.

Но самая большая проблема, с которой я сталкиваюсь, - это необходимость определить особенности такого анализа. Я надеялся, что есть какой-то способ идентифицировать функции из набора данных.

PS - У меня есть представление о PCA и некоторых других методах сокращения набора функций, и я обращаю внимание на способ их идентификации.

Ответы:


1

Поскольку у вас есть все данные в таблице, сравнительно простой способ - рассмотреть каждый столбец независимо, а затем проверить, имеет ли выходная переменная (понесенные затраты) корреляцию с этим.

Если столбец не имеет (или имеет очень низкую корреляцию) с выходной переменной, то считается, что это не важно. Те, которые делают разрез, затем рассматриваются далее.

Это, очевидно, не сильно отличается от того, как будет работать алгоритм дерева решений (например, ID3).


0

Нет жестких и быстрых правил для выбора функций, вы должны вручную исследовать набор данных и попробовать различные методы для проектирования объектов. И не существует правила, согласно которому вы должны применять нейронные сети для этого, нейронные сети отнимают много времени, вместо этого вы можете экспериментировать с методами, основанными на дереве решений (случайные леса), поскольку ваши данные в любом случае находятся в табличной структуре.


спасибо за вклад, 1. Я согласен, что NN - не лучший способ проверить гипотезу, но я предполагаю, что с помощью NN мы можем добиться более широких отношений между функциями, чтобы получить лучшие результаты (в большинстве случаев). 2. Проблема, с которой я столкнулся, состояла в том, чтобы выбрать объекты, которые на самом деле определят образец для моей проблемы, а также способы определения веса объектов.
Каран Чопра

0

Это отличный вопрос и, возможно, одна из самых сложных задач по ML.

У вас есть несколько вариантов:

  1. Вы можете использовать алгоритмы взвешивания (например, хи-квадрат), чтобы понять, какие функции оказывают наибольшее влияние на ваш результат
  2. Вы можете использовать другие алгоритмы ML, чтобы классифицировать, способствует ли функция вашим прогнозам или нет
  3. Вы можете использовать другие алгоритмы ML (кроме NN), которые по своей природе предоставляют вам весовые характеристики (например, Random Forest)

надеюсь, это поможет


0

Целесообразно рассмотреть не только соотношение использования ресурсов с затратами, но и отдачу от затрат на использование ресурсов. Типичная проблема заключается в том, что эти возвращения почти всегда кумулятивны или задерживаются. Случай накопления - это когда ресурс представляет собой непрерывную настройку или улучшение процесса, отсутствие которого замедляет получение дохода. Случай задержки - это когда ресурсы исследования несут затраты в течение определенного периода времени без влияния на доход, но получение дохода, которое начинается, если исследование дает продуктивные результаты, может быть существенным фактором, превышающим общую стоимость полученных результатов.

Причина, по которой данные о расходах сами по себе могут привести к дезадаптивному обучению сети, заключается в том, что сеть, которая обучена сокращению, например, маркетинговых расходов, обнулит их. Это обычно вызывает тенденцию к снижению продаж, пока бизнес не свернется. Без включения результатов в информацию об обучении не может быть полезного обучения.

Базовый MLP (многослойный персептрон) не будет изучать временные характеристики данных, аспекты накопления и задержки. Вам понадобится сеть с контролем состояния. Наиболее последовательно успешный тип сети для этого вида обучения на момент написания статьи - это тип сети LSTM (долговременная кратковременная память) или один из его производных вариантов. Данные о доходах и балансе должны использоваться в сочетании с данными о расходах для обучения сети прогнозированию бизнес-результатов для любой заданной последовательности предлагаемых ресурсов (полностью подробный бюджетный план).

Функция потерь должна правильно сбалансировать срок сортировки со среднесрочными и долгосрочными финансовыми целями. Отрицательные имеющиеся денежные средства должны вызывать явное увеличение функции потерь, с тем чтобы можно было узнать, как избежать основных рисков для репутации и стоимости кредита.

Какие столбцы в ваших данных имеют сильную корреляцию с рентабельностью инвестиций, сложно определить заранее. Вы можете немедленно исключить столбцы, которые соответствуют любому из следующих критериев.

  • Всегда пустой
  • Другие константы, которые имеют одинаковое значение для каждой строки
  • Те, которые всегда могут быть получены из других столбцов

Данные могут быть уменьшены другими способами

  • Полное описание данных, характеризуя тенденции простыми способами
  • Использование индексов для определения длинных строк со 100% точностью, присваивая каждой строке номер
  • компрессия
  • В противном случае уменьшение избыточности в данных

RBM (ограниченные машины Больцмана) могут извлекать функции из данных, а PCA могут освещать столбцы с низким содержанием информации, но значимость столбцов с точки зрения их корреляции с доходами не будет определяться с использованием этих устройств в их базовой форме.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.