Я разрабатываю приложение для прогнозирования, цель которого - позволить импортеру прогнозировать спрос на свою продукцию от своей сети дистрибьюторов. Данные о продажах являются довольно хорошим показателем спроса, если имеется достаточный запас для удовлетворения спроса. Однако, когда инвентарь сокращается до нуля (ситуация, которую мы ищем, чтобы помочь нашим покупателям избежать), мы не знаем, насколько сильно мы не достигли цели. Сколько продаж совершил бы клиент, если бы у него было достаточно поставок? Стандартные подходы ML, основанные на регрессии, которые используют Sales в качестве простой целевой переменной, будут давать противоречивые оценки взаимосвязи между временем, моими описательными переменными и спросом.
Моделирование тобитов - наиболее очевидный способ решения проблемы: http://en.wikipedia.org/wiki/Tobit_model . Меня интересует адаптация ML случайных лесов, GBMS, SVM и нейронных сетей, которые также учитывают левостороннюю цензурированную структуру данных.
Короче говоря, как я могу применить инструменты машинного обучения к регрессионным данным с левой цензурой, чтобы получить согласованные оценки отношений между моими зависимыми и независимыми переменными? Первым предпочтением будут решения, доступные в R, а затем в Python.
Ура,
Аарон