Подходит ли Random Forest для очень маленьких наборов данных?


13

У меня есть набор данных, состоящий из 24 строк ежемесячных данных. Особенности ВВП, прибытие в аэропорт, месяц и некоторые другие. Зависимой переменной является количество посетителей популярного туристического направления. Подойдет ли Random Forest для такой проблемы?

Данные не являются общедоступными, поэтому я не могу опубликовать образец.


Как правило, единственным ограничением для случайного леса является то, что количество объектов должно быть довольно большим - первый шаг RF - выбрать 1 / 3n или sqrt (n) объектов для построения дерева (в зависимости от задачи, регрессии / классификации). Поэтому, если у вас достаточно много функций, используйте RF даже для небольших наборов данных - не существует алгоритма, который действительно хорошо работает на небольших наборах данных, поэтому вы ничего не теряете.
Герман Демидов

Вы в низком диапазоне. RF будет работать, но, вероятно, не научится гораздо более сложным вещам, чем то, что вы могли бы понять, взглянув на необработанные данные. Помогает, если в ваших данных очень низкий уровень шума. От 40-50 образцов начинает улучшаться. 500 хорошо. 5000 офигенно.
Сорен Хавелунд Веллинг

для регрессии возможная глубина дерева ограничена minnode = 5, поэтому ваши выборки в среднем не будут разделены более чем в 2 раза [[24 -> (1) 12 -> (2) 6.]] С учетом ограничения mtry, модели будет трудно запечатлеть любой эффект взаимодействия или даже простой нелинейный эффект. Вы можете возиться с minnode и mtry, но делать это следует только в том случае, если ваши данные практически не содержат шума. Потенциал за установленные выводы будет обратной стороной. Вы получили модель структуры, которая будет выглядеть примерно как сглаженная пошаговая функция.
Сорен Хавелунд Веллинг


Для небольшого набора данных используйте метод перекрестной проверки. Для получения дополнительной информации, stats.stackexchange.com/questions/19048/…
Асиф Хан

Ответы:


4

Случайный лес - это, в основном, стартовая выборка и деревья принятия решений по выборкам, поэтому в ответе на ваш вопрос необходимо ответить на эти два вопроса.

Bootstrap передискретизации это не лекарство для маленьких образцов . Если в вашем наборе данных всего двадцать четыре наблюдения, то каждая из выборок, взятых с заменой из этих данных, будет состоять не более чем из двадцати четырех различных значений. Перестановка дел и отсутствие некоторых из них не сильно изменили бы вашу способность узнавать что-то новое о базовом дистрибутиве. Таким образом, небольшая выборка является проблемой для начальной загрузки.

Деревья решений обучаются путем условного разделения данных на переменные предиктора, по одной переменной за раз, чтобы найти такие подвыборки, которые имеют наибольшую дискриминационную силу. Если у вас есть только двадцать четыре случая, то скажите, что если вам повезло, и все расщепления были даже по размеру, то с двумя расщеплениями у вас получилось бы четыре группы по шесть дел, с расщеплением деревьев, с восемью группами по три. Если вы вычислили условные средние по выборкам (для прогнозирования непрерывных значений в деревьях регрессии или условных вероятностей в деревьях решений), вы бы основали свое заключение только на этих нескольких случаях! Таким образом, подвыборки, которые вы будете использовать для принятия решений, будут даже меньше, чем ваши исходные данные.

Для небольших образцов обычно целесообразно использовать простые методы . Более того, вы можете отобрать небольшую выборку, используя информативные априорные значения в байесовской среде (если у вас есть разумные знания о проблеме, основанные на нехватке данных), поэтому вы можете рассмотреть возможность использования специальной байесовской модели.


1

С одной стороны, это небольшой набор данных, и случайный лес требует много данных.

С другой стороны, может быть, что-то лучше, чем ничего. Нет ничего более, чем сказать «попробуй и посмотри». Вы решаете, является ли какая-то конкретная модель "хорошей"; Более того, мы не можем сказать вам, подходит ли какая-либо модель для определенной цели (и вы не хотели бы, чтобы мы это делали - для нас это бесплатно, если мы ошибаемся!).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.