Следующий отрывок взят из интервью Швагера «Рынок хедж-фондов Wizzards» (май 2012 года) с постоянно успешным менеджером хедж-фонда Джаффреем Вудриффом:
На вопрос: «Каковы некоторые из худших ошибок, которые люди допускают при извлечении данных?»:
Многие люди думают, что они в порядке, потому что они используют данные в выборке для обучения и данные вне выборки для тестирования. Затем они сортируют модели в зависимости от того, как они работали с данными выборки, и выбирают лучшие из них для тестирования данных вне выборки. Человеческая тенденция состоит в том, чтобы брать модели, которые продолжают преуспевать в данных выборки, и выбирать эти модели для торговли. Этот тип процесса просто превращает данные вне выборки в часть обучающих данных, потому что он выбирает модели, которые лучше всего работали в период вне выборки. Это одна из самых распространенных ошибок, которые делают люди, и одна из причин, по которым интеллектуальный анализ данных при его применении дает ужасные результаты.
Интервьюер потом спрашивает: «Что вы должны делать вместо этого?»:
Вы можете искать модели, в которых все модели вне выборки продолжают работать хорошо. Вы знаете, что у вас все хорошо, если среднее значение для моделей вне выборки составляет значительный процент от оценки в выборке. Вообще говоря, вы действительно чего-то добиваетесь, если результаты вне выборки составляют более 50 процентов от выборки. Бизнес-модель QIM никогда бы не сработала, если бы SAS и IBM создавали отличное программное обеспечение для прогнозного моделирования.
Мои вопросы
Имеет ли это смысл? Что он имеет в виду? У вас есть подсказка - или, возможно, даже название предложенного метода и некоторые ссылки? Или этот парень нашел Святой Грааль, которого никто не понимает? В этом интервью он даже говорит, что его метод может революционизировать науку ...