Новый революционный способ добычи данных?


21

Следующий отрывок взят из интервью Швагера «Рынок хедж-фондов Wizzards» (май 2012 года) с постоянно успешным менеджером хедж-фонда Джаффреем Вудриффом:

На вопрос: «Каковы некоторые из худших ошибок, которые люди допускают при извлечении данных?»:

Многие люди думают, что они в порядке, потому что они используют данные в выборке для обучения и данные вне выборки для тестирования. Затем они сортируют модели в зависимости от того, как они работали с данными выборки, и выбирают лучшие из них для тестирования данных вне выборки. Человеческая тенденция состоит в том, чтобы брать модели, которые продолжают преуспевать в данных выборки, и выбирать эти модели для торговли. Этот тип процесса просто превращает данные вне выборки в часть обучающих данных, потому что он выбирает модели, которые лучше всего работали в период вне выборки. Это одна из самых распространенных ошибок, которые делают люди, и одна из причин, по которым интеллектуальный анализ данных при его применении дает ужасные результаты.

Интервьюер потом спрашивает: «Что вы должны делать вместо этого?»:

Вы можете искать модели, в которых все модели вне выборки продолжают работать хорошо. Вы знаете, что у вас все хорошо, если среднее значение для моделей вне выборки составляет значительный процент от оценки в выборке. Вообще говоря, вы действительно чего-то добиваетесь, если результаты вне выборки составляют более 50 процентов от выборки. Бизнес-модель QIM никогда бы не сработала, если бы SAS и IBM создавали отличное программное обеспечение для прогнозного моделирования.


Мои вопросы
Имеет ли это смысл? Что он имеет в виду? У вас есть подсказка - или, возможно, даже название предложенного метода и некоторые ссылки? Или этот парень нашел Святой Грааль, которого никто не понимает? В этом интервью он даже говорит, что его метод может революционизировать науку ...


4
Разве он не просто обсуждает ошибки из одной раздельной выборки (обучение и валидация) и выступает за процесс перекрестной валидации?
B_Miner

12
Я бы с осторожностью относился к тому, чтобы кто-то требовал глубокого понимания, которое революционизировало бы «науку».
кардинал

2
Менеджеры хедж-фондов заявляют о «лучшем подходе к моделированию» и рассказывают о конкуренции? Ничего нового там нет.
zbicyclist

2
вау, как этот вопрос вызывает столько голосов? Прогнозирование вне образца - это проблема, которая обсуждается в первый день любого вводного курса машинного обучения. Есть те, кто неправильно относится к прогнозированию вне выборки, но, безусловно, никто не имеет даже малейшего понятия о прогнозировании.
user4733

Конечно, трейдинг - это проблема временного характера, и он говорит, что перекрестная проверка (конечно, с использованием известных данных) не может решить проблему изменения структуры во времени !, так что это не святой Грааль. Но то, что он на самом деле делает, не может быть выведено.
kjetil b halvorsen

Ответы:


6

Имеет ли это какой-то смысл ? Частично.

Что он имеет в виду? Пожалуйста, спросите его.

У вас есть подсказка - или, возможно, даже название предложенного метода и некоторые ссылки?

Перекрестная проверка. http://en.wikipedia.org/wiki/Cross-validation_(statistics)

Или этот парень нашел Святой Грааль, которого никто не понимает? Нет .

В этом интервью он даже говорит, что его метод может революционизировать науку ... Возможно, он забыл включить ссылки на это утверждение ...


2
Ну, по крайней мере, он указывает на настоящую проблему ...

8

Не уверен, будут ли какие-либо другие "случайные" ответы, но вот мой.

Перекрестная проверка ни в коем случае не является «новой». Кроме того, перекрестная проверка не используется, когда найдены аналитические решения. Например, вы не используете перекрестную проверку для оценки бета-версий, вы используете OLS или IRLS или какое-то другое «оптимальное» решение.

То, что я вижу как очевидный пробел в цитате, - это не ссылка на какое-либо представление о проверке «лучших» моделей на предмет их смысла. Как правило, хорошая модель имеет смысл на некотором интуитивном уровне. Похоже, что заявление состоит в том, что CV является серебряной пулей для всех проблем прогнозирования. Там также не говорить от установки на более высоком уровне структуры модели - мы используем SVM , регрессия деревья , Повышая , Bagging , МНК , GLMS , GLMNS, Регулируем ли мы переменные? Если так, то как? Сгруппируем ли мы переменные вместе? Хотим ли мы устойчивости к редкости? Есть ли у нас выбросы? Должны ли мы моделировать данные в целом или по частям? Есть слишком много подходов, чтобы быть решенным на основе CV .

И еще один важный аспект - какие компьютерные системы доступны? Как данные хранятся и обрабатываются? Есть ли пропущенность - как мы можем это объяснить?

И вот большой: у нас есть достаточно хорошие данные, чтобы делать хорошие прогнозы? Есть ли известные переменные, которых у нас нет в нашем наборе данных? Наши данные отражают то, что мы пытаемся предсказать?

Перекрестная проверка - полезный инструмент, но вряд ли революционный. Я думаю, что основной причиной, по которой людям нравится, является то, что это похоже на «без математики» способ ведения статистики. Но есть много областей CV, которые теоретически не разрешены - например, размер сгибов, количество разбиений (сколько раз мы делим данные на групп?), Должно ли деление быть случайным или систематическим (например, удалить штат или провинцию за фолд или просто несколько случайных 5%)? Когда это имеет значение? Как мы измеряем производительность? Как мы учитываем тот факт, что коэффициенты ошибок в разных сгибах коррелируют, поскольку они основаны на одинаковых сгибах данных.К - 2KK2

Кроме того, я лично не видел сравнения компромисса между компьютерно-интенсивным CV и менее дорогими методами, такими как REML или Variational Bayes . Что мы получаем в обмен на дополнительное время? Также кажется, что CV более ценно в случаях «маленького » и «большого », чем в случае «большого маленького », так как в случае «большого маленького » ошибка вне выборки очень близка к входной выборке ошибка.п н п н п пnpnpnp


9
Хорошая напыщенная речь Было бы намного легче читать, если бы вы использовали случайные заглавные буквы, хотя ...
MånsT

4

Его объяснение распространенной ошибки в интеллектуальном анализе данных представляется разумным. Его объяснение того, что он делает, не имеет никакого смысла. Что он имеет в виду, когда говорит: «Вообще говоря, вы действительно чего-то добиваетесь, если результаты вне выборки составляют более 50 процентов от выборки»? Тогда SAS и IBM с ненормативной лексикой тоже не заставляют его выглядеть очень умно. Люди могут иметь успех на рынке, не понимая статистики, и часть успеха - это удача. Неправильно относиться к успешным бизнесменам, как к гуру прогнозирования.


1
Разве не очень понятно, что подразумевалось под цитируемым утверждением? В зависимости от того, как модели будут использоваться, то, что он говорит, он может иметь много смысла. Например, основным «отрывом» от задачи Netflix, по-видимому, является сила «смешивания моделей» до тех пор, пока у человека очень мало потребности в интерпретации. В этом случае некоторая «средняя» из выборочных характеристик рассматриваемых моделей может быть полностью релевантной.
кардинал

@cardinal: Не могли бы вы сформировать ответ из этих очень интересных мыслей? Было бы здорово, спасибо!
vonjd

2
@cardinal Возможно, вам это понятно, но затем объясните фразу: «Вы действительно чего-то добиваетесь, если результаты вне выборки составляют более 50 процентов от выборки». Если вы говорите, что усреднение по всем моделям может быть эффективным, то, конечно, я могу согласиться с этим. Повышение было продемонстрировано, чтобы хорошо работать во многих приложениях. Но я не вижу, откуда это вытекает из замечаний Вудрифа.
Майкл Р. Черник

2
Я, очевидно, не знаю деталей того, что утверждает г-н Вудрифф, но моя интерпретация этого на основе выдержки является чем-то вроде: «[В моих приложениях], если средняя производительность вне выборки [с использованием любого показателя Я считаю уместным], как минимум, вдвое ниже, чем производительность в образце после подгонки модели, тогда это имеет значение для моего приложения ». Я математик / статистика, поэтому мне нужны предостережения. Если бы я был менеджером хедж-фонда и хотел получить какое-то внешнее признание, я мог бы быть более грандиозным и абсолютным в своих замечаниях.
кардинал

1
@cardinal Итак, в качестве показателя производительности принимайте коэффициент ошибок, затем вы интерпретируете Вудриффа, что если коэффициент ошибок в выборке составляет 5%, а коэффициент ошибок в выборке составляет 10%, тогда метод хорош? Почему бы просто не посмотреть на образец производительности, чтобы решить? Я полагаю, что отношение производительности из выборки к производительности в выборке говорит вам о том, насколько надежной / ненадежной является оценка частоты ошибок в выборке, но я не вижу, как она влияет на оценку производительности классификатора. Я до сих пор не понимаю, где смешивание моделей входит в его замечания.
Майкл Р. Черник

4

Вы можете искать модели , в которых все модели вне выборки продолжают работать хорошо.

Мое понимание слова узоров здесь, он означает различные рыночные условия. Наивный подход будет анализировать все доступные данные (мы все знаем, что больше данных лучше), обучать лучшую модель подбора кривой, затем запускать ее на всех данных и торговать с ней все время.

Более успешные менеджеры хедж-фондов и алгоритмические трейдеры используют свои знания рынка. В качестве конкретного примера, первые полчаса торговой сессии могут быть более волатильными. Таким образом, они попробуют модели на всех своих данных, но только в течение этих первых получаса, и на всех своих данных, но исключая эти первые полчаса. Они могут обнаружить, что две их модели преуспевают в первые полчаса, но восемь из них теряют деньги. Принимая во внимание, что, если они исключают первые полчаса, семь их моделей зарабатывают, три теряют деньги.

Но вместо того, чтобы взять эти две выигрышные модели и использовать их в первые полчаса торговли, они говорят: это плохое время дня для алгоритмической торговли, и мы не собираемся торговать вообще. Остаток дня они будут использовать свои семь моделей. То есть, кажется, что рынок легче предсказать с помощью машинного обучения в те времена, поэтому у этих моделей больше шансов быть надежными в будущем. (Время суток - не единственная модель; другие обычно связаны с новостными событиями, например, рынок является более волатильным как раз перед тем, как объявляются ключевые экономические показатели.)

Это моя интерпретация того, что он говорит; это может быть совершенно неправильно, но я надеюсь, что это все еще полезная пища для размышлений.


2

Как финансовый специалист, я знаю достаточно контекста, чтобы в заявлении не было никакой двусмысленности. Финансовые временные ряды часто характеризуются изменениями режима, структурными нарушениями и дрейфом понятий, поэтому перекрестная проверка, как это практикуется в других отраслях, не столь успешна в финансовых приложениях. Во второй части он ссылается на финансовый показатель, либо доходность инвестиций по коэффициенту Шарпа (доходность в числителе), но не MSE или другую функцию потерь. Если стратегия в пределах выборки дает 10% прибыли, то в реальной торговле она может вполне реально принести только 5%. «Революционная» часть, скорее всего, касается его собственного подхода к анализу, а не к цитатам.


Вопрос только для vix: знаете ли вы какую-либо работу, использующую вашу финансовую метрику в качестве инструмента для оптимизации параметров, то есть непосредственную оптимизацию параметров путем максимизации этой метрики, а не использования максимальной вероятности?
kjetil b halvorsen

@kbh это не моя финансовая метрика - оптимизация по коэффициенту Шарпа очень распространена. Один пример в верхней части моей головы ssrn.com/abstract=962461 - точная статистическая модель не разработана, но правила торговли созданы для (в самых общих чертах) максимизации прибыли и минимизации риска.
onlyvix.blogspot.com
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.