Я ищу некоторые надежные методы для удаления выбросов и ошибок (независимо от причины) из финансовых данных временных рядов (например, тикданных).
Тик-тик-тик финансовые данные временных рядов очень грязные. Он содержит огромные (временные) промежутки, когда биржа закрыта, и делает огромные скачки, когда биржа открывается снова. Когда биржа открыта, все виды факторов вводят сделки на неправильных уровнях цен (они не произошли) и / или не являются репрезентативными для рынка (например, скачок из-за неправильно введенной цены покупки или продажи). Этот документ tickdata.com (PDF) хорошо описывает проблему, но предлагает несколько конкретных решений.
Большинство статей, которые я могу найти в Интернете, в которых упоминается эта проблема, либо игнорируют ее (тикданные предполагаются отфильтрованными), либо включают фильтрацию как часть какой-то огромной торговой модели, которая скрывает любые полезные этапы фильтрации.
Кто-нибудь знает о более углубленной работе в этой области?
Обновление: этот вопрос кажется похожим на первый взгляд, но:
- Финансовые временные ряды (по крайней мере на уровне тиков) непериодичны.
- Эффект открытия - большая проблема, потому что вы не можете просто использовать данные последнего дня в качестве инициализации, даже если вы действительно этого хотите (потому что в противном случае у вас ничего нет). Внешние события могут привести к тому, что открытие нового дня будет резко отличаться как по абсолютному уровню, так и по волатильности от предыдущего дня.
- Дико нерегулярная частота поступающих данных. При открытии и закрытии дня количество точек данных в секунду может быть в 10 раз выше среднего значения за день. Другой вопрос касается регулярно выбираемых данных.
- «Выбросы» в финансовых данных демонстрируют некоторые конкретные закономерности, которые могут быть обнаружены с помощью конкретных методов, неприменимых в других областях, и я частично ищу эти конкретные методы.
- В более экстремальных случаях (например, сбой флэш-памяти) выбросы могут составлять более 75% данных за более длительные интервалы (> 10 минут). Кроме того, (высокая) частота входящих данных содержит некоторую информацию о внешнем аспекте ситуации.