Позвольте мне добавить свои 2 ¢, это моя работа, чтобы получить хорошие и чистые данные для хедж-фонда, я видел довольно много каналов данных и поставщиков исторических данных. В основном это данные по акциям США.
Для начала, если у вас есть деньги, не беспокойтесь о загрузке данных из Yahoo, получите данные конца дня прямо из данных CSI , вот где Yahoo также получает свои данные EOD AFAIK. У них есть API, где вы можете извлекать данные в любой формат, который вы хотите. Я думаю, что годовая подписка на данные стоит несколько долларов.
Основная проблема с загрузкой данных из бесплатного сервиса заключается в том, что вы получаете только те акции, которые все еще существуют, это называется Survivorship Bias и может дать вам неверные результаты, если вы посмотрите на многие акции, потому что вы включите только те, которые сделали это так. далеко и не те, которые были исключены из списка.
Для игры с некоторыми внутридневными данными, которые я изучил в IQFeed , они предоставляют несколько API-интерфейсов для извлечения исторических данных, хотя в основном они предназначены для каналов в реальном времени. Но здесь есть довольно много вариантов, некоторые брокеры даже обеспечивают загрузку исторических данных через свои API, так что просто выберите яд.
НО, как правило, все эти данные не очень чисты, как только вы действительно начнете тестирование, вы увидите, что некоторые акции отсутствуют или отображаются как два разных символа, или расщепление акций не учитывается должным образом и т. Д. И затем вы понимаете, что исторические данные Данные о дивидендах также необходимы, и вы начинаете работать по кругу, объединяя данные из 100 различных источников данных и так далее. Поэтому начинать с «дисконтной» подачи данных подойдет, но как только вы запустите более подробные тесты, вы можете столкнуться с проблемами в зависимости от того, что вы делаете. Если вы просто посмотрите, скажем, на акции S & P 500, это не будет такой большой проблемой, хотя подойдет и «дешевый» внутридневной корм.
То, что вы не найдете, это бесплатные внутридневные данные. Я имею в виду, что вы могли бы найти несколько примеров, я уверен, что где-то 5 лет тиковых данных MSFT распространяются, но это не продвинет вас далеко.
Затем, если вам нужны реальные вещи (книга заказов уровня II, все тики, как они происходили на всех биржах), один «доступный», но отличный вариант - Nanex . Они действительно отправят вам диск с терабайтами данных. Если я правильно помню, это около $ 3k-4K за год данных. Но поверьте мне, как только вы поймете, как трудно получить хорошие внутридневные данные, вы не будете думать, что это очень много денег.
Не обескуражить вас, но получить хорошие данные сложно, настолько трудно, что многие хедж-фонды и банки тратят сотни тысяч долларов в месяц на получение данных, которым они могут доверять. Опять же, вы можете начать с чего-то, а затем идти оттуда, но это хорошо, чтобы увидеть это немного в контексте.
Изменить: ответ выше из моего собственного опыта. Это сообщение от Caltech о доступных каналах данных даст больше понимания, и особенно рекомендует QuantQuote .