В течение многих лет ходили слухи, что Google использует все доступные функции для построения своих алгоритмов прогнозирования. Однако до настоящего времени не было никаких заявлений об отказе от ответственности, объяснений или официальных документов, которые разъясняют и / или оспаривают этот слух. Даже их опубликованные патенты не помогают в понимании. В результате, насколько мне известно, никто за пределами Google не знает, что они делают.
/ * Обновление в сентябре 2019 года, евангелист Google Tensorflow, официально заявил, что инженеры Google регулярно оценивают более 5 миллиардов параметров для текущей версии PageRank . * /
Как отмечает OP, одна из самых больших проблем в прогнозном моделировании - это связь между классическим тестированием гипотез и тщательной спецификацией модели против чистого анализа данных. Классически обученные могут довольно догматично отнестись к необходимости «строгости» в дизайне и разработке моделей. Дело в том, что при столкновении с огромным числом кандидатов-предикторов и множеством возможных целей или зависимых переменных классическая структура не работает, не выполняет и не дает полезных рекомендаций. Многочисленные недавние статьи описывают эту дилемму из блестящей статьи Chattopadhyay и Lipson Data Smashing: выявление скрытого порядка в данных http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Основным узким местом является то, что большинство современных алгоритмов сравнения данных полагаются на человека-специалиста, чтобы определить, какие «особенности» данных имеют значение для сравнения. Здесь мы предлагаем новый принцип оценки сходства между источниками произвольных потоков данных, не используя ни знание предметной области, ни обучение.
К прошлогоднему докладу AER о проблемах политики прогнозирования Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023, где аргументация в пользу извлечения данных и прогнозирования в качестве полезных инструментов при выработке экономической политики, приводя примеры, когда «причинно-следственная связь не является центральной или даже необходимой. "
Дело в том, что более крупный вопрос стоимостью 64 000 долл. США - это широкий сдвиг в мышлении и вызовы классической концепции проверки гипотез, подразумеваемые, например, в этом симпозиуме Edge.org по «устаревшему» научному мышлению https://www.edge.org/ ответы / что-научная-идея-готова-для-выхода на пенсию, а также недавняя статья Эрика Бейнхокера о «новой экономике», в которой представлены некоторые радикальные предложения по интеграции самых разных дисциплин, таких как поведенческая экономика, теория сложности, прогнозирующая модель теория развития, сети и портфеля как платформа для реализации и принятия политики https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Излишне говорить, что эти проблемы выходят далеко за рамки просто экономических проблем и предполагают, что мы претерпеваем фундаментальный сдвиг в научных парадигмах. Сдвигающие взгляды столь же фундаментальны, как и различия между редукционистским, бритвой Оккама, подобным построению модели, против обширного принципа полноты Эпикура или множественными объяснениями, в которых грубо сказано, что если несколько результатов что-то объясняют, сохраните их все ... https: // en. wikipedia.org/wiki/Principle_of_plenitude
Конечно, такие ребята, как Бейнхокер, совершенно не обременены практическими проблемами, касающимися прикладных, статистических решений этой развивающейся парадигмы. Что касается мельчайших вопросов выбора переменных сверхвысокой размерности, ОП относительно неспецифичен в отношении жизнеспособных подходов к построению моделей, которые могут использовать, например, Лассо, LAR, пошаговые алгоритмы или «модели слонов», которые используют всю доступную информацию. Реальность такова, что даже с AWS или суперкомпьютером вы не можете использовать всю доступную информацию одновременно - просто не хватает ОЗУ для загрузки всего этого. Что это значит? Обходные пути были предложены, например, открытие NSF в сложных или массивных наборах данных: общие статистические темы«разделяй и властвуй» алгоритмы для массивного анализа данных, например, Wang и др., «Обзор статистических методов и вычислений для больших данных», http://arxiv.org/pdf/1502.07989.pdf, а также Leskovec и др. книга Mining of Massive Datasets http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datts
В настоящее время существуют буквально сотни, если не тысячи статей, посвященных различным аспектам этих задач, и все они предлагают в качестве своей основы широко отличающиеся аналитические движки от алгоритмов «разделяй и властвуй»; неконтролируемые модели «глубокого обучения»; теория случайных матриц, применяемая для построения массивных ковариаций; Байесовские тензорные модели для классической, контролируемой логистической регрессии и многое другое. Примерно пятнадцать лет назад дебаты были в основном сосредоточены на вопросах, касающихся относительных преимуществ иерархических байесовских решений по сравнению с частыми моделями конечных смесей. В документе, посвященном этим вопросам, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfпришли к выводу, что различные теоретические подходы на практике дали в значительной степени эквивалентные результаты, за исключением проблем, связанных с разреженными и / или крупномасштабными данными, где модели HB имели преимущество. Сегодня, с появлением обходных путей D & C, любые модели арбитража HB, которые могли иметь историческое значение, были исключены.
Базовая логика этих обходных путей D & C, в общем, является расширением известной техники случайных лесов Бреймана, которая основывалась на повторной выборке наблюдений и характеристик при начальной загрузке. Брейман выполнял свою работу в конце 90-х годов на одном процессоре, когда огромные данные означали несколько десятков концертов и пару тысяч функций. На сегодняшних многоядерных многоядерных платформах можно запускать алгоритмы, анализирующие терабайты данных, содержащих десятки миллионов функций, создавая миллионы «РЧ» мини-моделей за несколько часов.
Есть много важных вопросов, выходящих из всего этого. Нужно иметь дело с потерей точности из-за аппроксимирующей природы этих обходных путей. Эта проблема была рассмотрена Ченом и Се в статье « Подход« разделяй и властвуй »для анализа необычайно больших данных» http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf, в которой они пришли к выводу что аппроксимации существенно отличаются от моделей «полной информации».
Вторая проблема, которая, насколько мне известно, не была должным образом рассмотрена в литературе, связана с тем, что делается с результатами (то есть, «параметрами») из потенциально миллионов прогнозирующих мини-моделей после обходных путей. были свернуты и обобщены. Другими словами, как можно выполнить что-то столь же простое, как «подсчет» новых данных с этими результатами? Должны ли быть сохранены и сохранены коэффициенты мини-модели, или можно просто перезапустить алгоритм D & C для новых данных?
В своей книге « Numbers Rule Your World» Кайзер Фунг описывает дилемму, с которой столкнулся Netflix, представив ансамбль всего из 104 моделей, переданных победителям конкурса. Победители действительно минимизировали MSE по сравнению со всеми остальными конкурентами, но это привело к повышению точности лишь на несколько десятичных разрядов по 5-балльной шкале Лайкерта, используемой их системой рекомендации фильмов. Кроме того, ИТ-обслуживание, необходимое для этого ансамбля моделей, стоит намного больше, чем любая экономия, наблюдаемая в результате «повышения» точности моделей.
Тогда возникает целый вопрос о том, возможна ли даже «оптимизация» с информацией такого масштаба. Например, Эммануэль Дерман, физик и финансовый инженер, в своей книге « Моя жизнь как квант» предполагает, что оптимизация - это несостоятельный миф, по крайней мере, в финансовой инженерии.
Наконец, важные вопросы, касающиеся относительной важности признаков с огромным количеством признаков, еще предстоит решить.
Нет простых ответов на вопросы, касающиеся необходимости выбора переменных, и новые вызовы, открываемые нынешними эпикурейскими обходными путями, еще предстоит решить. Суть в том, что сейчас мы все ученые данных.
**** РЕДАКТИРОВАТЬ ***
Рекомендации
Chattopadhyay I, Lipson H. 2014 Разрушение данных: раскрытие скрытого порядка в данных. JR Soc. Интерфейс 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Кляйнберг, Джон, Йенс Людвиг, Сендхил Малленатан и Зиад Обермейер. 2015. «Проблемы прогнозной политики». American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Ежегодный вопрос: КАКАЯ НАУЧНАЯ ИДЕЯ ГОТОВА К УСТРАНЕНИЮ?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Эрик Бейнхокер, Как глубокие изменения в экономике влияют на левые и правые дебаты Не имеет значения, 2016, Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Эпикур принцип множественных объяснений: сохранить все модели. Википедия
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Обнаружение в сложных или массивных наборах данных: общие статистические темы, семинар, финансируемый Национальным научным фондом, 16-17 октября 2007 г.
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Статистические методы и вычисления для больших данных, рабочий документ Чун Вана, Минг-Хуэя Чена, Элизабет Скифано, Цзин Ву и Джун Яна, 29 октября 2015 г.
http://arxiv.org/pdf/1502.07989.pdf
Юре Лесковец, Ананд Раджараман, Джеффри Дэвид Уллман, Mining of Massive Datasets, издательство Кембриджского университета; 2 издание (29 декабря 2014 г.) ISBN: 978-1107077232
Ковариационные матрицы для больших выборок и анализ многомерных данных (ряд Кембриджа по статистической и вероятностной математике), автор Jianfeng Yao, Shurong Zheng, Zhidong Bai, издательство Cambridge University Press; 1 издание (30 марта 2015 г.) ISBN: 978-1107065178
Рик Л. Эндрюс, Эндрю Эйнсли и IMRAN S. CURRIM, Эмпирическое сравнение моделей Logit Choice с дискретными и непрерывными представлениями неоднородности, Journal of Marketing Research, 479 Vol. XXXIX (ноябрь 2002 г.), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Подход «разделяй и властвуй» для анализа необычайно больших данных, Сюэй Чен и Минге Се, Технический отчет DIMACS 2012-01, январь 2012
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Кайзер Фунг, Числа управляют вашим миром: скрытое влияние вероятностей и статистики на все, что вы делаете, McGraw-Hill Education; 1 издание (15 февраля 2010 г.) ISBN: 978-0071626538
Эммануэль Дерман, Моя жизнь как квант: размышления о физике и финансах, Wiley; 1 издание (11 января 2016 г.) ISBN: 978-0470192733
* Обновление в ноябре 2017 года *
Книга Натана Кутца 2013 года « Моделирование на основе данных и научные вычисления: методы для сложных систем и больших данных» представляет собой математическую и PDE-ориентированную экскурсию по выбору переменных, а также методам и инструментам сокращения измерений. Отличное 1-часовое введение в его мышление можно найти в этом видео на YouTube в июне 2017 г. Обнаружение управляемых данными динамических систем и PDE . В нем он делает ссылки на последние разработки в этой области. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop