Самой странной вещью, которую я обнаружил, читая теорию хаоса, чтобы ответить на этот вопрос, была удивительная нехватка опубликованных исследований, в которых интеллектуальный анализ данных и его родственники используют теорию хаоса. И это несмотря на согласованные усилия по их поиску, обратившись к таким источникам, как «Теория прикладного хаоса А.Б. Жамбеля: Парадигма сложности и Alligood» и др. «Хаос: введение в динамические системы» (последнее невероятно полезно в качестве справочника для эта тема) и рейдерство их библиографий. После всего этого мне нужно было подготовить только одно исследование, которое можно было бы квалифицировать, и мне пришлось расширить границы «интеллектуального анализа данных», чтобы включить этот крайний случай: Команда из Университета Техаса, выполняющая исследование реакций Белоусова-Жаботинского (БЗ) (которые, как уже было известно, склонны к апериодичности), случайно обнаружила расхождения в малоновой кислоте, используемой в своих экспериментах, из-за хаотических закономерностей, побуждая их искать новые поставщик. [1] Вероятно, есть и другие - я не специалист по теории хаоса и вряд ли смогу дать исчерпывающую оценку литературе - но резкая диспропорция в обычных научных применениях, таких как проблема трех тел в физике, не сильно изменится, если мы перечислим их все. На самом деле, в то время, когда этот вопрос был закрыт, Я подумал переписать его под заголовком «Почему так мало реализаций теории хаоса в области интеллектуального анализа данных и смежных областях?» Это несовместимо с плохо определенным, но широко распространенным мнением о том, что должно быть множество приложений в интеллектуальном анализе данных и смежных областях, таких как нейронные сети, распознавание образов, управление неопределенностью, нечеткие множества и т. Д .; в конце концов, теория хаоса также является передовой темой со многими полезными приложениями. Мне пришлось долго и усердно задумываться о том, где именно лежат границы между этими полями, чтобы понять, почему мой поиск оказался бесплодным, а мое представление неверным.
Ответ; tldr
Краткое объяснение этого резкого дисбаланса в количестве исследований и отклонении от ожиданий можно объяснить тем фактом, что теория хаоса, анализ данных и т. Д. Отвечают на два четко разделенных класса вопросов; резкая дихотомия между ними очевидна, как только указывалось, но при этом настолько фундаментальная, что остается незамеченной, почти как взгляд на свой нос. Может быть какое-то оправдание для убеждения, что относительная новизна теории хаоса и таких областей, как интеллектуальный анализ данных, объясняет некоторую нехватку реализаций, но мы можем ожидать, что относительный дисбаланс сохранится, даже когда эти поля станут зрелыми, потому что они просто затрагивают отчетливо разные стороны та же монета Почти все реализации до настоящего времени были в исследованиях известных функций с четко определенными результатами, которые, как оказалось, демонстрировали несколько удивительных хаотических аберраций, в то время как добыча данных и отдельные методы, такие как нейронные сети и деревья решений, включают определение неизвестной или плохо определенной функции. Связанные поля, такие как распознавание образов и нечеткие множества, также могут рассматриваться как организация результатов функций, которые также часто неизвестны или плохо определены, когда средства этой организации также не совсем очевидны. Это создает практически непреодолимую пропасть, которую можно преодолеть только в определенных редких случаях - но даже они могут быть сгруппированы под рубрикой единственного варианта использования: предотвращение апериодического вмешательства в алгоритмы интеллектуального анализа данных. Связанные поля, такие как распознавание образов и нечеткие множества, также могут рассматриваться как организация результатов функций, которые также часто неизвестны или плохо определены, когда средства этой организации также не совсем очевидны. Это создает практически непреодолимую пропасть, которую можно преодолеть только в определенных редких случаях - но даже они могут быть сгруппированы под рубрикой единственного варианта использования: предотвращение апериодического вмешательства в алгоритмы интеллектуального анализа данных. Связанные поля, такие как распознавание образов и нечеткие множества, также могут рассматриваться как организация результатов функций, которые также часто неизвестны или плохо определены, когда средства этой организации также не совсем очевидны. Это создает практически непреодолимую пропасть, которую можно преодолеть только в определенных редких случаях - но даже они могут быть сгруппированы под рубрикой единственного варианта использования: предотвращение апериодического вмешательства в алгоритмы интеллектуального анализа данных.
Несовместимость с технологическим процессом Chaos Science
Типичный рабочий процесс в «науке о хаосе» заключается в выполнении вычислительного анализа выходных данных известной функции, часто наряду с наглядными пособиями фазового пространства, такими как бифуркационные диаграммы, карты Хенона, сечения Пуанкаре, фазовые диаграммы и фазовые траектории. Тот факт, что исследователи полагаются на вычислительные эксперименты, показывает, насколько трудно найти хаотические эффекты; это не то, что вы обычно можете определить с помощью ручки и бумаги. Они также встречаются исключительно в нелинейных функциях. Этот рабочий процесс невозможен, если у нас нет известной функции для работы. Анализ данных может привести к уравнениям регрессии, нечетким функциям и т. П., Но все они имеют одно и то же ограничение: это всего лишь общие приближения, с гораздо более широким окном для ошибок. Напротив, известные функции, подверженные хаосу, относительно редки, Как и диапазоны входных данных, которые дают хаотические паттерны, поэтому требуется высокая степень специфичности даже для проверки на хаотические эффекты. Любые странные аттракторы, присутствующие в фазовом пространстве неизвестных функций, безусловно, будут сдвигаться или исчезать в целом по мере изменения их определений и входных данных, что значительно усложняет процедуры обнаружения, описанные авторами, такими как Alligood, et al.
Хаос как загрязнитель в результатах интеллектуального анализа данных
На самом деле, связь интеллектуального анализа данных и его родственников с теорией хаоса практически противоречива. Это буквально верно, если мы рассматриваем криптоанализ в широком смысле как особую форму интеллектуального анализа данных, учитывая, что я наткнулся по крайней мере на одну исследовательскую работу по использованию хаоса в схемах шифрования (в данный момент я не могу найти цитату, но могу охотиться это вниз по запросу). Для майнера данных наличие хаоса обычно плохо, так как кажущиеся бессмысленными диапазоны значений, которые он выводит, могут значительно усложнить и без того сложный процесс приближения неизвестной функции. Наиболее распространенное использование хаоса в интеллектуальном анализе данных и смежных областях - исключить его, что не означает подвиг. Если хаотические эффекты присутствуют, но не обнаружены, их влияние на предприятие по сбору данных может быть трудно преодолеть. Подумайте только о том, как легко обычная нейронная сеть или дерево решений может превосходить кажущиеся бессмысленными результаты хаотического аттрактора, или как внезапные скачки входных значений могут, конечно, спутать регрессионный анализ и могут быть приписаны неверным выборкам или другим источникам ошибок. Редкость хаотических эффектов среди всех функций и входных диапазонов означает, что исследование их будет подвергнуто серьезной деприоризации экспериментаторами.
Методы обнаружения хаоса в результатах интеллектуального анализа данных
Некоторые меры, связанные с теорией хаоса, полезны при идентификации апериодических эффектов, такие как энтропия Колмогорова и требование, чтобы фазовое пространство демонстрировало положительный показатель Ляпунова. Оба они находятся в контрольном списке для обнаружения хаоса [2], представленном в Прикладной теории хаоса А. Б. Чамбеля, но большинство из них бесполезны для приближенных функций, таких как показатель Ляпунова, который требует определенных функций с известными пределами. Общая процедура, которую он описывает, тем не менее, может быть полезна в ситуациях интеллектуального анализа данных; Целью Жамбеля в конечном счете является программа «контроля хаоса», то есть устранение мешающих апериодических эффектов. [3] Другие методы, такие как вычисление подсчета блоков и корреляционных измерений для обнаружения дробных измерений, которые приводят к хаосу, могут быть более практичными в приложениях интеллектуального анализа данных, чем Ляпунов и другие в его списке. Другим характерным признаком хаотических эффектов является наличие паттернов удвоения периода (или утроения и далее) в выходных данных функции, что часто предшествует апериодическому (то есть «хаотическому») поведению на фазовых диаграммах.
Дифференцирование тангенциальных приложений
Этот основной вариант использования следует отличать от отдельного класса приложений, которые только косвенно связаны с теорией хаоса. При ближайшем рассмотрении список «потенциальных приложений», который я представил в своем вопросе, фактически состоял почти целиком из идей для использования концепций, от которых зависит теория хаоса, но которые могут применяться независимо при отсутствии апериодического поведения (за исключением удвоения периода). Недавно я подумал о новом использовании потенциальной ниши, порождающем апериодическое поведение для распространения нейронных сетей за пределы локальных минимумов, но это также должно быть в списке тангенциальных приложений. Многие из них были обнаружены или конкретизированы в результате исследований в науке о хаосе, но могут быть применены к другим областям. Эти «тангенциальные приложения» имеют только нечеткие связи друг с другом, но образуют отдельный класс, отделена жесткой границей от основного варианта использования теории хаоса в интеллектуальном анализе данных; первая использует некоторые аспекты теории хаоса без апериодических паттернов, а вторая посвящена исключительно исключению хаоса как усложняющего фактора в результатах анализа данных, возможно, с использованием таких предпосылок, как положительность показателя Ляпунова и обнаружение удвоения периода , Если мы проведем различие между теорией хаоса и другими понятиями, которые она использует правильно, легко увидеть, что приложения первого по своей природе ограничены известными функциями в обычном научном исследовании. Существует действительно веская причина для того, чтобы взволноваться по поводу потенциальных применений этих вторичных концепций в отсутствие хаоса, но также повод для беспокойства по поводу негативного влияния непредсказуемого апериодического поведения на попытки извлечения данных, когда оно присутствует. Такие случаи будут редкими, но эта редкость также может означать, что они останутся незамеченными. Метод Жамбеля может быть полезен для предотвращения подобных проблем.
[1] с. 143-147, Alligood, Kathleen T .; Sauer, Тим Д. и Йорк, Джеймс А., 2010, Хаос: Введение в динамические системы, Springer: Нью-Йорк. [2] С. 208-213, Жамбель, А.Б., 1993, Теория прикладного хаоса: парадигма сложности, Academic Press, Inc .: Бостон. [3] с. 215, Жамбель.