В чем разница между функциональным анализом данных и анализом многомерных данных


10

В статистической литературе имеется много ссылок на « функциональные данные » (то есть данные, которые являются кривыми), и параллельно, на « высокоразмерные данные » (то есть, когда данные являются векторами с высокой размерностью). Мой вопрос о разнице между этими двумя типами данных.

Говоря о прикладных статистических методологиях, которые применяются в случае 1, можно понимать как перефразирование методологий из случая 2 через проекцию в конечномерное подпространство пространства функций, это могут быть полиномы, сплайны, вейвлет, Фурье, ... и переведет функциональную задачу в конечномерную векторную задачу (поскольку в прикладной математике все в некоторой точке становится конечным).

Мой вопрос: можем ли мы сказать, что любая статистическая процедура, которая применяется к функциональным данным, может также применяться (почти напрямую) к данным больших измерений и что любая процедура, предназначенная для данных больших размеров, может (почти напрямую) применяться к функциональным данным?

Если ответ «нет», можете ли вы проиллюстрировать это?

РЕДАКТИРОВАТЬ / ОБНОВИТЬ с помощью ответа Саймона Бирна:

  • разреженность (S-разреженное предположение, ball и слабый l p ball при p < 1 ) используется в качестве структурного допущения в статистическом анализе высокой размерности.LпLпп<1
  • «Гладкость» используется в качестве структурного допущения при анализе функциональных данных.

С другой стороны, обратное преобразование Фурье и обратное вейвлет-преобразование преобразуют разреженность в гладкость, а гладкость преобразуется в разреженность посредством вейвлет-преобразования и преобразования Фурье. Это делает критическую разницу, упомянутую Саймоном, не такой критичной?


1
Сглаживание является большой частью анализа функциональных данных, и его можно преобразовать в задачу оценки среднего вектора путем проекции на соответствующую основу (например, Фурье или вейвлет), но существуют и другие проблемы в анализе функциональных данных в зависимости от функциональной структуры, которая не переведи как легко. Возьмем, к примеру, функциональную регрессию, когда вы заинтересованы в прогнозировании функциональной реакции от ковариат.
vqv

Ответы:


12

Функциональные данные часто связаны с другим вопросом. Я читал «Функциональный анализ данных», Рамси и Сильверман, и они много раз обсуждали регистрацию кривых, функции деформации и оценку производных кривых. Это, как правило, очень разные вопросы, чем те, которые задают люди, заинтересованные в изучении многомерных данных.


Полностью согласен ! задаваемые вопросы разные. Регистрация, разметка местности, оценка дериватов могут возникнуть с функциональной точки зрения. Это убедит меня! Таким образом, большая проблема с функциональными данными (как они стоят в статистической литературе) будет не в том, что они определены в непрерывном наборе, а в том, что они проиндексированы в упорядоченном наборе?
Робин Жирар

Дело не только в том, что оно определено в упорядоченном множестве. В противном случае, как бы вы отличали анализ временных рядов от анализа функциональных данных? Я согласен с @ user549 в том, что он сводится к типам задаваемых вопросов. Они специфичны для структуры данных.
vqv

15

Да и нет. На теоретическом уровне в обоих случаях могут использоваться одинаковые методы и схемы (отличным примером является регрессия гауссовского процесса).

Критическим отличием являются предположения, используемые для предотвращения переоснащения (регуляризации):

  • В функциональном случае обычно существует некоторое предположение о гладкости, иными словами, значения, встречающиеся близко друг к другу, должны быть похожими в некотором систематическом смысле. Это приводит к использованию таких методов, как сплайны, лессы, гауссовские процессы и т. Д.

  • В случае больших измерений обычно существует предположение о разреженности: то есть только подмножество измерений будет иметь какой-либо сигнал. Это приводит к методам, нацеленным на идентификацию этих измерений (лассо, LARS, априорные пластины и т.д.)

ОБНОВИТЬ:

Я на самом деле не думал о методах вейвлета / Фурье, но да, методы пороговых значений, используемые для таких методов, нацелены на разреженность в проецируемом пространстве. И наоборот, некоторые многомерные методы предполагают проекцию на низкоразмерное многообразие (например, анализ главных компонент), что является типом предположения о гладкости.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.