Почему внезапное увлечение тензорами?

171

Недавно я заметил, что многие люди разрабатывают тензорные эквиваленты многих методов (тензорная факторизация, тензорные ядра, тензоры для тематического моделирования и т. Д.). Мне интересно, почему мир внезапно очарован тензорами? Существуют ли недавние документы / стандартные результаты, которые особенно удивляют, которые привели к этому? Это в вычислительном отношении намного дешевле, чем предполагалось ранее?

Я не болтливый, мне искренне интересно, и если есть какие-то ссылки на статьи по этому поводу, я бы с удовольствием их прочитал.

— YS
источник

25

Кажется, что единственная сохраняющая особенность, которую «тензоры больших данных» разделяют с обычным математическим определением, - это то, что они являются многомерными массивами. Поэтому я бы сказал, что тензоры больших данных - это рыночный способ сказать «многомерный массив», потому что я очень сомневаюсь, что люди, обучающиеся машинному обучению, будут заботиться о симметрии или законах преобразования, которые нравятся обычным тензорам математики и физики, особенно об их полезности. в формировании координатных уравнений.

— Алекс Р.

2

@AlexR. без инвариантности к преобразованиям нет тензоров

— Аксакал

2

@Aksakal Я, конечно, немного знаком с использованием тензоров в физике. Я хотел бы сказать, что симметрии в физических тензорах происходят из симметрии физики, а не чего-то существенного в определении тензора.

— Агиненский

3

@aginensky Если тензор был не чем иным, как многомерным массивом, то почему определения тензоров, найденные в учебниках по математике, звучат так сложно? Из Википедии: «Числа в многомерном массиве известны как скалярные компоненты тензора ... Так же, как компоненты вектора меняются, когда мы меняем базис векторного пространства, компоненты тензора также меняются при таком преобразование. Каждый тензор снабжен законом преобразования, который детализирует, как компоненты тензора реагируют на изменение базиса. " В математике тензор - это не просто массив.

— малоО

4

Просто некоторые общие соображения по поводу этого обсуждения: я думаю, что, как и в случае векторов и матриц, фактическое применение часто становится гораздо более упрощенной реализацией гораздо более богатой теории. Я читаю эту статью более подробно: epubs.siam.org/doi/abs/10.1137/07070111X?journalCode=siread и одна вещь, которая действительно впечатляет меня, - это то, что «представительные» инструменты для матриц (разложение по собственным значениям и по сингулярным значениям) есть интересные обобщения в высших порядках. Я уверен, что есть еще много прекрасных свойств, помимо простого контейнера для большего количества индексов. :)

— YS

89

Тензоры часто предлагают более естественное представление данных, например, рассматривают видео, которое состоит из явно коррелированных изображений с течением времени. Вы можете превратить это в матрицу, но это просто не естественно и не интуитивно понятно (что означает факторизация некоторого матричного представления видео?).

Тензоры находятся в тренде по нескольким причинам:

наше понимание мультилинейной алгебры быстро улучшается, особенно при различных типах факторизаций, что, в свою очередь, помогает нам находить новые потенциальные приложения (например, многофакторный анализ компонентов )
появляются программные средства (например, Tensorlab ), и они приветствуются
Приложения для больших данных часто могут быть решены с помощью тензоров, например, рекомендательных систем , а сами большие данные являются горячими
увеличивает вычислительную мощность, так как некоторые тензорные операции могут быть тяжелыми (это также одна из основных причин, почему глубокое обучение сейчас так популярно)

— Марк Клазен
источник

9

Что касается вычислительной мощности: я думаю, что наиболее важным является то, что линейная алгебра может быть очень быстрой на графических процессорах, и в последнее время они получают больше и быстрее память, что является самым большим ограничением при обработке больших данных.

— Davidmh

6

Марк Марк Клезен ответ хороший. Дэвид Дансон, выдающийся профессор статистики в Duke, был одним из ключевых представителей основанных на тензорных подходов к моделированию, как в этой презентации, Байесовская тензорная регрессия . icerm.brown.edu/materials/Slides/sp-f12-w1/…

— Майк Хантер

Как упоминал Дэвид, алгоритмы Tensor часто поддаются параллелизму, в котором аппаратное обеспечение (например, ускорители графических процессоров) становится все лучше.

— Томас Рассел

1

Я предположил, что лучшие возможности памяти / процессора сыграли свою роль, но недавний всплеск внимания был интересным; Я думаю, что это должно быть из-за многих недавних удивительных успехов с рекомендательными системами, и, возможно, также ядрами для SVM и т. Д. Спасибо за ссылки! отличные места, чтобы начать узнавать об этом материале ...

— YS

5

Если вы сохраняете видео в виде многомерного массива, я не вижу, как этот многомерный массив будет иметь какие-либо свойства инвариантности, которые должен иметь тензор. Не похоже, что слово «тензор» подходит в этом примере.

— малоО

73

Я думаю, что ваш вопрос должен сочетаться с ответом, который в равной степени свободен и открыт, как и сам вопрос. Итак, вот две мои аналогии.

Во-первых, если вы не чистый математик, вас, вероятно, сначала учили одномерными вероятностями и статистикой. Например, скорее всего, ваш первый пример OLS был, вероятно, на модели, подобной этой: Скорее всего, вы прошли оценок путем фактической минимизации суммы наименьших квадратов: Затем вы записываете FOC s для параметров и получаете решение:

y_{i} = a + b x_{i} + e_{i}

$y_i=a+bx_i+e_i$

T S S = \sum_{i} (y_{i} - \bar{a} - \bar{b} x_{i})^{2}

$TSS=\sum_i(y_i-\bar a-\bar b x_i)^2$

\frac{\partial T T S}{\partial \bar{a}} = 0

$\frac{\partial TTS}{\partial \bar a}=0$

Затем позже вам скажут, что есть более простой способ сделать это с векторной (матричной) нотацией:

y = X b + e

$y=Xb+e$

и TTS становится:

T T S = (y - X \bar{b})^{'} (y - X \bar{b})

$TTS=(y-X\bar b)'(y-X\bar b)$

FOCs:

2 X^{'} (y - X \bar{b}) = 0

$2X'(y-X\bar b)=0$

И решение

\bar{b} = (X^{'} X)^{- 1} X^{'} y

$\bar b=(X'X)^{-1}X'y$

Если вы хорошо разбираетесь в линейной алгебре, вы будете придерживаться второго подхода, как только выучите его, потому что на самом деле это проще, чем записывать все суммы в первом подходе, особенно когда вы попадаете в многомерную статистику.

Поэтому моя аналогия состоит в том, что переход к тензорным элементам из матриц аналогичен переходу от векторов к матрицам: если вы знаете тензорные функции, некоторые вещи будут выглядеть проще.

Во-вторых, откуда взялись тензоры? Я не уверен во всей истории этой вещи, но я изучил их в теоретической механике. Конечно, у нас был курс по тензорам, но я не понимал, в чем заключались все эти причудливые способы обмена индексами в этом курсе по математике. Все это стало иметь смысл в контексте изучения сил натяжения.

Итак, в физике они также начинаются с простого примера давления, определяемого как сила на единицу площади, следовательно: Это означает, что вы можете рассчитать вектор силы , умножив давление (скалярное) на единицу площади (нормальный вектор). Это когда у нас есть только одна бесконечная плоская поверхность. В этом случае есть только одна перпендикулярная сила. Большой воздушный шар будет хорошим примером.

F = p \cdot d S

$F=p\cdot dS$

F

$F$

p

$p$

d S

$dS$

Однако, если вы изучаете натяжение внутри материалов, вы имеете дело со всеми возможными направлениями и поверхностями. В этом случае у вас есть силы на любую заданную поверхность, тянущую или толкающую во всех направлениях, не только перпендикулярных. Некоторые поверхности разрываются тангенциальными силами "вбок" и т. Д. Итак, ваше уравнение становится: Сила по-прежнему является вектором а площадь поверхности по-прежнему представлена ее нормальным вектором , но является тензором сейчас не скаляр.

F = P \cdot d S

$F=P\cdot dS$

F

$F$

d S

$dS$

P

$P$

Хорошо, скаляр и вектор тоже являются тензорами :)

Другое место, где естественным образом появляются тензоры, это ковариационные или корреляционные матрицы. Подумайте только: как однажды преобразовать матрицу корреляции в другую ? Вы понимаете, что мы не можем просто сделать это следующим образом: где потому что мы должны держать все положительными полуопределенными. $C_0$ $C_1$

C_{θ} (i, j) = C_{0} (i, j) + θ (C_{1} (i, j) - C_{0} (i, j)),

$C_\theta(i,j)=C_0(i,j)+ \theta(C_1(i,j)-C_0(i,j)),$

θ \in [0, 1]

$\theta\in[0,1]$

C_{θ}

$C_\theta$

Итак, нам нужно найти путь такой что , где - небольшое нарушение матрицы. Есть много разных путей, и мы могли бы искать самые короткие. Вот так мы попадаем в риманову геометрию, многообразия и ... тензоры. $\delta C_\theta$ $C_1=C_0+\int_\theta\delta C_\theta$ $\delta C_\theta$

ОБНОВЛЕНИЕ: что такое тензор?

@amoeba и другие ввязались в живое обсуждение значения тензора и того, является ли он массивом. Итак, я подумал, что пример в порядке.

$d_1$ $d_2$ $x_1$ $d_1$ $x_2$ $d_2$ $d_1$ $y_1=2x_1-x_2$ $d_2$ $y_2=-0.5x_1+2x_2$ $x_1=x_2=1$

$P$

 2   -1
-0.5  2

$x$

y = P x

$y=Px$

Это работает точно так же, как матричное умножение вектора.

$d_1$ $d_2$ $z_1$ $z_2$

$z_1=2$ $x_1=1$ $x_2=1$

$P$ $P$

$P$

$\bar d_1,\bar d_2$ $d_i$ $i$ $\bar d_1',\bar d_2'$ , что также является простым поворотом первой основы на 45 градусов против часовой стрелки. Это также компьютерная декомпозиция первой базы. следовательно, мы говорим, что переключение на расслоения - это просто изменение координат, и оно не должно менять расчеты. Обратите внимание, что это внешнее ограничение, которое мы наложили на модель. Это не из чистых математических свойств матриц.

$x=x_1 \bar d_1+x_2\bar d_2$

P = \sum_{i j} p_{i j} {\bar{d}}_{i} {\bar{d}}_{j}

$P=\sum_{ij}p_{ij}\bar d_i\bar d_j$

y = y_{1} {\bar{d}}_{1} + y_{2} {\bar{d}}_{2}

$y=y_1 \bar d_1+y_2 \bar d_2$

y_{i}

$y_i$

i

$i$

y = P z

$y=Pz$

z = z_{1} {\bar{d}}_{1}^{'} + z_{2} {\bar{d}}_{2}^{'}

$z=z_1 \bar d_1'+z_2\bar d_2'$

y = y_{1} {\bar{d}}_{1} + y_{2} {\bar{d}}_{2}

$y=y_1 \bar d_1+y_2 \bar d_2$

P = \sum_{i j} p_{i j}^{'} {\bar{d}}_{i}^{'} {\bar{d}}_{j}^{'}

$P=\sum_{ij}p_{ij}'\bar d_i'\bar d_j'$

P A

$PA$

{\bar{d}}^{'} = A \bar{d}

$\bar d'=A\bar d$

$x_1=x_2=1$ $z_1=0.71,z_2=0$

— Аксакал
источник

2

Я запутался здесь:

So, let's look at an example where we spend just z1=1.42 on bundle 1. In this case, the first merchant gets x1=1 dollars, and the second merchant gets the same x2=1.

раньше вы говорили, что первый пакет - это мы pay both 0.71 dollars. Таким образом, потратив 1,42 на первый пакет, вы получите 0,71, а не 1, нет?

— амеба

@ameba, идея в том, что комплект 1 - это , поэтому с комплектом 1 вы получаете , то есть 1 $ каждый

{\bar{d}}_{1} / \sqrt{2} + {\bar{d}}_{2} / \sqrt{2}

$\bar d_1/ \sqrt 2+\bar d_2/ \sqrt 2$

\sqrt{2}

$\sqrt 2$

{\bar{d}}_{1} + {\bar{d}}_{2}

$\bar d_1+\bar d_2$

— Аксакал

2

@Aksakal, я знаю, что это обсуждение довольно старое, но я тоже не понимаю (хотя я действительно пытался). Откуда эта идея о том, что комплект 1 - это ? Не могли бы вы уточнить? Как это, когда вы платите 1,42 за связку, оба торговца получают 1?

{\bar{d}}_{1} / \sqrt{2} + {\bar{d}}_{2} / \sqrt{2}

$\bar d_1/ \sqrt 2+\bar d_2/ \sqrt 2$

— Матек

@Aksakal Это здорово, спасибо! Я думаю, что у вас есть опечатка в последней строке, где вы говорите, x1 = x2 = 1 (правильно) и z1 = 0,71, z2 = 0. Предполагая, что я все правильно понял, z1 должно быть 1,42 (или 1,41, что немного ближе до 2 ^ 0,5).

— Майк Уильямсон

71

Это не ответ на ваш вопрос, а расширенный комментарий к проблеме, который был поднят здесь в комментариях разных людей, а именно: являются ли «тензоры» машинного обучения тем же, что и тензоры в математике?

Теперь, согласно Cichoki 2014, эпоха обработки больших данных: новый подход через тензорные сети и тензорные разложения , Cichoki et al. 2014, Тензорные разложения для приложений обработки сигналов ,

Тензор более высокого порядка может быть интерпретирован как множественный массив, [...]

Тензор можно рассматривать как многоиндексный числовой массив, [...]

Тензоры (т. Е. Многоходовые массивы) [...]

Таким образом, в машинном обучении / обработке данных тензор выглядит просто как многомерный числовой массив. Примером такого трехмерного тензора может быть видеокадров размером . Обычная матрица данных является примером двумерного тензора согласно этому определению. $1000$ $640\times 480$ $n\times p$

Это не то, как тензоры определены в математике и физике!

Тензор может быть определен как многомерный массив, подчиняющийся определенным законам преобразования при смене координат ( см. Википедию или первое предложение в статье MathWorld ). Лучшее, но эквивалентное определение ( см. Википедия ) говорит, что тензор в векторном пространстве является элементом . Обратите внимание , что это означает , что, когда представлен в виде многомерных массивов, тензоры имеют размер или и т.д., где имеет размерность . $V$ $V\otimes\ldots\otimes V^*$ $p\times p$ $p\times p\times p$ $p$ $V$

Все известные в физике тензоры таковы: тензор инерции в механике равен , электромагнитный тензор в специальной теории относительности равен , тензор кривизны Римана в общей теории относительности равен . Кривизна и электромагнитные тензоры фактически тензорные поля, которые сечения тензорных расслоений (см , например , здесь , но он получает техническим), но все это определяется через векторное пространство . $3\times 3$ $4\times 4$ $4\times 4\times 4\times 4$ $V$

Конечно, можно построить тензорное произведение из -мерного и -мерного но его элементы обычно не называют "тензорными", как указано, например, здесь, в Википедии : $V\otimes W$ $p$ $V$ $q$ $W$

В принципе, можно определить «тензор» просто как элемент любого тензорного произведения. Однако математическая литература обычно резервирует термин тензор для элемента тензорного произведения одного векторного пространства и его двойственного, как указано выше. $V$

Одним из примеров реального тензора в статистике была бы ковариационная матрица. Это и преобразуется определенным образом, когда система координат в мерном пространстве признаков изменяется. Это тензор. Но a матрицы данных - нет. $p\times p$ $p$ $V$ $n\times p$ $X$

Но можем ли мы , по крайней мере , думать как элемент тензорного произведения , где является - мерным и является - мерным? Для конкретности, пусть строки в соответствуют людям (субъектам), а столбцы - некоторым измерениям (особенностям). Изменение координат в соответствует линейному преобразованию объектов, и это все время делается в статистике (подумайте о PCA). Но изменение координат в , похоже, не соответствует чему-то значимому (и я призываю всех, у кого есть контрпример, сообщить мне об этом в комментариях) $X$ $W\otimes V$ $W$ $n$ $V$ $p$ $X$ $V$ $W$ , Так что это не кажется , что есть что - то получили, рассматривая как элемент . $X$ $W\otimes V$

И действительно, общее обозначение , чтобы написать , где является множество всех матриц (которые, кстати, являются определяется как прямоугольные массивы чисел, без каких-либо предполагаемых свойств преобразования). $X\in\mathbb R^{n\times p}$ $R^{n\times p}$ $n\times p$

Мой вывод таков: (а) тензоры машинного обучения не являются тензорами математики / физики, и (б) в большинстве случаев их также бесполезно рассматривать как элементы тензорных произведений.

Вместо этого они являются многомерными обобщениями матриц. К сожалению, не существует установленного математического термина для этого, поэтому кажется, что это новое значение термина «тензор» уже здесь, чтобы остаться.

— амеба
источник

19

Я чистый математик, и это очень хороший ответ. В частности, пример ковариационной матрицы является отличным способом понять «свойства преобразования» или «симметрии», которые, казалось, вызывали путаницу выше. Если вы измените координаты в вашем мерном пространстве признаков, ковариационная матрица преобразуется определенным и, возможно, неожиданным образом; если бы вы сделали более наивную трансформацию в ваших ковариациях, вы бы получили неверные результаты.

p

$p$

— Том Черч

10

Спасибо, @Tom, я ценю, что вы зарегистрировались на CrossValidated, чтобы оставить этот комментарий. Прошло много времени с тех пор, как я изучал дифференциальную геометрию, поэтому я рад, если кто-то подтвердит то, что я написал. Жаль, что в математике не существует установленного термина для «многомерных матриц»; кажется, что термин «тензор» будет использоваться в сообществе машинного обучения как термин для этого. Как вы думаете, лучше это назвать? Лучшее, что приходит мне в голову - это матрицы (например, матрица для обозначения видеообъекта), несколько аналогично -категориям.

n

$n$

3

$3$

n

$n$

— амеба

4

@amoeba, при программировании многомерных матриц обычно называют массивами , но некоторые языки, такие как MATLAB, называют их матрицами . Например, в Фортране массивы могут иметь более двух измерений. В таких языках, как C / C ++ / Java, массивы являются одномерными, но у вас могут быть массивы массивов, что делает их работающими как многомерные массивы. MATLAB поддерживает 3 или более размерных массивов в синтаксисе.

— Аксакал

3

Это очень интересно. Я надеюсь, что вы подчеркнете этот момент. Но, пожалуйста, позаботьтесь о том, чтобы не перепутать множество с векторным пространством, которое оно определяет, потому что это различие важно в статистике. В частности (чтобы взять один из ваших примеров), хотя линейная комбинация людей не имеет смысла, линейная комбинация функций с реальными значениями для множества людей является и значимой, и важной. Это ключ к решению линейной регрессии, например.

— whuber

8

Пер Т. Колда, Б., Бада, «Тензорные разложения и приложения» SIAM Review 2009, epubs.siam.org/doi/pdf/10.1137/07070111X 'Тензор - это многомерный массив. Более формально, тензор N-го или N-го порядка является элементом тензорного произведения N векторных пространств, каждое из которых имеет свою собственную систему координат. Это понятие тензоров не следует путать с тензорами в физике и технике (такими как тензоры напряжений), которые в математике обычно называют тензорными полями "

— Марк Л. Стоун,

14

Как человек, который изучает и строит нейронные сети и неоднократно задавал этот вопрос, я пришел к выводу, что мы заимствуем полезные аспекты тензорной нотации просто потому, что они значительно упрощают деривацию и сохраняют наши градиенты в их исходной форме. Цепное правило тензора является одним из самых элегантных инструментов деривации я когда - либо видел. Дальнейшие тензорные нотации поощряют вычислительно эффективные упрощения, которые просто кошмарно найти при использовании распространенных расширенных версий векторного исчисления.

В векторе / матричном исчислении , например , существует 4 типа матричных продуктов (Адамар, Кронекер, Обыкновенного и поэлементны) , но в тензорном исчислении есть только один тип умножения пока она охватывает все матричные умножений и многих другие. Если вы хотите быть щедрым, интерпретируйте тензор как многомерный массив, для которого мы намерены использовать тензорное исчисление, чтобы найти производные, а не то, что объекты, которыми мы манипулируем, являются тензорами .

Честно говоря, мы, вероятно, называем наши многомерные массивы тензорами, потому что большинство экспертов по машинному обучению не очень заботятся о соблюдении определений математики или физики высокого уровня. Реальность мы просто заимствование хорошо развитые конвенции Эйнштейна о суммировании и конкрементов , которые обычно используются при описании тензоры и не хотим сказать , исчисление на основе Эйнштейна суммирования конвенционного снова и снова. Возможно, однажды мы могли бы разработать новый набор нотаций и соглашений, которые крадут только то, что им нужно, из тензорного исчисления специально для анализа нейронных сетей, но в качестве молодой области, которая требует времени.

— James Ryland
источник

Пожалуйста, зарегистрируйте и / или объедините свои учетные записи (информацию о том, как это сделать, вы можете найти в разделе « Моя учетная запись » нашего справочного центра ), тогда вы сможете редактировать и комментировать свои собственные ответы.

— Кун

10

Теперь я на самом деле согласен с большинством других ответов. Но я собираюсь сыграть адвоката Дьявола в одном пункте. Опять же, это будет свободным течением, поэтому извинения ...

Google объявил о программе Tensor Flow для глубокого изучения. Это заставило меня задуматься о том, что было «тензорным» в отношении глубокого обучения, поскольку я не мог установить связь с определениями, которые видел.

$i$ $y$

$y_i = \sigma(\beta_i^j x_j)$

Теперь идея состоит в том, чтобы связать воедино кучу таких преобразований, чтобы получить полезное представление исходных координат. Так, например, после последнего преобразования изображения простая логистическая регрессия даст превосходную точность классификации; тогда как на необработанном изображении это определенно не будет.

Теперь, вещь, которая, кажется, была потеряна из виду, это свойства инвариантности, которые ищутся в правильном тензоре. Особенно когда размеры преобразованных переменных могут отличаться от слоя к слою. [Например, некоторые вещи, которые я видел в тензорах, не имеют смысла для неквадратичных якобианов - возможно, мне не хватает некоторых методов]

Что было сохранено, так это понятие преобразований переменных, и что некоторые представления вектора могут быть более полезными, чем другие, для конкретных задач. Аналогия в том, имеет ли смысл решать проблему в декартовых или полярных координатах.

РЕДАКТИРОВАТЬ в ответ на @Aksakal:

Вектор не может быть полностью сохранен из-за изменения количества координат. Однако, в некотором смысле, по меньшей мере, полезная информация может быть сохранена при преобразовании. Например, с помощью PCA мы можем отбросить координату, поэтому мы не можем инвертировать преобразование, но, тем не менее, уменьшение размерности может быть полезным. Если бы все последующие преобразования были обратимыми, вы могли бы вернуться обратно от предпоследнего слоя к входному пространству. На самом деле, я видел только вероятностные модели, которые позволяют это (RBM) путем выборки.

— гипотезы
источник

1

В контексте нейронных сетей я всегда предполагал, что тензоры действуют как многомерные массивы. Можете ли вы рассказать, как свойства инвариантности способствуют классификации / представлению?

— YS

Может быть, я не был ясно выше, но мне кажется - если интерпретация верна - цель инвариантных свойств была отброшена. То, что, кажется, было сохранено, является идеей переменных преобразований.

— предположения

\bar{r}

$\bar r$

но разве это не свойство преобразования больше, чем тензор? По крайней мере, с линейными и поэлементными преобразованиями типов, которые кажутся более популярными в нейронных сетях, они одинаково присутствуют с векторами и матрицами; Каковы дополнительные преимущества тензоров?

— YS

1

@conjectures, PCA - это просто ротация и проекция. Это как вращение N-мерного пространства на ПК, затем проецирование в подпространство. Тензоры используются в подобных ситуациях в физике, например, при взгляде на силы на поверхностях внутри тел и т. Д.

— Аксакал

7

Вот слегка отредактированный (для контекста) отрывок из неотрицательного факторизации тензора с приложениями к статистике и компьютерному зрению, А. Шашуа и Т. Хазан, который дает понять, почему, по крайней мере, некоторые люди очарованы тензорами.

Любая n-мерная задача может быть представлена в двухмерной форме путем объединения измерений. Так, например, проблема нахождения неотрицательного разложения низкого ранга набора изображений - это 3-NTF (неотрицательная тензорная факторизация), при этом изображения образуют срезы трехмерного куба, но также могут быть представлены как проблема NMF (неотрицательная матричная факторизация) путем векторизации изображений (изображений, образующих столбцы матрицы).

Есть две причины, по которым матричное представление коллекции изображений не подходит:

Пространственная избыточность (пиксели, не обязательно соседние, имеющие сходные значения) теряется при векторизации, поэтому следует ожидать менее эффективной факторизации, и

Разложение NMF не является уникальным, поэтому, даже если существует порождающая модель (локальных частей), NMF не обязательно будет двигаться в этом направлении, что было проверено эмпирически Чу М., Дилем Ф., Племмонсом Р., & Ragni, S. "Оптимальность, вычисление и интерпретация неотрицательных матричных факторизаций" SIAM Journal of Matrix Analysis, 2004. Например, инвариантные части в наборе изображений будут иметь тенденцию образовывать призраки во всех факторах и загрязнять эффект разреженности. NTF почти всегда уникален, поэтому мы ожидаем, что схема NTF будет двигаться в направлении генеративной модели и, в частности, не подвергаться влиянию инвариантных частей.

— Марк Л. Стоун
источник

6

[EDIT] Только что обнаружил книгу Питера МакКаллага, Тензорные методы в статистике .

Тензорные элементы проявляют свойства интереса при неизвестной идентификации смеси в сигнале (или изображении), особенно вокруг понятия тензорного разложения канонической полиады (CP), см., Например, Tensors: краткое введение , P. Comon, 2014. Поле известно под названием «слепое разделение источников (BSS)»:

Тензорные разложения лежат в основе многих алгоритмов слепого разделения источников (BSS), явно или неявно. В частности, тензорное разложение канонической полиады (СР) играет центральную роль в идентификации недоопределенных смесей. Несмотря на некоторые сходства, CP и разложение по сингулярным числам (SVD) весьма различны. В более общем смысле тензоры и матрицы обладают различными свойствами, как указано в этом кратком введении.

Недавно были получены некоторые результаты единственности для тензоров третьего порядка: О единственности канонического полиадического разложения тензоров третьего порядка ( часть 1 , часть 2 ), I. Domanov et al. , 2013.

Тензорные разложения являются узлами, часто связанными с разреженными разложениями, например, путем наложения структуры на факторы разложения (ортогональность, Вандермонде, Ханкель) и низкий ранг, чтобы приспособиться к неединственности.

В связи с растущей потребностью в неполном анализе данных и определении сложных измерений из массивов датчиков все больше используются тензоры для пополнения матрицы, анализа скрытых переменных и разделения источников.

Дополнительное примечание: очевидно, каноническое разложение полиадий также эквивалентно разложению Вэринга однородного многочлена в виде суммы степеней линейных форм, с приложениями для идентификации системы (блочно-структурированные, параллельные модели Винера-Гаммерштейна или нелинейные модели пространства состояний).

— Лоран Дюваль
источник

3

Позвольте мне порекомендовать мою книгу: Kroonenberg, PM Applied Multiway Data Analysis и Smilde et al. Многосторонний анализ. Приложения в области химических наук (оба Wiley). Также может быть интересна моя статья: Kroonenberg, PM (2014). История многокомпонентного анализа компонентов и трехстороннего анализа соответствия. В Blasius, J. и Greenacre, MJ (Eds.). Визуализация и вербализация данных (стр. 77–94). Нью-Йорк: Чепмен и Холл / CRC. ISBN 9781466589803.

Эти ссылки говорят о многопользовательских данных, а не о тензорах, но относятся к той же области исследований.

— Премьер-министр Крооненберг
источник

-1

Это правда, что люди в машинном обучении не рассматривают тензоры с той же тщательностью, что и математики и врачи. Вот статья, которая может прояснить это несоответствие: Comon P., «Tensors: краткое введение» IEEE Sig. Proc. Журнал , 31 мая 2014

— Moun
источник

5

Является ли различие между тензором в математике / физике и тензором в машинном обучении действительно одним из «забот»? Кажется, что люди, обучающиеся машинному обучению, используют «тензор» в качестве общего термина для массивов чисел (скаляр, вектор, матрица и массивы с 3 или более осями, например, в TensorFlow), тогда как «тензор» в контексте математики / физики имеет другой смысл. Я полагаю, что вопрос о «заботе» состоит в том, чтобы неверно охарактеризовать использование как «неправильное» в способности машинного обучения, когда на самом деле контекст машинного обучения не имеет намерения точно копировать математическое / физическое использование.

— Sycorax