Действительно ли мы проводим многомерный регрессионный анализ с * миллионами * коэффициентов / независимых переменных?

Я провожу некоторое время, изучая машинное обучение (извините за рекурсию :), и я не мог не заинтриговать эмпирическое правило выбора градиентного спуска вместо прямого решения уравнений для вычисления коэффициентов регрессии, в случае многомерной линейной регрессии.

$10,000 - 1,000,000$

В вычислительном отношении, я получаю компромисс / ограничения. Но с точки зрения статистики мы действительно вычисляем модели с таким количеством коэффициентов? Если я помню свои многомерные классы линейной регрессии в аспирантуре, нас предостерегали от использования слишком большого количества независимых переменных, поскольку они могут оказать очень незначительное влияние на зависимую переменную, или их распределение не будет соответствовать предположениям, которые мы делаем относительно данных. Даже если бы я действительно расширил свой кругозор, чтобы подумать «много капельниц», я все равно не подумал бы о миллионах .

Вопросов):

Это действительно происходит или это теоретическая проблема?
Какой смысл анализировать миллионы капельниц? Действительно ли это дает нам такой значительный прирост ценности информации, в отличие от игнорирования их?
Или это потому, что изначально мы понятия не имеем, что полезно, поэтому мы просто запускаем чертову регрессию, чтобы посмотреть, что полезно, и оттуда и, возможно, обрезать набор IV?

Я все еще верю, что только то, что мы можем анализировать «все», на самом деле не означает, что мы должны бросить это в решатель (или делает это), и некоторые из моих прошлых вопросов отражают подобные POV.

Я еще не закончила курс и, возможно, скоро задам вопрос, но я просто не могу понять это «Почему» из моей головы и пытаюсь понять это в меру своих возможностей.

machine-learning multiple-regression large-data

— кандидат наук
источник

Это действительно происходит или это теоретическая проблема?

Это происходит, посмотрите любую популярную модель глубокого обучения для компьютерного зрения. Скажем, у alexnet плотная связь между 2048 и 2048 единицами, это 4 миллиона коэффициентов.

Какой смысл анализировать миллионы капельниц? Действительно ли это дает нам такой значительный прирост ценности информации, в отличие от игнорирования их?

Если вы анализируете очень категоричные данные (скажем, данные интернет-рекламы ), ваша модель должна содержать несколько значимых «описаний» для каждой категории (например, город, идентификатор страницы, имя сайта, идентификатор рекламы, идентификатор пользователя и т. Д.), Фактических данных. Размер «описания» зависит от выбранной модели ML.

Даже простая логистическая регрессия будет иметь десятки тысяч параметров (один на категорию). Более продвинутые модели, такие как машины для факторизации, будут иметь в разы больше.

Или это потому, что изначально мы понятия не имеем, что полезно, поэтому мы просто запускаем чертову регрессию, чтобы посмотреть, что полезно, и оттуда и, возможно, обрезать набор IV?

На самом деле, большинство подходящих параметров в этих моделях можно отбросить, но вы не можете знать об этом заранее, поэтому вы оставляете проблему определения, какие параметры важны для машинного обучения, и вводите некоторые регуляризации, чтобы установить «мягкий предел» для эффективного числа. параметров, чтобы остаться.

... и я думаю, что вы найдете такие примеры позже в вашем курсе ML.

— Alleo
источник