Зачем изучать линейную регрессию?


13

Учитывая две случайные величины ξ и η мы можем вычислить их «коэффициент корреляции» c и сформировать линию наилучшего соответствия между этими двумя случайными переменными. У меня вопрос почему?

1) Существуют случайные величины, ξ и η которые зависят наихудшим образом, т. ξ=f(η) и, несмотря на это, c=0 . Если человек мыслит только по линейной регрессии, он был бы полностью ослеплен.

2) Почему именно линейный? Существуют и другие виды отношений, которые могут существовать между случайными переменными. Почему этот один из всех других?


18
Это немного похоже на вопрос, почему у вас есть отвертка, когда иногда вы сталкиваетесь с гвоздями.
Sycorax говорит восстановить Монику

6
Вы также, похоже, исходите из предположения, что есть люди, которые заботятся только о линейной регрессии: «Если кто-то думает только о линейной регрессии», «Зачем выделять это из всех остальных ». Мне кажется, что это глупец, конечно, смешно придерживаться одного и только одного инструмента или перспективы.
Мэтью Друри

7
Линейное «конкретно» на самом деле больше о линейных комбинациях базисных функций , которые на самом деле довольно общие.
GeoMatt22

2
@MatthewDrury Там нет сторновки, и я ничего не предполагаю, я просто задаю вопрос, используя патологический крайний случай мышления, чтобы проиллюстрировать слабое место в методе. Почему вы предполагаете, что я так предполагаю? Регрессия - очень большая тема для статистиков. Я не понимаю, что в этом такого особенного, что его так много изучают.
Николас Бурбаки

8
Для тех, кто серьезно задумывается над этим вопросом: я думаю, что вы забыли, когда впервые узнали о линейной регрессии, и вам сказали, что «одно из предположений - это линейный эффект». Вы подумали про себя «но эффект никогда не бывает линейным!». Весьма вероятно, что после долгих размышлений вы убедились, что, несмотря на это, линейная регрессия все еще является фундаментальным инструментом, который нужно понимать и использовать. Теперь просто вернитесь назад, прежде чем закончите размышления. Я думаю, что это отличный вопрос, что каждый студент, изучающий статистику, должен уделять много времени обдумыванию.
Клифф А.Б.

Ответы:


10

Я согласен, что не все отношения являются линейными сами по себе, но довольно много отношений могут быть линейно аппроксимированы. Мы видели много таких случаев в математике, таких как ряд Тейлора или ряд Фурье и т. Д. Ключевым моментом здесь является то, как сказал в комментарии geomatt22, вы можете в общем случае преобразовать нелинейные данные и применить какое-то преобразование с помощью базисных функций и линеаризовать отношения. Причина, по которой университеты рассматривают только «модели множественной линейной регрессии» (включая простые модели регрессии), заключается в том, что они являются строительным материалом для моделей более продвинутого уровня, которые также являются линейными.

С математической точки зрения, до тех пор, пока вы можете доказать, что определенное линейное приближение плотно в гильбертовом пространстве, вы сможете использовать это приближение для представления функции в этом пространстве.


2
Точно. Никто другой не упомянул об этом, но, как говорится в этом ответе, в общем, вы всегда можете применить преобразование к вашим переменным для линеаризации отношений. Кроме того: а) легко найти глобальные максимумы для линейных регрессий и б) многие другие модели, включая нейронные сети, легче понять, если вы знаете логистические регрессии, основанные на линейных регрессиях.
Рикардо Крус,

7

Модель, на которую вы ссылаетесь, простая линейная регрессия, или «линия наилучшего соответствия» (здесь я путаю модель и метод оценки), по общему признанию, очень проста (как следует из названия). Зачем это изучать? Я вижу много причин. Далее я предполагаю, что понятие случайной величины было введено, по крайней мере, неофициально, потому что вы упомянули это в своем вопросе.

  1. педагогическийКонечно, для вас очевидно, что вещественные случайные величины с конечными моментами второго порядка образуют гильбертово пространство. Возможно, это было уже очевидно, когда вы впервые изучали теорию вероятностей. Но статистика преподается не только учащимся по математике: более широкая публика - от физики до экономики, компьютерных наук, социальных наук и т. Д. Эти студенты могут столкнуться со статистикой в ​​начале своего обучения. Они могли или не могли быть подвергнуты линейной алгебре, и даже в первом случае, они, возможно, не видели это с более абстрактной точки зрения математического курса. Для этих студентов сама концепция приближения случайной величины другой случайной величиной не столь актуальна. Даже основное свойство простой линейной модели, т. Е. Тот факт, что ошибка и предиктор являются ортогональными случайными величинами, иногда удивляет их. Тот факт, что вы можете определить «угол» между случайными переменными («мерзкие» объекты! Измеримые функции из вероятностного пространства в измеримое пространство) может быть очевиден для вас, но не обязательно для новичка. Таким образом, если изучение векторных пространств начинается с хорошей евклидовой плоскости, разве не имеет смысла начинать изучение статистических моделей с самой простой?
  2. ξ=β0+i=1Nβiηi+ϵξ=i=0Nβiϕ(ηi)+ϵ
  3. практично : существует множество успешных применений простой линейной регрессии. Закон Оукена в экономике, закон Гука , закон Ома и закон Чарльза в физике, отношения между кровью систолического давления и возраста в медицине (я понятия не имею , если у него есть имя!) Являются примерами простой линейной регрессии, с разной степенью точность.

5

Еще одной причиной является прекрасным способом регрессии дает унифицированную обработку методов , таких как ANOVA. Мне обычное «элементарное» лечение ANOVA кажется довольно неясным, но основанное на регрессии лечение совершенно ясно. Я подозреваю, что это во многом связано с тем, как регрессионные модели делают явные предположения о том, что в «элементарных» методах они молчаливы и не исследованы. Кроме того, концептуальная ясность, предлагаемая такой объединяющей перспективой, сопровождается аналогичными практическими преимуществами, когда приходит время внедрять методы в статистическом программном обеспечении.

Этот принцип применим не только к ANOVA, но и к таким расширениям, как ограниченные кубические сплайны, что в первую очередь относится к вашему второму вопросу.


3

Популярность линейной регрессии отчасти объясняется ее интерпретируемостью, то есть нетехнические люди могут понять коэффициенты параметра с небольшим объяснением. Это добавляет большую ценность в бизнес-ситуациях, когда конечные пользователи результатов или прогнозов могут не иметь глубокого понимания математики / статистики.

Да, у этого метода есть свои предположения и ограничения (как и у всех подходов), и во многих случаях он может не обеспечивать наилучшего соответствия. Но линейная регрессия очень устойчива и часто может работать довольно хорошо, даже если допущения нарушены.

По этим причинам, безусловно, стоит учиться.


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.