Минимальное количество наблюдений для множественной линейной регрессии

Я делаю множественную линейную регрессию. У меня 21 наблюдение и 5 переменных. Моя цель просто найти связь между переменными

Достаточно ли моих данных для множественной регрессии?
Результат t-теста показал, что 3 мои переменные не являются значимыми. Нужно ли мне снова проводить регрессию со значимыми переменными (или моей первой регрессии достаточно, чтобы получить заключение)? Моя корреляционная матрица следующая
```
       var 1   var 2    var 3   var 4   var 5     Y
var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
```

var 1 и var 2 являются переменными продолжения, а var 3 - 5 являются категориальными переменными, а y - моя зависимая переменная.

Следует упомянуть, что важная переменная, которая рассматривалась в литературе как наиболее влиятельный фактор для моей зависимой переменной, также не входит в число моих регрессионных переменных из-за ограниченности моих данных. Имеет ли смысл регрессировать без этой важной переменной?

вот мой доверительный интервал

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

regression t-test multiple-regression

— Роза
источник

Ответы:

Общее эмпирическое правило (основанное на материалах из книги Фрэнка Харрелла « Стратегии регрессионного моделирования» ) заключается в том, что если вы ожидаете, что сможете обнаружить эффекты разумного размера с разумной мощностью , вам потребуется 10-20 наблюдений на каждый оцененный параметр (ковариат). Харрелл обсуждает множество вариантов «уменьшения размеров» (сокращение числа ковариат до более разумного размера), таких как PCA, но самое главное, чтобы иметь какую-то уверенность в сокращении измерения результатов, необходимо сделать не глядя на переменную ответа . Повторное выполнение регрессии только с существенными переменными, как вы предлагаете выше, почти во всех случаях является плохой идеей.

Однако, поскольку вы застряли с набором данных и набором ковариат, которые вас интересуют, я не думаю, что выполнение множественной регрессии таким образом по своей сути неверно. Я думаю, что лучше всего было бы принять результаты такими, какие они есть, из полной модели (не забудьте взглянуть на точечные оценки и доверительные интервалы, чтобы увидеть, оцениваются ли существенные эффекты как "большие" в некоторых реальных мировоззрение и то, действительно ли незначительные эффекты оцениваются как меньшие, чем значимые эффекты или нет).

Относительно того, имеет ли смысл проводить анализ без предиктора, который ваша область считает важным: я не знаю. Это зависит от того, какие выводы вы хотите сделать на основе модели. В узком смысле регрессионная модель все еще четко определена («каково предельное влияние этих предикторов на этот ответ?»), Но кто-то в вашей области может совершенно справедливо сказать, что анализ просто не имеет смысла. Было бы немного полезно, если бы вы знали, что ваши предикторы не связаны с общеизвестным предиктором (каким бы он ни был) или этот хорошо известный предиктор является постоянным или почти постоянным для ваших данных: тогда, по крайней мере, вы могли бы сказать, что что-то кроме хорошо известного предиктора действительно влияет на ответ.

— Бен Болкер
источник

Спасибо за комментарий, но я не понимаю, в чем смысл проверки доверительного интервала?

— вырос

Поскольку Бен отвечал за Фрэнка, я отвечу за Бена, и он может поправить меня, если он задумал что-то еще. Бен предлагает просто использовать полную модель. Тогда, по крайней мере, вы знаете, что не пропустили важную переменную из набора 5. Проблема переобучения может повредить прогнозированию, но, по крайней мере, у вас есть доверительные интервалы для параметров, и вы можете получить доверительные интервалы для прогнозирования. Я думаю, что это будет работать нормально, если у вас есть проблема коллинеарности, и доверительные интервалы параметров

— сообщают,

Если в модели все еще отсутствуют важные переменные, прогноз может быть не очень хорошим, и оценка точности прогнозирования на основе данных может быть неправильной. Беспокоитесь о неправильной спецификации модели и всегда проверяйте остатки. Фрэнк Харрелл является активным участником этого сайта. Поэтому я надеюсь, что этот вопрос привлечет его внимание, и тогда мы сможем услышать его напрямую.

— Майкл Р. Черник

Вы всегда можете пропустить важные переменные, и вы никогда не узнаете ... Я предложил взглянуть на доверительные интервалы, потому что простой вопрос, является ли переменная значимой при или нет, теряет много информации. Одним из сценариев может быть то, что все ваши параметры имеют примерно одинаковую оценочную величину эффекта, но их неопределенности варьируются, так что некоторые из них значительны, а другие нет. Вы определенно не хотите заключать в этом случае, что «переменные A и B важны, переменные C, D и E не важны». ИК предоставит вам эту информацию.

p < 0.05

$p<0.05$

— Бен Болкер

Из обсуждений я думаю, что из-за отсутствия достаточного количества наблюдений и отсутствия наиболее важной независимой переменной в моем наборе данных я должен сделать вывод: 1-Значимые переменные не являются той переменной, которая прошла t-тест. Значимым является тот, который проходит t-тест, и его доверительный интервал не включает 0. 2-Нормальность невязки должна быть проверена. 3-Корреляционная матрица должна быть проверена.

— вырос

Ответ на общий вопрос заключается в том, что он зависит от многих факторов, основными из которых являются (1) число ковариат (2) дисперсия оценок и невязок. С небольшой выборкой у вас недостаточно сил, чтобы обнаружить разницу от 0. Поэтому я бы посмотрел на оценочную дисперсию параметров регрессии. Из моего опыта с регрессией 21 наблюдений с 5 переменными недостаточно для исключения переменных. Так что я не буду так быстро выбрасывать переменные и не слишком увлекаться теми, которые кажутся значительными. Лучший ответ - подождать, пока у вас будет намного больше данных. Иногда это легко сказать, но трудно сделать. Я бы посмотрел на ступенчатую регрессию, прямую и обратную регрессию, чтобы посмотреть, какие переменные выбраны. Если ковариаты сильно коррелированы, это может показать очень разные наборы переменных, которые будут выбраны. Начните процедуру выбора модели, поскольку она покажет чувствительность выбора переменных к изменениям данных. Вы должны рассчитать матрицу корреляции для ковариат. Может быть, Фрэнк Харрелл вмешается в это. Он настоящий эксперт по выбору переменных. Я думаю, что он по крайней мере согласится со мной, что вы не должны выбирать окончательную модель, основанную исключительно на этих 21 точках данных.

— Майкл Р. Черник
источник

Спасибо за ваше предложение. Я добавил свою матрицу корреляции. Считаете ли вы, что с помощью этой корреляционной матрицы целесообразно проводить регрессию? Просто подчеркните, что я не могу собрать больше данных, а также я не хочу моделировать или предсказывать. Просто я хочу найти любую возможную связь между независимыми переменными и зависимой переменной.

— вырос

Матрица корреляции поможет вам понять коллинеарность. Оценки, вероятно, будут иметь большое расхождение, и поэтому статистическая значимость не должна быть в центре внимания. Ypu может посмотреть на регрессионную диагностику коллинеарности. Это может помочь. Но я бы порекомендовал взглянуть на различные модели подмножеств, чтобы увидеть, как изменяется подбор и какие комбинации переменных, кажется, хорошо и плохо. Я действительно думаю, что начальная загрузка данных покажет вам кое-что о стабильности выбора предикторов.

— Майкл Р. Черник

Но ничто не восполнит недостаток данных. Я думаю, вы просто хотите посмотреть, есть ли одна или две переменные, которые, кажется, стоят на голову выше остальных. Но вы можете ничего не найти.

— Майкл Р. Черник

Что именно мы подразумеваем под ковариатами? Скажем, у нас есть некоторая предикторная переменная , а, скажем, считается отдельной ковариацией? Как насчет , и т. Д. Поскольку существует некоторая корреляция между этими предикторами, предположительно их оценочные коэффициенты «стоят» менее 1 степени свободы. А как насчет, скажем, сплайнов регрессии или другой локальной регрессии: нужно ли учитывать тот факт, что при построении компонентов используется только подмножество наблюдений? И если мы используем ядро для применения весов к предикторам, влияет ли это на эффективное число используемых наблюдений?

x

$x$

x^{2}

$x^2$

x^{3}

$x^3$

x^{4}

$x^4$

— Смущен