@Glen_b прав насчет характера предположения о нормальности в регрессии 1 .
Я думаю, что вашей большей проблемой будет то, что у вас недостаточно данных для поддержки 4-5 объясняющих переменных. Стандартное правило 2 заключается в том, что на каждую объясняющую переменную должно быть не менее 10 данных, то есть 40 или 50 данных в вашем случае (и это для идеальных ситуаций, когда нет никаких сомнений относительно предположений). Потому что ваша модель не будет полностью насыщена 3(у вас есть больше данных, чем параметров для подгонки), вы можете получить оценки параметров (уклон и т. д.), и в идеальных условиях оценки асимптотически несмещены. Однако вполне вероятно, что ваши оценки будут далеки от истинных значений, а ваши SE / CI будут очень большими, поэтому у вас не будет статистической силы. Обратите внимание, что использование непараметрического или другого альтернативного регрессионного анализа не избавит вас от этой проблемы.
Здесь вам нужно либо выбрать одну объясняющую переменную (прежде чем просматривать ваши данные!) На основе предыдущих теорий в вашей области или ваших догадок, либо вы должны объединить свои объясняющие переменные. Разумная стратегия для последнего варианта - запустить анализ основных компонентов (PCA) и использовать первый основной компонент в качестве пояснительной переменной.
Ссылки:
1. Что делать, если остатки нормально распределены, а Y нет?
2. Практические правила для минимального размера выборки для множественной регрессии.
3. Максимальное количество независимых переменных, которые можно ввести в уравнение множественной регрессии.