У меня есть данные вина из здесь , который состоит из 11 числовых независимых переменных с зависимой рейтинг , связанной с каждой записью со значениями от 0 до 10. Это делает его отличный набор данные , чтобы использовать регрессионную модель для изучения взаимосвязи между переменными и ассоциированным рейтинг. Однако будет ли целесообразной линейная регрессия или лучше использовать полиномиальную / упорядоченную логистическую регрессию?
Логистическая регрессия кажется лучше для конкретных категорий, то есть не для непрерывной зависимой переменной, но (1) есть 11 категорий (слишком много?) И (2) при проверке, есть данные только для 6-7 из этих категорий, т.е. 5-4 категории не имеют примеров в наборе данных.
С другой стороны, линейная регрессия должна линейно оценивать рейтинг от 0 до 10, что кажется ближе к тому, что я пытаюсь выяснить; тем не менее, зависимая переменная не является непрерывной в наборе данных.
Какой подход лучше? Примечание: я использую R для анализа
Отредактируйте, обращаясь к некоторым пунктам, упомянутым в ответах:
- Нет никакой деловой цели, поскольку это фактически для университетского курса. Задача состоит в том, чтобы проанализировать набор данных по своему выбору.
- Распределение рейтингов выглядит нормально (гистограмма / qq-plot). Фактические значения в наборе данных находятся между 3-8 (хотя технически 0-10).