Я пытаюсь использовать модель для оценки того, насколько катастрофические заболевания, такие как туберкулез, СПИД и т. Д., Влияют на расходы на госпитализацию. У меня есть «стоимость госпитализации» в качестве зависимой переменной и различные индивидуальные маркеры в качестве независимых переменных, почти все из которых являются фиктивными, такими как пол, глава семьи, статус бедности и, конечно же, фиктивные данные о том, есть ли у вас болезнь (плюс возраст и возраст в квадрате) и куча терминов взаимодействия.
Как и следовало ожидать, существует значительное количество - и я имею в виду много - данных, накопленных в ноль (т. Е. Никаких расходов на госпитализацию за 12-месячный отчетный период). Как лучше всего справляться с такими данными?
На данный момент я решил преобразовать стоимость в ln(1+cost)
так, чтобы включить все наблюдения, а затем запустить линейную модель. Я на правильном пути?