Я хотел бы оценить несколько различных моделей, которые обеспечивают предсказания поведения на ежемесячном уровне. Данные сбалансированы, и 100 000 и T = 12. В результате посещение концерта происходит в определенном месяце, поэтому оно равно нулю для ~ 80% людей в любом месяце, но есть длинный правый хвост для активных пользователей. Предсказания, которые у меня есть, похоже, не учитывают счетную природу результата: преобладают дробные концерты.
Я ничего не знаю о моделях. Я только наблюдать 6 различных предсказаний черного ящика у 1 , . , , , У 6 для каждого человека в месяц. У меня есть дополнительный год данных, которые не были у создателей моделей для оценки (хотя участники концерта остаются прежними), и я хотел бы оценить, где каждый из них работает хорошо (с точки зрения точности и точности). Например, может ли какая-то модель хорошо предсказать для часто посещающих концерты, но не подходит для дивана? Является ли прогноз на январь лучше, чем прогноз на декабрь? В качестве альтернативы было бы неплохо знать, что прогнозы позволяют мне правильно оценивать людей с точки зрения фактических данных, даже если точной величине нельзя доверять.
Моей первой мыслью было запустить регрессии с фиксированными эффектами фактических значений для прогнозируемых и временных манекенов и посмотреть RMSE или для каждой модели. Но это не отвечает на вопрос о том, где хорошо работает каждая модель или существенны ли различия (если я не начну RMSE). Распределение результатов также беспокоит меня с этим подходом.
Моя вторая идея состояла в том, чтобы разбить результат на 0, 1-3 и 3+ и вычислить матрицу путаницы, но это игнорирует измерение времени, если я не сделаю 12 из них. Это также довольно грубо.
Мне известны команды Stata concord
от TJ Steichen и NJ Cox - у которых есть by()
опция, но для этого потребуется свертка данных до итоговых сумм за год. Это вычисляет Индекс корреляции соответствия Лин с доверительными интервалами, среди других полезных характеристик. CCC находится в диапазоне от -1 до 1, с идеальным соглашением в 1.
Есть также Харрелла (рассчитанный через
Р. Ньюсона), у которого есть опция, но я не уверен, что позволил бы мне иметь дело с данными панели. Это дает вам доверительные интервалы. C Харрелла является обобщением области под кривой ROC (AUC) для непрерывного результата. Это пропорция всех пар, которые можно упорядочить так, чтобы у субъекта с более высоким прогнозом на самом деле был более высокий результат. Таким образом, с = 0,5 для случайных предсказаний, с = 1 для совершенно отличительной модели. См . Книгу Харрелла , стр.493.somersd
cluster
Как бы вы решили эту проблему? Вы бы предложили рассчитывать статистику, такую как MAPE, которая часто используется в прогнозировании?
Полезные вещи, найденные до сих пор:
- Слайды по многократной версии коэффициента корреляции Лина