Я работаю над домашним заданием, где мой профессор хотел бы, чтобы мы создали реальную модель регрессии, смоделировали выборку данных, и он попытается найти нашу истинную модель регрессии, используя некоторые методы, которые мы изучили в классе. Мы также должны сделать то же самое с набором данных, который он нам дал.
Он говорит, что ему удалось создать довольно точную модель для всех прошлых попыток обмануть его. Были некоторые ученики, которые создали какую-то безумную модель, но он, возможно, смог создать более простую модель, которой было достаточно.
Как я могу разработать хитрую модель для его поиска? Я не хочу быть супер дешевым, выполнив 4 квадратичных термина, 3 наблюдения и большую дисперсию? Как я могу создать, казалось бы, безобидный набор данных, который имеет жесткую маленькую модель под ним?
У него просто есть 3 правила, которым нужно следовать:
Ваш набор данных должен иметь одну переменную "Y" и 20 переменных "X", помеченных как "Y", "X1", ..., "X20".
Ваша переменная ответа должна исходить из модели линейной регрессии, которая удовлетворяет: где и .Y ′ i = β 0 + β 1 X ′ i 1 + … + β p - 1 X ′ i , p - 1 + ϵ i
p ≤ 21Все переменные, которые использовались для создания , содержатся в вашем наборе данных.Y
Следует отметить, что не все 20 переменных X должны быть в вашей реальной модели
Я думал о том, чтобы использовать что-то вроде трехфакторной модели Фама-Френча и заставить его начать с биржевых данных (SPX и AAPL) и преобразовать эти переменные в непрерывно составленные данные, чтобы еще больше запутать их. Но это оставляет меня с пропущенными значениями в первом наблюдении, и это временные ряды (которые мы еще не обсуждали в классе).
Не уверен, что это правильное место, чтобы опубликовать что-то вроде этого. Я чувствовал, что это может привести к хорошей дискуссии.
Редактировать: я также не прошу "заранее построенных" моделей в частности. Мне более любопытны темы / инструменты в статистике, которые позволили бы кому-то заняться этим.