Я хочу исследовать поведение авиакомпаний в отношении ценообразования - особенно то, как авиакомпании реагируют на ценообразование конкурентов.
Как я сказал бы, мои знания о более сложном анализе довольно ограничены, я использовал в основном все основные методы для сбора общего представления о данных. Это включает в себя простые графики, которые уже помогают идентифицировать похожие шаблоны. Я также использую SAS Enterprise 9.4.
Однако я ищу более числовой подход.
Набор данных
Используемый мной (сам) собранный набор данных содержит около 54.000 тарифов. Все тарифы собирались в течение 60-дневного периода времени ежедневно (каждую ночь в 00:00).
Следовательно, каждый тариф в пределах этого временного интервала встречается раз в зависимости от наличия тарифа, а также даты вылета рейса, когда он проходит к дате сбора тарифа. (Вы не можете получить тариф за рейс, если дата вылета рейса была в прошлом)
Неформатированный, который выглядит в основном так: (поддельные данные)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
«DaysBeforeDeparture» рассчитывается через где
- I & интервал (дней до вылета)
- s & дата тарифа (отправление рейса)
- c & дата, когда тариф был собран
Вот пример сгруппированных данных, установленных I (DaysBeforeDep.) (Поддельные данные!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Что я придумал до сих пор
Глядя на линейные графики, я уже могу оценить, что у нескольких линий будет высокий коэффициент корреляции. Поэтому я попытался сначала использовать корреляционный анализ сгруппированных данных. Но так ли это? В основном я сейчас пытаюсь сделать корреляции по средним, а не по отдельным ценам? Есть ли другой способ?
Я не уверен, какая модель регрессии здесь подходит, поскольку цены не движутся в какой-либо линейной форме и кажутся нелинейными. Нужно ли мне приспосабливать модель к каждому ценовому изменению авиакомпании?
PS: это длинная текстовая стена. Если мне нужно что-то уточнить, дайте мне знать. Я новичок в этом сабе.
Кто-нибудь знает? :-)