Я пытаюсь найти формулу, метод или модель, которые можно использовать для анализа вероятности того, что конкретное событие повлияло на некоторые продольные данные. Мне трудно понять, что искать в Google.
Вот пример сценария:
Представьте, что вы владеете бизнесом, в котором ежедневно посещают в среднем 100 клиентов. Однажды вы решаете, что хотите увеличить количество посетителей, приходящих в ваш магазин каждый день, поэтому вы тянете сумасшедший трюк за пределы магазина, чтобы привлечь внимание. В течение следующей недели вы видите в среднем 125 клиентов в день.
В течение следующих нескольких месяцев вы снова решите, что хотите получить больше бизнеса и, возможно, поддерживать его немного дольше, поэтому вы пробуете другие случайные вещи, чтобы привлечь больше покупателей в ваш магазин. К сожалению, вы не самый лучший маркетолог, и некоторые из ваших тактик мало или вообще не дают эффекта, а другие даже оказывают негативное влияние.
Какую методологию я мог бы использовать, чтобы определить вероятность того, что какое-либо отдельное событие положительно или отрицательно повлияло на количество привлеченных клиентов? Я полностью осознаю, что корреляция не обязательно равна причинно-следственной связи, но какие методы я мог бы использовать, чтобы определить вероятное увеличение или уменьшение ежедневной прогулки вашего бизнеса по клиенту после определенного события?
Мне не интересно анализировать, существует ли корреляция между вашими попытками увеличить количество посетителей, а скорее, было ли какое-то одно событие, независимое от всех других, эффективным.
Я понимаю, что этот пример довольно надуманный и упрощенный, поэтому я также дам вам краткое описание реальных данных, которые я использую:
Я пытаюсь определить влияние, которое конкретное маркетинговое агентство оказывает на веб-сайт своего клиента, когда они публикуют новый контент, проводят кампании в социальных сетях и т. Д. Для любого конкретного агентства у них может быть от 1 до 500 клиентов. Каждый клиент имеет веб-сайты размером от 5 страниц до более 1 миллиона. В течение последних 5 лет каждое агентство аннотировало всю свою работу для каждого клиента, включая тип работы, которая была выполнена, количество веб-страниц на веб-сайте, которые были затронуты, количество потраченных часов и т. Д.
Используя вышеупомянутые данные, которые я собрал в хранилище данных (помещенное в набор схем звездочка / снежинка), мне нужно определить, насколько вероятно, что какой-то один фрагмент работы (любое одно событие во времени) оказал влияние на трафик, попадающий на любую / все страницы под влиянием определенной части работы. Я создал модели для 40 различных типов контента, которые можно найти на веб-сайте и который описывает типичную структуру трафика, которая может возникнуть на странице с указанным типом контента с даты запуска до настоящего времени. Нормализовано относительно соответствующей модели, мне нужно определить наибольшее и наименьшее количество увеличенных или уменьшенных посетителей конкретной страницы, полученной в результате определенной части работы.
Хотя у меня есть опыт базового анализа данных (линейная и множественная регрессия, корреляция и т. Д.), Я не знаю, как подойти к решению этой проблемы. В то время как в прошлом я обычно анализировал данные с несколькими измерениями для данной оси (например, температура по сравнению с жаждой и животное и определял влияние на жажду, которая имеет повышенную умеренную температуру у животных), я чувствую, что выше я пытаюсь проанализировать воздействие одного события в некоторый момент времени для нелинейного, но предсказуемого (или, по крайней мере, модельного), продольного набора данных. Я в тупик :(
Любая помощь, советы, указатели, рекомендации или указания были бы чрезвычайно полезны, и я был бы бесконечно благодарен!