В статистике, как и в Data Mining, вы начинаете с данных и цели. В статистике большое внимание уделяется выводам, то есть ответам на вопросы населения с использованием выборки. При извлечении данных основное внимание обычно уделяется прогнозированию: вы создаете модель из вашей выборки (обучающие данные) для прогнозирования тестовых данных.
Процесс в статистике:
Исследуйте данные с помощью сводок и графиков - в зависимости от того, как статистик будет руководствоваться данными, некоторые будут более непредубежденными, глядя на данные со всех сторон, в то время как другие (особенно социологи) будут смотреть на данные через призму вопрос интереса (например, график, особенно переменные, представляющие интерес, а не другие)
Выберите соответствующее семейство статистических моделей (например, линейная регрессия для непрерывного Y, логистическая регрессия для двоичного Y или Пуассон для данных подсчета) и выполните выбор модели
Оцените окончательную модель
Предположения модели тестирования, чтобы убедиться, что они разумно выполнены (отличается от тестирования для прогнозирующей точности в интеллектуальном анализе данных)
Используйте модель для вывода - это основной шаг, который отличается от интеллектуального анализа данных. Слово «р-значение» прибывает сюда ...
Взгляните на любой базовый учебник по статистике, и вы найдете главу «Исследовательский анализ данных», за которой следуют некоторые распределения (которые помогут выбрать разумные аппроксимирующие модели), затем вывод (доверительные интервалы и проверки гипотез) и регрессионные модели.
Я описал вам классический статистический процесс. Однако у меня много проблем с этим. Акцент на умозаключении полностью доминировал над областями, в то время как предсказание (которое является чрезвычайно важным и полезным) почти игнорировалось. Более того, если вы посмотрите, как социологи используют статистику для вывода, вы обнаружите, что они используют ее совершенно по-другому! Вы можете проверить больше об этом здесь