Хорошие книги, посвященные методам предварительной обработки данных и обнаружения выбросов


11

Как гласит заголовок, знает ли кто-нибудь хорошую, современную книгу, которая описывает предварительную обработку данных в целом и особенно методы обнаружения выбросов?

Книга не должна быть сосредоточена исключительно на этом, но она должна быть исчерпывающе затронута вышеупомянутыми темами - я не был бы счастлив чем-то, что является отправной точкой и цитирует список статей, объяснения различных методов должны появиться в Сама книга.

Методы борьбы с отсутствующими данными предпочтительнее, но не обязательно ...


Не могли бы вы рассказать нам, какие данные (научная область или методика измерений) вы просматриваете?
cbeleites недоволен SX

Данные, полученные от веб-пользователей (не могут быть более конкретными). Включены метки времени (хотя данные не связаны строго со временем, по крайней мере, интуитивно), категориальные атрибуты и непрерывные атрибуты. Выбросы могут быть вызваны бесчисленными причинами, в т.ч. веб-роботы, злоумышленники и многие другие источники. Данные также довольно большие (ГБ в формате CSV, несколько миллионов записей)
em70

Для меня это достаточно конкретно: нет необходимости утомлять вас предварительной обработкой для химических или спектроскопических наборов данных ...
cbeleites недоволен SX

Ответы:


3

Хотя книга Скотта Лонга « Рабочий процесс анализа данных с использованием Stata» была специфической для Stata, она бесценна в области управления данными и их подготовки. Автор дает много полезных советов, касающихся передовых методов управления данными, таких как очистка и архивирование данных, проверка на выбросы и работа с недостающими данными.


2
Мне тоже нравится эта книга, но я неуверенный пользователь Stata в том, что касается управления данными. Хотя я не согласен, другие в этом списке утверждают, что это слишком специфично для Stata, чтобы быть полезным, поэтому будьте осторожны с emptor / lector.
Дмитрий Владимирович Мастеров

Очень странное из того, что я собираю, и я не знаком с stata, и это не помогло бы для этого самого проекта, если бы я был (данные слишком большие, с использованием различных технологий)
em70

Книга действительно очень своеобразная. Конкретные методы обработки данных (и особенно метаданных) являются специфичными для Stata, но общие идеи могут передаваться между платформами. Я удивлен, что при соотношении примерно 20 книг Stata / 100 R на рынке нет сопоставимых книг по организации рабочего процесса в R - неужели последнее невозможно? Наибольший объем памяти, выделенный для Stata, был 48 ГБ на машине с 64 ГБ - это имеет значение. Если вам нужно манипулировать объектами с совершенно другой структурой, вы должны сделать это в R, а не в Stata.
StasK

0

Для SAS есть методы очистки данных Рона Коди с использованием программного обеспечения SAS . На SAS-L есть поговорка: «Вы никогда не ошибетесь с книгой Рона Коди»


Я боюсь, что SAS не является инструментом выбора в моей обстановке, и я не знаком с ним. Кроме того, я ищу какой-то подход, а не кулинарную книгу. Допустим, я заинтересован в математической и модельной части вещей.
em70

0

Если у вас есть основы (определение выбросов, пропущенных значений, взвешивания, кодирования) в зависимости от темы, в простой академической литературе можно найти гораздо больше. Например, в опросе (который является темой, в которой многие вещи могут пойти не так, и подвержены многочисленным источникам предвзятости), можно найти много хороших статей.

При подготовке к регулярной поперечной регрессии все может быть менее сложным. Например, проблема может заключаться в том, что вы удаляете слишком много «выбросов» и, таким образом, искусственно подходите своей модели.

Таким образом, я также рекомендую вам, помимо изучения хороших методов, также помнить о здравом смысле. Убедитесь, что вы применяете методы правильно, а не вслепую. Что касается обсуждения программного обеспечения в других ответах. Я думаю, что SPSS не плох для подготовки данных (я также слышал хорошие вещи о SAS) в зависимости от размера вашего набора данных. Выпадающие меню очень интуитивно понятны.

Но как прямой ответ на ваш вопрос, академическая литература может или не может быть очень хорошим источником для подготовки ваших данных в зависимости от темы и анализа.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.