Существуют основные вещи, которые вы можете сделать с любым набором данных:
- Проверьте значения (допуск длины строки, тип данных, маски форматирования, наличие обязательных полей и т. Д.)
- Корректность диапазона (соответствуют ли эти, казалось бы, правильные данные ожидаемым диапазонам значений)
- Предварительная обработка (если я попытаюсь проанализировать эти данные, могу ли я выполнить основы без ошибок)
- Предварительная отчетность (запустите отчет по набору данных и убедитесь, что он прошел тест на работоспособность)
- Определение пустого, пустого, нулевого и ложного значений для любого столбца данных.
- Выявление неуместных данных (числовые значения значительно отличаются от других значений в наборе данных, строковые значения, которые выглядят так, как будто они написаны с ошибками и т. Д.)
- Устранение или исправление явно ошибочных данных
Понимание данных для выявления ошибок - это совершенно другая игра с мячом, и это очень важно.
Например, у вас может быть правило, согласно которому серийный номер должен присутствовать в данном наборе данных, и этот серийный номер должен быть буквенно-цифровым с максимальной длиной строки 255 и минимальной длиной строки 5.
Глядя на данные, вы можете обнаружить, что одно конкретное значение серийного номера гласит: « "PLEASE ENTER SERIAL"
Это совершенно верно, но неправильно».
Это довольно очевидно, но, скажем, вы обрабатываете данные о запасах, и у вас был диапазон цен на 1000 акций, который был ниже доллара. Многие люди не знали бы, что такая низкая цена акций недействительна на некоторых биржах и совершенно действительна на других. Вам нужны знания о ваших данных, чтобы понять, является ли то, что вы видите, проблематичным или нет.
В реальном мире вы не всегда можете позволить себе роскошь глубоко понимать ваши данные.
Я избегаю проблем, используя людей вокруг меня. Для небольших наборов данных я могу попросить кого-нибудь просмотреть данные целиком. Для крупных из них более уместно выбрать набор случайных выборок и попросить кого-нибудь проверить правильность данных.
Кроме того, вопрос об источнике данных и о том, насколько хорошо этому источнику данных можно доверять, является обязательным. У меня часто бывает несколько противоречивых источников данных, и мы создаем правила, чтобы определить «источник правды». Иногда один набор данных имеет большие данные в данном аспекте, но другие наборы данных сильнее в других областях.
Обычно я скептически отношусь к вводимым вручную данным, но в некоторых случаях они сильнее, чем все, что можно получить с помощью автоматизации.