Я столкнулся со следующей проблемой, которая, по моему мнению, довольно типична.
У меня есть большие данные, скажем, несколько миллионов строк. Я провел некоторый нетривиальный анализ, например, SQL-запрос, состоящий из нескольких подзапросов. Я получаю некоторый результат, утверждая, например, что свойство X увеличивается со временем.
Теперь есть две возможные вещи, которые могут привести к этому:
- Х действительно увеличивается с течением времени
- У меня ошибка в моем анализе
Как я могу проверить, что произошло первое, а не второе? Пошаговый отладчик, даже если он существует, не поможет, поскольку промежуточные результаты могут состоять из миллионов строк.
Единственное, о чем я мог подумать, - это как-то сгенерировать небольшой синтетический набор данных со свойством, которое я хочу протестировать, и запустить анализ на нем в качестве модульного теста. Есть ли инструменты для этого? В частности, но не ограничиваясь этим, SQL.