Инструмент для генерации больших наборов тестовых данных [закрыто]


25

Во многих случаях, пытаясь придумать эффективный дизайн базы данных, лучше всего создать две базы данных, заполнить их данными и выполнить несколько запросов к ним, чтобы увидеть, какая из них работает лучше.

Существует ли инструмент, который будет генерировать (в идеале прямо в базу данных) большие (~ 10 000 записей) наборы тестовых данных относительно быстро? Я ищу что-то, что по крайней мере работает с MySQL.

Ответы:


12

Лучший инструмент (если вы можете его найти) - это DataFactory. (К сожалению, из печати). Я сгенерировал абсолютно восхитительные (и довольно аутентично выглядящие) наборы данных из него.

Generatedata.com ... приемлемо, но не очень хорошо масштабируется.

DataGenerator это то, что нужно следить.

И хотя DTM Data Generator неуклюж и является плохой заменой DataFactory, он существует и продается, и я использовал его для генерации умеренно приемлемых данных.



4

Я обычно генерирую свои собственные, используя некоторые известные данные в качестве входных данных - если они слишком случайные, это не всегда хороший тест; Мне нужны данные, которые будут распространяться аналогично моему конечному продукту.

Все более крупные базы данных, которые мне нужно настроить, носят научный характер, поэтому я обычно могу взять в качестве входных данных какое-то другое исследование, изменить его масштаб и добавить дрожание. (например, взять данные, которые имели 5-минутную частоту с точностью до миллисекунды, и превратить их в 10-секундную частоту с точностью до миллисекунды, но с дрожанием +/- 100 мс до времени)

...

Но, в качестве другой альтернативы, если вы не хотите писать свои собственные, стоит взглянуть на некоторые из инструментов сравнения - так как они могут повторять вещи снова и снова на основе учебного набора, вы можете использовать их для вставки лотов. записей (а затем просто игнорировать отчеты о том, как быстро это было сделано) ... и затем вы можете использовать тот же инструмент для проверки скорости работы базы данных после ее заполнения.





1

Наиболее экономически эффективным способом, вероятно, является использование открытого источника или коммерческого генератора данных. Я имел обыкновение делать это.

Теперь, в мои золотые годы, я рассматриваю каждую потребность в тестовых данных как мандат на изучение другого языка сценариев.


1

Для тех, кто ищет другое решение этой проблемы ... Я написал тестовый проект генератора данных для Data Synchronization Studio. Он может генерировать большой набор данных в диапазоне от 1 до 100 миллионов строк данных реалистичного тестирования. Вот сообщение в блоге все об этом. http://www.simego.com/Blog/2012/02/Test-Data-Generator-Download-for-Data-Sync Бесплатное использование в течение 15 дней (если у вас есть данные испытаний, они у вас есть)

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.