Если вы не хотите анализировать весь набор данных, вы, вероятно, не сможете использовать стратифицированную выборку , поэтому я бы предложил взять большую простую случайную выборку . Выбирая случайную выборку, вы гарантируете, что выборка в среднем будет представлять весь набор данных, а стандартные статистические показатели точности, такие как стандартные ошибки и доверительные интервалы, сообщат вам, насколько далеки от значений совокупности ваши вероятные оценки выборки. таким образом, нет никакой реальной необходимости проверять, что выборка является репрезентативной для населения, если у вас нет каких-либо опасений, которые действительно были выбраны случайным образом.
Насколько велика простая случайная выборка? Что ж, чем больше выборка, тем точнее будут ваши оценки. Поскольку у вас уже есть данные, обычные вычисления размера выборки на самом деле не применимы - вы также можете использовать как можно большую часть своего набора данных для вычислений. Если вы не планируете делать какие-либо сложные анализы, которые сделают время вычислений проблемой, простым подходом было бы сделать простую случайную выборку настолько большой, насколько можно проанализировать на вашем ПК, не приводя к подкачке страниц.или другие проблемы с памятью. Одно эмпирическое правило, ограничивающее размер вашего набора данных не более чем половиной оперативной памяти вашего компьютера, чтобы иметь пространство для манипулирования им и оставить место для ОС и, возможно, пары других небольших приложений (таких как редактор и веб-браузер). ). Другое ограничение состоит в том, что 32-разрядные операционные системы Windows не позволяют адресному пространству для любого отдельного приложения быть больше чем байт = 2,1 ГБ, поэтому, если вы используете 32-разрядную версию Windows, 1 ГБ может быть разумный лимит на размер набора данных.231
Затем необходимо выполнить простую арифметику, чтобы рассчитать, сколько наблюдений вы можете выбрать, учитывая, сколько у вас переменных для каждого наблюдения и сколько байтов занимает каждая переменная.