Случайная запись из таблицы базы данных (T-SQL)

Question 1

Есть ли краткий способ получить случайную запись из таблицы sql-сервера?

Я хотел бы рандомизировать свои данные модульного теста, поэтому ищу простой способ выбрать случайный идентификатор из таблицы. На английском языке выбор будет «Выбрать один идентификатор из таблицы, где идентификатор - случайное число между самым низким идентификатором в таблице и самым высоким идентификатором в таблице».

Я не могу найти способ сделать это без необходимости запускать запрос, проверять нулевое значение, а затем повторно запускать, если оно равно нулю.

Идеи?

Question 2

Есть ли краткий способ получить случайную запись из таблицы сервера sql?

да

SELECT TOP 1 * FROM table ORDER BY NEWID()

Объяснение

Для NEWID()каждой строки создается A, а затем таблица сортируется по нему. Возвращается первая запись (т. Е. Запись с «наименьшим» GUID).

Ноты

Идентификаторы GUID генерируются как псевдослучайные числа начиная с четвертой версии:
UUID версии 4 предназначен для генерации UUID из истинно случайных или псевдослучайных чисел.

Алгоритм следующий:
- Установите два старших бита (биты 6 и 7) clock_seq_hi_and_reserved равными нулю и единице соответственно.
- Установите четыре старших бита (биты с 12 по 15) поля time_hi_and_version на 4-битный номер версии из Раздела 4.1.3.
- Установите для всех остальных битов произвольно (или псевдослучайно) выбранные значения.
- Пространство имен URN универсального уникального идентификатора (UUID) - RFC 4122
Альтернатива SELECT TOP 1 * FROM table ORDER BY RAND()не сработает, как можно было бы подумать. RAND()возвращает одно значение для каждого запроса, поэтому все строки будут иметь одно и то же значение.
Хотя значения GUID являются псевдослучайными, для более требовательных приложений вам понадобится лучший PRNG.
Типичная производительность составляет менее 10 секунд для примерно 1 000 000 строк - конечно, в зависимости от системы. Обратите внимание, что достичь индекса невозможно, поэтому производительность будет относительно ограниченной.

Question 3

На больших таблицах вы также можете использовать TABLESAMPLEдля этого, чтобы избежать сканирования всей таблицы.

SELECT  TOP 1 *
FROM YourTable
TABLESAMPLE (1000 ROWS)
ORDER BY NEWID()

По- ORDER BY NEWIDпрежнему требуется, чтобы не возвращать только строки, которые появляются первыми на странице данных.

Число для использования необходимо тщательно выбирать в соответствии с размером и определением таблицы, и вы можете рассмотреть логику повторных попыток, если строка не возвращается. Здесь обсуждается математика, лежащая в основе этого, и почему этот метод не подходит для небольших таблиц.

Question 4

Также попробуйте свой метод, чтобы получить случайный идентификатор между MIN (Id) и MAX (Id), а затем

SELECT TOP 1 * FROM table WHERE Id >= @yourrandomid

Это всегда даст вам одну строку.

Question 5

Если вы хотите выбрать большие данные, лучший способ, который я знаю:

SELECT * FROM Table1
WHERE (ABS(CAST(
    (BINARY_CHECKSUM
    (keycol1, NEWID())) as int))
    % 100) < 10

Источник: MSDN

Question 6

Я искал способы улучшить методы, которые пробовал, и наткнулся на этот пост. Я понимаю, что он старый, но этого метода нет в списке. Я создаю и применяю тестовые данные; здесь показан метод «адреса» в SP, вызываемом с помощью @st (состояние с двумя символами)

Create Table ##TmpAddress (id Int Identity(1,1), street VarChar(50), city VarChar(50), st VarChar(2), zip VarChar(5))
Insert Into ##TmpAddress(street, city, st, zip)
Select street, city, st, zip 
From tbl_Address (NOLOCK)
Where st = @st


-- unseeded RAND() will return the same number when called in rapid succession so
-- here, I seed it with a guaranteed different number each time. @@ROWCOUNT is the count from the most recent table operation.

Set @csr = Ceiling(RAND(convert(varbinary, newid())) * @@ROWCOUNT)

Select street, city, st, Right(('00000' + ltrim(zip)),5) As zip
From ##tmpAddress (NOLOCK)
Where id = @csr

Question 7

Если вам действительно нужна случайная выборка отдельных строк, измените свой запрос, чтобы отфильтровать строки случайным образом, вместо использования TABLESAMPLE. Например, следующий запрос использует функцию NEWID для возврата примерно одного процента строк таблицы Sales.SalesOrderDetail:

SELECT * FROM Sales.SalesOrderDetail
WHERE 0.01 >= CAST(CHECKSUM(NEWID(), SalesOrderID) & 0x7fffffff AS float)
/ CAST (0x7fffffff AS int)

Столбец SalesOrderID включен в выражение CHECKSUM, так что NEWID () выполняет оценку один раз для каждой строки для достижения выборки для каждой строки. Выражение CAST (CHECKSUM (NEWID (), SalesOrderID) & 0x7fffffff AS float / CAST (0x7fffffff AS int) оценивается как случайное значение с плавающей запятой от 0 до 1. "

Источник: http://technet.microsoft.com/en-us/library/ms189108(v=sql.105).aspx

Это дополнительно объясняется ниже:

Как это работает? Давайте выделим предложение WHERE и объясним его.

Функция КОНТРОЛЬНАЯ СУММА вычисляет контрольную сумму по элементам в списке. Спорный вопрос о том, требуется ли вообще SalesOrderID, поскольку NEWID () - это функция, возвращающая новый случайный GUID, поэтому умножение случайного числа на константу в любом случае должно приводить к случайному результату. Действительно, исключение SalesOrderID, похоже, не имеет значения. Если вы увлеченный статистик и можете оправдать включение этого, пожалуйста, используйте раздел комментариев ниже и дайте мне знать, почему я ошибаюсь!

Функция КОНТРОЛЬНАЯ СУММА возвращает ПЕРЕМЕННУЮ. Выполнение побитовой операции И с 0x7fffffff, что эквивалентно (111111111 ...) в двоичном формате, дает десятичное значение, которое фактически является представлением случайной строки из нулей и единиц. Деление на коэффициент 0x7fffffff эффективно нормализует это десятичное число до числа от 0 до 1. Затем, чтобы решить, заслуживает ли каждая строка включения в окончательный набор результатов, используется порог 1 / x (в данном случае 0,01), где x - процент данных, извлекаемых в качестве выборки.

Источник: https://www.mssqltips.com/sqlservertip/3157/different-ways-to-get-random-data-for-sql-server-data-sampling