Во-первых, мои извинения за задержку моего ответа со времени моих последних комментариев.
Эта тема возникла в комментариях о том, что использование рекурсивного CTE (начиная с rCTE) выполняется достаточно быстро из-за малого количества строк. Хотя это может показаться таким образом, ничто не может быть дальше от истины.
СОЗДАЙТЕ TALLY TABLE И TALLY FUNCTION
Прежде чем мы начнем тестирование, нам нужно создать физическую таблицу подсчета с соответствующим кластерным индексом и функцией подсчета в стиле Ицик Бен-Гана. Мы также сделаем все это в TempDB, чтобы случайно не уронить чьи-нибудь вкусности.
Вот код для сборки Tally Table и моя текущая производственная версия замечательного кода Ицик.
--===== Do this in a nice, safe place that everyone has
USE tempdb
;
--===== Create/Recreate a Physical Tally Table
IF OBJECT_ID('dbo.Tally','U') IS NOT NULL
DROP TABLE dbo.Tally
;
-- Note that the ISNULL makes a NOT NULL column
SELECT TOP 1000001
N = ISNULL(ROW_NUMBER() OVER (ORDER BY (SELECT NULL))-1,0)
INTO dbo.Tally
FROM sys.all_columns ac1
CROSS JOIN sys.all_columns ac2
;
ALTER TABLE dbo.Tally
ADD CONSTRAINT PK_Tally PRIMARY KEY CLUSTERED (N)
;
--===== Create/Recreate a Tally Function
IF OBJECT_ID('dbo.fnTally','IF') IS NOT NULL
DROP FUNCTION dbo.fnTally
;
GO
CREATE FUNCTION [dbo].[fnTally]
/**********************************************************************************************************************
Purpose:
Return a column of BIGINTs from @ZeroOrOne up to and including @MaxN with a max value of 1 Trillion.
As a performance note, it takes about 00:02:10 (hh:mm:ss) to generate 1 Billion numbers to a throw-away variable.
Usage:
--===== Syntax example (Returns BIGINT)
SELECT t.N
FROM dbo.fnTally(@ZeroOrOne,@MaxN) t
;
Notes:
1. Based on Itzik Ben-Gan's cascading CTE (cCTE) method for creating a "readless" Tally Table source of BIGINTs.
Refer to the following URLs for how it works and introduction for how it replaces certain loops.
http://www.sqlservercentral.com/articles/T-SQL/62867/
http://sqlmag.com/sql-server/virtual-auxiliary-table-numbers
2. To start a sequence at 0, @ZeroOrOne must be 0 or NULL. Any other value that's convertable to the BIT data-type
will cause the sequence to start at 1.
3. If @ZeroOrOne = 1 and @MaxN = 0, no rows will be returned.
5. If @MaxN is negative or NULL, a "TOP" error will be returned.
6. @MaxN must be a positive number from >= the value of @ZeroOrOne up to and including 1 Billion. If a larger
number is used, the function will silently truncate after 1 Billion. If you actually need a sequence with
that many values, you should consider using a different tool. ;-)
7. There will be a substantial reduction in performance if "N" is sorted in descending order. If a descending
sort is required, use code similar to the following. Performance will decrease by about 27% but it's still
very fast especially compared with just doing a simple descending sort on "N", which is about 20 times slower.
If @ZeroOrOne is a 0, in this case, remove the "+1" from the code.
DECLARE @MaxN BIGINT;
SELECT @MaxN = 1000;
SELECT DescendingN = @MaxN-N+1
FROM dbo.fnTally(1,@MaxN);
8. There is no performance penalty for sorting "N" in ascending order because the output is explicity sorted by
ROW_NUMBER() OVER (ORDER BY (SELECT NULL))
Revision History:
Rev 00 - Unknown - Jeff Moden
- Initial creation with error handling for @MaxN.
Rev 01 - 09 Feb 2013 - Jeff Moden
- Modified to start at 0 or 1.
Rev 02 - 16 May 2013 - Jeff Moden
- Removed error handling for @MaxN because of exceptional cases.
Rev 03 - 22 Apr 2015 - Jeff Moden
- Modify to handle 1 Trillion rows for experimental purposes.
**********************************************************************************************************************/
(@ZeroOrOne BIT, @MaxN BIGINT)
RETURNS TABLE WITH SCHEMABINDING AS
RETURN WITH
E1(N) AS (SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL
SELECT 1) --10E1 or 10 rows
, E4(N) AS (SELECT 1 FROM E1 a, E1 b, E1 c, E1 d) --10E4 or 10 Thousand rows
,E12(N) AS (SELECT 1 FROM E4 a, E4 b, E4 c) --10E12 or 1 Trillion rows
SELECT N = 0 WHERE ISNULL(@ZeroOrOne,0)= 0 --Conditionally start at 0.
UNION ALL
SELECT TOP(@MaxN) N = ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) FROM E12 -- Values from 1 to @MaxN
;
GO
Кстати ... обратите внимание, что выстроили Tally Table из миллиона и одной строки и добавили к нему кластерный индекс примерно за секунду или около того. Попробуйте это с rCTE и посмотрите, сколько времени это займет! ;-)
СОЗДАЙТЕ НЕКОТОРЫЕ ИСПЫТАНИЯ
Нам также нужны некоторые тестовые данные. Да, я согласен, что все функции, которые мы собираемся протестировать, включая rCTE, выполняются за миллисекунду или меньше только для 12 строк, но это ловушка, в которую попадают многие люди. Мы поговорим об этой ловушке позже, но сейчас давайте смоделируем вызов каждой функции 40000 раз, то есть примерно столько раз, сколько определенных функций в моем магазине вызывается за 8 часов в день. Представьте себе, сколько раз такие функции могут вызываться в крупном розничном онлайн-бизнесе.
Итак, вот код для построения 40000 строк со случайными датами, каждая из которых имеет номер строки только для целей отслеживания. Я не тратил время на то, чтобы проводить время целыми часами, потому что здесь это не имеет значения.
--===== Do this in a nice, safe place that everyone has
USE tempdb
;
--===== Create/Recreate a Test Date table
IF OBJECT_ID('dbo.TestDate','U') IS NOT NULL
DROP TABLE dbo.TestDate
;
DECLARE @StartDate DATETIME
,@EndDate DATETIME
,@Rows INT
;
SELECT @StartDate = '2010' --Inclusive
,@EndDate = '2020' --Exclusive
,@Rows = 40000 --Enough to simulate an 8 hour day where I work
;
SELECT RowNum = IDENTITY(INT,1,1)
,SomeDateTime = RAND(CHECKSUM(NEWID()))*DATEDIFF(dd,@StartDate,@EndDate)+@StartDate
INTO dbo.TestDate
FROM dbo.fnTally(1,@Rows)
;
СОЗДАЙТЕ НЕКОТОРЫЕ ФУНКЦИИ, ЧТОБЫ СДЕЛАТЬ 12-ЧАСОВОЙ ЧАС
Далее я преобразовал код rCTE в функцию и создал 3 другие функции. Все они были созданы как высокопроизводительные iTVF (встроенные функции с табличными значениями). Вы всегда можете сказать, потому что у iTVF никогда нет BEGIN в них, как у Scalar или mTVF (многозначных табличных функций).
Вот код для построения этих 4 функций ... Я назвал их в честь метода, который они используют, а не того, что они делают, чтобы было легче их идентифицировать.
--===== CREATE THE iTVFs
--===== Do this in a nice, safe place that everyone has
USE tempdb
;
-----------------------------------------------------------------------------------------
IF OBJECT_ID('dbo.OriginalrCTE','IF') IS NOT NULL
DROP FUNCTION dbo.OriginalrCTE
;
GO
CREATE FUNCTION dbo.OriginalrCTE
(@Date DATETIME)
RETURNS TABLE WITH SCHEMABINDING AS
RETURN
WITH Dates AS
(
SELECT DATEPART(HOUR,DATEADD(HOUR,-1,@Date)) [Hour],
DATEADD(HOUR,-1,@Date) [Date], 1 Num
UNION ALL
SELECT DATEPART(HOUR,DATEADD(HOUR,-1,[Date])),
DATEADD(HOUR,-1,[Date]), Num+1
FROM Dates
WHERE Num <= 11
)
SELECT [Hour], [Date]
FROM Dates
GO
-----------------------------------------------------------------------------------------
IF OBJECT_ID('dbo.MicroTally','IF') IS NOT NULL
DROP FUNCTION dbo.MicroTally
;
GO
CREATE FUNCTION dbo.MicroTally
(@Date DATETIME)
RETURNS TABLE WITH SCHEMABINDING AS
RETURN
SELECT [Hour] = DATEPART(HOUR,DATEADD(HOUR,t.N,@Date))
,[DATE] = DATEADD(HOUR,t.N,@Date)
FROM (VALUES (-1),(-2),(-3),(-4),(-5),(-6),(-7),(-8),(-9),(-10),(-11),(-12))t(N)
;
GO
-----------------------------------------------------------------------------------------
IF OBJECT_ID('dbo.PhysicalTally','IF') IS NOT NULL
DROP FUNCTION dbo.PhysicalTally
;
GO
CREATE FUNCTION dbo.PhysicalTally
(@Date DATETIME)
RETURNS TABLE WITH SCHEMABINDING AS
RETURN
SELECT [Hour] = DATEPART(HOUR,DATEADD(HOUR,-t.N,@Date))
,[DATE] = DATEADD(HOUR,-t.N,@Date)
FROM dbo.Tally t
WHERE N BETWEEN 1 AND 12
;
GO
-----------------------------------------------------------------------------------------
IF OBJECT_ID('dbo.TallyFunction','IF') IS NOT NULL
DROP FUNCTION dbo.TallyFunction
;
GO
CREATE FUNCTION dbo.TallyFunction
(@Date DATETIME)
RETURNS TABLE WITH SCHEMABINDING AS
RETURN
SELECT [Hour] = DATEPART(HOUR,DATEADD(HOUR,-t.N,@Date))
,[DATE] = DATEADD(HOUR,-t.N,@Date)
FROM dbo.fnTally(1,12) t
;
GO
СОЗДАЙТЕ ЖГУТ ПРОВОДОВ ДЛЯ ИСПЫТАНИЯ ФУНКЦИЙ
И последнее, но не менее важное: нам нужен испытательный комплект. Я делаю базовую проверку, а затем проверяю каждую функцию одинаковым образом.
Вот код для тестового жгута ...
PRINT '--========== Baseline Select =================================';
DECLARE @Hour INT, @Date DATETIME
;
SET STATISTICS TIME,IO ON;
SELECT @Hour = RowNum
,@Date = SomeDateTime
FROM dbo.TestDate
CROSS APPLY dbo.fnTally(1,12);
SET STATISTICS TIME,IO OFF;
GO
PRINT '--========== Orginal Recursive CTE ===========================';
DECLARE @Hour INT, @Date DATETIME
;
SET STATISTICS TIME,IO ON;
SELECT @Hour = fn.[Hour]
,@Date = fn.[Date]
FROM dbo.TestDate td
CROSS APPLY dbo.OriginalrCTE(td.SomeDateTime) fn;
SET STATISTICS TIME,IO OFF;
GO
PRINT '--========== Dedicated Micro-Tally Table =====================';
DECLARE @Hour INT, @Date DATETIME
;
SET STATISTICS TIME,IO ON;
SELECT @Hour = fn.[Hour]
,@Date = fn.[Date]
FROM dbo.TestDate td
CROSS APPLY dbo.MicroTally(td.SomeDateTime) fn;
SET STATISTICS TIME,IO OFF;
GO
PRINT'--========== Physical Tally Table =============================';
DECLARE @Hour INT, @Date DATETIME
;
SET STATISTICS TIME,IO ON;
SELECT @Hour = fn.[Hour]
,@Date = fn.[Date]
FROM dbo.TestDate td
CROSS APPLY dbo.PhysicalTally(td.SomeDateTime) fn;
SET STATISTICS TIME,IO OFF;
GO
PRINT'--========== Tally Function ===================================';
DECLARE @Hour INT, @Date DATETIME
;
SET STATISTICS TIME,IO ON;
SELECT @Hour = fn.[Hour]
,@Date = fn.[Date]
FROM dbo.TestDate td
CROSS APPLY dbo.TallyFunction(td.SomeDateTime) fn;
SET STATISTICS TIME,IO OFF;
GO
Одна вещь, на которую следует обратить внимание в тестовом жгуте выше, это то, что я шунтирую все выходные данные в одноразовые переменные Это делается для того, чтобы измерения производительности были как можно более чистыми, без каких-либо результатов на диск или искажения экрана.
СЛОВО ОСТОРОЖНОСТИ НА СТАТИСТИКЕ УСТАНОВКИ
Также, предостережение для потенциальных тестировщиков ... Вы НЕ ДОЛЖНЫ использовать SET STATISTICS при тестировании функций Scalar или mTVF. Его можно безопасно использовать только для функций iTVF, подобных тем, которые приведены в этом тесте. Было доказано, что SET STATISTICS заставляет функции SCALAR работать в сотни раз медленнее, чем без них. Да, я пытаюсь наклонить другую ветряную мельницу, но это будет целый пост, и у меня нет времени на это. У меня есть статья на SQLServerCentral.com, в которой говорится об этом, но нет смысла публиковать здесь ссылки, потому что кто-то из них обречен.
РЕЗУЛЬТАТЫ ИСПЫТАНИЙ
Итак, вот результаты теста, когда я запускаю тестовую проводку на своем маленьком ноутбуке i5 с 6 ГБ оперативной памяти.
--========== Baseline Select =================================
Table 'Worktable'. Scan count 1, logical reads 82309, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table 'TestDate'. Scan count 1, logical reads 105, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
SQL Server Execution Times:
CPU time = 203 ms, elapsed time = 206 ms.
--========== Orginal Recursive CTE ===========================
Table 'Worktable'. Scan count 40001, logical reads 2960000, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table 'TestDate'. Scan count 1, logical reads 105, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
SQL Server Execution Times:
CPU time = 4258 ms, elapsed time = 4415 ms.
--========== Dedicated Micro-Tally Table =====================
Table 'Worktable'. Scan count 1, logical reads 81989, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table 'TestDate'. Scan count 1, logical reads 105, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
SQL Server Execution Times:
CPU time = 234 ms, elapsed time = 235 ms.
--========== Physical Tally Table =============================
Table 'Worktable'. Scan count 1, logical reads 81989, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table 'TestDate'. Scan count 1, logical reads 105, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table 'Tally'. Scan count 1, logical reads 3, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
SQL Server Execution Times:
CPU time = 250 ms, elapsed time = 252 ms.
--========== Tally Function ===================================
Table 'Worktable'. Scan count 1, logical reads 81989, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table 'TestDate'. Scan count 1, logical reads 105, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
SQL Server Execution Times:
CPU time = 250 ms, elapsed time = 253 ms.
«BASELINE SELECT», который выбирает только данные (каждая строка создается 12 раз для имитации одного и того же объема возврата), появляется примерно за 1/5 секунды. Все остальное пришло примерно за четверть секунды. Ну, все, кроме этой кровавой функции rCTE. Это заняло 4 и 1/4 секунды или 16 раз дольше (на 1600% медленнее).
И посмотрите на логическое чтение (память IO) ... rCTE потребовал колоссальные 2 960 000 (почти 3 МИЛЛИОНА чтения), тогда как другие функции потребляли только около 82 10000. Это означает, что rCTE потребляет в 34,3 раза больше операций ввода-вывода памяти, чем любая другая функция.
ЗАКЛЮЧИТЕЛЬНЫЕ МЫСЛИ
Давайте подведем итоги. Метод rCTE для выполнения этой «маленькой» операции с 12 строками использовал в 16 РАЗ (1600%) больше ЦП (и длительность) и в 34.3 РАЗ (3430%) больше ввода-вывода памяти, чем любая другая функция.
Хех ... Я знаю, о чем ты думаешь. «Большое дело! Это всего лишь одна функция».
Да, согласен, но сколько у вас других функций? Сколько других мест за пределами функций у вас есть? И есть ли у вас какие-нибудь из них, которые работают с более чем 12 рядами в каждом прогоне? И есть ли шанс, что кто-то в беде за метод может скопировать этот код rCTE для чего-то гораздо большего?
Хорошо, время быть тупым. Людям совершенно не имеет смысла оправдывать код, вызывающий проблемы с производительностью, только из-за предполагаемого ограниченного количества строк или использования. За исключением случаев, когда вы приобретаете коробку MPP за, возможно, миллионы долларов (не говоря уже о расходах на переписывание кода, чтобы заставить его работать на такой машине), вы не можете купить машину, которая выполняет ваш код в 16 раз быстрее (выиграл SSD). тоже не делаю ... все это было в быстродействующей памяти, когда мы это тестировали). Производительность в коде. Хорошая производительность в хорошем коде.
Можете ли вы представить, что весь ваш код работает "просто" в 16 раз быстрее?
Никогда не оправдывайте плохой или проблемный код на низких количествах строк или даже на низком уровне использования. Если вы это сделаете, вам, возможно, придется позаимствовать одну из ветряных мельниц, в которой меня обвиняют, чтобы ваши процессоры и диски оставались достаточно прохладными. ;-)
СЛОВО О СЛОВЕ "ТАЛЛИ"
Да я согласен. Семантически говоря, таблица подсчета содержит числа, а не «подсчеты». В моей оригинальной статье на эту тему (это была не оригинальная статья о технике, но она была моей первой), я назвал ее «Tally» не из-за того, что она содержит, а из-за того, что она делает ... используется для «подсчета» вместо цикла и «подсчета» чего-либо - «подсчета» чего-либо. ;-) Назовите это как хотите ... Таблица чисел, Таблица подсчета, Таблица последовательности, как угодно. Мне все равно Для меня «Tally» более полно означает, и, будучи хорошим ленивым администратором баз данных, содержит только 5 букв (2 идентичны) вместо 7, и это легче сказать для большинства людей. Это также «единственное число», которое следует моему соглашению об именах для таблиц. ;-) Это' s также, как назвала это статья, в которой содержалась страница из книги 60-х годов. Я всегда буду называть это «Таблицей подсчета», и вы все равно будете знать, что я или кто-то еще имею в виду. Я также избегаю венгерской нотации, такой как чума, но вызываю функцию «fnTally», чтобы я мог сказать: «Ну, если бы вы использовали эффективную функцию Tally, которую я вам показал, у вас не возникло бы проблемы с производительностью», если бы она на самом деле не была Нарушение прав человека. ;-) без фактического нарушения прав человека. ;-) без фактического нарушения прав человека. ;-)
Больше всего меня беспокоит то, что люди учатся правильно его использовать, а не прибегают к таким вещам, как rCTE с ограниченными возможностями и другие формы скрытого RBAR.