Если тупик параллельного обмена событиями не является жертвой, это проблема?


10

Мы наблюдаем множество таких взаимоблокировок в параллельных потоках внутри запроса в нашей производственной среде (SQL Server 2012 SP2 - да ... я знаю ...), однако при рассмотрении тупикового XML, захваченного с помощью расширенных событий, список жертв пуст.

<victim-list />

Кажется, что взаимоблокировка между 4 потоками, два с WaitType="e_waitPipeNewRow"и два с WaitType="e_waitPipeGetRow".

 <resource-list>
  <exchangeEvent id="Pipe13904cb620" WaitType="e_waitPipeNewRow" nodeId="19">
   <owner-list>
    <owner id="process4649868" />
   </owner-list>
   <waiter-list>
    <waiter id="process40eb498" />
   </waiter-list>
  </exchangeEvent>
  <exchangeEvent id="Pipe30670d480" WaitType="e_waitPipeNewRow" nodeId="21">
   <owner-list>
    <owner id="process368ecf8" />
   </owner-list>
   <waiter-list>
    <waiter id="process46a0cf8" />
   </waiter-list>
  </exchangeEvent>
  <exchangeEvent id="Pipe13904cb4e0" WaitType="e_waitPipeGetRow" nodeId="19">
   <owner-list>
    <owner id="process40eb498" />
   </owner-list>
   <waiter-list>
    <waiter id="process368ecf8" />
   </waiter-list>
  </exchangeEvent>
  <exchangeEvent id="Pipe4a106e060" WaitType="e_waitPipeGetRow" nodeId="21">
   <owner-list>
    <owner id="process46a0cf8" />
   </owner-list>
   <waiter-list>
    <waiter id="process4649868" />
   </waiter-list>
  </exchangeEvent>
 </resource-list>

Так:

  1. Список жертв пуст
  2. Приложение, выполняющее запрос, не выдает ошибку и завершает запрос
  3. Насколько мы можем видеть, нет очевидной проблемы, кроме того, что график захвачен

Поэтому стоит ли беспокоиться об этом, кроме шума?

Изменить: Благодаря ответу Пола, я могу видеть, где проблема, вероятно, возникает и, кажется, разрешается с разливом tempdb. введите описание изображения здесь

Ответы:


11

Я не удивлюсь, если так будет выглядеть граф взаимоблокировок, когда параллельный тупик внутри запроса разрешается из-за различий в обмене (так что жертвы, кроме производительности, нет).

Вы можете подтвердить эту теорию, фиксируя разливы и сопоставляя их (или нет) с тупиком.

Запись буферов обмена в tempdb для устранения тупика не идеальна. Постарайтесь исключить последовательности операций по сохранению порядка в плане выполнения (например, биржи, сохраняющие заказы, которые подают параллельное объединение слиянием). Если только это не вызывает заметной проблемы с производительностью, и у вас есть другие поводы для беспокойства.

Из интереса, может ли эта проблема усугубиться высокой фрагментацией / устаревшей статистикой?

Фрагментации нет. Устаревшая статистика: не в каком-то конкретном смысле, о котором я могу думать, нет. Конечно, непредставительная статистика редко бывает хорошей вещью.

Фундаментальная проблема здесь заключается в том, что параллелизм работает лучше всего, когда между потоками существует как можно меньше зависимостей; сохраненный порядок вводит довольно неприятные зависимости. Вещи могут легко быть смешаны, и единственный способ очистить logjam - это пролить кучу строк, хранящихся на обменах, в tempdb .


-1

Чтобы отличить эти некритические взаимоблокировки «саморазрешения путем разлива» от более важных взаимоблокировок, некоторая семантика поиска может быть применена к структуре Xdl.

Пример вывода

Следующий SP не будет работать из коробки, так как это зависит от ufn_ExtractSubstringsByPattern (), однако этот метод может быть заменен чем-то, что напрямую возвращает отчетливый счетчик.

ALTER view [Common].[DeadLockRecentHistoryView]
as
/*---------------------------------------------------------------------------------------------------------------------
    Purpose:  List history of recent deadlock events

    Warning:  The XML processing may hit a recursion limit (100), suggest using "option (maxrecursion 10000)".

    Xdl File:
        The SSMS deadlock file format .XDL format (xml) has changed with later versions of SQL Server.  This version tested with 2012.

    Ring Buffer issues:
        https://connect.microsoft.com/SQLServer/feedback/details/754115/xevents-system-health-does-not-catch-all-deadlocks
        https://www.sqlskills.com/blogs/jonathan/why-i-hate-the-ring_buffer-target-in-extended-events/

    Links:
        http://www.sqlskills.com/blogs/jonathan/multi-victim-deadlocks/
        https://www.sqlskills.com/blogs/jonathan/graphically-viewing-extended-events-deadlock-graphs/
        http://www.mssqltips.com/sqlservertip/1234/capturing-sql-server-deadlock-information-in-xml-format/
        http://blogs.msdn.com/b/sqldatabasetalk/archive/2013/05/01/tracking-down-deadlocks-in-sql-database.aspx
        http://dba.stackexchange.com/questions/10644/deadlock-error-isnt-returning-the-deadlock-sql/10646#10646        

    Modified    By           Description
    ----------  -----------  ------------------------------------------------------------------------------------------
    2014.10.29  crokusek     From Internet, http://stackoverflow.com/questions/19817951
    2015.05.05  crokusek     Improve so that the output is consumable by SSMS 2012 as "Open .xdl file"                             
    2015.05.22  crokusek     Remove special character for the cast to Xml (like '&')
    2017.08.03  crokusek     Abandon ring-buffer approach and use event log files.  Filter out internal deadlocks.
    2018.07.16  crokusek     Added field(s) like ProbablyHandledBySpill to help identify non-critical deadlocks.
  ---------------------------------------------------------------------------------------------------------------------*/
with XmlDeadlockReports as
(
  select convert(xml, event_data) as EventData         
    from sys.fn_xe_file_target_read_file(N'system_health*.xel', NULL, NULL, NULL)      
   where substring(event_data, 1, 50) like '%"xml_deadlock_report"%'       
)
select top 10000
       EventData.value('(event/@timestamp)[1]', 'datetime2(7)') as CreatedUtc,
       --(select TimePst from Common.ufn_ConvertUtcToPst(EventData.value('(event/@timestamp)[1]', 'datetime2(7)'))) as CreatedPst,
       DistinctSpidCount,       
       HasExchangeEvent,
       IsVictimless,                  
       --
       -- If the deadlock contains Exchange Events and lists no victims, it probably occurred
       -- during execution of a single query that contained parallellism but got stuck due to 
       -- ordering issues.   /dba/197779
       -- 
       -- These will not raise an exception to the caller and will complete by spilling to tempdb
       -- however they may run much slower than they would without the spill(s).
       --
       convert(bit, iif(DistinctSpidCount = 1 and HasExchangeEvent = 1 and IsVictimless = 1, 1, 0)) as ProbablyHandledBySpill,
       len(et.XdlFileText) as LenXdlFile,
       eddl.XdlFile as XdlFile
  from XmlDeadlockReports
 cross apply 
     ( 
       select eventData.query('event/data/value/deadlock') as XdlFile 
     ) eddl
 cross apply 
     ( 
        select convert(nvarchar(max), eddl.XdlFile) as XdlFileText 
     ) as et
 cross apply 
     (
       select count(distinct Match) as DistinctSpidCount
         from common.ufn_ExtractSubstringsByPattern(et.XdlFileText, 'spid="%%"')
     ) spids
 cross apply
     (
       select convert(bit, iif(charindex('<exchangeEvent', et.XdlFileText) > 0, 1, 0)) as HasExchangeEvent,
              --
              convert(bit, iif(     charindex('<victim-list>', et.XdlFileText) = 0
                                and charindex('<victim-list/>', et.XdlFileText) > 0, 1, 0)) as IsVictimless
     ) as flags        
 order by CreatedUtc desc
GO
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.