У меня есть несколько независимых кодеров, которые пытаются идентифицировать события во временном ряду - в этом случае я смотрю видео разговора лицом к лицу и ищу конкретные невербальные поведения (например, кивает головой) и кодирует время и категорию каждого событие. Эти данные целесообразно обрабатывать как ряды с дискретным временем с высокой частотой дискретизации (30 кадров в секунду) или как ряды с непрерывным временем, с чем проще работать.
Я хотел бы вычислить некоторую меру надежности между оценщиками, но я ожидаю, что будет некоторая неопределенность в том, когда произошли события; то есть, я ожидаю, что один кодер может, например, кодировать, что конкретное движение началось на четверть секунды позже, чем другие кодеры думали, что оно началось. Это редкие события, если это помогает; обычно не менее нескольких секунд (сотни видеокадров) между событиями.
Есть ли хороший способ оценки надежности между оценщиками, который рассматривает оба этих типа соглашения и разногласия: (1) согласны ли эксперты по поводу того, какое событие произошло (если есть), и (2) они согласны с тем, когда оно произошло? Второе важно для меня, потому что мне интересно посмотреть на время этих событий относительно других вещей, происходящих в разговоре, например, что говорят люди.
Стандартная практика в моей области, кажется, состоит в том, чтобы разделить вещи на временные интервалы, скажем, 1/4 секунды или около того, агрегировать события, о которых каждый кодер сообщил за интервал времени, а затем вычислить каппу Коэна или некоторую похожую меру. Но выбор длительности среза является специальным, и я не могу понять, что неопределенность во времени событий.
Лучшая мысль, которую я имею до сих пор, - это то, что я могу вычислить некоторую кривую надежности; что-то вроде каппа в зависимости от размера окна, в котором я считаю, что два события кодируются одновременно. Я не совсем уверен, куда идти оттуда, хотя ...