Учитывая какое-то событие в игре, какова максимальная задержка при создании звука, чтобы игрок правильно связывал звук с этим событием (и не воспринимал задержку)?
Учитывая какое-то событие в игре, какова максимальная задержка при создании звука, чтобы игрок правильно связывал звук с этим событием (и не воспринимал задержку)?
Ответы:
Следующий результат рассчитан для синхронизации губ, которая считается «наиболее заметной ошибкой синхронизации аудио / видео» .
Википедия говорит
Для телевизионных приложений звук должен опережать видео не более чем на 15 миллисекунд, а звук должен отставать от видео не более чем на 45 миллисекунд. Для пленки приемлемая синхронизация губ считается не более 22 миллисекунд в любом направлении.
Лаборатория восприятия медиа и акустики говорит
Результаты эксперимента определили, что средний порог опережающего звука для обнаружения аудио / видео синхронизации был 185,19 мс, со стандартным отклонением 42,32 мс.
ATSC говорит
На первый взгляд кажется, что «окно приемлемости» от +90 мс до -185 мс
а также
- Неопределяемый от -100 мс до +25 мс
- Обнаруживается при -125 мс и +45 мс
- Становится недопустимым при -185 мс и +90 мс
(- Звук задержан, + Звук продвинут)
Заключить
Результаты не так далеко друг от друга. Кажется, что максимально допустимая задержка составляет около 150 мс, что составляет 9 кадров при 60 кадрах в секунду.
Чувствуя, что, скажем, взрыв, который вы видите и слышите как одно событие, будет иметь допуски, описанные в других ответах - не более ~ 50 мс; некоторые люди могут быть более чувствительными (например, музыканты), поэтому я бы предложил нацелиться на 30 мс или не более 2 кадров при 60 кадрах в секунду.
Я считаю, что воспринимаемое расстояние должно влиять на эти допуски. Люди ожидают, что далекие звуки будут немного задерживаться, поскольку в реальной жизни звук отстает от зрения примерно на 1 мс на каждый фут расстояния. Таким образом, взрыв на уменьшенной «карте» RTS-игры может иметь больший допуск к задержке звука, чем у игрока, стреляющего из собственного оружия в FPS.
В особых случаях, таких как правильное восприятие музыкальной / ритмической игры, могут потребоваться более жесткие допуски, 15-20 мс или даже меньше, например, если игрок слышит оба «входных действия», таких как пение в микрофон или стук в микрофон. пластиковый инструмент, а также звук, генерируемый вашей системой для того же события, а затем задержка в 50 мс приведет к странному микшированию «оригинальных» и «проигрываемых» звуков.
Кроме того, имейте в виду лагуну между началом аудиофайла и «событием» внутри этого аудиофайла - во многих аудиоклипах «событие» не будет прямо на краю, возможно, вы услышите звук молнии. страйк, где «страйк» происходит через 200 мс после начала, что было бы очевидно для всех, и почти все звуковые файлы, даже ударные, будут иметь некоторую задержку.
Зрение и слух тесно связаны в человеческом восприятии, и если один из них заикается относительно другого, тогда он будет восприниматься. Это не хорошо, если в большинстве случаев это очень быстро, но иногда происходит задержка в 0,2 секунды, когда что-то загружается - люди заметят такие ситуации. Вот почему аудио часто работает в отдельном потоке, изолированном от других действий, и просто получает быстрые уведомления о том, какие предварительно загруженные клипы следует воспроизводить.
Любая ситуация, когда игрок вызывает звук (музыкальные игры, оружие в FPS), требует очень небольшой задержки, так как игрок послал импульс, чтобы это произошло в тот момент, так как музыкант, услышавший задержку своего инструмента, будет особенно осведомлен очень маленьких задержек. Звукорежиссеры беспокоятся о задержках записи ниже 5 мсек, разрушая «канавку»
Журнал Американской академии аудиологии утверждает, что люди (а не только музыканты), слушая собственный голос с задержкой, знают, что задержки составляют всего 3 мсек, а задержка более 10 мсек нежелательна в 90% случаев.
Люди используют задержку времени между ушами для получения информации о направлении и, следовательно, должны иметь возможность обрабатывать и извлекать информацию из задержек ниже 1 мсек.
Упомянутые выше 185,19 мс не имеют значения, поскольку они относятся к ведущей звуковой ошибке и, во всяком случае, к тому, что люди считают приемлемым, когда пассивно смотрят фильм, а не активно участвуют в игре.
Принятый ответ здесь в основном обсуждает восприятие аудио синхронизации при пассивном просмотре видео. В этих случаях аудитория не может точно определить, когда должен воспроизводиться звук, за исключением случаев, когда на видео присутствуют контрольные знаки. Это означает, что они имеют ограниченное ожидание звука.
В играх есть два важных случая, когда предположение о низком ожидании не выполняется:
Когда игрок сам вызвал звук (как указывает SamB), с того момента, как он сформировал намерение нажать кнопку, он точно знает, когда он ожидает услышать звук.
Когда звук должен звучать с периодическим ритмом , как в музыкальных играх или чем-то еще с тикающим таймером / счетчиком, этот ритм позволяет игроку предвидеть следующий звук и замечать, воспроизводится ли время.
В этом выступлении на GDC 2013 Матье Паведжо утверждает, что игроки могут ощущать различия в точности синхронизации выше примерно 5 мс , что гораздо менее прощающе, чем можно предположить из примеров синхронизации по губам. Проверьте разделы «Примеры восприятия времени» и «Пример игр Ubisoft», чтобы услышать это сами. Вы можете услышать, что меню Rayman Origins не звучит «запаздывающе» само по себе при синхронизации в течение 16 мс (видеокадр), но при синхронизации в течение 5 мс оно звучит заметно лучше и плотнее.
Pavageau рекомендует использовать низкоуровневый звуковой обратный вызов, чтобы получить подобную точность субкадра, если вы хотите напряженный ритмичный игровой процесс этого разнообразия.
В играх, в которых требуется, чтобы человек реагировал на звуковые сигналы, каждая миллисекунда, на которую задерживается звук, также вызывает задержку реакции человека на звук. Кто-то, кто просто смотрит фильм или кат-сцену, может не заметить слишком много, если аудио и видео не точно синхронизированы, но часто важно и иногда важно, чтобы аудио синхронизировалось с тем, что от проигрывателя ожидается .
Теоретически, все, что выше 50 мс, может быть заметно, когда оно связано с изображениями, в 25 мс вы можете начать слышать звук и его задержку в виде двух отдельных звуков, поэтому я бы сказал, что я настоятельно рекомендую вам не превышать 50 мс, и если вы может даже остаться на что-то от 5 мс до 15 мс, это было бы очень приятно.
Я надеюсь, что это поможет вам!