RFC 3066 дает подробную информацию о допустимых значениях (выделено и добавлены ссылки):
Все двухбуквенные подтэги интерпретируются как коды стран ISO 3166 alpha-2 из [ISO 3166] или впоследствии присваиваются агентством обслуживания ISO 3166 или руководящими органами по стандартизации, обозначающими область, к которой относится этот вариант языка.
Я интерпретирую это как означающий, что любой допустимый (согласно ISO 3166) двухбуквенный код действителен как вложенный тег. В RFC говорится:
Теги со вторыми подтэгами, состоящими из 3–8 букв, могут быть зарегистрированы в IANA в соответствии с правилами, изложенными в главе 5 этого документа.
Кстати, это похоже на опечатку, поскольку глава 3, похоже, относится к процессу регистрации, а не к главе 5.
Быстрый поиск в реестре IANA показывает очень длинный список всех доступных языковых подтэгов. Вот один пример из списка (который будет использоваться как en-scouse
):
Тип: вариант
Подтег: scouse
Описание: Scouse
Добавлен: 18.09.2006
Префикс: en
Комментарии: английский ливерпудийский диалект, известный как «скауз».
Доступны всевозможные вложенные теги; быстрый свиток уже обнаружен fr-1694acad
(французский язык 17 века).
Полезность некоторых из этих (я бы сказал, подавляющего большинства из них) тегов, когда дело доходит до документов, предназначенных для отображения в браузере, ограничена. В спецификации W3C Internationalization просто говорится:
Браузеры и другие приложения могут использовать информацию о языке контента, чтобы предоставлять пользователям наиболее подходящую информацию или предоставлять информацию пользователям наиболее подходящим способом. Чем больше контента помечено и размечено правильно, тем более полезными и распространенными станут такие приложения.
Я изо всех сил пытаюсь найти подробную информацию о том, как браузеры ведут себя при встрече с тегами разных языков, но они, скорее всего, принесут некоторую пользу тем пользователям, которые используют программу чтения с экрана, которая может использовать тег для определения языка / диалекта / акцента. в котором представить содержание.