Изменить: теперь вопрос говорит «миллионы новых персонажей». Это позволяет легко ответить:
Нет . Utf-8 - это кодировка Unicode. Unicode имеет кодовое пространство, которое допускает 1,114,112 различных кодовых точек , и в настоящее время не назначено менее миллиона. Поэтому невозможно поддерживать миллионы новых персонажей в Юникоде. По определению ни одна кодировка Unicode не может поддерживать больше символов, чем определено Unicode. (Конечно, вы можете обмануть, кодируя уровень дальше - любой тип данных может быть представлен всего двумя символами.)
Чтобы ответить на оригинальный вопрос:
Юникод не поддерживает языки как таковые, он поддерживает символы - символы, используемые для представления языка в письменной форме.
Не все человеческие языки имеют письменное представление, поэтому не все человеческие языки могут поддерживаться Unicode. Кроме того, многие животные общаются, но не имеют письменного языка. Например, киты имеют форму общения, которая достаточно сложна, чтобы называть язык, но не имеет письменной формы (и не может быть захвачена существующей фонетической нотацией). Так что даже Unicode не поддерживает даже все языки на земле.
Еще хуже что-то вроде языка пчел. Он не только не имеет письменной формы, но и не может быть осмысленно представлен в письменной форме. Язык - это своего рода танец, который в основном указывает направление, но зависит от текущего положения солнца. Следовательно, танец имеет информационную ценность только в том месте и времени, когда он исполняется. Символическое или текстовое представление должно включать информацию (местоположение, положение солнца), которую язык пчел в настоящее время не может выразить.
Даже письменная или символическая форма общения может оказаться невозможной для представления в Юникоде. Например, иллюстрации или комиксы без слов не могут поддерживаться Юникодом, поскольку набор глифов не является конечным. Вы заметите много графического общения в международных условиях, таких как аэропорт, поэтому немыслимо, чтобы гонка космических пришельцев эволюционировала с использованием изобразительного языка.
Даже если у инопланетной расы был язык с системой письма с конечным набором символов, эта система не могла бы поддерживаться в Юникоде. Unicode ожидает, что запись будет линейной последовательностью символов. Нотация музыки - пример системы письма, которая не может быть полностью представлена в Юникоде, потому что значение закодировано и в выборе символов и в вертикальном и горизонтальном размещении. (Unicode поддерживает отдельные музыкальные символы, но не может кодировать партитуру.) У инопланетной расы, которая общалась с использованием полифонической музыки (нередко) или канала связи аналогичной сложности, вполне могла бы быть система письма, похожая на оркестровую партитуру, и Юникод не может поддерживать это.
Но давайте в качестве аргумента предположим, что все языки, даже иностранные, могут быть выражены в виде линейной последовательности символов, выбранных из конечного набора. Достаточно ли велик Unicode для вторжения инопланетян? В настоящее время Unicode имеет менее миллиона неназначенных кодов. Китайский язык содержит сто тысяч символов в соответствии с наиболее полным китайским словарем (не все они в настоящее время поддерживаются Unicode как отдельные символы). Таким образом, только десять языков со сложным китайским языком израсходовали бы весь Юникод. На земле у нас есть сотни различных систем письма, но, к счастью, большинство алфавитных, а не идеографических и, следовательно, содержит небольшое количество символов. Если бы все письменные языки использовали идеограммы, такие как китайский, Unicode даже не был бы достаточно большим для земли. Использование алфавитов происходит от речи, которая использует только ограниченное количество фонем, но это характерно для физиологии человека. Так что даже одна инопланетная планета с дюжиной идеографических систем письма может превосходить то, что может поддерживать Юникод. Теперь рассмотрим, если этот инопланетянин уже вторгся на другие планеты до Земли и включил их системы письма в набор символов, которые должны поддерживаться.
Расширение или модификация текущих кодировок или введение новых кодировок не решат эту проблему, поскольку ограничение заключается в количестве кодовых точек, поддерживаемых Unicode.
Так что ответ, скорее всего, нет.