По вашему опыту, какие символы Unicode, кодовые точки, диапазоны за пределами BMP (Basic Multilingual Plane) являются наиболее распространенными на данный момент? Это те, которые требуют 4 байта в UTF-8 или суррогаты в UTF-16.
Я ожидал, что ответом будут китайские и японские символы, используемые в именах, но не включенные в наиболее распространенные многобайтовые наборы символов CJK, но в проекте, над которым я работаю больше всего, - английском Wiktionary, мы обнаружили, что готический алфавит - это гораздо чаще встречается на данный момент.
ОБНОВИТЬ
Я написал несколько программных инструментов для сканирования целых Википедий на наличие символов, отличных от BMP, и, к своему удивлению, обнаружил, что даже в японской Википедии готический алфавит является наиболее распространенным. Это также верно в отношении китайской Википедии, но в ней также было много китайских иероглифов, используемых до 50 или 70 раз, включая «𨭎», «𠬠» и «𩷶».