Я не думаю, что вы найдете отдельное приложение, которое исправит ваш конкретный выбор неправильно маркированных кодировок. Наличие смеси cp1252, UTF-16 и GB-18030 довольно необычно, и я не думаю, что существующее программное обеспечение сможет решить эту проблему автоматически.
Поэтому я бы скачал Mutagen и написал собственный скрипт на Python, чтобы автоматизировать ваши собственные решения о том, как исправить неизвестные кодировки. Например:
musicroot= ur'C:\music\wonky'
tryencodings= 'gb18030', 'cp1252'
import os
import mutagen.id3
def findMP3s(path):
for child in os.listdir(path):
child= os.path.join(path, child)
if os.path.isdir(child):
for mp3 in findMP3s(child):
yield mp3
elif child.lower().endswith(u'.mp3'):
yield child
for path in findMP3s(musicroot):
id3= mutagen.id3.ID3(path)
for key, value in id3.items():
if value.encoding!=3 and isinstance(getattr(value, 'text', [None])[0], unicode):
if value.encoding==0:
bytes= '\n'.join(value.text).encode('iso-8859-1')
for encoding in tryencodings:
try:
bytes.decode(encoding)
except UnicodeError:
pass
else:
break
else:
raise ValueError('None of the tryencodings work for %r key %r' % (path, key))
for i in range(len(value.text)):
value.text[i]= value.text[i].encode('iso-8859-1').decode(encoding)
value.encoding= 3
id3.save()
Приведенный выше скрипт делает несколько предположений:
Только теги, помеченные как находящиеся в кодировке 0, неверны. (Якобы кодирование 0 - это ISO-8859-1, но на практике это часто кодовая страница Windows по умолчанию.)
Если тег помечен как кодировка UTF-8 или UTF-16, он считается правильным и просто конвертируется в UTF-8, если его еще нет. Лично я не видел ID3, помеченных как UTF (кодировки 1-3) по ошибке раньше. К счастью, кодирование 0 легко восстановить в исходные байты, поскольку ISO-8859-1 является прямым отображением порядковых значений байтов 1: 1.
Когда встречается тег кодирования 0, сценарий пытается сначала преобразовать его в GB18030, а затем, если он недопустим, возвращается к кодовой странице 1252. Однобайтовые кодировки, такие как cp1252, будут стремиться соответствовать большинству байтовых последовательностей, поэтому лучше поместить их в конце списка кодировок попробовать.
Если у вас есть другие кодировки, такие как cp1251 Cyrillic, или множество имен файлов cp1252 с несколькими символами ударения в строке, которые ошибочно принимают за GB18030, вам потребуется какой-то более умный алгоритм угадывания. Может быть, посмотрите на имя файла, чтобы угадать, какие символы могут присутствовать?
mid3v2
это только половина решения. После того, как я попробовал его, это определенно не очень хорошо с ошибочно идентифицированными кодировками, от которых я страдаю, то есть обновленный тег ID3 по- прежнему отображается неправильно в Amarok. Мутаген не выполняет мое требование о «умном вычислении оригинальной кодировки»; это беспечно предполагаетLatin1
/Windows-1252
, что является стандартным соответствием, но бесполезно для грязного реального мира. Я склонен не принимать этот ответ прямо сейчас; Я дам еще несколько дней для других ответов. Если ничего хорошего не приходит, вас принимают.