Для верстки у нас есть наш знаменитый текст «Lorem ipsum», чтобы проверить, как он выглядит.
Я ищу набор файлов, содержащих текст, закодированный в нескольких разных кодировках, которые я могу использовать в своих тестах JUnit для тестирования некоторых методов, которые имеют дело с кодировкой символов при чтении текстовых файлов.
Пример:Имея ISO 8859-1
закодированный тестовый файл и Windows-1252
закодированный тестовый файл. Windows-1252 должна вызывать различия в области 80 16 - 9F 16 . Другими словами, он должен содержать хотя бы один символ этого региона, чтобы отличать его от ISO 8859-1.
Возможно, лучший набор тестовых файлов - это тот, где тестовый файл для каждой кодировки содержит все свои символы один раз. Но, может быть, я не знаю, что - все мы любим это кодирование, верно? :-)
Есть ли такой набор тестовых файлов для проблем с кодировкой символов?