Это будет не столько ответ, сколько комментарий.
Качество зависит от нескольких вещей, включая (как сказал Аарон выше) 1) языковую пару и 2) тему, но также 3) роды и 4) стиль оригинала и 5) количество имеющегося у вас параллельного текста обучить систему МТ.
Чтобы подготовить почву, практически все МТ в наши дни основаны на параллельных текстах, то есть текстах на двух разных языках, причем один предположительно является переводом другого (или оба являются переводом какого-то третьего языка); и потенциальное использование словарей (возможно, с помощью морфологических процессов) в качестве отката, когда параллельные тексты не содержат конкретных слов.
Более того, как уже говорили другие, система МП никоим образом не понимает тексты, которые она переводит; он просто видит строки символов и последовательности слов, состоящие из символов, и ищет похожие строки и последовательности в текстах, которые он переводил ранее. (Хорошо, это немного сложнее, и были попытки разобраться с семантикой в вычислительных системах, но пока это в основном строки.)
1) Языки различаются. Некоторые языки имеют много морфологии, что означает, что они делают вещи с одним словом, что другие языки делают с несколькими словами. Простым примером будет испанский 'cantaremos' = английский "мы будем петь". И один язык может делать то, что другой язык даже не беспокоит, например, неформальное / формальное (tu / usted) различие в испанском языке, которому английский не имеет эквивалента. Или один язык может делать вещи с морфологией, что другой язык делает с порядком слов. Или сценарий, который использует язык, может даже не обозначать границы слов (китайский и некоторые другие). Чем больше разных языков, тем сложнее будет переводить систему МП между ними. Первые эксперименты в статистической МТ были проведены между французским и английским языками,
2) Тема: Если у вас есть параллельные тексты в Библии (что справедливо почти для любой пары письменных языков), и вы обучаете свою систему МТ этим, не ожидайте, что она пойдет хорошо на технических текстах. (Ну, в любом случае, Библия представляет собой относительно небольшой объем текста по стандартам обучающих систем МП, но притворяйтесь :-).) Словарный запас Библии сильно отличается от словаря технических текстов, как и частота различных грамматических слов. конструкции. (Грамматика по сути та же самая, но в английском, например, вы получаете гораздо больше пассивного голоса и больше составных существительных в научных и технических текстах.)
3) Роды: если ваш параллельный текст носит декларативный характер (например, руководства для тракторов), попытка использовать полученную в результате систему MT в диалоговом окне не даст вам хороших результатов.
4) Стиль: думаю, Хилари против Дональда; Эрудит против популярного. Тренировка с одной стороны не принесет хороших результатов с другой. Точно так же обучите систему МП романам на уровне взрослых и используйте ее в детских книгах.
5) Языковая пара: английский имеет много текстов, и шансы найти тексты на каком-либо другом языке, параллельном данному тексту на английском языке, намного выше, чем шансы найти параллельные тексты, скажем, на русском и игбо. (Тем не менее, могут существовать исключения, например, языки Индии.) Как общее обобщение: чем больше таких параллельных текстов вам нужно для обучения системе МП, тем лучше результаты.
В общем, язык сложен (вот почему я люблю его - я лингвист). Поэтому неудивительно, что системы MT не всегда работают хорошо.
Кстати, человеческие переводчики тоже не всегда так хороши. Десять или два года назад я получал переводы документов от людей-переводчиков на английский, чтобы использовать их в качестве учебных материалов для систем МП. Некоторые переводы было трудно понять, и в некоторых случаях, когда мы получали переводы от двух (или более) переводчиков-людей, трудно было поверить, что переводчики читали одни и те же документы.
И наконец, (почти) никогда не бывает только одного правильного перевода; Есть несколько способов перевода отрывка, которые могут быть более или менее хорошими, в зависимости от того, какие функции (грамматическая корректность, стиль, последовательность использования, ...) вы хотите. Там нет простой меры "точности".