Ответ на ваш вопрос «В принципе, да» - в его наиболее общем виде, тестирование эквалайзера - это всего лишь частный случай теста Тьюринга («Как бы вы к этому относились ...?»).
Чтобы понять, почему значимые тесты эквалайзера могут быть затруднены, рассмотрите следующие два возможных теста:
В одной из крайностей сложности фильм «Бегущий по лезвию лезвия», как известно, показывает тест на различение человека и андроида на основе ответов на эмоционально заряженные вопросы.
Если вы попытаетесь задать эти вопросы (или даже гораздо более простые) современному чат-боту, вы, скорее всего, быстро придете к выводу, что не разговаривали с человеком.
Проблема с оценкой эквалайзера состоит в том, что чем более эмоционально сложен тест, тем более общей должна быть система ИИ, чтобы превратить входные данные в содержательное представление.
В другом крайнем случае из вышесказанного, предположим, что тест EQ был сформулирован чрезвычайно структурированным образом со структурированным вводом, предоставленным человеком. В таком случае успех в «тесте эквалайзера» на самом деле не основывается на реальном мире.
В эссе, озаглавленном «Неискоренимый эффект Элизы и его опасности», Дуглас Хофштадтер приводит следующий пример, в котором программа ACME (а не Хофштадтер) претендует на «понимание» аналогии.
Здесь компьютер узнает о парне по имени Слагго, который везет свою жену Джейн и своего хорошего друга Бака в бар, где все идет своим чередом, и Джейн забеременеет от Бака. У нее есть ребенок, но она не хочет его, и поэтому, с помощью мужа, она топит ребенка в реке, таким образом, «аккуратно решая» проблему «Бэмби».
Эта история представлена ACME в следующей форме:
ql: (neglectful-husband (Sluggo))
q2: (lonely-and-sex-starved-wife (Jane-Doe))
q3: (macho-ladykiller (Buck-Stag))
q4: (poor-innocent-little-fetus (Bambi))
q5: (takes-out-to-local-bar (Sluggo Jane-Doe Buck-Stag))
...
q11: (neatly-solves-the-problem-of (Jane-Doe Bambi))
q12: (cause (ql0 q11))
Предположим, что программу спросили, было ли поведение Джейн Доу моральным. Сложные сложные эмоциональные понятия, такие как «пренебрежительное», «одинокое» и «невинный», здесь просто предикаты, недоступные для ИИ для более глубокого интроспективного исследования. Их так же легко можно заменить на такие ярлыки, как «bling-blang-blong15657».
Таким образом, в одном смысле, отсутствие успеха в тесте EQ с любой глубиной указывает на общую проблему, с которой в настоящее время сталкивается ИИ: неспособность определить (или научиться иным образом) осмысленные представления тонких сложностей человеческого мира, что намного больше сложнее, чем возможность распознать видео о кошках.