Вы можете использовать такой метод, как eigenfaces, http://en.wikipedia.org/wiki/Eigenface . Ниже приведено хорошее описание процедуры, а также ссылки на различные реализации.
http://www.pages.drexel.edu/~sis26/Eigenface%20Tutorial.htm
Отсюда обычно использовать это в подходе классификации, обучать модель и затем предсказывать случаи. Вы можете сделать это, обучив кучу известных знаменитостей, и, если вы предскажете лицо из твиттера как лицо из вашей обученной модели знаменитостей, удалите его. Аналогично этому http://blog.cordiner.net/2010/12/02/eigenfaces-face-recognition-matlab/
Это страдает от постоянных поправок. Вскоре появится новый Джастин Бибер, которого не будет в вашей обученной модели, поэтому вы не можете предсказать его. Есть также такой случай, как Уитни Хьюстон, вы, возможно, никогда не думали добавить ее раньше, но она может быть обычным образом из уважения и восхищения в течение нескольких недель. Вы не будете иметь обратную сторону детских фотографий, как упомянуто выше, хотя. Чтобы преодолеть эти проблемы, вы можете использовать более иерархический кластерный подход. Удаляя первые несколько наборов кластеров, которые находятся очень близко, если они достигают определенного уровня поддержки, ваш первый кластер имеет 15 элементов, прежде чем будет создан второй. Теперь вам не нужно беспокоиться о том, кто в вашей тренировочной модели, но вы попадете на проблему детских фотографий.