Есть ли способ заставить spamassassin более интенсивно набирать верхние строки тела сообщения?

Большое количество спама проникает через фильтр на почтовом сервере, который я запускаю, используя относительно простой трюк, начинающийся с нескольких строк (невероятно очевидных) потери веса или другого мошеннического текста вверху, за которым следует большая часть текста из программной документации. - или, что самое страшное, текст соскоблен с Stack Exchange . В лучшем случае Spamassassin расценивает это как BAYES_50, и бывает, что остальные сообщения составлены достаточно тщательно, чтобы они не затрагивали другие триггеры. (Например, заголовки минимальны и правильны.) Часто включенные выдержки достаточно близко совпадают с моими законными интересами, чтобы сообщение в целом оценивалось как BAYES_00, потому что очень спамовые токены просто перегружены сочными самородками решения проблем системного администратора.

Верхняя часть настолько очевидно, что является спамом (и на самом деле имеет тенденцию быть очень похожей на ранее полученные и обученные как спам-сообщения), что я отчасти поражаюсь, что она проходит - но ясно, что это так. Это похоже на отдельный проход, который оценил верхние 25 (или около того) строк сообщения и весил, что в значительной степени решило бы проблему. Есть ли способ сделать это?

Несколько человек предложили написать пользовательские регулярные выражения. Я не хочу вступать в это, так как это постоянная проигрышная битва. Это то, что люди делали до того, как Байесовская сортировка спама получила широкое распространение, и это было вообще ужасно. Ни один человек не может идти в ногу . Это не намного эффективнее, чем просто нажать клавишу удаления для каждого спам-сообщения, и намного больше работы с моей стороны.

Байесовская фильтрация спама. Это даже работает с этим спамом, если я выделю часть « выше сгиба » и просто проанализирую эту часть, удалив приманку / мякину. Вопрос в том, как я могу заставить Спамассасина сделать это?

spam spamassassin

— mattdm
источник

Байесовский фильтр включен?

— Кондыбас

@kondybas Да. И это является частью проблемы, так как текст дополнения перевешивает спам по количеству.

— Mattdm

Какой МТА вы использовали?

— Кондыбас

Сколько байесовских тренировок вы проделали по этим спамам? Я ожидаю, что Байесовский алгоритм решит это в ближайшее время.

— mc0e

@ mc0e Не может. Это просто не так волшебно умно. Более сложная система машинного обучения, вероятно, могла бы сделать это, но я думаю, что "один простой трюк", который я здесь прошу, также подойдет.

— Матдм

Я (маленький) яркий борец против спама сам. И из-за многих проблем, с которыми вы сталкиваетесь, я закончил делать грязные вещи сам, много лет назад.

Теперь, это не ответ на ваш конкретный вопрос, а на вашу конкретную проблему. Поэтому, пожалуйста, не понижайте голос из-за этого.

Я решил эту проблему, изменив сценарий sa_filter-post.pl, используемый сервером XMail, который вызывает spamc для файла электронной почты и выполняет некоторые мелкие действия для обработки не всего файла, а отдельных его частей на основе некоторые конкретные правила (жестко прописанные мной). да, regex'ы, но пока они работают на меня (у меня есть куча других скриптов до и после этого, так что они могут сыграть свою роль)

Например, у меня есть регулярное выражение, которое вылавливает номера телефонов. Спамер оставил это в полном объеме, так что сразу же обрабатывается только средние 400 символов файла (я получил пробой и ошибкой 400, начиная с 200). Обратите внимание, что довольно трудно выделить середину того, что вы видите, по сравнению с тем, что находится в файле.

Есть еще одна, которая имеет такую же структуру html-таблицы с «products», фиктивным заголовком и не пригодным для использования нижним колонтитулом, поэтому я удаляю их, убираю столбец с комментариями «products» и передаю их в spamc.

И так далее, вы получите картину.

Но не все правила идеальны, поэтому я делаю небольшую магию, присваивая индивидуальные оценки каждому правилу, которое я жестко кодирую и настраиваю или настраиваю при необходимости в зависимости от поведения правила (и иногда я заканчиваю тем, что удаляю все правила вместе) ). Затем я изменяю оценку SA личным счетом. Я сделал это потому, что по какой-то причине SA поставил только 4 балла, например, что-то наполняющее спам по правилам, и я также испытывал сильные чувства, чтобы поймать их правильно. Таким образом, я дал им небольшой толчок для перехода на 5.0, в сочетании с некоторыми сценариями пост-обработки, которые учитывают некоторые другие переменные (источник электронной почты, цель электронной почты, структура заголовка и т. Д.), Это более или менее убивает спам. вне.

Теперь я понимаю, что это не то, на что вы надеялись, но в моем случае это дает мне большую власть над тем, что сканируется, просто мне нужно настроить вещи вручную, а затем время от времени делать небольшие прикосновения. ups на значениях / регулярных выражениях.

Но в вашем случае все намного проще, так как все, что вам нужно сделать, это использовать простой bash-скрипт, который будет вызываться вашим MX вместо spamc, и заставить этот скрипт использовать команду head, чтобы получить только первое необходимое количество байтов и передать этот временный файл в spamc.

Содержание скрипта будет немного зависеть от вашего почтового сервера, но это не должно быть сложно понять.

(Обратите внимание, что я говорил только о моей настройке, чтобы вы могли увидеть возможности этой опции)

PS: лично я никогда не получал такого рода спам-писем (с полезностями, связанными с программированием), поэтому мне интересно, если вы не разозлили кого-то, а теперь вы нацелены. Это объясняет специально созданные письма. Причина, по которой я думаю об этой возможности, состоит в том, что несколько лет назад, когда я был очень активным на различных форумах и группах по ИТ, я действительно злил некоторых людей, и время от времени я использовал различные типы атак на свой сервер, включая спам по электронной почте. , Но тогда идиоты не были такими умными :)

— ciuly
источник