Надеясь, что кто-то здесь может иметь некоторое представление о проблеме, с которой мы сталкиваемся. В настоящее время у нас есть Центр технической поддержки Cisco, рассматривающий дело, но они изо всех сил пытаются найти основную причину.
Хотя в заголовке упоминается трансляция ARP и высокая загрузка ЦП, мы не уверены, связаны ли они на данном этапе или нет.
Оригинальный номер был опубликован в онлайн-сообществе INE.
Мы сократили сеть до единого канала без установки резервирования, представьте, что это топология типа «звезда».
Факты:
- Мы используем 3750x коммутаторы, 4 в одном стеке. Версия 15.0 (1) SE3. Центр технической поддержки Cisco подтверждает отсутствие известных проблем для ошибок центрального процессора или ARP для этой конкретной версии.
- Нет подключенных концентраторов / неуправляемых коммутаторов
- Перезагрузка ядра
- У нас нет маршрута по умолчанию «Ip route 0.0.0.0 0.0.0.0 f1 / 0». Использование OSPF для маршрутизации.
- Мы видим большие широковещательные пакеты от VLAN 1, VLAN 1, используемые для настольных устройств. Мы используем 192.168.0.0/20
- Центр технической поддержки Cisco сказал, что они не видят ничего плохого в использовании / 20, иначе у нас был бы большой широковещательный домен, но он все еще должен функционировать.
- Wi-Fi, управление, принтеры и т. Д. Находятся на разных VLAN
- Связующее дерево было проверено квалифицированными специалистами Cisco TAC и CCNP / CCIE. Мы отключаем все избыточные ссылки.
- Конфигурация на ядре была проверена Cisco TAC.
- У нас есть тайм-аут ARP по умолчанию на большинстве коммутаторов.
- Мы не реализуем вопросы и ответы.
- Новые переключатели не были добавлены (по крайней мере, мы не знаем о них)
- Невозможно использовать динамический контроль arp на граничных переключателях, потому что это 2950
- Мы использовали шоу интерфейсы | inc line | broadcast, чтобы выяснить, откуда поступает большое количество широковещательных сообщений, однако Cisco TAC и 2 других инженера (CCNP и CCIE) подтвердили, что это нормальное поведение из-за того, что происходит в сети (например, при большом количестве закрытий mac) вызывая большую трансляцию). Мы убедились, что STP правильно работает на граничных переключателях.
Симптомы в сети и коммутаторах:
- Большое количество закрылков MAC
- Высокая загрузка ЦП для процесса ввода ARP
- Огромное количество пакетов ARP, быстро увеличивающихся и видимых
- Wiresharks показывает, что сотни компьютеров наводняют сеть ARP Broadcast
- Для целей тестирования мы поставили около 80 настольных компьютеров с разными vlan, однако мы проверили это и не заметили никакой разницы с высоким входом процессора или arp
- Были запущены различные AV / вредоносные / шпионские программы, но в сети нет вирусов.
- sh mac address-table count показывает примерно 750 разных mac адресов, как и ожидалось в vlan 1.
#sh processes cpu sorted | exc 0.00%
CPU utilization for five seconds: 99%/12%; one minute: 99%; five minutes: 99%
PID Runtime(ms) Invoked uSecs 5Sec 1Min 5Min TTY Process
12 111438973 18587995 5995 44.47% 43.88% 43.96% 0 ARP Input
174 59541847 5198737 11453 22.39% 23.47% 23.62% 0 Hulc LED Process
221 7253246 6147816 1179 4.95% 4.25% 4.10% 0 IP Input
86 5459437 1100349 4961 1.59% 1.47% 1.54% 0 RedEarth Tx Mana
85 3448684 1453278 2373 1.27% 1.04% 1.07% 0 RedEarth I2C dri
- Запустил show mac address-table на разных коммутаторах и на самом ядре (например, на ядре, подключенном непосредственно к рабочему столу, моему рабочему столу), и мы увидели, что несколько различных аппаратных MAC-адресов зарегистрированы на интерфейсе, даже если этот интерфейс имеет к этому подключен только один компьютер:
Vlan Mac Address Type Ports
---- ----------- -------- -----
1 001c.c06c.d620 DYNAMIC Gi1/1/3
1 001c.c06c.d694 DYNAMIC Gi1/1/3
1 001c.c06c.d6ac DYNAMIC Gi1/1/3
1 001c.c06c.d6e3 DYNAMIC Gi1/1/3
1 001c.c06c.d78c DYNAMIC Gi1/1/3
1 001c.c06c.d7fc DYNAMIC Gi1/1/3
- показать использование платформы tcam
CAM Utilization for ASIC# 0 Max Used
Masks/Values Masks/values
Unicast mac addresses: 6364/6364 1165/1165
IPv4 IGMP groups + multicast routes: 1120/1120 1/1
IPv4 unicast directly-connected routes: 6144/6144 524/524
IPv4 unicast indirectly-connected routes: 2048/2048 77/77
IPv4 policy based routing aces: 452/452 12/12
IPv4 qos aces: 512/512 21/21
IPv4 security aces: 964/964 45/45
Сейчас мы находимся на этапе, когда нам потребуется огромное количество простоев, чтобы изолировать каждую область за раз, если у кого-то еще нет идей, чтобы определить источник или коренную причину этой странной и причудливой проблемы.
Обновить
Спасибо @MikePennington и @RickyBeam за подробный ответ. Я постараюсь ответить, что могу.
- Как уже упоминалось, 192.168.0.0/20 является унаследованным беспорядком. Тем не менее, мы намерены разделить это в будущем, но, к сожалению, эта проблема возникла до того, как мы смогли это сделать. Я лично также согласен с большинством, поэтому широковещательный домен слишком велик.
- Использование Arpwatch - это определенно то, что мы можем попробовать, но я подозреваю, что несколько портов доступа регистрируют mac-адрес, даже если он не принадлежит этому порту, заключение arpwatch может быть бесполезным.
- Я полностью согласен с тем, что я не уверен на 100% в нахождении всех избыточных каналов и неизвестных коммутаторов в сети, но, как лучше всего наш вывод, это так, пока мы не найдем дополнительные доказательства.
- Безопасность порта была рассмотрена, к сожалению, руководство решило не использовать это по разным причинам. Общая причина в том, что мы постоянно перемещаем компьютеры (среда колледжа).
- Мы использовали portfast связующего дерева вместе с связующим деревом bpduguard по умолчанию на всех портах доступа (настольных компьютерах).
- Мы не используем switchport без согласования в данный момент на порте доступа, но мы не получаем никакой прыгающей атаки Vlan, пересекающей несколько Vlan.
- Отправим уведомление по таблице MAC-адресов и посмотрим, сможем ли мы найти какие-либо шаблоны.
«Поскольку между портами коммутаторов вы получаете большое количество закрытий MAC, трудно определить, где находятся нарушители (предположим, вы найдете два или три mac-адреса, которые отправляют большое количество arps, но исходные mac-адреса продолжают колебаться между портами)».
- Мы начали с этого, выбрали все клапаны MAC и продолжили свой путь через все основные коммутаторы к распределению для коммутатора доступа, но мы снова обнаружили, что интерфейс порта доступа перегружал несколько адресов MAC, отсюда и флапы mac; Итак, вернемся к исходной точке.
- Контроль за штормом - это то, что мы рассматривали, но мы боимся, что некоторые из законных пакетов будут отброшены, что вызовет дальнейшую проблему.
- Тройная проверка конфигурации VMHost.
- @ytti необъяснимые MAC-адреса находятся за многими портами доступа, а не за отдельным человеком. На этих интерфейсах петли не найдены. MAC-адреса также существуют на других интерфейсах, что объясняет большое количество клапанов MAC
- @ RickyBeam Я согласен с тем, почему хосты отправляют так много запросов ARP; это одна из загадочных проблем. Беспроводной мост Rouge - интересный вопрос, о котором я даже не задумывался, насколько нам известно, беспроводная связь находится в другой VLAN; но жулик, очевидно, будет означать, что он вполне может быть на VLAN1.
- @RickyBeam, я действительно не хочу отключать все, потому что это вызовет огромное количество простоев. Тем не менее, это то, куда он может идти. У нас есть серверы Linux, но не более 3-х.
- @RickyBeam, можете ли вы объяснить, как DHCP-сервер "использует" зондирование?
Мы (Cisco TAC, CCIEs, CCNP) в целом согласны с тем, что это не конфигурация коммутатора, а хост / устройство вызывает проблему.
switchport port-security aging time 5
и switchport port-security aging type inactivity
означает, что вы можете перемещать станции между портами после 5 минут бездействия или если вы вручную очистите запись безопасности порта. Однако эта конфигурация предотвращает закрытие mac между портами доступа коммутатора, поскольку порты не могут произвольно получать один и тот же mac-адрес из другого порта.