Мы работали с парой веб-сайтов из инфраструктуры Amazons AWS уже около двух лет, и примерно два дня назад веб-сервер начал выходить из строя один или два раза в день с единственной ошибкой, которую я могу обнаружить:
HTTP/1.1 503 Service Unavailable: Back-end server is at capacity
CloudWatch не запускает никаких сигналов тревоги (CPU / Disk IO / DB Conn). Я попытался перейти на сайт через эластичный IP, чтобы пропустить ELB, и получил это:
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers. Retrying.
Я не вижу ничего необычного в логах apache и проверил, что они правильно вращаются. У меня нет проблем с доступом к компьютеру, когда он «выключен» через SSH и, просматривая список процессов, я вижу 151 процесс apache2, которые кажутся мне нормальными. Перезапуск apache временно устраняет проблему. Эта машина работает как веб-сервер за ELB. Любые предложения будут ценны.
Среднее использование ЦП: 7,45%, минимум: 0,00%, максимум: 25,82%
Среднее использование памяти: 11,04%, минимум: 8,76%, максимум: 13,84%
Среднее использование свопов: N / A, минимум: N / A, максимум: N / A
Использование дискового пространства для / dev / xvda1, установленного на / Среднее: 62,18%, Минимум: 53,39%, Максимум: 65,49%
Позвольте мне уточнить, я думаю, что проблема связана с отдельным экземпляром EC2, а не с ELB, я просто не хотел исключать это, даже если мне не удалось достичь эластичного IP. Я подозреваю, что ELB просто возвращает результаты попадания в настоящий экземпляр EC2.
Обновление: 2014-08-26 Я должен был обновить это раньше, но «исправить» было сделать снимок «плохого» экземпляра и запустить получившийся AMI. С тех пор оно не уменьшилось. Я просматривал проверку работоспособности, когда у меня все еще возникали проблемы, и я мог перейти на страницу проверки работоспособности ( curl http://localhost/page.html
), даже когда у меня возникали проблемы с емкостью с помощью балансировщика нагрузки. Я не уверен, что это была проблема проверки работоспособности, но так как никто, включая Amazon, не может дать лучший ответ, я отмечаю его как ответ. Спасибо.
Обновление: 2015-05-06 Я подумал, что вернусь сюда и скажу, что частью проблемы, которой я сейчас твердо убежден, были настройки проверки работоспособности. Я не хочу исключать их проблемы с AMI, потому что она определенно улучшилась после запуска заменяющего AMI, но я обнаружил, что наши проверки работоспособности были разными для каждого балансировщика нагрузки и что у него больше всего проблем был действительно агрессивный нездоровый порог и время ожидания ответа. Наш трафик имеет тенденцию к непредсказуемым скачкам, и я думаю, что между агрессивными настройками проверки работоспособности и всплесками трафика это был идеальный шторм.