Чем больше я на это смотрю, тем больше я склонен думать, что есть проблема со сбором данных.
Во-первых, с вашим TPS происходит нечто действительно странное. Несмотря на то, что общая картина выглядит нормально, происходит очень резкий перерыв около 9 часов вечера, а затем снова около 7 часов утра. Нормальный график будет намного более плавным во время перехода в непиковые часы.
Это говорит о том, что в профиле произошли изменения, и вы, возможно, имеете 2 разных типа клиентов:
- Тот, который работает только между 7 утра (выход) и 9 вечера (выход), на больших объемах, и
- другой, который, вероятно, работает круглосуточно, на более низких объемах.
Второй намек около 18:00. Большую часть времени до и после мы имеем профиль большого объема - высокий TPS и низкая задержка. Но около 18:00 происходит внезапное падение с 800-1000 об / мин до менее 400 об / мин. Что может вызвать это?
Третий намек - понижение времени ответа 5-го процентиля. На самом деле я предпочитаю смотреть на минимальное время отклика (но 5-й процентиль, возможно, лучше) по двум причинам: оно сообщает мне время обслуживания (т.е. время отклика минус очередь), а время отклика, как правило, соответствует распределению Вейбулла, что означает, что режим (или наиболее распространенное значение) чуть выше минимума.
Таким образом, понижение в 5-м процентиле говорит мне, что в серии произошел внезапный перерыв, и время обслуживания фактически сократилось, хотя и дисперсия, и среднее время отклика значительно увеличились.
Следующие шаги
На этом этапе я бы глубоко погрузился в журналы, чтобы узнать, что отличается от 18:00 образцов с малым объемом по сравнению с образцами с большим объемом до и после него.
Я бы искал:
- различия в географическом местоположении (в случае, если задержка влияет на $ request_time)
- различия в URL (не должно быть)
- различия в методе HTTP (POST / GET) (не должно быть)
- повторные запросы с одного и того же IP
- и любые другие отличия ...
Кстати, «событие» 18:00 - достаточное доказательство того, что это не имеет никакого отношения к перегруженности / активности центра обработки данных. Чтобы это было правдой, затор должен был бы вызвать снижение TPS, что возможно в 18:00, но крайне маловероятно, чтобы вызвать устойчивое и плавное изгибание TPS в течение 10 часов с 9 вечера до 7 утра.