
В 3:17 утра телефон начал вибрировать. Сервер перестал отвечать, и пользователи не могли попасть в систему. Я встала, взяла ноутбук и начала разбираться с проблемой.
Логи показывали странную картину. Все выглядело нормально, но система не работала. Час потратила на проверку базы данных, API и серверов. Все компоненты функционировали корректно.
Потом вспомнила совет коллеги: когда все кажется нормальным, но ничего не работает, стоит посмотреть на последние изменения. Открыла историю деплоев и увидела обновление конфигурации, сделанное днем ранее.
Изменилась переменная, отвечающая за время жизни кэша. Это небольшое обновление нарушило работу сессий. Пользователи выходили из системы случайно, а обработка ошибок это не фиксировала. Исправление заняло пять минут, но найти причину было сложно.
К 4:30 система заработала. До 6 утра документировала инцидент и настраивала мониторинг, чтобы такая ситуация не повторилась. Иногда простые решения находятся, когда перестаешь усложнять задачу.