Строим наблюдаемость, которая ловит аномалии до того, как пойдут жалобы. Метрики, логи, трейсы — в одном окне, с работающими алертами.
Что входит в услугу
- Метрики — инфраструктурные (CPU, RAM, диски, сеть) и прикладные (RPS, latency, errors)
- Логи — агрегация, структурированные события, поиск, ретеншен
- Трейсы — распределённая трассировка микросервисов
- Дашборды — для инженеров, SRE, руководства
- Алерты — настройка, эскалация, дежурство
- Синтетика — проверка доступности из внешних точек
- SLO / error budgets — целевые показатели и бюджеты ошибок
- Корреляция — от алерта до трейса и лога за один клик
Как мы работаем
- Инвентаризация источников — серверы, приложения, сервисы, внешние API
- Стек — выбираем: Prometheus + Grafana, ELK, VictoriaMetrics, Grafana Cloud
- Развёртывание — self-hosted или managed
- Инструментация — агенты, exporters, OpenTelemetry
- Правила и алерты — настраиваем пороги, избегаем false-positives
- Ретроспектива — раз в месяц — анализ инцидентов и улучшение
Стек и инструменты
- Prometheus, Alertmanager
- Grafana, VictoriaMetrics
- Loki, ELK Stack (Elasticsearch, Logstash, Kibana)
- OpenTelemetry, Jaeger, Tempo, Zipkin
- Uptime Kuma, Grafana Synthetic Monitoring
- Zabbix 7 для enterprise-инфры
- PagerDuty, Grafana OnCall
Стоимость
Почему это работает у АЙТИЛ
- Настраиваем с точки зрения SRE: SLO, error budgets, burn rates
- Алерты срабатывают на симптомы для пользователя, а не на каждую метрику
- Опыт работы с большими объёмами (сотни тысяч событий в секунду)