Знаем о проблеме раньше, чем вы её заметите. 24/7-мониторинг с эскалацией и honest-отчётами — не чтобы галочка стояла, а чтобы в пятницу вечером ничего не легло.
Что входит в услугу
- Мониторинг инфраструктуры — CPU, RAM, диски, сеть, температура
- Мониторинг сервисов — веб, почта, БД, 1С, файловые службы, VPN
- Мониторинг прикладных метрик — очередь заказов в 1С, задержка SAP, время ответа API
- Синтетические тесты — с внешней точки проверяем доступность сайта и сервисов
- Эскалация — первый уровень → дежурный инженер → on-call → руководитель
- Дашборды — Grafana с ключевыми показателями для вашего CTO / директора
- SLA-отчёты — ежемесячно: сколько было недоступности, по каким причинам
Как мы работаем
- Inventory — собираем список всего, что нужно мониторить, и критичные пороги
- Развёртывание — ставим агентов, подключаем SNMP, настраиваем синтетические тесты
- Calibration — месяц наблюдаем, убираем ложные алерты, настраиваем baseline
- Эксплуатация — круглосуточная реакция, периодический ревью метрик и правил
Стек и инструменты
- Zabbix 7.x
- Prometheus + Grafana
- Victoria Metrics
- Loki, ELK
- Uptime Kuma
- PRTG
- SNMP / IPMI / Redfish
- PagerDuty, Telegram-бот эскалации
Стоимость
Почему это работает у АЙТИЛ
- Настраиваем не «максимум метрик», а «только те, что приводят к действиям»
- Бесплатное покрытие: разворачиваем Zabbix/Prometheus на вашем железе, вы остаётесь владельцем данных
- Ежемесячно пересматриваем алерты: то, что не срабатывало — убираем, то что пропускали — добавляем
- Настраиваем honest SLA: считаем не «время работы Zabbix», а «время работы бизнеса»