Строим HA-архитектуры, в которых падение одного узла, диска или дата-центра не ломает сервис. Для тех, кому нельзя «минут на 20 легли».
Что входит в услугу
- Оценка текущей архитектуры — SPOF, бутылочные горлышки
- Репликация БД — PostgreSQL streaming, MS SQL AlwaysOn, MySQL Group Replication
- Балансировщики — HAProxy, Nginx, Traefik, F5
- Active-Active и Active-Passive — в зависимости от RPO/RTO
- Геораспределение — несколько дата-центров, DNS failover
- Резервное копирование с проверкой — регулярная проверка восстановления
- DR-план — документированный, с учебными тревогами
- Chaos engineering — специально ломаем, чтобы не легло в проде
Как мы работаем
- Анализ требований — что за SLA, какая потеря приемлема
- Архитектура — проект с обоснованием TCO и операционных затрат
- Внедрение — поэтапно, с тестами на каждом этапе
- Учебные тревоги — имитируем падения, фиксируем план восстановления
- Сопровождение — регулярные drills и обновления плана
Стек и инструменты
- HAProxy, Nginx, Keepalived, Pacemaker
- PostgreSQL streaming + Patroni
- MS SQL AlwaysOn, MySQL Group Replication
- VMware HA/FT, Proxmox HA
- Veeam, Nakivo с репликацией
- Consul, etcd для service discovery
- BGP для anycast
Стоимость
Почему это работает у АЙТИЛ
- Считаем не «uptime», а бизнес-потери от простоя — и оптимизируем по цене
- Drills — имитация реальных падений, а не «сделали архитектуру и забыли»
- Опыт работы с требованиями финтеха и e-commerce — где часы простоя = миллионы