SRE практики и инструменты — курс от OTUS
Курс «SRE практики и инструменты» от OTUS обучает принципам Site Reliability Engineering — подходу к обеспечению надёжности и доступности IT-сервисов. Программа охватывает определение SLI, SLO и error budget, построение систем мониторинга и алертинга, управление инцидентами, capacity planning и автоматизацию операционных задач. Студенты изучают инструменты Prometheus, Grafana, PagerDuty, работу с Kubernetes в контексте SRE, нагрузочное тестирование и chaos engineering. Курс подходит DevOps-инженерам и системным администраторам, которые хотят перейти в SRE.
Как мы оцениваем курсы
Рейтинг ToolFox формируется по 5 критериям, каждый оценивается от 1 до 10:
- Качество программы — полнота материала, актуальность технологий
- Практика — реальные проекты, код-ревью, тренажёры
- Поддержка — наставники, обратная связь, сообщество
- Трудоустройство — карьерный центр, помощь с резюме
- Цена/качество — соотношение стоимости и получаемых навыков
Итоговый балл — среднее арифметическое 5 критериев. Обновляется при каждом пересмотре курса.
- Платформа
- OTUS
- Автор
- Команда OTUS, OTUS
- Длительность
- 5 мес, 8 ч/нед
- Формат
- Онлайн. Вебинары 2 раза в неделю, практические задания, проектная работа
- Уровень
- Продвинутый
- Язык
- Русский
- Сертификат
- Сертификат OTUS
- Обновлено
- март 2026 г.
Полная стоимость: 90 000 ₽
Программа и содержание
Модули и темы
Введение в философию SRE по Google. Определение метрик надёжности: SLI, SLO, SLA. Работа с error budget, баланс между надёжностью и скоростью разработки.
- SRE-подход
- SLI
- SLO
- SLA
- Error budget
Основы SRE
Философия SRE, SLI/SLO/SLA, error budget и культура надёжности
Введение в философию SRE по Google. Определение метрик надёжности: SLI, SLO, SLA. Работа с error budget, баланс между надёжностью и скоростью разработки.
- SRE-подход
- SLI
- SLO
- SLA
- Error budget
Мониторинг и наблюдаемость
Системы мониторинга, метрики, логи и трассировки
Построение систем мониторинга на базе Prometheus и Grafana. Настройка алертинга через Alertmanager. Три столпа наблюдаемости: метрики, логи, трассировки.
- Prometheus
- Grafana
- Alertmanager
- Логирование
- Трассировка
Управление инцидентами
Процессы реагирования на инциденты и постмортемы
Организация дежурств on-call, процессы реагирования на инциденты. Инструменты инцидент-менеджмента (PagerDuty). Написание постмортемов и внедрение корректирующих мер.
- Инцидент-менеджмент
- On-call
- Постмортем
- PagerDuty
- Эскалация
Capacity planning и нагрузочное тестирование
Планирование мощностей и тестирование под нагрузкой
Планирование мощностей на основе метрик роста. Нагрузочное тестирование с помощью JMeter и k6. Прогнозирование потребностей в ресурсах.
- Capacity planning
- Нагрузочное тестирование
- JMeter
- k6
- Прогнозирование
Chaos Engineering
Практики контролируемого хаоса для повышения устойчивости
Принципы chaos engineering: внедрение контролируемых сбоев для проверки устойчивости системы. Инструменты Litmus и Chaos Monkey. Проведение Game Days.
- Chaos Engineering
- Litmus
- Chaos Monkey
- Game Days
SRE в Kubernetes
Применение SRE-практик в Kubernetes-среде
SRE-практики в контексте Kubernetes: управление ресурсами, автоскейлинг, health checks, readiness/liveness probes. Основы service mesh для наблюдаемости.
- Kubernetes
- Автоскейлинг
- Resource management
- Service mesh
Чему научитесь
Для кого подходит
- →DevOps-инженерам, желающим развиваться в направлении SRE
- →Системным администраторам с опытом работы с Linux и Kubernetes
- →Разработчикам, ответственным за надёжность своих сервисов
- →Техническим лидам, выстраивающим процессы эксплуатации
Требования
- →Опыт работы с Linux и командной строкой
- →Базовые знания Kubernetes
- →Понимание CI/CD-процессов
Плюсы и минусы курса SRE практики и инструменты
Обзор подготовлен редакцией ToolFox · Обновлено: март 2026 г.
Плюсы
- Уникальная для рынка специализация в SRE
- Охват ключевых практик: от SLO до chaos engineering
- Практика на реальных инструментах (Prometheus, PagerDuty, k6)
- Преподаватели — действующие SRE-инженеры
- Проектная работа для портфолио
- Востребованная специальность с высокими зарплатами
Минусы
- Высокий порог входа — нужен опыт в DevOps или администрировании
- Требуются знания Kubernetes для полноценного прохождения
- Узкая специализация — подходит не всем IT-специалистам
Отзывы (1)
Загрузка комментариев...
Похожие курсы
DevOps практики и инструменты
OTUS
Курс «DevOps практики и инструменты» от OTUS — комплексное обучение DevOps-методологии за 5 месяцев. Программа построена по принципу перехода от абстр...
DevOps Upgrade
Слёрм
Курс «DevOps Upgrade» от Слёрм — интенсивное погружение в профессию DevOps-инженера за 5 месяцев. 343 часа обучения, 80% практики. Программа из 6 этап...
Часто задаваемые вопросы
Чем SRE отличается от DevOps?
Какой уровень подготовки нужен?
Как проходят занятия?
Есть ли проектная работа?
Какой сертификат выдаётся?
Востребована ли профессия SRE?
Есть ли рассрочка?
Чем SRE отличается от DevOps?
DevOps — культура и практики автоматизации доставки ПО. SRE — конкретная реализация этих практик с фокусом на надёжность. SRE-инженер отвечает за доступность и стабильность сервисов.
Какой уровень подготовки нужен?
Требуется опыт работы с Linux, базовые знания Kubernetes и понимание CI/CD. Курс рассчитан на специалистов с опытом в DevOps или системном администрировании.
Как проходят занятия?
Вебинары 2 раза в неделю в вечернее время. Записи доступны в личном кабинете. Домашние задания проверяются преподавателем.
Есть ли проектная работа?
Да, в конце курса выполняется проектная работа: построение системы мониторинга и обеспечения надёжности для реального сервиса.
Какой сертификат выдаётся?
Сертификат OTUS о прохождении курса «SRE практики и инструменты».
Востребована ли профессия SRE?
Да, SRE-инженеры входят в число наиболее востребованных и высокооплачиваемых IT-специалистов. Спрос стабильно растёт в крупных технологических компаниях.
Есть ли рассрочка?
Да, доступна рассрочка на 12 месяцев от 7 500 руб./мес.