SRE практики и инструменты — курс от OTUS

Курс «SRE практики и инструменты» от OTUS обучает принципам Site Reliability Engineering — подходу к обеспечению надёжности и доступности IT-сервисов. Программа охватывает определение SLI, SLO и error budget, построение систем мониторинга и алертинга, управление инцидентами, capacity planning и автоматизацию операционных задач. Студенты изучают инструменты Prometheus, Grafana, PagerDuty, работу с Kubernetes в контексте SRE, нагрузочное тестирование и chaos engineering. Курс подходит DevOps-инженерам и системным администраторам, которые хотят перейти в SRE.

8.4/10
Рейтинг ToolFox
Как мы оцениваем курсы

Рейтинг ToolFox формируется по 5 критериям, каждый оценивается от 1 до 10:

  • Качество программы — полнота материала, актуальность технологий
  • Практика — реальные проекты, код-ревью, тренажёры
  • Поддержка — наставники, обратная связь, сообщество
  • Трудоустройство — карьерный центр, помощь с резюме
  • Цена/качество — соотношение стоимости и получаемых навыков

Итоговый балл — среднее арифметическое 5 критериев. Обновляется при каждом пересмотре курса.

Платформа
OTUS
Автор
Команда OTUS, OTUS
Длительность
5 мес, 8 ч/нед
Формат
Онлайн. Вебинары 2 раза в неделю, практические задания, проектная работа
Уровень
Продвинутый
Язык
Русский
Сертификат
Сертификат OTUS
Обновлено
март 2026 г.
от 7 500 ₽/мес

Полная стоимость: 90 000

Программа и содержание

Модули и темы

Введение в философию SRE по Google. Определение метрик надёжности: SLI, SLO, SLA. Работа с error budget, баланс между надёжностью и скоростью разработки.

  • SRE-подход
  • SLI
  • SLO
  • SLA
  • Error budget

Основы SRE

Философия SRE, SLI/SLO/SLA, error budget и культура надёжности

Введение в философию SRE по Google. Определение метрик надёжности: SLI, SLO, SLA. Работа с error budget, баланс между надёжностью и скоростью разработки.

  • SRE-подход
  • SLI
  • SLO
  • SLA
  • Error budget

Мониторинг и наблюдаемость

Системы мониторинга, метрики, логи и трассировки

Построение систем мониторинга на базе Prometheus и Grafana. Настройка алертинга через Alertmanager. Три столпа наблюдаемости: метрики, логи, трассировки.

  • Prometheus
  • Grafana
  • Alertmanager
  • Логирование
  • Трассировка

Управление инцидентами

Процессы реагирования на инциденты и постмортемы

Организация дежурств on-call, процессы реагирования на инциденты. Инструменты инцидент-менеджмента (PagerDuty). Написание постмортемов и внедрение корректирующих мер.

  • Инцидент-менеджмент
  • On-call
  • Постмортем
  • PagerDuty
  • Эскалация

Capacity planning и нагрузочное тестирование

Планирование мощностей и тестирование под нагрузкой

Планирование мощностей на основе метрик роста. Нагрузочное тестирование с помощью JMeter и k6. Прогнозирование потребностей в ресурсах.

  • Capacity planning
  • Нагрузочное тестирование
  • JMeter
  • k6
  • Прогнозирование

Chaos Engineering

Практики контролируемого хаоса для повышения устойчивости

Принципы chaos engineering: внедрение контролируемых сбоев для проверки устойчивости системы. Инструменты Litmus и Chaos Monkey. Проведение Game Days.

  • Chaos Engineering
  • Litmus
  • Chaos Monkey
  • Game Days

SRE в Kubernetes

Применение SRE-практик в Kubernetes-среде

SRE-практики в контексте Kubernetes: управление ресурсами, автоскейлинг, health checks, readiness/liveness probes. Основы service mesh для наблюдаемости.

  • Kubernetes
  • Автоскейлинг
  • Resource management
  • Service mesh

Чему научитесь

Определять и отслеживать SLI/SLO для сервисов
Строить системы мониторинга на Prometheus и Grafana
Управлять инцидентами и проводить постмортемы
Планировать мощности и проводить нагрузочное тестирование
Применять практики chaos engineering
Настраивать алертинг и дежурства on-call
Работать с Kubernetes в контексте обеспечения надёжности
Автоматизировать операционные задачи
Управлять error budget и балансировать надёжность со скоростью релизов

Для кого подходит

  • DevOps-инженерам, желающим развиваться в направлении SRE
  • Системным администраторам с опытом работы с Linux и Kubernetes
  • Разработчикам, ответственным за надёжность своих сервисов
  • Техническим лидам, выстраивающим процессы эксплуатации

Требования

  • Опыт работы с Linux и командной строкой
  • Базовые знания Kubernetes
  • Понимание CI/CD-процессов

Плюсы и минусы курса SRE практики и инструменты

Обзор подготовлен редакцией ToolFox · Обновлено: март 2026 г.

Плюсы

  • Уникальная для рынка специализация в SRE
  • Охват ключевых практик: от SLO до chaos engineering
  • Практика на реальных инструментах (Prometheus, PagerDuty, k6)
  • Преподаватели — действующие SRE-инженеры
  • Проектная работа для портфолио
  • Востребованная специальность с высокими зарплатами

Минусы

  • Высокий порог входа — нужен опыт в DevOps или администрировании
  • Требуются знания Kubernetes для полноценного прохождения
  • Узкая специализация — подходит не всем IT-специалистам

Отзывы (1)

Был ли полезен этот инструмент?
💬

Загрузка комментариев...

Похожие курсы

Часто задаваемые вопросы

Чем SRE отличается от DevOps?
DevOps — культура и практики автоматизации доставки ПО. SRE — конкретная реализация этих практик с фокусом на надёжность. SRE-инженер отвечает за доступность и стабильность сервисов.
Какой уровень подготовки нужен?
Требуется опыт работы с Linux, базовые знания Kubernetes и понимание CI/CD. Курс рассчитан на специалистов с опытом в DevOps или системном администрировании.
Как проходят занятия?
Вебинары 2 раза в неделю в вечернее время. Записи доступны в личном кабинете. Домашние задания проверяются преподавателем.
Есть ли проектная работа?
Да, в конце курса выполняется проектная работа: построение системы мониторинга и обеспечения надёжности для реального сервиса.
Какой сертификат выдаётся?
Сертификат OTUS о прохождении курса «SRE практики и инструменты».
Востребована ли профессия SRE?
Да, SRE-инженеры входят в число наиболее востребованных и высокооплачиваемых IT-специалистов. Спрос стабильно растёт в крупных технологических компаниях.
Есть ли рассрочка?
Да, доступна рассрочка на 12 месяцев от 7 500 руб./мес.

Чем SRE отличается от DevOps?

DevOps — культура и практики автоматизации доставки ПО. SRE — конкретная реализация этих практик с фокусом на надёжность. SRE-инженер отвечает за доступность и стабильность сервисов.

Какой уровень подготовки нужен?

Требуется опыт работы с Linux, базовые знания Kubernetes и понимание CI/CD. Курс рассчитан на специалистов с опытом в DevOps или системном администрировании.

Как проходят занятия?

Вебинары 2 раза в неделю в вечернее время. Записи доступны в личном кабинете. Домашние задания проверяются преподавателем.

Есть ли проектная работа?

Да, в конце курса выполняется проектная работа: построение системы мониторинга и обеспечения надёжности для реального сервиса.

Какой сертификат выдаётся?

Сертификат OTUS о прохождении курса «SRE практики и инструменты».

Востребована ли профессия SRE?

Да, SRE-инженеры входят в число наиболее востребованных и высокооплачиваемых IT-специалистов. Спрос стабильно растёт в крупных технологических компаниях.

Есть ли рассрочка?

Да, доступна рассрочка на 12 месяцев от 7 500 руб./мес.

Информация проверена: март 2026 г.