
Yandex DataProc
Бесплатный тарифManaged сервис Yandex Cloud для работы с Apache Spark, Hadoop, Hive и другими инструментами экосистемы big data без администрирования инфраструктуры.
Основная информация
Тарифы Yandex DataProc
По потреблению
Популярный- ✓Оплата за вычислительные ресурсы
- ✓Оплата за хранилище
- ✓Без абонентской платы
- ✓Вытесняемые ВМ
Small
до 5 пользователей
- ✓Кластер до 5 узлов
- ✓Spark и Hadoop
- ✓Базовый мониторинг
- ✓Подходит для разработки
Production
до 20 пользователей
- ✓Кластер до 20 узлов
- ✓Высокая доступность
- ✓Расширенный мониторинг
- ✓Приоритетная поддержка
Enterprise
до 100 пользователей
- ✓Безлимитный кластер
- ✓SLA 99.9%
- ✓Персональный менеджер
- ✓Расширенная безопасность
| Тариф | Цена |
|---|---|
| По потреблениюTOP | Бесплатно |
| Small | 25 000 ₽/мес |
| Production | 120 000 ₽/мес |
| Enterprise | 450 000 ₽/мес |
Обзор Yandex DataProc
Что такое Yandex DataProc?
Yandex DataProc — управляемый сервис Yandex Cloud для развёртывания и эксплуатации кластеров Apache Hadoop и Apache Spark. Он позволяет буквально за минуты поднять кластер любого размера и запускать пайплайны обработки больших данных, ETL-задачи, машинное обучение и интерактивную аналитику. Всё администрирование — установка, обновление, мониторинг — берёт на себя Yandex Cloud, разработчики фокусируются на данных и бизнес-логике.
Основные возможности
- Apache Spark и Hadoop — кластеры с поддержкой Spark, MapReduce, HDFS, YARN, Hive, HBase, Tez, Oozie и Zeppelin.
- Автоматическое масштабирование — гибкая настройка количества и типа узлов, возможность использовать вытесняемые ВМ для удешевления.
- Интеграция с хранилищами — прямая работа с Yandex Object Storage (S3-совместимый), что позволяет разделять вычисления и хранение.
- Интеграция с экосистемой Yandex Cloud — Yandex Data Transfer, Managed Service for ClickHouse, YDB, Managed Kafka и DataLens для построения полного контура аналитики.
Безопасность и управление
DataProc поддерживает управление доступом через IAM, интеграцию с Yandex Key Management Service для шифрования данных, настройку VPC и групп безопасности. Данные размещаются в российских дата-центрах, что важно для требований по локализации. Для продакшена доступен расширенный мониторинг, логирование и возможность горячего обновления версий сервисов.
Для кого подходит?
Yandex DataProc используется дата-инженерами, аналитиками и ML-командами для обработки больших объёмов данных. Типовые сценарии — ETL для DWH, построение feature store, расчёт аналитических витрин, обучение моделей машинного обучения и ad-hoc запросы через Spark SQL. Сервис выбирают российские компании, которым нужна производительная big data платформа без необходимости поддерживать собственный Hadoop-кластер.
Плюсы и минусы Yandex DataProc
+Преимущества
- ✓Не нужно администрировать Hadoop
- ✓Гибкое масштабирование
- ✓Дешёвые вытесняемые ВМ
- ✓Интеграция с сервисами Yandex Cloud
- ✓Локализация данных в России
- ✓Поддержка популярных инструментов big data
−Недостатки
- ✗Привязка к экосистеме Yandex Cloud
- ✗Сложное прогнозирование стоимости
- ✗Нет полного контроля над инфраструктурой
- ✗Версии компонентов обновляются вендором
Отзывы о Yandex DataProc
Поделитесь опытом использования
Помогите другим сделать правильный выбор — ваш отзыв будет полезен
Часто задаваемые вопросы о Yandex DataProc
?Какие компоненты Hadoop доступны в DataProc?
Сервис поддерживает Apache Spark, MapReduce, HDFS, YARN, Hive, HBase, Tez, Oozie, Zeppelin и ряд других компонентов экосистемы Hadoop. Состав компонентов выбирается при создании кластера.
?Можно ли использовать вытесняемые ВМ?
Да, DataProc позволяет создавать часть рабочих узлов на вытесняемых ВМ, что значительно снижает стоимость вычислений для пакетных задач.
?Где хранятся данные кластера?
Рекомендуется хранить данные в Yandex Object Storage, что позволяет отделить хранилище от вычислений и пересоздавать кластеры без потери данных. Данные размещаются в дата-центрах в России.
?Подходит ли DataProc для machine learning?
Да, через Apache Spark MLlib и Zeppelin можно строить и обучать модели машинного обучения. Для глубокого обучения удобнее сочетать DataProc с другими сервисами Yandex Cloud.
?Как считается стоимость сервиса?
Оплата складывается из стоимости вычислительных ресурсов (CPU, RAM, GPU) и хранилища. Тип машин, количество узлов и использование вытесняемых ВМ напрямую влияют на конечную цену.
Обновлено: 10 апреля 2026 г.