Логотип Yandex DataProc

Yandex DataProc

Бесплатный тариф

Managed сервис Yandex Cloud для работы с Apache Spark, Hadoop, Hive и другими инструментами экосистемы big data без администрирования инфраструктуры.

yandex.cloud

Основная информация

Основан
2019 г.
Страна
Россия
Развёртывание
Облако
Интеграции
20+
Языки
Русский, Английский
Поддержка
Техподдержка Yandex Cloud, Документация +1
Стоимость
Бесплатно
Пробный период
Бесплатный тариф

Тарифы Yandex DataProc

По потреблению

Популярный
0
Бесплатно
  • Оплата за вычислительные ресурсы
  • Оплата за хранилище
  • Без абонентской платы
  • Вытесняемые ВМ

Small

до 5 пользователей

25 000 ₽
/мес
  • Кластер до 5 узлов
  • Spark и Hadoop
  • Базовый мониторинг
  • Подходит для разработки

Production

до 20 пользователей

120 000 ₽
/мес
  • Кластер до 20 узлов
  • Высокая доступность
  • Расширенный мониторинг
  • Приоритетная поддержка

Enterprise

до 100 пользователей

450 000 ₽
/мес
  • Безлимитный кластер
  • SLA 99.9%
  • Персональный менеджер
  • Расширенная безопасность
Сравнение тарифов Yandex DataProc
ТарифЦена
По потреблениюTOPБесплатно
Small25 000 ₽/мес
Production120 000 ₽/мес
Enterprise450 000 ₽/мес

Обзор Yandex DataProc

Что такое Yandex DataProc?

Yandex DataProc — управляемый сервис Yandex Cloud для развёртывания и эксплуатации кластеров Apache Hadoop и Apache Spark. Он позволяет буквально за минуты поднять кластер любого размера и запускать пайплайны обработки больших данных, ETL-задачи, машинное обучение и интерактивную аналитику. Всё администрирование — установка, обновление, мониторинг — берёт на себя Yandex Cloud, разработчики фокусируются на данных и бизнес-логике.

Основные возможности

  • Apache Spark и Hadoop — кластеры с поддержкой Spark, MapReduce, HDFS, YARN, Hive, HBase, Tez, Oozie и Zeppelin.
  • Автоматическое масштабирование — гибкая настройка количества и типа узлов, возможность использовать вытесняемые ВМ для удешевления.
  • Интеграция с хранилищами — прямая работа с Yandex Object Storage (S3-совместимый), что позволяет разделять вычисления и хранение.
  • Интеграция с экосистемой Yandex Cloud — Yandex Data Transfer, Managed Service for ClickHouse, YDB, Managed Kafka и DataLens для построения полного контура аналитики.

Безопасность и управление

DataProc поддерживает управление доступом через IAM, интеграцию с Yandex Key Management Service для шифрования данных, настройку VPC и групп безопасности. Данные размещаются в российских дата-центрах, что важно для требований по локализации. Для продакшена доступен расширенный мониторинг, логирование и возможность горячего обновления версий сервисов.

Для кого подходит?

Yandex DataProc используется дата-инженерами, аналитиками и ML-командами для обработки больших объёмов данных. Типовые сценарии — ETL для DWH, построение feature store, расчёт аналитических витрин, обучение моделей машинного обучения и ad-hoc запросы через Spark SQL. Сервис выбирают российские компании, которым нужна производительная big data платформа без необходимости поддерживать собственный Hadoop-кластер.

Плюсы и минусы Yandex DataProc

+Преимущества

  • Не нужно администрировать Hadoop
  • Гибкое масштабирование
  • Дешёвые вытесняемые ВМ
  • Интеграция с сервисами Yandex Cloud
  • Локализация данных в России
  • Поддержка популярных инструментов big data

Недостатки

  • Привязка к экосистеме Yandex Cloud
  • Сложное прогнозирование стоимости
  • Нет полного контроля над инфраструктурой
  • Версии компонентов обновляются вендором

Отзывы о Yandex DataProc

Поделитесь опытом использования

Помогите другим сделать правильный выбор — ваш отзыв будет полезен

Часто задаваемые вопросы о Yandex DataProc

?Какие компоненты Hadoop доступны в DataProc?

Сервис поддерживает Apache Spark, MapReduce, HDFS, YARN, Hive, HBase, Tez, Oozie, Zeppelin и ряд других компонентов экосистемы Hadoop. Состав компонентов выбирается при создании кластера.

?Можно ли использовать вытесняемые ВМ?

Да, DataProc позволяет создавать часть рабочих узлов на вытесняемых ВМ, что значительно снижает стоимость вычислений для пакетных задач.

?Где хранятся данные кластера?

Рекомендуется хранить данные в Yandex Object Storage, что позволяет отделить хранилище от вычислений и пересоздавать кластеры без потери данных. Данные размещаются в дата-центрах в России.

?Подходит ли DataProc для machine learning?

Да, через Apache Spark MLlib и Zeppelin можно строить и обучать модели машинного обучения. Для глубокого обучения удобнее сочетать DataProc с другими сервисами Yandex Cloud.

?Как считается стоимость сервиса?

Оплата складывается из стоимости вычислительных ресурсов (CPU, RAM, GPU) и хранилища. Тип машин, количество узлов и использование вытесняемых ВМ напрямую влияют на конечную цену.

Обновлено: 10 апреля 2026 г.