
Apache Hadoop
БесплатныйОткрытый фреймворк для распределённого хранения и обработки больших данных на кластерах обычных серверов
В каталоге 4 сервиса по направлению «Платформы обработки больших данных (Big Data)». Стоимость — от 25 000 ₽/мес. 2 сервиса с бесплатным тарифом.

Открытый фреймворк для распределённого хранения и обработки больших данных на кластерах обычных серверов

Универсальный open-source движок для масштабной обработки данных с поддержкой SQL, ML и потоковой обработки.

Arenadata — российский вендор корпоративных платформ данных. Ключевые продукты: Arenadata DB (на базе Greenplum) — MPP-СУБД для аналитических хранилищ данных, Arenadata Hadoop — дистрибутив Hadoop, Arenadata Streaming (Kafka), Arenadata QuickMarts. Платформа для построения DWH и Data Lake корпоративного масштаба. Реестр российского ПО. Используется в банках, телекоме и ритейле.

Managed сервис Yandex Cloud для работы с Apache Spark, Hadoop, Hive и другими инструментами экосистемы big data без администрирования инфраструктуры.
| Название | Мин. цена | Пробный период | Развёртывание | Интеграции | Рейтинг |
|---|---|---|---|---|---|
| Apache Spark | Бесплатно | Бесплатный тариф | Локально / Облако | 100+ | Нет оценок |
| Yandex DataProc | от 25 000 ₽/мес | — | Облако | 20+ | Нет оценок |
| Arenadata | По запросу | — | On-premiseЧастное облако | 25+ | Нет оценок |
| Apache Hadoop | Бесплатно | Бесплатный тариф | On-premises / Облако | 50+ | Нет оценок |
Spark — современная замена Hadoop MapReduce: в 10-100 раз быстрее за счёт in-memory обработки, проще API (Python, Scala, SQL), встроенный ML (MLlib), потоковая обработка (Structured Streaming). Hadoop HDFS остаётся актуальным для хранения, но вычислительный слой MapReduce заменён на Spark. Новые проекты — сразу Spark.
Российская big data платформа в реестре отечественного ПО. Включает: Arenadata DB (MPP-СУБД на базе Greenplum), Arenadata Hadoop (дистрибутив Hadoop), Arenadata Streaming (платформа на Kafka), Arenadata Catalog (data governance). Используется крупными российскими банками, ритейлом, телекомами для импортозамещения западных решений.
Управляемый сервис Apache Spark и Hadoop от Яндекс.Облако. Развёртывает кластеры за минуты, автоматически масштабирует, оплата за часы использования. Интеграция с Yandex Object Storage, Yandex Query, Yandex DataLens. Альтернатива AWS EMR или Google Dataproc для российских компаний.
Open source (Spark, Hadoop) — бесплатны, платите только за инфраструктуру. Cloud managed (Yandex DataProc, AWS EMR) — от 100-500 ₽/час за узел кластера. Enterprise-дистрибутивы (Arenadata, Cloudera) — от 500 000 ₽/год за лицензию + инфраструктура. Для старта — Spark + собственный VPS-кластер, для production — managed cloud.
Для анализа данных, которые не помещаются в одну машину: логи, транзакции, события IoT, научные данные, web crawling. Классические СУБД не справляются с петабайтами. Big data платформы параллелят обработку по кластеру из десятков-тысяч узлов. Используются крупными банками, ритейлом, телеком-операторами, R&D-командами.
Apache Spark, Apache Hadoop, Arenadata DB, Arenadata Hadoop, Yandex DataProc, SberTech — платформы обработки больших данных. Распределённая обработка петабайт, MapReduce, Spark SQL, машинное обучение, потоковая обработка. Spark — современный стандарт. Arenadata — российская платформа в реестре отечественного ПО. Yandex DataProc — managed cloud от Яндекса.
Каталог обновлён: март 2026