
Together AI
Бесплатный тарифAI Native Cloud от Together AI: serverless и dedicated inference open-source моделей (DeepSeek V4, Llama 3.3, Qwen, GLM, Kimi K2.6 и др.), GPU-кластеры NVIDIA H100/H200/B200 и fine-tuning. Cobaza Tri Dao (FlashAttention), Percy Liang.
Основная информация
Технические характеристики
- Оператор площадки
- Together Computer Inc. (бренд Together AI)
- Юрисдикция
- США
- Платформы
- Web (together.ai), API (OpenAI-совместимый), SDK для Python и TypeScript
- AI-модели
- Каталог open-source: GLM-5.1 / GLM-5, MiniMax M2.7 / M2.5, Kimi K2.6 / K2.5, DeepSeek V4 Pro / V3.1 / R1-0528, Qwen3.6-Plus / 3.5-397B / 3-Coder / 3.5 9B / 2.5 7B, Llama 3.3 70B / 3 8B Instruct Lite, gpt-oss-120B / 20B, LFM2 24B A2B, Cogito v2.1 671B, Gemma 4 31B / 3n E4B Instruct, Rnj-1 Instruct и др.
- Количество инструментов
- Несколько десятков моделей в каталоге Serverless Inference + Dedicated + GPU Clusters + Fine-Tuning + Sandbox
- API
- OpenAI-совместимый Serverless Inference API + Batch API + Fine-Tuning API + Together Sandbox API
- Технологическая основа
- NVIDIA HGX H100 / H200 / B200, GB200 NVL72 / GB300 NVL72; FlashAttention 1–4, ThunderKittens, ATLAS, Together Kernel Collection
- Языки кода
- Python SDK, TypeScript SDK
- Известен также как
- Together, Together AI, Together Computer, AI Native Cloud
- Модель оплаты
- Pay-as-you-go (per 1M токенов или per GPU/час) + Reserved 1 неделя – 6+ месяцев
Поддержка и SLA
Интеграции Together AI
- OpenAI-совместимый API— APIофициальная
- Python SDK— SDKофициальная
- TypeScript SDK— SDKофициальная
- Batch Inference API— APIофициальная
- Fine-Tuning API— APIофициальная
- NVIDIA H100 / H200 / B200— Аппаратная базаофициальная
- NVIDIA GB200 NVL72 / GB300 NVL72— Аппаратная базаофициальная
Тарифы Together AI
Build (Free)
до 1 пользователей
- ✓Pay-as-you-go без минимального коммита
- ✓OpenAI-совместимый Serverless Inference API
- ✓Все модели каталога: GLM, DeepSeek, Qwen, Llama, gpt-oss и др.
- ✓Доступ к Sandbox и Code Interpreter
- ✓Поддержка через Discord-сообщество
Serverless Inference (pay per 1M tokens)
до 1 пользователей
- ✓Llama 3.3 70B — $0,88 / $0,88 (input/output)
- ✓DeepSeek V3.1 — $0,60 / $1,70
- ✓DeepSeek-R1-0528 — $3,00 / $7,00
- ✓gpt-oss-120B — $0,15 / $0,60
- ✓gpt-oss-20B — $0,05 / $0,20
- ✓Kimi K2.6 — $1,20 / $4,50
- ✓GLM-5.1 — $1,40 / $4,40
- ✓Batch API — экономия ~50% на большинстве моделей
Dedicated Inference (per hour)
до 1 пользователей
- ✓1× H100 80GB — $3,99 / час
- ✓1× H200 141GB — $5,49 / час
- ✓1× B200 180GB — $9,95 / час
- ✓Поддержка кастомных моделей
- ✓Autoscaling и обработка пиков
GPU Clusters (on-demand)
- ✓NVIDIA HGX H100 — $3,49 / час
- ✓NVIDIA HGX H200 — $4,19 / час
- ✓NVIDIA HGX B200 — $7,49 / час
- ✓NVIDIA GB200 NVL72 / GB300 NVL72 — по запросу
- ✓Резерв 4–6 месяцев — H100 от $2,55, H200 от $2,89, B200 от $6,39 / час
Fine-Tuning (per 1M tokens)
до 1 пользователей
- ✓До 16B: LoRA $0,48 / Full $0,54
- ✓17B–69B: LoRA $1,50 / Full $1,65
- ✓70–100B: LoRA $2,90 / Full $3,20
- ✓DPO дороже SFT в ~2,5 раза
- ✓Цена = (датасет × эпохи) + опц. валидация
Enterprise
- ✓Silver или Gold support tier
- ✓Slack-канал поддержки и SLA P0 1 час
- ✓Dedicated Customer Success Manager
- ✓Annual commits с скидкой
- ✓Custom GPU clusters (GB200/GB300 NVL72)
- ✓Tailored SLAs и приоритетная очередь
| Тариф | Цена |
|---|---|
| Build (Free) | Бесплатно |
| Serverless Inference (pay per 1M tokens) | По запросу |
| Dedicated Inference (per hour) | По запросу |
| GPU Clusters (on-demand) | По запросу |
| Fine-Tuning (per 1M tokens) | По запросу |
| Enterprise | По запросу |
Обзор Together AI
Что такое Together AI
Together AI позиционирует себя как AI Native Cloud — full-stack платформа для production AI, построенная на собственных исследованиях. В одном месте: serverless и dedicated inference, GPU-кластеры на NVIDIA H100/H200/B200, fine-tuning open-source моделей и sandbox для безопасного выполнения LLM-кода. По заявлениям компании, сервис достигает 2× более быстрого инференса, 60% снижения стоимости с workload-specific оптимизацией и 90% ускорения pre-training через Together Kernel Collection.
Платформа основана исследователями и инженерами уровня индустриальных лидеров: Vipul Ved Prakash (Co-Founder & CEO), Ce Zhang (Founder & CTO), Chris Ré (Founder), Tri Dao (Founder & Chief Scientist — автор FlashAttention) и Percy Liang (Founder). Команда отвечает за множество прорывных работ: FlashAttention 1–4, ThunderKittens, Mamba (1, 2, 3), ATLAS, RedPajama, Open Deep Research, Mixture-of-Agents.
Продуктовая линейка
1. Serverless Inference
- Самый быстрый способ запустить open-source модели on-demand
- Pay-per-token, без долгосрочных коммитментов
- OpenAI-совместимый API — миграция за минуты
- Доступны модели: GLM-5.1, MiniMax M2.7, Kimi K2.6, DeepSeek V4 Pro / V3.1 / R1-0528, Qwen3.6-Plus / 3.5-397B / Coder, Llama 3.3 70B, gpt-oss-120B / 20B, LFM2, Cogito v2.1, Gemma 4 31B, Rnj-1 и др.
- Модальности: chat, vision, image, audio, video, transcribe, embeddings, rerank, moderation
2. Batch Inference API
- Обработка миллиардов токенов с экономией ~50% на большинстве моделей
- Подходит для офлайн-задач — оценки, разметка, генерация контента в масштабах
3. Dedicated и Container Inference
- Single-tenant GPU-инстансы с гарантированной производительностью
- Поддержка кастомных моделей
- Autoscaling и обработка пиков трафика
- 1× H100 80GB — $3,99 / час; 1× H200 141GB — $5,49 / час; 1× B200 180GB — $9,95 / час
4. Together GPU Clusters
- Self-service NVIDIA GPUs, On-demand и Reserved
- HGX H100 от $3,49/час (on-demand) до $2,55/час (резерв 4–6 месяцев)
- HGX H200 от $4,19/час до $2,89/час; HGX B200 от $7,49/час до $6,39/час
- NVIDIA GB200 NVL72 и GB300 NVL72 — по запросу
5. Sandbox и Code Interpreter
- Кастомные VM-песочницы для крупных dev-окружений
- Per vCPU — $0,0446/час; per GiB RAM — $0,0149/час
- Code Interpreter для безопасного выполнения LLM-сгенерированного кода — $0,03 за сессию (60 минут)
6. Managed Storage
- High-bandwidth parallel filesystem, расположенный рядом с compute
- $0,16 за GiB в месяц
7. Fine-Tuning
- Supervised Fine-Tuning и Direct Preference Optimization
- До 16B модели: LoRA $0,48 / Full $0,54 за 1M токенов
- 17B–69B: LoRA $1,50 / Full $1,65; 70–100B: LoRA $2,90 / Full $3,20
- Стоимость = (датасет × эпохи) + опциональная валидация
Кто использует Together AI
- Cursor — кейс real-time, low-latency inference at scale (inference + GPU clusters + research)
- Decagon — sub-second voice AI с 6× снижением стоимости и 11× ускорением inference
- Сотни AI-native компаний используют Together AI для запуска продуктовых LLM
Уровни поддержки
- Build — comьюнити-поддержка через Discord (для бесплатных пользователей)
- Standard — для Scale-tier API: PT business hours, support-платформа
- Silver — для Enterprise API: SLA P0 1 час / P1 4 часа / P2 8 часов / P3 2 дня, Slack
- Gold — для GPU Cluster customers: 24×7×365 для P0, выделенный Technical Account Manager, 20 часов training/services, priority queueing
Исследования Together AI
Платформа отличается тем, что строится на собственных исследованиях, известных индустрии: FlashAttention (1–4), ThunderKittens, Mamba (1, 2, 3), ATLAS (Adaptive-Learning Speculator System — до 4× ускорения LLM inference), Together Kernel Collection, RedPajama (30T-токенный открытый датасет), Open Deep Research, Mixture-of-Agents. Многие из этих работ опубликованы в топовых ML-конференциях (NeurIPS, ICML).
Плюсы и минусы Together AI
+Преимущества
- ✓Команда мирового класса: Tri Dao (FlashAttention), Percy Liang (HELM), Chris Ré, Vipul Ved Prakash, Ce Zhang
- ✓Полный full-stack: serverless inference, dedicated GPU, кластеры, fine-tuning и sandbox в одном месте
- ✓Конкретные публичные цены на всё — от $0,05/$0,20 за gpt-oss-20B до GPU-кластеров
- ✓OpenAI-совместимый API — переход существующих проектов занимает минуты
- ✓Большой каталог open-source моделей: DeepSeek V4 Pro, Qwen3.6-Plus, Llama 3.3, GLM-5.1, Kimi K2.6, gpt-oss и др.
- ✓Уникальные исследовательские наработки в продакшене: FlashAttention 1–4, ATLAS, ThunderKittens
- ✓Кейсы — Cursor (low-latency inference at scale), Decagon (6× cost reduction, 11× faster)
- ✓Многоуровневая корпоративная поддержка с SLA и dedicated TAM на Gold-tier
−Недостатки
- ✗Нет официальной оплаты с российских карт и расчётного счёта РФ — нужны зарубежные посредники
- ✗Доступ из России может потребовать VPN — сервис не рассчитан на санкционные географии
- ✗Только open-source модели на Serverless — нет проприетарных GPT-4o, Claude Opus, Gemini
- ✗Платформа в первую очередь ориентирована на ML-инженеров — high entry barrier для нетехнических пользователей
- ✗Документация и поддержка только на английском
- ✗Цены в долларах + НДС зависит от страны — для российских юрлиц закрывающих документов нет
Сценарии использования Together AI
Real-time, low-latency inference at scale
Кейс Cursor: партнёрство с Together AI для real-time inference на масштабе (inference, GPU clusters, research). Решает задачу высокой пропускной способности при сохранении низкой задержки для ассистентов кода.
Sub-second voice AI и оптимизация стоимости
Кейс Decagon: sub-second voice AI с 11× ускорением inference и 6× снижением стоимости за turn по сравнению с gpt-5 mini. Демонстрирует выгоду inference на open-source моделях через Together.
Batch processing миллиардов токенов
Batch Inference API позволяет обрабатывать миллиарды токенов с ~50% экономией на большинстве моделей. Подходит для офлайн-задач: оценки, разметка, генерация контента в масштабе.
Self-service GPU clusters для обучения и больших нагрузок
On-demand или зарезервированный доступ к NVIDIA HGX H100 / H200 / B200 и GB200 / GB300 NVL72 через self-service портал. Pay-as-you-go или Reserved 1 неделя – 6+ месяцев.
Fine-tuning open-source моделей (LoRA / Full / DPO)
Тренировка open-source моделей до 100B параметров. От $0,48 за 1M токенов (LoRA до 16B) до $8,00 (Full DPO для 70–100B). Поддержка эпох и валидационных датасетов.
LLM Code Sandbox для агентов
Безопасное выполнение LLM-сгенерированного кода через Together Code Interpreter ($0,03 за 60-минутную сессию) или кастомные VM-песочницы (per vCPU + per RAM, оплата по часам).
Доверие и масштаб
- Cursor — Real-time, low-latency inference at scale через inference + GPU clusters + research
- Decagon — Sub-second voice AI: 6× cost reduction per turn vs. gpt-5 mini, 11× faster inference
Отзывы о Together AI
Поделитесь опытом использования
Помогите другим сделать правильный выбор — ваш отзыв будет полезен
Часто задаваемые вопросы о Together AI
?Что такое Together AI и кто за ним стоит?
Together AI — full-stack AI Native Cloud для production AI: serverless и dedicated inference, GPU-кластеры NVIDIA H100/H200/B200, fine-tuning open-source моделей и sandbox. Founders — Vipul Ved Prakash (CEO), Ce Zhang (CTO), Chris Ré, Tri Dao (автор FlashAttention) и Percy Liang (создатель HELM benchmark). Команда отвечает за прорывные ML-наработки: FlashAttention 1–4, ThunderKittens, Mamba 1–3, ATLAS, RedPajama.
?Сколько стоит Serverless Inference?
Цена за 1M токенов зависит от модели. Дешёвые модели: gpt-oss-20B — $0,05 (input) / $0,20 (output), LFM2 24B A2B — $0,03 / $0,12, Llama 3.3 70B — $0,88 / $0,88. Топовые: DeepSeek V4 Pro — $2,10 / $4,40, Kimi K2.6 — $1,20 / $4,50, GLM-5.1 — $1,40 / $4,40, DeepSeek-R1-0528 — $3,00 / $7,00. Batch API даёт экономию ~50% на большинстве моделей.
?Сколько стоит Dedicated Inference и GPU Clusters?
Dedicated Inference: 1× H100 80GB — $3,99/час, 1× H200 141GB — $5,49/час, 1× B200 180GB — $9,95/час. GPU Clusters on-demand: HGX H100 — $3,49/час, H200 — $4,19/час, B200 — $7,49/час. Reserved (4–6 месяцев): H100 от $2,55, H200 от $2,89, B200 от $6,39 в час. NVIDIA GB200 / GB300 NVL72 — по запросу.
?Какие модели доступны через Together AI?
Десятки open-source моделей: GLM-5.1 / GLM-5, MiniMax M2.7 / M2.5, Kimi K2.6 / K2.5, DeepSeek V4 Pro / V3.1 / R1-0528, всё семейство Qwen 3 (включая 397B-A17B и Coder), Llama 3.3 70B и 3 8B Instruct Lite, gpt-oss-120B / 20B (open-weights от OpenAI), LFM2 24B A2B, Cogito v2.1 671B, Gemma 4 31B и 3n E4B Instruct. Модальности — chat, vision, image, audio, video, embeddings, rerank.
?Есть ли OpenAI-совместимый API?
Да. Serverless Inference API Together AI совместим со стандартом OpenAI — достаточно заменить базовый URL и API-ключ, существующий код приложения менять не нужно. Это позволяет быстро мигрировать проекты с OpenAI на open-source модели через Together. Доступны официальные SDK для Python и TypeScript.
?Как работает Fine-Tuning?
Together AI предлагает Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO) на open-source моделях до 100B. Цены за 1M токенов: до 16B — LoRA $0,48 / Full $0,54 (DPO дороже в ~2,5 раза), 17B–69B — LoRA $1,50 / Full $1,65, 70–100B — LoRA $2,90 / Full $3,20. Стоимость = (размер датасета × число эпох) + опциональная валидация.
?Какая поддержка предоставляется?
Четыре уровня: Build (community через Discord), Standard (Scale tier API, PT business hours), Silver (Enterprise API — SLA P0 1 час / P1 4 часа / P2 8 часов / P3 2 дня, Slack-канал), Gold (для GPU Cluster customers — 24×7×365 P0, dedicated Technical Account Manager, 20 часов training, priority queueing; стоит 10% от контракта или включён для GPU-cluster клиентов).
?Можно ли пользоваться Together AI из России?
Сервис ориентирован на глобальный рынок, оплата идёт в долларах. Прямой оплаты с российских карт и работы по расчётному счёту РФ нет — потребуются зарубежные посредники, корпоративная карта другой юрисдикции или оформление через зарубежное юрлицо. Для стабильного доступа из РФ может потребоваться VPN — сервис не рассчитан на санкционные географии.
Обновлено: 3 мая 2026 г.