Together AI

Бесплатный тариф

AI Native Cloud от Together AI: serverless и dedicated inference open-source моделей (DeepSeek V4, Llama 3.3, Qwen, GLM, Kimi K2.6 и др.), GPU-кластеры NVIDIA H100/H200/B200 и fine-tuning. Cobaza Tri Dao (FlashAttention), Percy Liang.

together.ai

Основная информация

Основан

2022 г.

Страна

США

Развёртывание

Облако

Языки

Английский

Поддержка

Discord-сообщество (Build tier), Standard support — PT business hours (Scale tier API) +4

Стоимость

Бесплатно

Пробный период

Бесплатный тариф

Технические характеристики

Оператор площадки: Together Computer Inc. (бренд Together AI)
Юрисдикция: США
Платформы: Web (together.ai), API (OpenAI-совместимый), SDK для Python и TypeScript
AI-модели: Каталог open-source: GLM-5.1 / GLM-5, MiniMax M2.7 / M2.5, Kimi K2.6 / K2.5, DeepSeek V4 Pro / V3.1 / R1-0528, Qwen3.6-Plus / 3.5-397B / 3-Coder / 3.5 9B / 2.5 7B, Llama 3.3 70B / 3 8B Instruct Lite, gpt-oss-120B / 20B, LFM2 24B A2B, Cogito v2.1 671B, Gemma 4 31B / 3n E4B Instruct, Rnj-1 Instruct и др.
Количество инструментов: Несколько десятков моделей в каталоге Serverless Inference + Dedicated + GPU Clusters + Fine-Tuning + Sandbox
API: OpenAI-совместимый Serverless Inference API + Batch API + Fine-Tuning API + Together Sandbox API
Технологическая основа: NVIDIA HGX H100 / H200 / B200, GB200 NVL72 / GB300 NVL72; FlashAttention 1–4, ThunderKittens, ATLAS, Together Kernel Collection
Языки кода: Python SDK, TypeScript SDK
Известен также как: Together, Together AI, Together Computer, AI Native Cloud
Модель оплаты: Pay-as-you-go (per 1M токенов или per GPU/час) + Reserved 1 неделя – 6+ месяцев

Поддержка и SLA

Приоритет

Доступен на платных тарифах

Каналы поддержки

Discord-сообщество (Build tier)Support-платформа в PT business hours (Standard / Silver)Slack-канал (Silver tier — Enterprise API)Email (Gold tier — GPU Cluster customers)Help Center / KnowledgebaseAPI Documentation

Интеграции Together AI

Категории интеграций

APISDKАппаратная база (NVIDIA)OpenAI-compatibility

Ключевые интеграции

OpenAI-совместимый API— APIофициальная
Python SDK— SDKофициальная
TypeScript SDK— SDKофициальная
Batch Inference API— APIофициальная
Fine-Tuning API— APIофициальная
NVIDIA H100 / H200 / B200— Аппаратная базаофициальная
NVIDIA GB200 NVL72 / GB300 NVL72— Аппаратная базаофициальная

Тарифы Together AI

Build (Free)

до 1 пользователей

Бесплатно

✓Pay-as-you-go без минимального коммита
✓OpenAI-совместимый Serverless Inference API
✓Все модели каталога: GLM, DeepSeek, Qwen, Llama, gpt-oss и др.
✓Доступ к Sandbox и Code Interpreter
✓Поддержка через Discord-сообщество

Serverless Inference (pay per 1M tokens)

до 1 пользователей

По запросу

✓Llama 3.3 70B — $0,88 / $0,88 (input/output)
✓DeepSeek V3.1 — $0,60 / $1,70
✓DeepSeek-R1-0528 — $3,00 / $7,00
✓gpt-oss-120B — $0,15 / $0,60
✓gpt-oss-20B — $0,05 / $0,20
✓Kimi K2.6 — $1,20 / $4,50
✓GLM-5.1 — $1,40 / $4,40
✓Batch API — экономия ~50% на большинстве моделей

Dedicated Inference (per hour)

до 1 пользователей

По запросу

✓1× H100 80GB — $3,99 / час
✓1× H200 141GB — $5,49 / час
✓1× B200 180GB — $9,95 / час
✓Поддержка кастомных моделей
✓Autoscaling и обработка пиков

GPU Clusters (on-demand)

По запросу

✓NVIDIA HGX H100 — $3,49 / час
✓NVIDIA HGX H200 — $4,19 / час
✓NVIDIA HGX B200 — $7,49 / час
✓NVIDIA GB200 NVL72 / GB300 NVL72 — по запросу
✓Резерв 4–6 месяцев — H100 от $2,55, H200 от $2,89, B200 от $6,39 / час

Fine-Tuning (per 1M tokens)

до 1 пользователей

По запросу

✓До 16B: LoRA $0,48 / Full $0,54
✓17B–69B: LoRA $1,50 / Full $1,65
✓70–100B: LoRA $2,90 / Full $3,20
✓DPO дороже SFT в ~2,5 раза
✓Цена = (датасет × эпохи) + опц. валидация

Enterprise

По запросу

✓Silver или Gold support tier
✓Slack-канал поддержки и SLA P0 1 час
✓Dedicated Customer Success Manager
✓Annual commits с скидкой
✓Custom GPU clusters (GB200/GB300 NVL72)
✓Tailored SLAs и приоритетная очередь

Сравнение тарифов Together AI
Тариф	Цена	Пользователи	Ключевые возможности
Build (Free)	Бесплатно	до 1	Pay-as-you-go без минимального коммита, OpenAI-совместимый Serverless Inference API, Все модели каталога: GLM, DeepSeek, Qwen, Llama, gpt-oss и др.
Serverless Inference (pay per 1M tokens)	По запросу	до 1	Llama 3.3 70B — $0,88 / $0,88 (input/output), DeepSeek V3.1 — $0,60 / $1,70, DeepSeek-R1-0528 — $3,00 / $7,00
Dedicated Inference (per hour)	По запросу	до 1	1× H100 80GB — $3,99 / час, 1× H200 141GB — $5,49 / час, 1× B200 180GB — $9,95 / час
GPU Clusters (on-demand)	По запросу	—	NVIDIA HGX H100 — $3,49 / час, NVIDIA HGX H200 — $4,19 / час, NVIDIA HGX B200 — $7,49 / час
Fine-Tuning (per 1M tokens)	По запросу	до 1	До 16B: LoRA $0,48 / Full $0,54, 17B–69B: LoRA $1,50 / Full $1,65, 70–100B: LoRA $2,90 / Full $3,20
Enterprise	По запросу	—	Silver или Gold support tier, Slack-канал поддержки и SLA P0 1 час, Dedicated Customer Success Manager

🎁

⚡ Новые наработки Together AI уже доступны

FlashAttention-4 (до 1.3× быстрее cuDNN на NVIDIA Blackwell), ATLAS speculator (до 4× faster LLM inference), Together GPU Clusters (self-service NVIDIA GPUs), Batch Inference API (50% экономии). Доступно через инфраструктуру Together AI.

Обзор Together AI

Что такое Together AI

Together AI позиционирует себя как AI Native Cloud — full-stack платформа для production AI, построенная на собственных исследованиях. В одном месте: serverless и dedicated inference, GPU-кластеры на NVIDIA H100/H200/B200, fine-tuning open-source моделей и sandbox для безопасного выполнения LLM-кода. По заявлениям компании, сервис достигает 2× более быстрого инференса, 60% снижения стоимости с workload-specific оптимизацией и 90% ускорения pre-training через Together Kernel Collection.

Платформа основана исследователями и инженерами уровня индустриальных лидеров: Vipul Ved Prakash (Co-Founder & CEO), Ce Zhang (Founder & CTO), Chris Ré (Founder), Tri Dao (Founder & Chief Scientist — автор FlashAttention) и Percy Liang (Founder). Команда отвечает за множество прорывных работ: FlashAttention 1–4, ThunderKittens, Mamba (1, 2, 3), ATLAS, RedPajama, Open Deep Research, Mixture-of-Agents.

Продуктовая линейка

1. Serverless Inference

Самый быстрый способ запустить open-source модели on-demand
Pay-per-token, без долгосрочных коммитментов
OpenAI-совместимый API — миграция за минуты
Доступны модели: GLM-5.1, MiniMax M2.7, Kimi K2.6, DeepSeek V4 Pro / V3.1 / R1-0528, Qwen3.6-Plus / 3.5-397B / Coder, Llama 3.3 70B, gpt-oss-120B / 20B, LFM2, Cogito v2.1, Gemma 4 31B, Rnj-1 и др.
Модальности: chat, vision, image, audio, video, transcribe, embeddings, rerank, moderation

2. Batch Inference API

Обработка миллиардов токенов с экономией ~50% на большинстве моделей
Подходит для офлайн-задач — оценки, разметка, генерация контента в масштабах

3. Dedicated и Container Inference

Single-tenant GPU-инстансы с гарантированной производительностью
Поддержка кастомных моделей
Autoscaling и обработка пиков трафика
1× H100 80GB — $3,99 / час; 1× H200 141GB — $5,49 / час; 1× B200 180GB — $9,95 / час

4. Together GPU Clusters

Self-service NVIDIA GPUs, On-demand и Reserved
HGX H100 от $3,49/час (on-demand) до $2,55/час (резерв 4–6 месяцев)
HGX H200 от $4,19/час до $2,89/час; HGX B200 от $7,49/час до $6,39/час
NVIDIA GB200 NVL72 и GB300 NVL72 — по запросу

5. Sandbox и Code Interpreter

Кастомные VM-песочницы для крупных dev-окружений
Per vCPU — $0,0446/час; per GiB RAM — $0,0149/час
Code Interpreter для безопасного выполнения LLM-сгенерированного кода — $0,03 за сессию (60 минут)

6. Managed Storage

High-bandwidth parallel filesystem, расположенный рядом с compute
$0,16 за GiB в месяц

7. Fine-Tuning

Supervised Fine-Tuning и Direct Preference Optimization
До 16B модели: LoRA $0,48 / Full $0,54 за 1M токенов
17B–69B: LoRA $1,50 / Full $1,65; 70–100B: LoRA $2,90 / Full $3,20
Стоимость = (датасет × эпохи) + опциональная валидация

Кто использует Together AI

Cursor — кейс real-time, low-latency inference at scale (inference + GPU clusters + research)
Decagon — sub-second voice AI с 6× снижением стоимости и 11× ускорением inference
Сотни AI-native компаний используют Together AI для запуска продуктовых LLM

Уровни поддержки

Build — comьюнити-поддержка через Discord (для бесплатных пользователей)
Standard — для Scale-tier API: PT business hours, support-платформа
Silver — для Enterprise API: SLA P0 1 час / P1 4 часа / P2 8 часов / P3 2 дня, Slack
Gold — для GPU Cluster customers: 24×7×365 для P0, выделенный Technical Account Manager, 20 часов training/services, priority queueing

Исследования Together AI

Платформа отличается тем, что строится на собственных исследованиях, известных индустрии: FlashAttention (1–4), ThunderKittens, Mamba (1, 2, 3), ATLAS (Adaptive-Learning Speculator System — до 4× ускорения LLM inference), Together Kernel Collection, RedPajama (30T-токенный открытый датасет), Open Deep Research, Mixture-of-Agents. Многие из этих работ опубликованы в топовых ML-конференциях (NeurIPS, ICML).

Показать полное описаниеСкрыть описание

Плюсы и минусы Together AI

+Преимущества

✓Команда мирового класса: Tri Dao (FlashAttention), Percy Liang (HELM), Chris Ré, Vipul Ved Prakash, Ce Zhang
✓Полный full-stack: serverless inference, dedicated GPU, кластеры, fine-tuning и sandbox в одном месте
✓Конкретные публичные цены на всё — от $0,05/$0,20 за gpt-oss-20B до GPU-кластеров
✓OpenAI-совместимый API — переход существующих проектов занимает минуты
✓Большой каталог open-source моделей: DeepSeek V4 Pro, Qwen3.6-Plus, Llama 3.3, GLM-5.1, Kimi K2.6, gpt-oss и др.
✓Уникальные исследовательские наработки в продакшене: FlashAttention 1–4, ATLAS, ThunderKittens
✓Кейсы — Cursor (low-latency inference at scale), Decagon (6× cost reduction, 11× faster)
✓Многоуровневая корпоративная поддержка с SLA и dedicated TAM на Gold-tier

−Недостатки

✗Нет официальной оплаты с российских карт и расчётного счёта РФ — нужны зарубежные посредники
✗Доступ из России может потребовать VPN — сервис не рассчитан на санкционные географии
✗Только open-source модели на Serverless — нет проприетарных GPT-4o, Claude Opus, Gemini
✗Платформа в первую очередь ориентирована на ML-инженеров — high entry barrier для нетехнических пользователей
✗Документация и поддержка только на английском
✗Цены в долларах + НДС зависит от страны — для российских юрлиц закрывающих документов нет

Сценарии использования Together AI

Real-time, low-latency inference at scale

Кейс Cursor: партнёрство с Together AI для real-time inference на масштабе (inference, GPU clusters, research). Решает задачу высокой пропускной способности при сохранении низкой задержки для ассистентов кода.

Sub-second voice AI и оптимизация стоимости

Кейс Decagon: sub-second voice AI с 11× ускорением inference и 6× снижением стоимости за turn по сравнению с gpt-5 mini. Демонстрирует выгоду inference на open-source моделях через Together.

Batch processing миллиардов токенов

Batch Inference API позволяет обрабатывать миллиарды токенов с ~50% экономией на большинстве моделей. Подходит для офлайн-задач: оценки, разметка, генерация контента в масштабе.

Self-service GPU clusters для обучения и больших нагрузок

On-demand или зарезервированный доступ к NVIDIA HGX H100 / H200 / B200 и GB200 / GB300 NVL72 через self-service портал. Pay-as-you-go или Reserved 1 неделя – 6+ месяцев.

Fine-tuning open-source моделей (LoRA / Full / DPO)

Тренировка open-source моделей до 100B параметров. От $0,48 за 1M токенов (LoRA до 16B) до $8,00 (Full DPO для 70–100B). Поддержка эпох и валидационных датасетов.

LLM Code Sandbox для агентов

Безопасное выполнение LLM-сгенерированного кода через Together Code Interpreter ($0,03 за 60-минутную сессию) или кастомные VM-песочницы (per vCPU + per RAM, оплата по часам).

Доверие и масштаб

Founders: Vipul Ved Prakash (CEO), Ce Zhang (CTO), Chris Ré, Tri Dao (FlashAttention), Percy Liang (HELM). Команда исследователей выпустила FlashAttention 1–4, ThunderKittens, Mamba 1–3, ATLAS, RedPajama, Open Deep Research, Mixture-of-Agents и др. Многие работы — на NeurIPS / ICML.

Известные клиенты

CursorDecagon

Кейсы

Cursor — Real-time, low-latency inference at scale через inference + GPU clusters + research
Decagon — Sub-second voice AI: 6× cost reduction per turn vs. gpt-5 mini, 11× faster inference

Отзывы о Together AI

Поделитесь опытом использования

Помогите другим сделать правильный выбор — ваш отзыв будет полезен

Оставить отзыв

Часто задаваемые вопросы о Together AI

?Что такое Together AI и кто за ним стоит?

Together AI — full-stack AI Native Cloud для production AI: serverless и dedicated inference, GPU-кластеры NVIDIA H100/H200/B200, fine-tuning open-source моделей и sandbox. Founders — Vipul Ved Prakash (CEO), Ce Zhang (CTO), Chris Ré, Tri Dao (автор FlashAttention) и Percy Liang (создатель HELM benchmark). Команда отвечает за прорывные ML-наработки: FlashAttention 1–4, ThunderKittens, Mamba 1–3, ATLAS, RedPajama.

?Сколько стоит Serverless Inference?

Цена за 1M токенов зависит от модели. Дешёвые модели: gpt-oss-20B — $0,05 (input) / $0,20 (output), LFM2 24B A2B — $0,03 / $0,12, Llama 3.3 70B — $0,88 / $0,88. Топовые: DeepSeek V4 Pro — $2,10 / $4,40, Kimi K2.6 — $1,20 / $4,50, GLM-5.1 — $1,40 / $4,40, DeepSeek-R1-0528 — $3,00 / $7,00. Batch API даёт экономию ~50% на большинстве моделей.

?Сколько стоит Dedicated Inference и GPU Clusters?

Dedicated Inference: 1× H100 80GB — $3,99/час, 1× H200 141GB — $5,49/час, 1× B200 180GB — $9,95/час. GPU Clusters on-demand: HGX H100 — $3,49/час, H200 — $4,19/час, B200 — $7,49/час. Reserved (4–6 месяцев): H100 от $2,55, H200 от $2,89, B200 от $6,39 в час. NVIDIA GB200 / GB300 NVL72 — по запросу.

?Какие модели доступны через Together AI?

Десятки open-source моделей: GLM-5.1 / GLM-5, MiniMax M2.7 / M2.5, Kimi K2.6 / K2.5, DeepSeek V4 Pro / V3.1 / R1-0528, всё семейство Qwen 3 (включая 397B-A17B и Coder), Llama 3.3 70B и 3 8B Instruct Lite, gpt-oss-120B / 20B (open-weights от OpenAI), LFM2 24B A2B, Cogito v2.1 671B, Gemma 4 31B и 3n E4B Instruct. Модальности — chat, vision, image, audio, video, embeddings, rerank.

?Есть ли OpenAI-совместимый API?

Да. Serverless Inference API Together AI совместим со стандартом OpenAI — достаточно заменить базовый URL и API-ключ, существующий код приложения менять не нужно. Это позволяет быстро мигрировать проекты с OpenAI на open-source модели через Together. Доступны официальные SDK для Python и TypeScript.

?Как работает Fine-Tuning?

Together AI предлагает Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO) на open-source моделях до 100B. Цены за 1M токенов: до 16B — LoRA $0,48 / Full $0,54 (DPO дороже в ~2,5 раза), 17B–69B — LoRA $1,50 / Full $1,65, 70–100B — LoRA $2,90 / Full $3,20. Стоимость = (размер датасета × число эпох) + опциональная валидация.

?Какая поддержка предоставляется?

Четыре уровня: Build (community через Discord), Standard (Scale tier API, PT business hours), Silver (Enterprise API — SLA P0 1 час / P1 4 часа / P2 8 часов / P3 2 дня, Slack-канал), Gold (для GPU Cluster customers — 24×7×365 P0, dedicated Technical Account Manager, 20 часов training, priority queueing; стоит 10% от контракта или включён для GPU-cluster клиентов).

?Можно ли пользоваться Together AI из России?

Сервис ориентирован на глобальный рынок, оплата идёт в долларах. Прямой оплаты с российских карт и работы по расчётному счёту РФ нет — потребуются зарубежные посредники, корпоративная карта другой юрисдикции или оформление через зарубежное юрлицо. Для стабильного доступа из РФ может потребоваться VPN — сервис не рассчитан на санкционные географии.

Альтернативы Together AI

Replicate

Облачный API для запуска тысяч AI-моделей одной строкой кода и деплоя своих через open-source Cog. Часть группы Cloudflare.

Все аналоги Together AI

Бесплатно

Ключевые функции

•AI Native Cloud — full-stack от inference до GPU-кластеров
•Serverless Inference: десятки моделей (GLM, DeepSeek, Qwen, Llama, gpt-oss, Kimi, MiniMax, Gemma)
•OpenAI-совместимый API — миграция за минуты
•Batch Inference API — экономия ~50% на больших объёмах
•Dedicated Inference на 1× H100 / H200 / B200
•Together GPU Clusters: NVIDIA HGX H100 / H200 / B200, GB200 / GB300 NVL72
•Fine-Tuning (LoRA и Full) с поддержкой DPO
•Sandbox и Code Interpreter для безопасного выполнения LLM-кода
•High-bandwidth parallel storage рядом с compute
•FlashAttention-4 (1.3× быстрее cuDNN на Blackwell)
•ATLAS speculator — до 4× faster LLM inference
•Together Kernel Collection — 90% ускорение pre-training
•2× faster inference и 60% lower cost (по заявлениям)
•Многоуровневая поддержка: Build / Standard / Silver / Gold (24×7 для P0)

Для кого

ML-инженерыAI-стартапыИсследователиПродуктовые командыКомпании, обучающие собственные моделиCursor / Decagon уровня teams

Ресурсы и сообщество

На странице

Обновлено: 3 мая 2026 г.