Логотип Together AI

Together AI

Бесплатный тариф

AI Native Cloud от Together AI: serverless и dedicated inference open-source моделей (DeepSeek V4, Llama 3.3, Qwen, GLM, Kimi K2.6 и др.), GPU-кластеры NVIDIA H100/H200/B200 и fine-tuning. Cobaza Tri Dao (FlashAttention), Percy Liang.

together.ai

Основная информация

Основан
2022 г.
Страна
США
Развёртывание
Облако
Языки
Английский
Поддержка
Discord-сообщество (Build tier), Standard support — PT business hours (Scale tier API) +4
Стоимость
Бесплатно
Пробный период
Бесплатный тариф

Технические характеристики

Оператор площадки
Together Computer Inc. (бренд Together AI)
Юрисдикция
США
Платформы
Web (together.ai), API (OpenAI-совместимый), SDK для Python и TypeScript
AI-модели
Каталог open-source: GLM-5.1 / GLM-5, MiniMax M2.7 / M2.5, Kimi K2.6 / K2.5, DeepSeek V4 Pro / V3.1 / R1-0528, Qwen3.6-Plus / 3.5-397B / 3-Coder / 3.5 9B / 2.5 7B, Llama 3.3 70B / 3 8B Instruct Lite, gpt-oss-120B / 20B, LFM2 24B A2B, Cogito v2.1 671B, Gemma 4 31B / 3n E4B Instruct, Rnj-1 Instruct и др.
Количество инструментов
Несколько десятков моделей в каталоге Serverless Inference + Dedicated + GPU Clusters + Fine-Tuning + Sandbox
API
OpenAI-совместимый Serverless Inference API + Batch API + Fine-Tuning API + Together Sandbox API
Технологическая основа
NVIDIA HGX H100 / H200 / B200, GB200 NVL72 / GB300 NVL72; FlashAttention 1–4, ThunderKittens, ATLAS, Together Kernel Collection
Языки кода
Python SDK, TypeScript SDK
Известен также как
Together, Together AI, Together Computer, AI Native Cloud
Модель оплаты
Pay-as-you-go (per 1M токенов или per GPU/час) + Reserved 1 неделя – 6+ месяцев

Поддержка и SLA

Приоритет
Доступен на платных тарифах
Каналы поддержки
Discord-сообщество (Build tier)Support-платформа в PT business hours (Standard / Silver)Slack-канал (Silver tier — Enterprise API)Email (Gold tier — GPU Cluster customers)Help Center / KnowledgebaseAPI Documentation

Интеграции Together AI

Категории интеграций
APISDKАппаратная база (NVIDIA)OpenAI-compatibility
Ключевые интеграции
  • OpenAI-совместимый APIAPIофициальная
  • Python SDKSDKофициальная
  • TypeScript SDKSDKофициальная
  • Batch Inference APIAPIофициальная
  • Fine-Tuning APIAPIофициальная
  • NVIDIA H100 / H200 / B200Аппаратная базаофициальная
  • NVIDIA GB200 NVL72 / GB300 NVL72Аппаратная базаофициальная

Тарифы Together AI

Build (Free)

до 1 пользователей

Бесплатно
  • Pay-as-you-go без минимального коммита
  • OpenAI-совместимый Serverless Inference API
  • Все модели каталога: GLM, DeepSeek, Qwen, Llama, gpt-oss и др.
  • Доступ к Sandbox и Code Interpreter
  • Поддержка через Discord-сообщество

Serverless Inference (pay per 1M tokens)

до 1 пользователей

По запросу
  • Llama 3.3 70B — $0,88 / $0,88 (input/output)
  • DeepSeek V3.1 — $0,60 / $1,70
  • DeepSeek-R1-0528 — $3,00 / $7,00
  • gpt-oss-120B — $0,15 / $0,60
  • gpt-oss-20B — $0,05 / $0,20
  • Kimi K2.6 — $1,20 / $4,50
  • GLM-5.1 — $1,40 / $4,40
  • Batch API — экономия ~50% на большинстве моделей

Dedicated Inference (per hour)

до 1 пользователей

По запросу
  • 1× H100 80GB — $3,99 / час
  • 1× H200 141GB — $5,49 / час
  • 1× B200 180GB — $9,95 / час
  • Поддержка кастомных моделей
  • Autoscaling и обработка пиков

GPU Clusters (on-demand)

По запросу
  • NVIDIA HGX H100 — $3,49 / час
  • NVIDIA HGX H200 — $4,19 / час
  • NVIDIA HGX B200 — $7,49 / час
  • NVIDIA GB200 NVL72 / GB300 NVL72 — по запросу
  • Резерв 4–6 месяцев — H100 от $2,55, H200 от $2,89, B200 от $6,39 / час

Fine-Tuning (per 1M tokens)

до 1 пользователей

По запросу
  • До 16B: LoRA $0,48 / Full $0,54
  • 17B–69B: LoRA $1,50 / Full $1,65
  • 70–100B: LoRA $2,90 / Full $3,20
  • DPO дороже SFT в ~2,5 раза
  • Цена = (датасет × эпохи) + опц. валидация

Enterprise

По запросу
  • Silver или Gold support tier
  • Slack-канал поддержки и SLA P0 1 час
  • Dedicated Customer Success Manager
  • Annual commits с скидкой
  • Custom GPU clusters (GB200/GB300 NVL72)
  • Tailored SLAs и приоритетная очередь
Сравнение тарифов Together AI
ТарифЦена
Build (Free)Бесплатно
Serverless Inference (pay per 1M tokens)По запросу
Dedicated Inference (per hour)По запросу
GPU Clusters (on-demand)По запросу
Fine-Tuning (per 1M tokens)По запросу
EnterpriseПо запросу
🎁
⚡ Новые наработки Together AI уже доступны
FlashAttention-4 (до 1.3× быстрее cuDNN на NVIDIA Blackwell), ATLAS speculator (до 4× faster LLM inference), Together GPU Clusters (self-service NVIDIA GPUs), Batch Inference API (50% экономии). Доступно через инфраструктуру Together AI.

Обзор Together AI

Что такое Together AI

Together AI позиционирует себя как AI Native Cloud — full-stack платформа для production AI, построенная на собственных исследованиях. В одном месте: serverless и dedicated inference, GPU-кластеры на NVIDIA H100/H200/B200, fine-tuning open-source моделей и sandbox для безопасного выполнения LLM-кода. По заявлениям компании, сервис достигает 2× более быстрого инференса, 60% снижения стоимости с workload-specific оптимизацией и 90% ускорения pre-training через Together Kernel Collection.

Платформа основана исследователями и инженерами уровня индустриальных лидеров: Vipul Ved Prakash (Co-Founder & CEO), Ce Zhang (Founder & CTO), Chris Ré (Founder), Tri Dao (Founder & Chief Scientist — автор FlashAttention) и Percy Liang (Founder). Команда отвечает за множество прорывных работ: FlashAttention 1–4, ThunderKittens, Mamba (1, 2, 3), ATLAS, RedPajama, Open Deep Research, Mixture-of-Agents.

Продуктовая линейка

1. Serverless Inference

  • Самый быстрый способ запустить open-source модели on-demand
  • Pay-per-token, без долгосрочных коммитментов
  • OpenAI-совместимый API — миграция за минуты
  • Доступны модели: GLM-5.1, MiniMax M2.7, Kimi K2.6, DeepSeek V4 Pro / V3.1 / R1-0528, Qwen3.6-Plus / 3.5-397B / Coder, Llama 3.3 70B, gpt-oss-120B / 20B, LFM2, Cogito v2.1, Gemma 4 31B, Rnj-1 и др.
  • Модальности: chat, vision, image, audio, video, transcribe, embeddings, rerank, moderation

2. Batch Inference API

  • Обработка миллиардов токенов с экономией ~50% на большинстве моделей
  • Подходит для офлайн-задач — оценки, разметка, генерация контента в масштабах

3. Dedicated и Container Inference

  • Single-tenant GPU-инстансы с гарантированной производительностью
  • Поддержка кастомных моделей
  • Autoscaling и обработка пиков трафика
  • 1× H100 80GB — $3,99 / час; 1× H200 141GB — $5,49 / час; 1× B200 180GB — $9,95 / час

4. Together GPU Clusters

  • Self-service NVIDIA GPUs, On-demand и Reserved
  • HGX H100 от $3,49/час (on-demand) до $2,55/час (резерв 4–6 месяцев)
  • HGX H200 от $4,19/час до $2,89/час; HGX B200 от $7,49/час до $6,39/час
  • NVIDIA GB200 NVL72 и GB300 NVL72 — по запросу

5. Sandbox и Code Interpreter

  • Кастомные VM-песочницы для крупных dev-окружений
  • Per vCPU — $0,0446/час; per GiB RAM — $0,0149/час
  • Code Interpreter для безопасного выполнения LLM-сгенерированного кода — $0,03 за сессию (60 минут)

6. Managed Storage

  • High-bandwidth parallel filesystem, расположенный рядом с compute
  • $0,16 за GiB в месяц

7. Fine-Tuning

  • Supervised Fine-Tuning и Direct Preference Optimization
  • До 16B модели: LoRA $0,48 / Full $0,54 за 1M токенов
  • 17B–69B: LoRA $1,50 / Full $1,65; 70–100B: LoRA $2,90 / Full $3,20
  • Стоимость = (датасет × эпохи) + опциональная валидация

Кто использует Together AI

  • Cursor — кейс real-time, low-latency inference at scale (inference + GPU clusters + research)
  • Decagon — sub-second voice AI с 6× снижением стоимости и 11× ускорением inference
  • Сотни AI-native компаний используют Together AI для запуска продуктовых LLM

Уровни поддержки

  • Build — comьюнити-поддержка через Discord (для бесплатных пользователей)
  • Standard — для Scale-tier API: PT business hours, support-платформа
  • Silver — для Enterprise API: SLA P0 1 час / P1 4 часа / P2 8 часов / P3 2 дня, Slack
  • Gold — для GPU Cluster customers: 24×7×365 для P0, выделенный Technical Account Manager, 20 часов training/services, priority queueing

Исследования Together AI

Платформа отличается тем, что строится на собственных исследованиях, известных индустрии: FlashAttention (1–4), ThunderKittens, Mamba (1, 2, 3), ATLAS (Adaptive-Learning Speculator System — до 4× ускорения LLM inference), Together Kernel Collection, RedPajama (30T-токенный открытый датасет), Open Deep Research, Mixture-of-Agents. Многие из этих работ опубликованы в топовых ML-конференциях (NeurIPS, ICML).

Плюсы и минусы Together AI

+Преимущества

  • Команда мирового класса: Tri Dao (FlashAttention), Percy Liang (HELM), Chris Ré, Vipul Ved Prakash, Ce Zhang
  • Полный full-stack: serverless inference, dedicated GPU, кластеры, fine-tuning и sandbox в одном месте
  • Конкретные публичные цены на всё — от $0,05/$0,20 за gpt-oss-20B до GPU-кластеров
  • OpenAI-совместимый API — переход существующих проектов занимает минуты
  • Большой каталог open-source моделей: DeepSeek V4 Pro, Qwen3.6-Plus, Llama 3.3, GLM-5.1, Kimi K2.6, gpt-oss и др.
  • Уникальные исследовательские наработки в продакшене: FlashAttention 1–4, ATLAS, ThunderKittens
  • Кейсы — Cursor (low-latency inference at scale), Decagon (6× cost reduction, 11× faster)
  • Многоуровневая корпоративная поддержка с SLA и dedicated TAM на Gold-tier

Недостатки

  • Нет официальной оплаты с российских карт и расчётного счёта РФ — нужны зарубежные посредники
  • Доступ из России может потребовать VPN — сервис не рассчитан на санкционные географии
  • Только open-source модели на Serverless — нет проприетарных GPT-4o, Claude Opus, Gemini
  • Платформа в первую очередь ориентирована на ML-инженеров — high entry barrier для нетехнических пользователей
  • Документация и поддержка только на английском
  • Цены в долларах + НДС зависит от страны — для российских юрлиц закрывающих документов нет

Сценарии использования Together AI

1

Real-time, low-latency inference at scale

Кейс Cursor: партнёрство с Together AI для real-time inference на масштабе (inference, GPU clusters, research). Решает задачу высокой пропускной способности при сохранении низкой задержки для ассистентов кода.

2

Sub-second voice AI и оптимизация стоимости

Кейс Decagon: sub-second voice AI с 11× ускорением inference и 6× снижением стоимости за turn по сравнению с gpt-5 mini. Демонстрирует выгоду inference на open-source моделях через Together.

3

Batch processing миллиардов токенов

Batch Inference API позволяет обрабатывать миллиарды токенов с ~50% экономией на большинстве моделей. Подходит для офлайн-задач: оценки, разметка, генерация контента в масштабе.

4

Self-service GPU clusters для обучения и больших нагрузок

On-demand или зарезервированный доступ к NVIDIA HGX H100 / H200 / B200 и GB200 / GB300 NVL72 через self-service портал. Pay-as-you-go или Reserved 1 неделя – 6+ месяцев.

5

Fine-tuning open-source моделей (LoRA / Full / DPO)

Тренировка open-source моделей до 100B параметров. От $0,48 за 1M токенов (LoRA до 16B) до $8,00 (Full DPO для 70–100B). Поддержка эпох и валидационных датасетов.

6

LLM Code Sandbox для агентов

Безопасное выполнение LLM-сгенерированного кода через Together Code Interpreter ($0,03 за 60-минутную сессию) или кастомные VM-песочницы (per vCPU + per RAM, оплата по часам).

Доверие и масштаб

Founders: Vipul Ved Prakash (CEO), Ce Zhang (CTO), Chris Ré, Tri Dao (FlashAttention), Percy Liang (HELM). Команда исследователей выпустила FlashAttention 1–4, ThunderKittens, Mamba 1–3, ATLAS, RedPajama, Open Deep Research, Mixture-of-Agents и др. Многие работы — на NeurIPS / ICML.
Известные клиенты
CursorDecagon
Кейсы
  • CursorReal-time, low-latency inference at scale через inference + GPU clusters + research
  • DecagonSub-second voice AI: 6× cost reduction per turn vs. gpt-5 mini, 11× faster inference

Отзывы о Together AI

Поделитесь опытом использования

Помогите другим сделать правильный выбор — ваш отзыв будет полезен

Часто задаваемые вопросы о Together AI

?Что такое Together AI и кто за ним стоит?

Together AI — full-stack AI Native Cloud для production AI: serverless и dedicated inference, GPU-кластеры NVIDIA H100/H200/B200, fine-tuning open-source моделей и sandbox. Founders — Vipul Ved Prakash (CEO), Ce Zhang (CTO), Chris Ré, Tri Dao (автор FlashAttention) и Percy Liang (создатель HELM benchmark). Команда отвечает за прорывные ML-наработки: FlashAttention 1–4, ThunderKittens, Mamba 1–3, ATLAS, RedPajama.

?Сколько стоит Serverless Inference?

Цена за 1M токенов зависит от модели. Дешёвые модели: gpt-oss-20B — $0,05 (input) / $0,20 (output), LFM2 24B A2B — $0,03 / $0,12, Llama 3.3 70B — $0,88 / $0,88. Топовые: DeepSeek V4 Pro — $2,10 / $4,40, Kimi K2.6 — $1,20 / $4,50, GLM-5.1 — $1,40 / $4,40, DeepSeek-R1-0528 — $3,00 / $7,00. Batch API даёт экономию ~50% на большинстве моделей.

?Сколько стоит Dedicated Inference и GPU Clusters?

Dedicated Inference: 1× H100 80GB — $3,99/час, 1× H200 141GB — $5,49/час, 1× B200 180GB — $9,95/час. GPU Clusters on-demand: HGX H100 — $3,49/час, H200 — $4,19/час, B200 — $7,49/час. Reserved (4–6 месяцев): H100 от $2,55, H200 от $2,89, B200 от $6,39 в час. NVIDIA GB200 / GB300 NVL72 — по запросу.

?Какие модели доступны через Together AI?

Десятки open-source моделей: GLM-5.1 / GLM-5, MiniMax M2.7 / M2.5, Kimi K2.6 / K2.5, DeepSeek V4 Pro / V3.1 / R1-0528, всё семейство Qwen 3 (включая 397B-A17B и Coder), Llama 3.3 70B и 3 8B Instruct Lite, gpt-oss-120B / 20B (open-weights от OpenAI), LFM2 24B A2B, Cogito v2.1 671B, Gemma 4 31B и 3n E4B Instruct. Модальности — chat, vision, image, audio, video, embeddings, rerank.

?Есть ли OpenAI-совместимый API?

Да. Serverless Inference API Together AI совместим со стандартом OpenAI — достаточно заменить базовый URL и API-ключ, существующий код приложения менять не нужно. Это позволяет быстро мигрировать проекты с OpenAI на open-source модели через Together. Доступны официальные SDK для Python и TypeScript.

?Как работает Fine-Tuning?

Together AI предлагает Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO) на open-source моделях до 100B. Цены за 1M токенов: до 16B — LoRA $0,48 / Full $0,54 (DPO дороже в ~2,5 раза), 17B–69B — LoRA $1,50 / Full $1,65, 70–100B — LoRA $2,90 / Full $3,20. Стоимость = (размер датасета × число эпох) + опциональная валидация.

?Какая поддержка предоставляется?

Четыре уровня: Build (community через Discord), Standard (Scale tier API, PT business hours), Silver (Enterprise API — SLA P0 1 час / P1 4 часа / P2 8 часов / P3 2 дня, Slack-канал), Gold (для GPU Cluster customers — 24×7×365 P0, dedicated Technical Account Manager, 20 часов training, priority queueing; стоит 10% от контракта или включён для GPU-cluster клиентов).

?Можно ли пользоваться Together AI из России?

Сервис ориентирован на глобальный рынок, оплата идёт в долларах. Прямой оплаты с российских карт и работы по расчётному счёту РФ нет — потребуются зарубежные посредники, корпоративная карта другой юрисдикции или оформление через зарубежное юрлицо. Для стабильного доступа из РФ может потребоваться VPN — сервис не рассчитан на санкционные географии.

Обновлено: 3 мая 2026 г.