NVIDIA Blackwell и экономика следующей волны инференса
Что анонс архитектуры Blackwell означает для компаний, которые планируют или уже запустили ИИ-системы в продакшн: про стоимость, доступность и стратегические решения.
На конференции GTC в марте 2024 года NVIDIA представила архитектуру Blackwell - следующее поколение GPU, ориентированное на ИИ-вычисления. Цифры впечатляющие: значительный прирост производительности на задачах инференса по сравнению с предыдущим поколением Hopper, которое само по себе было революцией относительно всего, что было до него.
Я смотрю на это не как на новость из мира железа, а как на сигнал о том, как изменится экономика ИИ в ближайшие полтора-два года. Для компаний, которые сейчас принимают решения о ИИ-инфраструктуре, это имеет практическое значение.
Почему инференс важнее обучения для большинства бизнесов
Когда говорят об ИИ и GPU, обычно думают об обучении больших моделей. Это дорогостоящий процесс, который OpenAI и другие крупные игроки делают за огромные бюджеты.
Но для большинства компаний обучение - это чужая задача. Они берут уже обученную модель и используют её: отвечают на вопросы клиентов, классифицируют документы, генерируют контент. Это называется инференс - применение модели к новым данным.
Именно инференс будет составлять большую часть операционных расходов ИИ-систем в продакшн. И именно здесь архитектура Blackwell создаёт наиболее значимые изменения.
Что меняется в экономике
Hopper (H100) в 2022-2023 годах стал дефицитным товаром. Очереди на поставку, завышенные цены на облачные инстансы - всё это создавало реальный барьер для масштабирования ИИ-систем. Blackwell призван эту ситуацию изменить.
Рост производительности в инференсе означает: за то же количество вычислительных ресурсов можно обработать больше запросов, или потратить меньше ресурсов на то же количество запросов. Применительно к бизнесу - стоимость одного ИИ-взаимодействия с пользователем падает.
Это имеет несколько следствий. Задачи, которые сейчас слишком дороги в операционной стоимости, становятся экономически жизнеспособными. Модели с большим контекстным окном становятся доступнее - потому что их запуск требует меньше ресурсов при той же производительности. Конкуренция между провайдерами облачных GPU вырастет, что дополнительно снизит цены.
Что это означает для стратегических решений
Если компания сейчас находится в фазе "мы думаем, запускать ли ИИ в продакшн или это слишком дорого" - экономика через 12-18 месяцев будет ощутимо другой. Те же задачи будут стоить дешевле.
Это не значит, что надо ждать. Но это значит, что текущие оценки стоимости ИИ-систем в продакшн устареют быстрее, чем кажется.
Несколько практических следствий:
Не фиксируйте архитектурные решения на конкретном железе надолго. Облачный инференс через провайдера - более гибкая стратегия, чем собственные кластеры, в период такой быстрой смены поколений.
Модели станут больше. Если сейчас вы используете относительно небольшую модель, потому что большая слишком дорога в операционке - посчитайте экономику ещё раз через год.
Конкурентный паритет переместится. Если сейчас ИИ в продакшн - это конкурентное преимущество, то через два года это будет базовое ожидание в ряде отраслей.
Вопросы для оценки готовности
- Вы знаете стоимость одного ИИ-взаимодействия в ваших текущих или планируемых системах?
- Какие ИИ-задачи вы отложили именно из-за стоимости операционного запуска?
- Ваш ИИ-провайдер даёт вам возможность переключаться между поколениями железа без переработки приложения?
- Как вы отслеживаете изменения в стоимости инференса при обновлении вашего ИИ-бюджета?
Blackwell - это напоминание о том, что инфраструктурный слой ИИ движется быстро. Планировать на основе сегодняшних цифр и сегодняшних ограничений - значит ошибаться в расчётах уже через год.