OpenAI DevDay 2024: что объявления значат для продуктовых команд
Короткий разбор октябрьских анонсов DevDay - Realtime API, кеширование промптов, файнтюнинг и оценки - с фокусом на том, что меняется для команд, строящих на базе OpenAI.
1 октября OpenAI провела второй DevDay в Сан-Франциско - более компактное, более технически направленное мероприятие, чем первое. Никаких потребительских сюрпризов. Анонсы были технические и адресованы командам, строящим продукты. Хочу разобрать те из них, которые реально важны операционно.
Realtime API
Самый практически значимый анонс для продуктовых команд: нативный Realtime API, который позволяет приложениям стримить аудио в модель и из неё с малой задержкой, без прохождения через пайплайн STT-LLM-TTS, который все сшивали вручную.
Что меняется на практике: трёхкомпонентная архитектура (Whisper для транскрипции, GPT-4 для ответа, TTS для вывода) имела достаточно задержки на каждом стыке, что реальное ощущение разговора в реальном времени было сложно достичь. Единый API, обрабатывающий всё три нативно, убирает эти стыки.
Последствия не только в задержке. Единая модель, работающая с аудио напрямую, имеет доступ к просодии, темпу и тону входного сигнала так, как не имеет пайплайн с предварительной транскрипцией. Выражается ли это в ощутимо лучших ответах - зависит от того, что вы строите. Для контекстов эмоциональной поддержки или продаж это, вероятно, важно; для записи на приём - скорее нет.
Модель тарификации для аудио-токенов отличается от текстовой. Командам нужно пересчитать юнит-экономику, прежде чем считать это прямой заменой.
Кеширование промптов
Кеширование промптов в API означает, что если последовательные запросы разделяют длинный общий префикс - системный промпт, большой документ, набор примеров few-shot - модель не переобрабатывает этот префикс каждый раз. Вы платите за первый вызов; повторяющиеся части тарифицируются по сниженной ставке.
Это значимо для приложений с дорогостоящим, стабильным контекстом. RAG-система, которая всегда начинается с одного и того же большого набора инструкций и извлечённых документов, может увидеть существенное снижение стоимости. Экономия выше, чем более «пачковым» является ваш трафик и чем меньше меняется ваш префикс между вызовами.
Нюанс: кеширование вероятностное, привязано к маршрутизации инфраструктуры и не гарантировано. Строить SLA на нём нельзя. Но для оптимизации стоимости оно реально и стоит измерения.
Файнтюнинг для GPT-4o и интеграции оценок
Поддержка файнтюнинга распространена на GPT-4o, и платформа для разработчиков теперь включает инструментарий для оценок, который связывает обучающие прогоны с метриками качества более чисто.
Файнтюнинг для консистентности стиля и формата - легитимен и хорошо изучен. Файнтюнинг ради того, чтобы модель «знала больше вещей» - почти всегда ошибка: для этого существует RAG. Новый инструментарий для оценок интересен тем, что оценка - это часть, которую команды чаще всего пропускают или делают вручную, а потом удивляются, почему прогоны файнтюнинга не улучшают то, о чём они заботятся.
Более широкий сигнал
Что объединяет эти анонсы: OpenAI консолидирует вещи, которые разработчики прежде делали с помощью нескольких инструментов, в поверхность своего API. Это хорошо для простоты ранних сборок. Это усиливает привязку к платформе. Команды, строящие серьёзные продукты, должны думать об уровнях абстракции, позволяющих менять провайдера модели - не потому что OpenAI скорее всего никуда не денется, а потому что рынок движется достаточно быстро, что привязка к задержке, ценообразованию и набору функций одного провайдера - реальное ограничение.
Ни один из этих анонсов не меняет фундаментальной экономики разработки ИИ-продуктов. Сложная часть остаётся прежней: чёткий сценарий использования, качественные данные и петля обратной связи, которая показывает, делает ли модель то, что вам нужно.