ИИ 13 мая 2024 3 мин чтения

GPT-4o и нормализация real-time мультимодального UX

Что анонс GPT-4o означает для компаний, которые проектируют пользовательские интерфейсы с ИИ: голос, видео и текст в одном потоке становятся стандартным ожиданием.

В мае 2024 года OpenAI представила GPT-4o - модель, которая обрабатывает текст, голос и изображения в едином потоке, без переключения между отдельными системами. Демонстрация была убедительной: разговор с моделью в режиме реального времени, реакция на эмоции в голосе, обсуждение того, что видно на экране.

Я хочу поговорить не о технических деталях модели, а о том, что этот анонс означает для любого продукта или сервиса, в котором есть интерфейс взаимодействия с пользователем.

Что изменилось в восприятии

До GPT-4o мультимодальность в ИИ существовала, но была составной: отдельная модель для транскрипции речи, отдельная для генерации ответа, отдельная для озвучивания. Это порождало заметные паузы и разрывы в взаимодействии. Пользователь ощущал систему как конвейер, а не как собеседника.

GPT-4o убирает эти стыки. Голос, изображение и текст обрабатываются вместе, реакция происходит с задержкой в секунды. Это другой класс опыта.

Для пользователя важно не то, как это устроено внутри. Важно то, что взаимодействие начинает ощущаться естественным. И как только это ощущение появляется у достаточного числа людей - оно становится новым стандартом ожиданий.

Как это влияет на продуктовые решения

Компании, которые строят продукты с голосовым или визуальным взаимодействием, сейчас должны думать не только о том, "работает ли функция", но и о том, "насколько это ощущается плавным".

Раньше пауза в три секунды при голосовом запросе была приемлемой - пользователь понимал, что система "думает". Теперь у части пользователей будет опыт GPT-4o с задержкой в одну секунду, и три секунды начнут ощущаться медленно.

Это создаёт давление на несколько уровней:

Латентность становится UX-метрикой. Скорость ответа ИИ-компонента - это уже не только техническая характеристика. Это то, что влияет на восприятие качества продукта.

Голос перестаёт быть экзотикой. Если раньше голосовой интерфейс в корпоративных приложениях выглядел как инновация - теперь это просто один из способов взаимодействия. Вопрос не "делать ли это", а "когда и для каких сценариев".

Мультимодальность меняет проектирование сценариев. Если система может видеть экран и слышать вопрос одновременно - это другой дизайн поддержки, другой дизайн обучения, другой дизайн рабочего места оператора.

Что не нужно делать немедленно

Нет нужды срочно переделывать все интерфейсы. GPT-4o публично доступна, но не все функции сразу и не везде. Производственное внедрение с управляемой задержкой и предсказуемым поведением - это отдельная задача от демо.

Правильная реакция - не паника и не немедленный запуск проектов по переделке UX. Правильная реакция - принять, что ожидания пользователей к ИИ-интерфейсам продолжают расти, и заложить это в продуктовое планирование на горизонт 12-18 месяцев.

Вопросы для продуктовой команды

Какие сценарии взаимодействия в нашем продукте выиграли бы от голосового или визуального ввода?
Какова сейчас задержка в ИИ-компонентах нашего продукта - мы её измеряем?
Как меняются ожидания наших пользователей к скорости и естественности ИИ-взаимодействий за последние полгода?
Есть ли в нашем продуктовом плане на 2024-2025 год место для мультимодальных сценариев?

Нормализация мультимодального UX происходит быстрее, чем кажется. Лучше иметь это в плане, чем догонять через два года.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX