GPT-4 и новый разговор о качестве, мультимодальности и стоимости ошибок
Выход GPT-4 меняет не только возможности языковых моделей, но и разговор о том, когда ИИ приемлем в производственных системах. Рассматриваю три ключевых сдвига.
14 марта 2023 года OpenAI выпустила GPT-4. Модель улучшилась по многим параметрам по сравнению с предшественником. Но важнее технических характеристик то, как изменился разговор о применимости языковых моделей в деловых контекстах.
Я хочу сфокусироваться не на бенчмарках - они хорошо описаны в технической прессе. Мне интереснее три сдвига, которые имеют значение для тех, кто принимает решения о внедрении.
Первый сдвиг: качество стало достаточным для новых классов задач
GPT-4 значительно снизила частоту явных ошибок и "галлюцинаций" по сравнению с GPT-3.5. Это не означает, что модель не ошибается - она ошибается. Но для ряда задач качество перешло порог, за которым инструмент становится практически применимым.
Конкретно это означает следующее. Задачи, где раньше приходилось тратить значительное время на проверку вывода модели, теперь требуют меньше надзора. Для задач с низкой стоимостью ошибки - черновики, суммаризация, первичная классификация - модель стала пригодна к использованию в потоке.
Это не отменяет необходимость проверки. Это меняет её объём.
Второй сдвиг: мультимодальность открывает новые сценарии
GPT-4 поддерживает работу с изображениями в дополнение к тексту. На момент выхода эта функция была ограничена, но само появление возможности - важный сигнал.
Для бизнеса это означает расширение класса задач, которые можно рассматривать для автоматизации с ИИ. Документы с таблицами, схемами, изображениями продуктов, сканы - всё это потенциально обрабатывается иначе, чем чистый текст.
Практически сейчас я бы смотрел на это как на горизонт в 6-12 месяцев для реальных пилотов, а не на немедленное внедрение.
Третий сдвиг: стоимость ошибок становится центральным вопросом
С ростом качества растёт и соблазн доверять модели больше. Это опасный сдвиг, если не думать о нём явно.
Вопрос для каждого конкретного применения теперь звучит точнее: какова стоимость ошибки этой модели в этом контексте? Для черновика письма - низкая, редактор поправит. Для ответа клиенту от лица компании - другая история. Для документа с юридическими или финансовыми последствиями - ещё другая.
Повышение качества модели не снимает необходимость этого анализа. Оно делает его более тонким.
Что стоит сделать сейчас
Практический фильтр для решения о том, пробовать ли GPT-4 в конкретном рабочем процессе:
- Каков масштаб потенциальной ошибки? Что происходит, если модель даёт неверный результат один раз из десяти?
- Есть ли в процессе точка проверки человеком - до того, как вывод модели влечёт последствия?
- Можно ли начать с задач, где стоимость ошибки минимальна, и постепенно расширять область?
- Как вы будете мониторить качество модели в потоке - не разово при тестировании, а регулярно в работе?
GPT-4 - это новая планка возможного. Но планка возможного и планка приемлемого для конкретного бизнеса - разные вещи.