ИИ 15 января 2021 3 мин чтения

CLIP и мультимодальность: приход zero-shot-поведения

Что означает выход CLIP от OpenAI для компаний, которые думают о практическом применении ИИ за пределами текста.

В начале января OpenAI опубликовала работу о CLIP - модели, которая умеет сопоставлять изображения и текстовые описания без отдельного обучения на каждой конкретной задаче. Звучит как очередная академическая новость. Но за этим стоит кое-что важнее, чем очередной рекорд на бенчмарке.

CLIP - не первая мультимодальная модель и не первая попытка связать язык и зрение. Необычно здесь другое: способность к так называемому zero-shot-переносу. Модель можно попросить найти на фотографии "человека в защитном шлеме" или "повреждённую упаковку" - без специальной разметки и без дообучения. Она ищет по описанию.

Что такое zero-shot и почему это меняет разговор

До этого момента практическое применение компьютерного зрения выглядело примерно так: берёшь задачу, собираешь размеченные примеры, обучаешь или дообучаешь модель, запускаешь в продакшн. Цикл занимал от нескольких недель до нескольких месяцев. При каждом изменении задачи - повтори.

Zero-shot меняет эту логику. Вместо "обучи модель на классе А" появляется возможность описать класс А текстом и сразу получить рабочий классификатор. Это не магия - точность будет ниже, чем у специализированной модели. Но порог входа становится принципиально другим.

Для руководителя это значит: появляется класс задач, где пилот можно запустить быстро, без дорогостоящей разметки. Если пилот показывает ценность - тогда инвестировать в полноценное обучение.

Мультимодальность как смена парадигмы

CLIP интересен не только сам по себе. Он часть более широкого сдвига: модели, которые понимают несколько модальностей одновременно - текст, изображения, а в перспективе звук и другие сигналы.

Практический смысл для бизнеса: данные в компании редко бывают только текстовыми или только визуальными. Технические документы содержат схемы. Складские записи сопровождаются фотографиями. Контракты идут вместе с таблицами. Модели, которые работают только с одной модальностью, требуют, чтобы вы заранее решили, что важно, и отбросили остальное. Мультимодальные модели работают с тем, как информация существует в реальности.

Что это не означает прямо сейчас

CLIP - исследовательская модель. Путь от публикации до надёжного промышленного применения - это отдельная работа: интеграция, тестирование в реальных условиях, управление качеством, инфраструктура.

Несколько трезвых наблюдений:

Zero-shot хуже специализированного обучения там, где задача хорошо определена и есть данные. Не надо заменять работающее.
Мультимодальность создаёт новые вопросы безопасности и конфиденциальности: модель, работающая с изображениями и текстом, обрабатывает больше потенциально чувствительного материала.
Качество результата сильно зависит от того, как сформулировано текстовое описание. Это новый вид экспертизы, который надо развивать.

Как думать об этом сейчас

Правильный вопрос для руководителя не "применим ли CLIP в нашей компании". Правильный вопрос - "какие наши задачи сегодня не решаются из-за стоимости или времени разметки данных".

Если такие задачи есть - именно на них стоит смотреть в первую очередь, когда zero-shot-инструменты станут доступнее в использовании. Это горизонт следующих одного-двух лет. Сейчас достаточно понимать, что порог входа в компьютерное зрение меняется, и следить за тем, как технология переходит из исследований в инструменты.

Академический результат этого месяца - это будущий пилот через год-два. Лучше знать об этом сейчас.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX