ИИ 20 апреля 2021 2 мин чтения

Transformer выходит за пределы NLP: что это значит

Архитектура transformer, которая изменила обработку текста, начинает работать с изображениями и структурированными данными. Что это значит для бизнеса.

Архитектура transformer появилась в 2017 году как решение для обработки текста. За несколько лет она полностью изменила область NLP - языковые модели, машинный перевод, анализ текстов. GPT-3, появившийся в прошлом году, стал одним из самых заметных примеров того, чего можно достичь с достаточно большой transformer-моделью.

Теперь та же архитектура начинает применяться за пределами текста. В начале 2021 года появились убедительные результаты её применения для изображений (Vision Transformer, ViT), а также для задач с табличными и структурированными данными. Это не просто расширение одной технологии - это сигнал об изменении базовой парадигмы.

Почему это важнее, чем кажется

До transformer разные задачи машинного обучения требовали принципиально разных архитектур. Для текста - рекуррентные сети и механизмы внимания. Для изображений - свёрточные сети. Для структурированных данных - градиентный бустинг и деревья решений.

Transformer оказывается достаточно общей архитектурой, чтобы работать во всех этих областях при соответствующей адаптации. Это важно по двум причинам.

Первая: знания и компетенции переносятся. Команда, которая умеет работать с transformer-моделями для текста, сможет применять ту же базу для других задач быстрее, чем если бы каждая задача требовала совершенно другого подхода.

Вторая: открывается путь к мультимодальным системам. CLIP - один из первых примеров. Общая архитектура для разных типов данных - это технический фундамент для систем, которые работают с несколькими модальностями одновременно.

Что это значит для практических задач

Для большинства компаний непосредственное следствие пока не очень заметно. Новые архитектуры сначала появляются в исследовательских работах, потом в открытых инструментах, потом в управляемых облачных сервисах, и только потом становятся практически доступными без глубокой экспертизы.

Но есть несколько областей, где изменения будут ощущаться раньше других.

Компьютерное зрение: Vision Transformer показывает конкурентные или лучшие результаты по сравнению с прежним стандартом - свёрточными сетями - особенно при наличии большого объёма данных. Это значит, что поставщики готовых решений для визуальных задач будут постепенно обновлять архитектуры под капотом.

Анализ смешанных данных: задачи, где нужно совместно анализировать текст, изображения и структурированные данные, - это как раз та область, где единая архитектура даёт преимущество. Медицинская документация с изображениями, технические паспорта продуктов, отчёты с таблицами - это реальные бизнес-данные.

Как думать об этом на горизонте года-двух

Не нужно немедленно переходить на новые архитектуры. Если у вас работает задача машинного обучения - пусть работает. Гнаться за каждым новым архитектурным решением нет смысла.

Полезно другое: следить за тем, как ваши поставщики AI-инструментов и облачных сервисов обновляют свои предложения. Новые модели за теми же API - это обычно улучшение без дополнительных усилий с вашей стороны.

И стоит помнить: задачи, которые сегодня кажутся слишком сложными или дорогими для автоматизации с помощью ИИ, через два года могут оказаться вполне решаемыми - не потому что кто-то придумал новую задачу, а потому что базовая архитектура стала лучше.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX