ИИ 16 июня 2017 3 мин чтения

Архитектура Transformer: новый универсальный базис для работы с последовательностями

Что означает появление архитектуры Transformer для компаний, которые думают о применении языковых моделей в своих процессах.

В этом месяце группа исследователей из Google опубликовала статью "Attention Is All You Need", которая предложила принципиально новую архитектуру для обработки последовательностей - текста, речи, временных рядов. Архитектура получила название Transformer.

Для тех, кто следит за развитием языковых моделей, это важный момент. Для руководителя, который думает о применении этих технологий в бизнесе, важно понять не техническую деталь, а то, что меняется в возможностях - и что это означает на практике.

Что было до этого

До Transformer основной подход к работе с текстом в машинном обучении опирался на рекуррентные архитектуры. Модель читала текст последовательно - слово за словом - и пыталась удержать контекст в сжатом представлении.

У этого подхода были ограничения. Длинные зависимости терялись: то, что было написано в начале предложения, плохо влияло на предсказание в конце длинного абзаца. Обучение таких моделей было медленным, потому что нельзя было обрабатывать слова параллельно.

Практический результат: языковые модели работали приемлемо на коротких текстах и заметно хуже на длинных. Качество машинного перевода, суммаризации, ответов на вопросы было ограниченным.

Что меняет Transformer

Ключевая идея новой архитектуры - механизм внимания (attention). Вместо последовательного чтения модель обрабатывает весь текст сразу и для каждого элемента вычисляет, насколько он связан с каждым другим элементом. Это позволяет улавливать зависимости на любом расстоянии в тексте.

Второй эффект - параллельное обучение. Поскольку обработка идёт не последовательно, архитектуру можно обучать значительно быстрее, используя современные GPU. Это означает, что можно обучать значительно более крупные модели на значительно большем объёме данных.

Сейчас это техническое исследование. Но это тот вид исследований, который имеет прямые практические следствия в горизонте нескольких лет.

Почему это важно для бизнеса

Я не стану делать вид, что завтра языковые модели на основе Transformer будут доступны как готовый продукт для любой компании. До этого ещё далеко. Но понимать направление движения полезно.

Несколько задач, которые станут качественно лучше по мере развития этой архитектуры:

Машинный перевод. Качество автоматического перевода, особенно для длинных документов и специализированных текстов, должно существенно вырасти.

Анализ текстовых данных. Классификация обращений, извлечение ключевых сущностей из документов, маршрутизация входящих запросов - всё это задачи, где качество модели напрямую определяет практическую применимость.

Работа с внутренними базами знаний. Возможность задать вопрос и получить ответ, извлечённый из корпуса документов, становится технически достижимой - хотя и нетривиальной в реализации.

Что это не означает

Появление новой архитектуры не означает, что текстовые задачи немедленно решены или что любая компания может взять готовую модель и запустить. Промышленные применения потребуют времени, специализации и, главное, хороших данных.

Это возможности на среднесрочном горизонте, а не готовые инструменты сегодня. Но это достаточно значимый технический сдвиг, чтобы следить за тем, как он будет реализовываться в продуктах в ближайшие один-два года.

Вопрос для стратегического планирования

Если у вас есть процессы, которые существенно завязаны на работу с текстом - обработка обращений клиентов, анализ документов, перевод, поиск по базам знаний - стоит задать себе вопрос: что изменится в этих процессах, когда качество автоматической работы с текстом вырастет на порядок?

Не "стоит ли нам внедрять это прямо сейчас". А "готовы ли мы к этому концептуально и организационно, когда инструменты дозреют".

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX