ИИ 5 сентября 2023 3 мин чтения

Файн-тюнинг GPT-3.5: когда он оправдан, а когда нет

OpenAI открыла файн-тюнинг для GPT-3.5 Turbo в августе 2023 года. Практический разбор сценариев, где он даёт результат, и тех, где промпт-инжиниринг по-прежнему правильный выбор.

Несколько недель назад OpenAI открыла доступ к файн-тюнингу GPT-3.5 Turbo. Реакция предсказуемо разделилась: одна часть объявила, что это решает всё, другая отмахнулась как от лишнего. Оба ответа кажутся мне бесполезными.

Файн-тюнинг - это конкретный инструмент, который решает конкретный класс задач. Дальше - попытка составить практическую карту того, когда он оправдывает затраты, а когда нет.

Что файн-тюнинг делает на самом деле

При файн-тюнинге вы подстраиваете веса модели на кураторском наборе примеров «вход - правильный выход». Результат - вариант модели, который выполняет вашу задачу надёжнее, чем базовая модель с любыми промптами. Вы не обучаете модель новым знаниям - вы формируете её поведение по умолчанию для вашего контекста.

Это различие важно. Если проблема в том, что модель чего-то не знает, файн-тюнинг на примерах не поможет. Если проблема в том, что модель знает область, но по умолчанию использует стиль, формат или тон, который не подходит, - файн-тюнинг подходит хорошо.

Случаи, где файн-тюнинг даёт результат

Стабильный формат вывода. Если нужен JSON с конкретной схемой или ответ, который всегда следует определённой структуре, few-shot промптинг даёт 80%. Файн-тюнинг даёт 98%. Для автоматизированных пайплайнов, где результат парсит система, это ощутимая разница.

Отраслевой тон и стиль. Юридический, медицинский и финансовый контексты часто требуют специфического регистра. Файн-тюнинг на отраслевых примерах приучает модель по умолчанию использовать этот регистр без громоздкого промпта каждый раз.

Короткие промпты на инференсе. Когда поведение закодировано в весах, а не в промпте, на инференсе нужно меньше токенов. В масштабе это ощутимая экономия.

Обработка граничных случаев. Если у вас есть коллекция примеров, где базовая модель систематически ошибается одним и тем же образом, файн-тюнинг на исправленных версиях этих случаев часто решает проблему.

Случаи, где файн-тюнинг - неправильный инструмент

Примеров недостаточно. Файн-тюнинг требует минимум несколько сотен качественных примеров для большинства задач и несколько тысяч для сложных. Если собрать кураторский обучающий набор не получается - к файн-тюнингу рано.

Задача требует актуальных знаний. Файн-тюнинг не обновляет дату среза знаний модели. Для задач, зависящих от свежей информации, правильный слой - RAG, а не файн-тюнинг.

Требования ещё меняются. Файн-тюнинг фиксирует определение «правильного вывода» в конкретный момент. Если определение задачи эволюционирует - а обычно именно так и бывает в первые полгода - итерировать на промптах дешевле и быстрее, чем итерировать на обучающих данных.

Базовая модель с хорошим промптом уже работает достаточно хорошо. Звучит очевидно, но часто пропускается. До инвестиций в проект файн-тюнинга стоит провести нормальную оценку того, что даёт хорошо выстроенный промпт.

Практическая рамка решения

Перед запуском проекта файн-тюнинга я нахожу полезным ответить на три вопроса: могу ли я прямо сейчас собрать 500 и более качественных примеров? Формат вывода - главная проблема, или рассуждение? Я измерил, что даёт сильный базовый промпт? Если ответ на любой из них не ясен, инвестиция идёт в оценку и промпт-инжиниринг в первую очередь.

Файн-тюнинг - реальный инструмент. Но он стоит в конце процесса разработки AI-продукта, а не в начале.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX