ИБ 21 августа 2023 3 мин чтения

API-ключи к LLM становятся новым периметром безопасности

Почему подключение к языковым моделям через API создаёт новый класс рисков и что с этим делать уже сейчас.

Когда компания начинает использовать GPT-4, Claude или любую другую языковую модель через API, она обычно думает об этом как о подключении к сервису. Получили ключ, встроили в код, всё работает. Безопасность - дело на потом.

Я вижу этот паттерн во многих компаниях прямо сейчас, на волне интеграций с LLM. И именно сейчас стоит остановиться и подумать о рисках, пока ключи не расползлись по всей инфраструктуре.

Почему LLM API-ключи - это не обычные ключи

Обычный API-ключ к, скажем, сервису отправки SMS позволяет отправлять SMS. Ущерб от утечки ограничен: деньги со счёта, нежелательный спам. Масштаб понятен.

Ключ к LLM API - другой класс доступа. Через него проходят все запросы к модели. Если к модели подключены инструменты (поиск по базе знаний, выполнение кода, работа с файлами), то скомпрометированный ключ даёт доступ ко всему, что модель может делать. При этом стоимость скомпрометированного ключа - не только деньги на счёте, но и потенциальная утечка данных, которые были переданы в запросах.

Второй момент: лимиты. LLM API обычно тарифицируется по токенам. Утёкший ключ - это ресурс, который можно использовать в чужих целях за ваш счёт. Несколько дней неконтролируемого использования могут стоить больше, чем ожидаемый бюджет на месяц.

Типичные ошибки, которые я вижу

Ключ в репозитории. Даже в приватном. Даже в .env файле, который "случайно" попал в git. Это классика, которая продолжает происходить, несмотря на все предупреждения.

Один ключ на всё. Один ключ используется в продакшне, при разработке, в скриптах аналитики и в "быстрых экспериментах". Когда что-то идёт не так - непонятно, откуда утечка и что именно скомпрометировано.

Ключ без ограничений. Многие LLM-провайдеры позволяют ограничить ключ по расходам, IP-адресам или типам операций. Большинство этим не пользуется.

Нет мониторинга расходов. Неожиданный счёт обнаруживается в конце месяца, а не в момент аномалии.

Минимальный контроль

Это не требует сложной инфраструктуры. Базовые меры:

Разные ключи для разных сред. Продакшн, разработка, тестирование - отдельные ключи. Ротировать и отзывать можно независимо.

Ключи через менеджер секретов, не через переменные окружения вручную. AWS Secrets Manager, HashiCorp Vault, Azure Key Vault - неважно что, главное не хардкод и не .env в репозитории.

Лимиты расходов на каждый ключ. Большинство провайдеров это поддерживает. Установите разумный лимит и алерт при его достижении.

Логирование вызовов. Хотя бы на уровне "кто, когда, сколько токенов". Это даёт базу для расследования при инциденте.

Регулярная ротация. Ключи, которые не менялись год - это ключи, которые потенциально утекли и вы об этом не знаете.

Вопрос для проверки

Если прямо сейчас попросить каждого человека в команде, у которого есть доступ к LLM API, перечислить все ключи, которые он использует - получится полный список? Или часть будет "где-то в старом скрипте" или "у меня в локальном .env"?

Если ответ нечёткий - это сигнал. Не катастрофа, но сигнал. Провести инвентаризацию и навести порядок сейчас, пока это небольшая проблема, намного дешевле, чем разбираться с инцидентом через полгода.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX