Данные 8 июля 2023 3 мин чтения

Векторные базы данных: что изменилось и зачем это нужно бизнесу

Почему векторные БД стали обсуждаемой темой вместе с волной LLM и что это реально означает для компаний, которые работают с внутренними документами.

За последние несколько месяцев в разговорах об ИИ всё чаще стало появляться слово "RAG" и рядом с ним - "векторная база данных". Для многих это звучит как очередной технический термин без прикладного смысла. Но за этим стоит конкретная архитектурная проблема, с которой сталкивается почти любая компания, пытающаяся применить LLM к своим документам.

Попробую объяснить суть без погружения в математику.

Почему обычный поиск не работает для LLM

Когда сотрудник задаёт вопрос внутренней системе, он ожидает ответа по смыслу, а не по ключевым словам. "Какова наша политика по командировкам в регионы с особыми условиями?" - это вопрос, в котором ни одно слово может не совпадать с тем, как написан соответствующий документ.

Классический полнотекстовый поиск ищет по совпадению слов. Если в регламенте написано "зоны повышенного риска", а сотрудник спрашивает про "особые условия" - система либо ничего не найдёт, либо найдёт нерелевантное.

Векторный поиск работает иначе. Каждый текстовый фрагмент превращается в числовой вектор, который кодирует смысл. Близкие по смыслу тексты оказываются близко друг к другу в этом пространстве. Поиск становится поиском по смыслу, а не по словам.

Что такое RAG и зачем нужна векторная БД

RAG - retrieval-augmented generation - это паттерн, при котором LLM не пытается отвечать из памяти, а сначала находит релевантные фрагменты из базы знаний, а потом формулирует ответ на их основе.

Схема простая: пользователь задаёт вопрос, система ищет подходящие документы в векторной базе, передаёт их модели как контекст, модель отвечает опираясь на этот контекст.

Это решает проблему "галлюцинаций" - когда LLM уверенно отвечает, не имея реальных данных. В RAG-архитектуре модель отвечает по конкретным документам, а не по тому, что накопилось в весах при обучении на интернете.

Векторная БД здесь - это хранилище, оптимизированное именно для хранения векторов и поиска ближайших соседей. Она не заменяет обычную базу данных. Она дополняет её там, где нужен семантический поиск.

Что реально нужно до векторной базы

Прежде чем думать о технологии, стоит ответить на несколько вопросов о данных.

Какие документы составят базу знаний? Где они сейчас хранятся и в каком формате? Кто отвечает за их актуальность?

Это не технические вопросы. Это вопросы о том, как в компании устроена работа с знаниями. Если документы разбросаны по десяткам мест, часть устарела, а владельцев нет - векторная БД будет индексировать хаос. Это снова упирается в готовность данных к работе с ИИ.

Второй момент - разбивка на фрагменты. Векторный поиск работает с кусками текста определённого размера, не с целыми документами. Как нарезать регламент на 200 страниц так, чтобы каждый фрагмент был осмысленным - отдельная задача, у которой нет универсального ответа.

Практический фильтр

Прежде чем двигаться к архитектуре, я задаю несколько вопросов:

Есть ли конкретная задача поиска по внутренним документам, которая сейчас решается плохо или не решается вовсе?
Документы достаточно структурированы и актуальны, чтобы стать основой ответов?
Есть ли в команде кто-то, кто возьмёт на себя поддержку индекса - обновление при изменении документов?
Понимаем ли мы, как будем проверять качество ответов системы?

Если ответы есть - это разговор про архитектуру. Если нет - сначала порядок в документах.

Векторные базы данных - это инструмент, который стал доступным и зрелым именно сейчас. Но инструмент работает только тогда, когда понятно, что именно он должен делать.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX