Почему ИИ не спасает плохие данные
Короткий разбор о том, почему внедрение ИИ в компании начинается не с модели, а с качества данных.
Почти каждый разговор с собственником про "давайте внедрим ИИ" сейчас начинается одинаково. Есть задача, есть надежда на быструю автоматизацию и есть ощущение, что технология решит то, что годами не решалось руками.
Я понимаю это ощущение. Но в реальности всё чаще упирается не в модель, а в данные.
Что значит "плохие данные"
Плохие данные - это не обязательно ошибки в цифрах. Чаще это:
- одни и те же сущности названы по-разному в разных системах;
- куски контекста живут только в головах людей;
- даты, валюты и единицы измерения приведены кое-как;
- "источник правды" формально один, фактически три;
- между ERP, CRM и Excel идёт ручной перенос с потерями.
ИИ всё это не исправит. Он усреднит, угадает, нагенерирует уверенный ответ - и закрепит ошибку в красивой обёртке.
Почему модель не лечит хаос
Современные модели хорошо обобщают закономерности и плохо догадываются о том, чего в данных нет. Если в отчётах исторически путали "выручку" и "оборот" - модель будет путать так же. Если поставщики записаны как "ООО Ромашка" и "Ромашка ООО" - это два разных контрагента до тех пор, пока их не свяжет человек или процесс.
ИИ не заменяет дисциплину работы с данными. Он усиливает то, что уже есть - в обе стороны.
С чего обычно начинается реальное внедрение
Когда я смотрю на новый ИИ-проект, я почти всегда задаю одни и те же вопросы:
- Какие данные нужны для задачи и где они физически лежат?
- Кто отвечает за их корректность сегодня?
- Какие у этих данных есть скрытые особенности?
- Что из этого можно собрать в управляемый процесс, а не в "разовую выгрузку"?
- Какой сценарий использования у результата - кто, когда и как с ним работает?
Только после этого имеет смысл говорить о модели, агенте или интеграции с LLM.
Простой тест
Если на вопрос "откуда возьмутся данные для этой ИИ-фичи?" в команде все смотрят друг на друга - проект надо начинать не с модели. Его надо начинать с инжиниринга данных.
Это редко выглядит эффектно на презентации. Но именно это решает, будет ли ИИ-проект работать через год или превратится в дорогую игрушку.