Данные 24 мая 2013 3 мин чтения

Data scientist, аналитик, инженер: роли пора разводить

Почему специалист по данным - уже недостаточно точная роль, и как размытые ожидания топят команды до начала работы.

Когда компания решает заняться данными серьёзно, первый найм почти всегда звучит одинаково: "нам нужен человек по данным". Иногда это называют аналитиком, иногда data scientist, иногда просто "специалистом по BI". Подразумевается, что один человек сделает всё: настроит сбор, построит модели, нарисует дашборды и объяснит результаты бизнесу.

Это не работает. И чем дольше компания держится за такую конструкцию, тем дороже ей это обходится.

Три разные профессии

За последние несколько лет стало очевидно, что "работа с данными" распалась на три принципиально разных занятия.

Инженер данных строит и поддерживает инфраструктуру: пайплайны, хранилища, интеграции. Его результат - надёжный поток данных, который работает каждый день без ручного вмешательства. Это системная, инженерная работа, близкая к разработке программного обеспечения.

Аналитик данных отвечает за интерпретацию. Он берёт данные, которые уже лежат в удобном месте, строит отчёты, ищет закономерности, формулирует выводы для принятия решений - включая вопрос откуда взялась цифра в отчёте и кто за неё отвечает. Это работа, требующая понимания бизнес-контекста и умения говорить на языке руководителей и менеджеров.

Data scientist - отдельная специальность. Он строит предсказательные модели, работает со статистикой, разрабатывает алгоритмы. Это ближе к исследованию, требует математической базы и умения работать в условиях неопределённости.

Пересечения между этими ролями есть, но это разные центры тяжести, разные навыки и разный темп работы.

Что происходит при смешении

Когда один человек обязан делать всё три, обычно происходит одно из двух. Либо он делает то, к чему у него склонность, и остальное деградирует. Либо он равномерно тратит время на всё и не делает ничего достаточно хорошо.

Инфраструктура, построенная аналитиком "заодно", как правило ненадёжна и не масштабируется. Аналитика, которую пишет инженер "на досуге", бывает технически безупречна, но оторвана от реальных вопросов бизнеса. Модели, построенные без чистых данных, дают непредсказуемые результаты - грязные справочники ломают любой BI ещё до того, как дело дойдёт до модели.

Компания тратит ресурсы, не получает ни одного компонента в нормальном состоянии и через год снова задаётся вопросом, почему "данные не работают".

Почему это систематическая ошибка

Путаница в ролях имеет понятное происхождение. Несколько лет назад поле действительно было маленьким, и одиночки делали всё. Термин "data scientist" появился именно как попытка обозначить редкого специалиста, который совмещает инженерию, статистику и понимание бизнеса. Таких людей мало, они дороги, и рынок быстро начал использовать этот ярлык для описания гораздо более широкого круга вакансий.

Сейчас, когда данных больше, инструментов больше и ставки выше, эта универсальность перестаёт быть активом. Она становится риском.

Практический ориентир

Перед тем как нанимать или формировать команду по данным, стоит задать несколько конкретных вопросов:

Какие данные у нас уже есть, и насколько они надёжно поступают в систему каждый день?
Какие решения мы хотим принимать на основе данных - и кто их будет принимать?
Есть ли у нас задача, требующая предсказательной модели, или нам достаточно хорошей аналитики?
Кто в команде будет заказчиком результата, и на каком языке он говорит?

Ответы на эти вопросы почти всегда показывают, кого нанимать первым. Чаще всего это инженер или аналитик - не data scientist. Data scientist имеет смысл, когда для него уже есть чистые данные и конкретная задача. До этого он будет тратить время на то, что не является его основным навыком.

Называть все три роли одним словом - удобно. Но это удобство дорого обходится на практике.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX