Программа предназначена для разработчиков, data scientist’ов и data-менеджеров, желающих углубиться непосредственно в добычу и обработку данных, построение стабильных пайплайнов, делающих данные доступными для всех пользователей внутри компании.
Для разработчиков, желающих перейти в сферу работы с данными, но не очень любящих математику, data engineering, пожалуй, самый короткий путь, чтобы стать data scientist’ом и получать удовольствие от построения моделей.
За любым продуктом и сервисом — будь то рекомендательная система на сайте, рассылка персонализированных предложений или кампания по удержанию клиентов — стоят данные. От качества этих данных зависит и качество решений, ведь garbage in — garbage out. Данные должны быть свежими, корректными, предобработанными, чтобы аналитики и data scientist’ы могли делать свою работу максимально эффективно. За доставку этих данных из разных источников (например, сайт компании, CRM, соцсети) и отвечает data engineer.
На протяжении шести недель участники выполняют один большой сквозной проект. Его суть заключается в том, чтобы собирать кликстрим с выданного участникам сайта и направлять эти данные в два пайплайна:
- для batch-обработки,
- для real-time-обработки.
Каждый участник работает на своем облачном кластере, конфигурируя все необходимые инструменты для обработки данных. В рамках программы оттачиваются навыки работы со следующими инструментами: Divolte, Kafka, ELK, Spark, Luigi, Sqoop, Druid, ClickHouse, Superset, Storm, что позволит в дальнейшем осваивать другие инструменты и настраивать любые пайплайны.
Вакансии data engineer’ов есть и в России, и в Европе, специалистов на рынке не хватает, а спрос на дата-инженеров растет, и процент обращений к таким резюме, по крайней мере в России, выше, чем к резюме data scientist’ов.