DataLake построен на платформе Cloudera CDH, задачи по загрузке данных решаются с использованием Apache Oozie, Apache Spark, Apache Sqoop. Данные из внутренних систем банка и внешних источников сохраняются в self-describing data формате, например, JSON, Apache Parquet. Доступ к сырым данным и витринам осуществляется с помощью технологий Apache Spark SQL и Apache Impala.
Для решения задач исследования данных были развернуты и внедрены инструменты Machine learning and Deep learning такие как scikit-learn, Apache Spark MLLib, H2O, TensorFlow, keras. Также были внедрены Apache Zeppelin, JupiterHub – инструменты исследования и визуализации данных, в которых data scientist'ам были доступны все необходимые сведения из Data Lake и библиотек исследования данных. Пользователи получили объединенные в одном пространстве больше разнообразных данных для более глубокого и качественного анализа клиентов на высокопроизводительной и масштабируемой платформе Apache Hadoop.
Чтобы реализовать проект за 3 месяца, было решено организовать процесс по методологии Scrum, используя инструменты и принципы DevOps. Специалисты банка ВТБ и «Неофлекс» работали совместно в единой Scrum-команде, под контролем Scrum-коуча. Благодаря тесному сотрудничеству инженеров удалось развернуть всю необходимую инфраструктуру для разработки, внедрения и эксплуатации ПО, а также построить процессы непрерывной конвейерной доставки обновлений (CI/CD).