Data Lake в ВТБ

ПАО «Банк ВТБ» — системообразующий финансовый институт, являющийся ключевым звеном банковской группы ВТБ и одним из крупнейших банков России. Ключевые направления деятельности — работа с корпоративными клиентами и финансовыми организациями, в том числе с государственными структурами и предприятиями.
В мае 2016 года, после завершения процесса интеграции Банка Москвы, в ВТБ было образовано отдельное розничное направление — «ВТБ Банк Москвы», включающее в себя обслуживание клиентов — физических лиц и представителей малого бизнеса. В январе 2018 года состоялось присоединение ПАО «Банк ВТБ 24» к банку ВТБ.

Мониторинг факторов кредитного риска

Первой практической задачей, решенной на основе Data Lake, стала автоматизация мониторинга факторов кредитного риска корпоративных клиентов. Ежедневно осуществляется расчет 20 показателей факторов кредитного риска (ФКР), реализована визуализация клиентских рейтингов на основании рассчитанных ФКР, а с помощью BI-инструментов кредитные аналитики банка могут просматривать детальную информацию по клиенту. При этом работа с данными осуществляется бизнес-пользователями без привлечения ИТ-службы.

Кроме того, Data Lake и аналитические песочницы, созданные на его основе, — это возможность для Data Scientist'ов анализировать самые различные несопоставимые источники данных в их первичном формате, быстро проверять гипотезы и вносить изменения в модели по методике Agile.

Максим Кондратенко

Член правления банка ВТБ

Мы получили успешный опыт интеграции разрозненных внешних и внутренних данных в единую информационную среду для повышения качества и скорости оценки рисков, применения комбинированных подходов к анализу и обработки информации: от классического статистического анализа до методов машинного обучения, использования преимуществ opensource-технологий, развития компетенций в управлении проектами.

Этот пилотный проект потребовал не столько финансовых инвестиций, сколько готовности к изменениям на уровне устоявшихся процессов, мышления и внутренней культуры. Многое свидетельствует о том, что получилось выработать адаптивность к непрерывному усовершенствованию, экспериментам и инновациям.

Решение

DataLake построен на платформе Cloudera CDH, задачи по загрузке данных решаются с использованием Apache Oozie, Apache Spark, Apache Sqoop. Данные из внутренних систем банка и внешних источников сохраняются в self-describing data формате, например, JSON, Apache Parquet. Доступ к сырым данным и витринам осуществляется с помощью технологий Apache Spark SQL и Apache Impala.

Для решения задач исследования данных были развернуты и внедрены инструменты Machine learning and Deep learning такие как scikit-learn, Apache Spark MLLib, H2O, TensorFlow, keras. Также были внедрены Apache Zeppelin, JupiterHub – инструменты исследования и визуализации данных, в которых data scientist'ам были доступны все необходимые сведения из Data Lake и библиотек исследования данных. Пользователи получили объединенные в одном пространстве больше разнообразных данных для более глубокого и качественного анализа клиентов на высокопроизводительной и масштабируемой платформе Apache Hadoop.

Чтобы реализовать проект за 3 месяца, было решено организовать процесс по методологии Scrum, используя инструменты и принципы DevOps. Специалисты банка ВТБ и «Неофлекс» работали совместно в единой Scrum-команде, под контролем Scrum-коуча. Благодаря тесному сотрудничеству инженеров удалось развернуть всю необходимую инфраструктуру для разработки, внедрения и эксплуатации ПО, а также построить процессы непрерывной конвейерной доставки обновлений (CI/CD).

Прогнозы и визуализация

Создание Data Lake помогло собирать, накапливать в едином пространстве и обрабатывать данные из разнородных источников. Созданная инфраструктура обеспечивает высокую скорость и качество мониторинга факторов кредитного риска корпоративных клиентов банка, а также предоставляет инструменты для всестороннего анализа данных, их визуализации, построения прогнозов и разработки новых моделей. Благодаря использованию Hadoop, развитие и масштабирование решения не требует капитальных вложений в отличии от хранилища, построенного с использованием классических технологий.