Миграция корпоративного озера данных с web-трафиком Теле2 на RT.DataLake


Эффекты
Экономия 3 млн.$ на горизонте 5 лет
Независимость от иностранного ПО
Кастомизация ПО
Cнято ограничение на масштабирование текущего решения.
Самые свежие и стабильные версии OS-компонент
Исключение валютных и санкционных рисков
Категория
Аналитика данных и отчетность
Компания
Tele2
Области применения
Анализ web-трафика
Технологии
  • DataWarehouse
  • DataEngineering
Ключевые компоненты

Задача

Для задачи по анализу web-трафика компания Теле2 до 2021 года использовала кластер от иностранного вендора, нагрузка на который непрерывно росла, а свободное место в нем стремительно «таяло».
Вопрос расширения или замены кластера требовал решения, в котором также необходимо было снизить или как минимум не увеличить лицензионные платежи, а также снизить или исключить риски зависимости от зарубежного производителя.

Решения

Задача имела несколько вариантов решения:
Варианты
Приемущества
Недостатки
  1. Приобрести отечественную реализацию Hadoop на основе OpenSource-дистрибутива, включенную в реестр отечественного ПО
  • Исключение санкционных и валютных рисков
  • Импортонезависимость
  • Возможность кастомизации
Затраты на лицензии и техническую поддержку
  1. Использовать ПО с открытым исходным кодом и сделать собственную сборку дистрибутива Hadoop
  • Полная независимость от вендоров
  • Импортонезависимость
  • Исключение санкционных и валютных рисков
  • Возможность кастомизации
  • Необходимость формирования внутренней команды и компетенций
  • Увеличение бюджета ФОТ и сроков проекта
  • Сложности поиска специалистов на рынке труда
Компания решила выбрать RT.DataLake из состава Платформы управления данными, т.к. это решение продемонстрировало лучшие показатели по экономии бюджета и совокупной стоимости владения, а решающим аргументом стала готовность Ростелекома выполнить необходимую кастомизацию дистрибутива – обеспечить необходимый набор используемых версий компонент Hadoop, реализовать добавление функционала в исходный код проекта и предоставить набор средств автоматизации развертывания и управления на базе технологии Ansible.

Эффект

В результате внедрения RT.DataLake в Теле2 организован кластер Hadoop полезной емкостью 0.8 Петабайт, состоящий из 26 серверов хранения и обработки данных и 3 серверов индексации и координации. Ежедневный объем интегрируемых данных достигает 100 Терабайт. Данными, подготавливаемыми в кластере, пользуются различные бизнес-команды с соблюдением требований по обеспечению безопасности доступа на базе технологии Kerberos и интеграции с корпоративной службой каталогов Active Directory. В составе кластера используются следующие приложения экосистемы Hadoop:
Компоненты
Дистрибутив кластера состоит из самых актуальных стабильных версий open-source компонент, по уровню «свежести» он обгоняет текущий кластер Cloudera Hadoop на 2+ года.
Команда Ростелекома также выполнила необходимую кастомизацию дистрибутива:
  • Отказоустойчивость thrift (hive, spark, hbase, etc) кластера обеспечивается c помощью балансировщика нагрузки HAProxy
  • Создана роль для настройки очередей для fair и capacity шедулера Yarn, позволяющая упростить настройку и менять конфигурацию очередей задач по расписанию
  • Интегрирован Yarn UIv2 – новый более функциональный интерфейс Yarn Resourcemanager
  • Поддержка кодека сжатия Zstd
  • Поддержка единовременной работы двух версий спарка (2 и 3) на кластере, в том числе возможность установки на одну машину сразу обоих пакетов.
Все работы по развертыванию и внедрению решения проводила команда Data & BigData IT-департамента Tele2 собственными силами, а сотрудники Ростелеком обеспечивают «третью линию технической поддержки», оперативно реагируя на обращения пользователей, в соответствии с согласованным уровнем обслуживания.
В результате внедрения RT.Datalake снижена зависимость от иностранного ПО, все расчеты переведены в рубли, что исключает валютные и санкционные риски, а суммарная экономия бюджета на горизонте 5 лет составляет порядка 3 млн.$.