Миграция корпоративного озера данных с web-трафиком Т2 на RT.DataLake
Эффекты
Экономия 3 млн.$ на горизонте 5 лет
Независимость от иностранного ПО
Кастомизация ПО
Cнято ограничение на масштабирование текущего решения.
Самые свежие и стабильные версии OS-компонент
Исключение валютных и санкционных рисков
Категория
Аналитика данных и отчетность
Компания
T2
Области применения
Анализ web-трафика
Задача
Для задачи по анализу web-трафика компания Т2 до 2021 года использовала кластер от иностранного вендора, нагрузка на который непрерывно росла, а свободное место в нем стремительно «таяло».
Вопрос расширения или замены кластера требовал решения, в котором также необходимо было снизить или как минимум не увеличить лицензионные платежи, а также снизить или исключить риски зависимости от зарубежного производителя.
Решения
Задача имела несколько вариантов решения:
Варианты
Преимущества
Недостатки
- Приобрести отечественную реализацию Hadoop на основе OpenSource-дистрибутива, включенную в реестр отечественного ПО
- Исключение санкционных и валютных рисков
- Импортонезависимость
- Возможность кастомизации
Затраты на лицензии и техническую поддержку
- Использовать ПО с открытым исходным кодом и сделать собственную сборку дистрибутива Hadoop
- Полная независимость от вендоров
- Импортонезависимость
- Исключение санкционных и валютных рисков
- Возможность кастомизации
- Необходимость формирования внутренней команды и компетенций
- Увеличение бюджета ФОТ и сроков проекта
- Сложности поиска специалистов на рынке труда
Компания решила выбрать RT.DataLake из состава Платформы управления данными, т.к. это решение продемонстрировало лучшие показатели по экономии бюджета и совокупной стоимости владения, а решающим аргументом стала готовность Ростелекома выполнить необходимую кастомизацию дистрибутива – обеспечить необходимый набор используемых версий компонент Hadoop, реализовать добавление функционала в исходный код проекта и предоставить набор средств автоматизации развертывания и управления на базе технологии Ansible.
Эффект
В результате внедрения RT.DataLake в T2 организован кластер Hadoop полезной емкостью 0.8 Петабайт, состоящий из 26 серверов хранения и обработки данных и 3 серверов индексации и координации. Ежедневный объем интегрируемых данных достигает 100 Терабайт. Данными, подготавливаемыми в кластере, пользуются различные бизнес-команды с соблюдением требований по обеспечению безопасности доступа на базе технологии Kerberos и интеграции с корпоративной службой каталогов Active Directory. В составе кластера используются следующие приложения экосистемы Hadoop:
Дистрибутив кластера состоит из самых актуальных стабильных версий open-source компонент, по уровню «свежести» он обгоняет текущий кластер Cloudera Hadoop на 2+ года.
Команда Ростелекома также выполнила необходимую кастомизацию дистрибутива:
-
Отказоустойчивость thrift (hive, spark, hbase, etc) кластера обеспечивается c помощью балансировщика нагрузки HAProxy
-
Создана роль для настройки очередей для fair и capacity шедулера Yarn, позволяющая упростить настройку и менять конфигурацию очередей задач по расписанию
-
Интегрирован Yarn UIv2 – новый более функциональный интерфейс Yarn Resourcemanager
-
Поддержка кодека сжатия Zstd
-
Поддержка единовременной работы двух версий спарка (2 и 3) на кластере, в том числе возможность установки на одну машину сразу обоих пакетов.
Все работы по развертыванию и внедрению решения проводила команда Data & BigData IT-департамента T2 собственными силами, а сотрудники Ростелеком обеспечивают «третью линию технической поддержки», оперативно реагируя на обращения пользователей, в соответствии с согласованным уровнем обслуживания.
В результате внедрения RT.Datalake снижена зависимость от иностранного ПО, все расчеты переведены в рубли, что исключает валютные и санкционные риски, а суммарная экономия бюджета на горизонте 5 лет составляет порядка 3 млн.$.