RT.DataLoader
RT.DataLoader – легко тиражируемое решение для выгрузки больших объёмов данных из систем источников в хранилище данных.
Даёт возможность быстро подключать новые источники данных, добавлять новые таблицы, корректировать атрибутивный состав подключенных таблиц, минимизирует привлечения ETL разработчиков к процессу.
Ключевые функции и возможности
-
Полная или частичная выгрузка из таблиц источников.
-
Доставка данных в файловую систему Hadoop Distributed File System (hdfs).
-
Поддержка полной и инкрементальной выгрузки данных из таблиц/представлений/sql-запросов в файл csv на локальном сервере хранения данных.
-
Запуск процесса выгрузки по расписанию или по условию наступления события.
-
Архивирование выгруженных данных.
-
Подсчет контрольных сумм для обеспечения контроля качества данных.
-
Формирование очереди заданий на выгрузку для балансировки нагрузки на источник.
Архитектура компонентов и функциональность

Модуль выгрузки
Предназначен для выгрузки данных из источника.
Размещает данные в области файлового обмена, архивирует пакет выгруженных данных, выполняет подсчет контрольных сумм для отслеживания потери данных.
Позволяет:
подключаться к любым источникам, поддерживающим соединение jdbc и стандарт sql92
выполнять полною и инкрементальную выгрузку
работать со всеми основными типами данных, в том числе CLOB
выгружать данные в файл csv из таблиц, представлений или через sql-запрос, с возможностью использования блока with и Oracle HINT для оптимизации запроса к источнику

Модуль доставки
Предназначен для доставки пакета данных в область HDFS.
Выполняет:
мониторинг области файлового обмена на предмет наличия готовых к доставке данных
доставку пакета данных в hdfs
очистку области файлового обмена от доставленных данных

оркестратор airflow
Предназначен для управления выгрузками.
Позволяет ставить задания на выгрузку по расписанию, выгружать данные параллельно с нескольких серверов выгрузки и последовательно с одного сервера.

база метаданных продукта
Предназначена для централизованного хранения метаданных продукта, таких как:
настроечные и конфигурационные данные
логи выполнения процессов выгрузки и доставки данных
данные для автоматизации процессов выгрузки, доставки
Состав компонентов

SVN

Сервер выгрузки
Директория для исполняемых файлов FTP

Разработчики
SH к Airflow
SSH
SSH

Database
RTDL D0

Airflow
Python 3.6
Java 8
Hadoop Client
jdbc+python libs
SSH, ftp
Sqlnet

HDFS
Преимущества

Наличие интерфейса для настройки, управления и мониторинга процессов загрузки.

Наличие оркестратора для управления потоками выгрузки.

Сжатие данных в архив.

Разделение процессов выгрузки и доставки данных для снижения нагрузки на источник при проблемах на стороне ХД.

Простота тиражирования.

Подсчет контрольных сумм для минимизации рисков потери данных.

Гибкое управление выгрузкой, настройка расписания для конкретной таблицы или группы таблиц источника.
Область применения

Продукт применим для хранилищ данных с ежедневной частотой обновления данных, особенно эффективен для систем с большим количеством источников данных.