RT.DataLoader
RT.DataLoader – легко тиражируемое решение для выгрузки больших объёмов данных из систем источников в хранилище данных.
Даёт возможность быстро подключать новые источники данных, добавлять новые таблицы, корректировать атрибутивный состав подключенных таблиц, минимизирует привлечения ETL -разработчиков к процессу.
Ключевые функции и возможности
-
Полная или частичная выгрузка из таблиц источников.
-
Доставка данных в файловую систему Hadoop Distributed File System (HDFS).
-
Поддерживает полною и инкрементальную выгрузку данных из таблиц/представлений/sql-запросов в файл csv на локальном сервере хранения данных.
-
Запуск процесса выгрузки по расписанию или по условию наступления события.
-
Архивирование выгруженных данных.
-
Подсчет контрольных сумм для обеспечения контроля качества данных.
-
Формирование очереди заданий на выгрузку для балансировки нагрузки на источник.
Архитектура компонентов и функциональность
Модуль выгрузки
Предназначен для выгрузки данных из источника.
Размещает данные в области файлового обмена, архивирует пакет выгруженных данных, выполняет подсчет контрольных сумм для отслеживания потери данных.
Позволяет:
- Подключаться к любым источникам, поддерживающим соединение jdbc и стандарт sql92
- Выполнять полнумю и инкрементальную выгрузку
- Работать со всеми основными типами данных, в том числе CLOB
- Выгружать данные в файл csv из таблиц, представлений или через sql-запрос, с возможностью использования блока with и Oracle HINT для оптимизации запроса к источнику
Модуль доставки
Предназначен для доставки пакета данных в область HDFS.
Выполняет:
- Мониторинг области файлового обмена на предмет наличия готовых к доставке данных
- Доставку пакета данных в hdfs
- Очистку области файлового обмена от доставленных данных
Оркестратор AIRFLOW
Предназначен для управления выгрузками.
Позволяет ставить задания на выгрузку по расписанию, выгружать данные параллельно с нескольких серверов выгрузки и последовательно с одного сервера.
База метаданных продукта
Предназначена для централизованного хранения метаданных продукта.
- Настроечные и конфигурационные данные
- Логи выполнения процессов выгрузки и доставки данных
- Данные для автоматизации процессов выгрузки, доставки
Состав компонентов
Преимущества
Наличие интерфейса для настройки, управления и мониторинга процессов загрузки.
Наличие оркестратора для управления потоками выгрузки.
Сжатие данных в архив.
Разделение процессов выгрузки и доставки данных для снижения нагрузки на источник при проблемах на стороне хранилища данных.
Простота тиражирования.
Подсчет контрольных сумм для минимизации рисков потери данных.
Гибкое управление выгрузкой, настройка расписания для конкретной таблицы или группы таблиц источника.
Типовые кейсы использования
Продукт применим для хранилищ данных с ежедневной частотой обновления данных, особенно эффективен для систем с большим количеством источников данных.