uzluga.ru
добавить свой файл
1


Поддержка структурных изменений в процессах загрузки данных

Долбешкин Андрей Николаевич, 545 группа

Руководитель: Александр Сергеевич Дольник

Рецензент: д. ф-м. н. Борис Асенович Новиков

О предметной области

  • ETL процесс – процесс извлечения-преобразования-загрузки данных. Характерна регулярность.



Постановка задачи



Классификация структурных изменения в источниках данных

  • Удаление именованных/неименованных столбцов

  • Переименование столбцов

  • Изменение формата данных

  • Изменение порядка столбцов

  • Разделение столбцов

  • Удаление связей



ETL-сценарий



ETL-сценарий



Чем плох классический сценарий ETL

  • Сложность диагностики и исправления проблем

    • Сложность поиска причины
    • Сложность поиска виновного
    • Большие трудозатраты на исправление
  • Сложность отслеживания качества данных

  • Низкий уровень интерпретации ошибок



Описание модели

  • Модель процесса представляется в виде графа (Alkis Simitsis)

  • В основе лежит преобразование графов

  • Проектирование ETL процесса на основе онтологий



Онтология

  • O = , где

    • Х – понятия предметной области
    • R – отношения между понятиями (typeOf, partOf, is-a)
    • F - функциональные интерпретации (f1:string->{1,0}, f2:range->{1,0}, f3:regexp->{1,0})
    • Стандарт OWL 2.0 (W3C)


Описание модели

OntNode

Описание метода

  • Расширение графовой модели

  • Усовершенствование операции Filter

  • Отложенное изменение процесса

    • Предложение внести изменение в процесс
    • Предложение сгенерировать процесс заново


Модифицированный ETL-сценарий



Модифицированный ETL-сценарий



Описание особенностей реализации метода

  • Реализован в виде плагина к Kettle

    • Осуществляет отображение модели данных на онтологию
    • Создает графовую модель процесса
    • Строит по модели процесса реальные трансформации в Kettle


Развитие ETL-процессов



Заключение

  • Классифицированы структурные изменения в источниках данных

  • Разработан метод диагностики структурных изменений в источниках данных

  • Реализован алгоритм перестроения процесса

  • Решение уменьшает время разработки и поддержки процесса