Архив: Стратегия ETL
- Описание
Есть много данных, необходимо сделать много работы, чтобы подготовить их.
Данные должны быть собраны, очищены и отформатированы правильно и сохранены в одном месте для анализа. То есть нужно создать хранилище данных .
Существует следующие источники данных га(из него тянуться ивенты контактов, сессии, юзеры), бд (много их(каталог, чаты, модерация, юзеры, пеймент))
Google analytics
Posrtgres
BigQuery (без агригирования)
Хотя данные доступны в других местах, на самом деле это не полезно для анализа до тех пор, пока не будет сделано хранилище.
В этоге нужна Многомерная база данных , которая могла содержать всю информацию в одной и той же базе данных.
Получение данных для анализа
Сбор, подготовка и хранение данных в хранилище данных осуществляется с помощью процесса, называемого ETL.
Извлечение данных из внутренних и внешних источников
Преобразовать данные в стандартный формат - например, конвертируя даты в один и тот же формат
Загрузка данных в хранилище данных
Есть варинты перехода на 2 инструмента визуализации и нужно определиться с инструментом для ETL процесса, то есть полностью проконсультировать с таким процессом http://take.ms/t7MkG .
Необходимо внедрить преобразование данных с этих источников для легкого изучения в Tableau или zeppelin.apache.org или возможно есть другие варианты
Необходимо структурировать данные для оптимальной визуализации и импортирования Tableau или zeppelin.
- Приложения
-
action.xlsxaction.xlsx 10.54 KB
- Категория
Похожие проекты
Похожая удалённая работа
- Удаленная работа для веб-программиста
- Удаленная работа для разработчика баз данных
- Удаленная работа для прикладного программиста
- Удаленная работа для системного программиста
- Удаленная работа для разработчика игр
- Удаленная работа для разработчика мобильных приложений
- Удаленная работа для тестировщика ПО
- Удаленная работа для 1С программиста
- Удаленная работа для разработчика встраиваемых систем
- Удаленная работа для разработчика CRM и ERP