Data Engineer | Google Cloud Associate Cloud EngineerMatilion ETL es un producto que nos permite recopilar datos de distintas fuentes y estructurarlos actualmente cuenta con versiones para Snowflake, Delta Lake en Databricks, Amazon Redshift, Azure Synapse, Google BigQuery siendo esta última en la que vamos a profundizar.En Google cloud se cuenta con 4 opciones para implementar Matillion las cuales son:
Matillion ETL for BigQuery – Cluster:
12 usuarios concurrentes , 36 entornos y autobalanceo zonal para satisfacer la demanda de forma constante
Matillion ETL for BigQuery – Extra Large:
12 usuarios concurrentes y 36 entornos
Matillion ETL for BigQuery – Large:
5 usuarios concurrentes y 15 entornos
Matillion ETL for BigQuery – Medium:
2 usuarios concurrentes y 6 entornos
Matillion ETL for Snowflake:
Esta opción está dirigida a Snowflake
El servicio se encuentra ubicado en el Marketplace de Google De ahora en adelante se hablará de la versión médium ya en ese momento las necesidades del proyecto no se necesitaban más recursos.Cada una de las versiones tiene un costo diferente la versión médium tiene un precio estimado sin descuentos de 1437.05 USD al mes teniendo en cuenta que la instancia se encuentre encendida durante 30 días 24 horas y la facturación mínima es por 1 minuto.

Una vez lanzado el servicio desde Marketplace se creará una instancia en compute engine la cual cuenta con una dirección IP estática mediante la cual se puede acceder al servicio

Una vez dentro se debe establecer estructura de proyectos los cuales pueden contener carpetas para organizar el flujo de trabajo los cuales van a contener dos tipos de Jobs orquestación y transformación. los cuales se pueden crear realizando un clic derecho sobre las carpetas.

Cada de los jobs cuenta con distintos componentes y capacidades para el caso del job de orquestación son los siguientes:
Componentes de cargaEstos componentes son los que extraen información de las diversas fuentes para llevarla a Bigquery entre ellos tuve la oportunidad de usar integraciones con Hubspot, APIs, Cloud storage y Facebook. siendo estos solo una pequeña porción de la lista de integraciones disponibles
Componentes de descargaLos cuales principalmente tienen como fuente una tabla de Bigquery y la llevan a otro destino como Cloud Storage
Componentes DDLLos cuales permiten manipular las tablas de Bigquery
Componentes de flujoLos cuales permiten realizar operaciones con los otros componentes
Componentes de iteraciónLos cuales permiten crear ciclos de un componente
Componentes de códigoLos cuales permiten ejecutar códigos como Bash, Jython, Python 2 y Python 3
Componentes de transformaciónLos cuales permiten ejecutar otros Jobs de orquestación y transformación

los nombrados anteriormente solo son algunos de los que tuve la oportunidad de trabajar ya que eran los requeridos para alcanzar las necesidades del proyecto y cabe mencionar que la herramienta cuenta con más.
Los jobs tienen la capacidad de encadenar y ejecutar distintos componentes.

Es posible encadenar y establecer condiciones en un Job o múltiples para su ejecución dentro de otro Job

se cuenta con la capacidad agendar la ejecución de los Jobs dentro del propio Matillion
