8.1 O papel do Data Warehouse no Modern Data Stack
8.1 O papel do Data Warehouse no Modern Data Stack#
O data warehouse ocupa lugar central nas arquiteturas modernas de analytics. Tradicionalmente, a construção de um DW era exclusividade de grandes corporações que possuíam os recursos financeiros e técnicos para investir nos servidores dedicados e profissionais especializados necessários para construir DWs e as infra-estruturas de ETL adjacentes. O surgimento dos cloud data warehouses (CDW) trouxe uma revolução no mercado de analytics, pois possibilitou que empresas de qualquer porte possam construir infra-estruturas modernas de forma incremental e utilizando ferramentas de amplo acesso.
Entre as principais características dos CDWs que permitem seu uso em grande escala para analytics estão:
O uso de tecnologias em nuvem permite centralizar dados de diferentes fontes e sistemas em um repositório único, gerando uma “única fonte de verdade” e de amplo acesso pela organização,
Os CDWs em geral são baseados na arquitetura MPP (do inglês, massive parallel processing), uma tecnologia de armazenamento distribuído que permite o processamento de grandes volumes de dados em um tempo reduzido,
A capacidade de processamento permite centralizar a etapa de transformação de dados no próprio DW através do ELT e usando uma única linguagem, o SQL. Essa mudança em relação ao ETL tradicional democratiza o uso e desenvolvimento do DW e é base do surgimento da área de analytics engineering.
Serviços na nuvem em geral são escaláveis e precificados no sistema pay-as-you-go. Isso significa que se tornou possível começar pequeno e crescer o DW com um custo previsível, em contraponto aos investimentos milionários necessários antigamente.
Ferramentas de BI, governança de dados e Data Discovery foram desenvolvidas especificamente para as arquiteturas de analytics centralizadas em cloud data warehouses.
Além do Cloud Data Warehouse, o MDS conta com uma série de ferramentas que facilitam e melhoram os processos de consolidação e visualização de dados. Nós trataremos desses processos nas partes 3 e 4 do livro, respectivamente.