2.5 Veracidade
2.5 Veracidade#
Talvez o desafio que gere o maior esforço na análise de dados seja garantir que os dados de diferentes fontes de dados e processados de diferentes formas mantenham sua integridade, isto é, representam os valores e as regras de negócio que necessitamos que eles tenham. Se não confiamos nos dados, não confiamos nas análises feitas a partir deles.
Para garantir a integridade no processamento de dados, é importante manter um processo claro, como este:
definir claramente o que são dados limpos: no processamento de dados, há sempre uma troca entre um nível aceitável de erro ou perda de informação.
conhecer a linhagem dos dados: entender as fontes de dados e as etapas do processo de ETL permite identificar possíveis causas de erro.
entender o valor dos dados originais: em cada domínio de negócio, há diferentes definições do valor dos dados brutos ou agregados. Podemos agregar os dados de vendas por mês? Precisamos manter todos os dados?
validar as regras de negócio: em cada empresa, é essencial validar as regras de negócio utilizadas para que os números finais e as análises façam sentido. E se novas regras forem utilizadas, os tomadores de decisão precisam entender o motivo e aprová-las.
Quando tratamos de bancos de dados ou dados estruturados em geral, há alguns tipos de restrições de integridade que devemos levar em consideração1:
integridade de entidade diz respeito ao conceito de chave primária; é uma regra que afirma que cada tabela deve ter uma chave primária e que a coluna ou as colunas escolhidas para serem a chave primária devem ser únicas e não nulas.
integridade referencial diz respeito ao conceito de chave estrangeira; essa regra estabelece que qualquer valor de chave estrangeira pode ser apenas em um de dois estados: normalmente, o valor de chave primária de alguma tabela ou, ocasionalmente, dependendo das regras do proprietário dos dados, null; nesse último caso, afirma-se explicitamente que não há relação entre os objetos representados no banco de dados ou que essa relação é desconhecida.
integridade de domínio especifica que as colunas de uma tabela em um banco de dados relacional devem ser declaradas em um domínio definido; a principal unidade de dados no modelo de dados relacionais é o item de dados; tais itens são considerados atômicos/indivisíveis; um domínio é um conjunto de valores do mesmo tipo; os domínios são, portanto, conjuntos/faixas de valores a partir dos quais os valores reais são adicionados às colunas de uma tabela.
- 1
Disponível em: https://pt.wikipedia.org/wiki/Integridade_de_dados.