Um data warehouse é uma grande coleção de dados de negócios usados para ajudar uma organização a tomar decisões. O conceito de data warehouse existe desde a década de 1980, quando foi desenvolvido para ajudar na transição de dados de meramente potencializar operações para alimentar sistemas de suporte à decisão que revelam inteligência de negócios . A grande quantidade de dados em data warehouses vem de diferentes lugares, como aplicativos internos, como marketing, vendas e finanças; aplicativos voltados para o cliente; e sistemas de parceiros externos, entre outros.
Em um nível técnico, um data warehouse extrai dados periodicamente desses aplicativos e sistemas; em seguida, os dados passam por processos de formatação e importação para corresponder aos dados já existentes no warehouse. O data warehouse armazena esses dados processados para que estejam prontos para o acesso dos tomadores de decisão. A frequência com que os pull de dados ocorrem ou como os dados são formatados, etc., variam de acordo com as necessidades da organização.
Alguns benefícios de um data warehouse
As organizações que usam um data warehouse para auxiliar suas análises e inteligência de negócios veem vários benefícios substanciais:
- Dados melhores — Adicionar fontes de dados a um data warehouse permite que as organizações garantam que estão coletando dados consistentes e relevantes dessa fonte. Eles não precisam se perguntar se os dados estarão acessíveis ou inconsistentes à medida que chegam ao sistema. Isso garante maior qualidade e integridade dos dados para uma boa tomada de decisão.
- Decisões mais rápidas — Os dados em um warehouse estão em formatos tão consistentes que estão prontos para serem analisados. Ele também fornece o poder analítico e um conjunto de dados mais completo para basear decisões em fatos concretos. Portanto, os tomadores de decisão não precisam mais responder a palpites, dados incompletos ou dados de baixa qualidade e correm o risco de apresentar resultados lentos e imprecisos.
O que um data warehouse não é
1. Não é um banco de dados
É fácil confundir um data warehouse com um banco de dados , pois ambos os conceitos compartilham algumas semelhanças. A principal diferença, no entanto, entra em vigor quando uma empresa precisa realizar análises em uma grande coleção de dados. Os data warehouses são feitos para lidar com esse tipo de tarefa, enquanto os bancos de dados não. Aqui está um gráfico de comparação que mostra a diferença entre os dois:
Base de dados | Armazém de dados | |
---|---|---|
O que é isso | Dados coletados para vários fins transacionais. Otimizado para acesso de leitura/gravação. | Dados transacionais agregados , transformados e armazenados para fins analíticos. Otimizado para agregação e recuperação de grandes conjuntos de dados. |
Como é usado | Os bancos de dados são feitos para registrar e recuperar informações rapidamente. | Os data warehouses armazenam dados de vários bancos de dados, o que facilita a análise. |
Tipos | Os bancos de dados são usados no armazenamento de dados. No entanto, o termo geralmente se refere a um banco de dados de processamento transacional online. Existem outros tipos também, incluindo planilhas csv, html e Excel usadas para fins de banco de dados. | Um data warehouse é um banco de dados analítico que se sobrepõe aos bancos de dados transacionais para permitir análises. |
2. Não é um data lake
Embora ambos sejam criados para fins de análise de negócios, a principal diferença entre um data lake e um data warehouse é que um data lake armazena todos os tipos de dados brutos, estruturados e não estruturados de todas as fontes de dados em seu formato nativo até que seja necessário. Por outro lado, um data warehouse armazena dados em arquivos ou pastas de uma forma mais organizada que está prontamente disponível para relatórios e análise de dados. Uma arquitetura aberta de gerenciamento de dados que combina a flexibilidade de um data lake com os recursos de gerenciamento de dados de um data warehouse é chamada de data lakehouse .
3. Não é um data mart
Os data warehouses também são às vezes confundidos com data marts . Mas os data warehouses geralmente são muito maiores e contêm uma variedade maior de dados, enquanto os data marts são limitados em sua aplicação.
Os data marts geralmente são subconjuntos de um warehouse, projetados para fornecer facilmente dados específicos a um usuário específico, para um aplicativo específico. Em termos mais simples, os data marts podem ser considerados como um único assunto, enquanto os data warehouses cobrem vários assuntos.
O futuro do data warehouse: mude para a nuvem
À medida que as empresas migram para a nuvem, seus bancos de dados e ferramentas de armazenamento de dados também o fazem. A nuvem oferece muitas vantagens: flexibilidade, colaboração e acessibilidade de qualquer lugar, para citar algumas. Ferramentas populares como Amazon Redshift, Microsoft Azure SQL Data Warehouse, Snowflake, Google BigQuery e todas ofereceram às empresas maneiras simples de armazenar e analisar seus dados na nuvem.
O modelo de nuvem reduz as barreiras à entrada – especialmente custo, complexidade e longo tempo de retorno – que tradicionalmente limitam a adoção e o uso bem-sucedido da tecnologia de armazenamento de dados. Ele permite que uma organização aumente ou diminua a escala — para ativar ou desativar — a capacidade do data warehouse conforme necessário. Além disso, é rápido e fácil começar a usar um data warehouse na nuvem. Fazer isso não requer um grande investimento inicial nem um processo de implantação demorado (e não menos caro).
A arquitetura de data warehouse na nuvem elimina amplamente os riscos endêmicos do paradigma de data warehouse local. Você não precisa fazer um orçamento e adquirir hardware e software. Você não precisa reservar um item de linha de orçamento para manutenção e suporte anual. Na nuvem, as considerações de custo que tradicionalmente preocupavam as equipes de data warehouse – orçamento para atualizações de sistema planejadas e não planejadas – desaparecem.
Fernando Bueno
Atuando desde 2005 no mercado de tecnologia, desenvolvendo e implantando e sistemas gerenciais, sistemas e sites web e ecommerce.
Siga-me no Linked In