Data Lake

Um Data Lake é um repositório centralizado, que permite armazenar dados estruturados e não estruturados em qualquer escala.Para que um Data Lake torne os dados utilizáveis, ele precisa ter mecanismos deﬁnidos para catalogar e proteger os dados. Sem esses elementos, os dados não podem ser encontrados ou serem considerados conﬁáveis,o que acaba resultando em um “pântano de dados”.

Data Lake x Data Warehousing

Um data warehouse é um banco de dados otimizado para analisar dados relacionais provenientes de sistemas transacionais e aplicações de linha de negócios. Os dados são limpos, enriquecidos e transformados para que possam atuar como a “fonte única da verdade” em que os usuários podem conﬁar.

Um data lake é diferente porque a estrutura dos dados ou esquema não é deﬁnida quando os dados são capturados.

Arquitetura de um Data Lake Empresarial

Raw Layer: tem como objetivo ingerir dados da forma mais rápida e mais eﬁciente possível. Nesse estágio, não é realizada nenhum tipo de transformação.

Standarized Layer: camada opcional, mas recomendada se é esperado que o Data Lake cresça muito.

Cleansed Layer: essa camada envolve o processo de limpeza, transformação, desnormalização e consolidação de diferentes objetos. Depois de serem transformados em dados utilizáveis, são organizados por propósito, tipo e estrutura, em arquivos ou tabelas.

Application Layer: os dados que foram tratados na camada anterior são reforçados com os requisitos de lógica de negócios.

Sandbox Layer: essa camada também é opcional, utilizada para analistas e cientistas de dados realizarem experimentos e buscarem por padrões ou correlações.

Security: importante principalmente durante a fase inicial e de arquitetura.

Stewardship: criação ou deﬁnição de responsabilidades para o usuários, possivelmente através de soluções com metadata.

Master Data: camada essencial para fornecer dados para uso. Eles podem ser armazenados no Data Lake ou referenciados durante a execução de processos ELT.

Archive: o Data Lake armazena alguns arquivos que vem do Data Warehousing para evitar problemas relacionados a armazenamento

Oﬄoad: utilizado em casos de soluções de warehousing que usam dados relacionais, para ajudar a liberar tempo e recursos que estão sendo consumidos pelo processo de ETL.

Orchestration and ELT processes: Depois que os dados são enviados da camada bruta para a camada limpa e, em seguida, para as camadas de sandbox e aplicação, é necessária uma ferramenta de orquestraçãoa para o ﬂuxo.

Diagrama interativo sobre Data Lakes

Após compreender o que é um Data Lake e suas nuances, é importante visualizar como essas ideias se aplicam na prática dentro de uma plataforma robusta, como a AWS.

A Amazon Web Services fornece um conjunto completo de serviços gerenciados que permitem construir Data Lakes escaláveis, seguros e preparados para análises avançadas e inteligência artiﬁcial. Esse ecossistema é amplamente utilizado por empresas que precisam integrar dados provenientes de múltiplas

fontes, lidar com altos volumes de informação e transformar esses dados em insights acionáveis.

O diagrama construído apresenta uma visão prática e didática de como uma arquitetura de Lakehouse Analítico Multi-Fonte com IA pode ser construída na AWS. Explicado no guia oﬁcial Data Lakes on AWS, ele combina conceitos fundamentais do Data Lake tradicional com recursos modernos de governança, performance analítica e machine learning.

Serviços utilizados nele como Amazon S3, AWS Glue, Amazon Athena, Amazon Redshift, Amazon SageMaker, Amazon Kinesis e AWS Lake Formation trabalham juntos para formar uma solução completa: desde a ingestão até a geração de insights avançados com IA por meio do Amazon Bedrock.

Esse tipo de arquitetura é especialmente relevante para empresas de médio e grande porte em setores como varejo, e-commerce e manufatura, que buscam consolidar dados operacionais, otimizar processos, impulsionar o marketing e desenvolver previsões mais precisas.

Com isso em mente, o diagrama abaixo serve como um guia interativo para explorar, passo a passo, como cada componente da AWS contribui para a construção de um Lakehouse moderno.

Referências:

NAMBIAR, A.; MUNDRA, D. An Overview of Data Warehouse and Data Lake in Modern Enterprise Data Management. Big Data and Cognitive Computing, Basel, v. 6, n. 4, p. 132, 2022. Disponível em: https://www.mdpi.com/2504-2289/6/4/132. Acesso em: 10 out. 2025

AMAZONWEBSERVICES.What is a Data Lake? 2025. Disponível em: https://aws.amazon.com/what-is/data-lake/. Acesso em: 10 out. 2025

AMAZON WEB SERVICES. Data Lakes on AWS – architecture diagrams [PDF]. Disponível em: <https://d1.awsstatic.com/onedam/marketing-channels/website

/aws/en_US/solutions/approved/documents/architecture-diagrams/data-lakes-on-a ws.pdf>. Acesso em: 22 nov. 2025.

Figura 1. Data Lake. Recuperada de: <https://www.canva.com>. Acesso em: 05 de nov. de 2025.

Figura 2. Arquitetura de um Data Lake. Recuperada de: <https://www.mdpi.com/2504-2289/6/4/132>. Acesso em: 05 de nov. de 2025.

Revise mais

O que é um Sistema Híbrido? No contexto da Inteligência Artiﬁcial (IA) aplicada à medicina, um sistema híbrido representa a fusão de duas abordagens complementares para potencializar o diagnóstico: a IA Simbólica e a IA Numérica. IA Simbólica (Baseada em Conhecimento) A IA Simbólica, fundamentada em lógicas de regras como SE-ENTÃO (IF-THEN), busca reproduzir o raciocínio humano. Ela opera com conhecimento explícito e lógica formal. Em um Sistema Especialista (SE) médico, isso se traduz em codiﬁcar o conhecimento e a experiência de um médico especialista em uma base de regras. IA Numérica / Estatística...

Teoria da Decisão

A Teoria da Decisão, proposta por Herbert Alexander Simon, revolucionou a compreensão sobre como decisões são tomadas na prática. Contrariando os modelos econômicos clássicos que assumiam um agente racional com informação completa (homo economicus), Simon introduziu o conceito de Racionalidade Limitada (Bounded Rationality). Esta abordagem reconhece que decisores humanos e sistemas automatizados operam sob restrições severas: limitações cognitivas, informações incompletas e pressão temporal.
Este trabalho explora como a teoria de Simon fundamenta os Sistemas de Apoio à Decisão (SAD) modernos e examina os desaﬁos éticos quando esses princípios são implementados em algoritmos de Inteligência Artiﬁcial.

Posted on fevereiro 23, 2026fevereiro 23, 2026

Posted on fevereiro 23, 2026fevereiro 23, 2026

Data Lake

Data Lake x Data Warehousing

Arquitetura de um Data Lake Empresarial

Diagrama interativo sobre Data Lakes

Referências:

Revise mais

Teoria da Decisão

Data Lake

Tutorial simplificado de agrupamento: K-means

Teoria da Decisão

Outros

Faculdade de Tecnologia

Data Lake x Data Warehousing

Arquitetura de um Data Lake Empresarial

Diagrama interativo sobre Data Lakes

Referências:

Revise mais

Teoria da Decisão

Data Lake

Tutorial simplificado de agrupamento: K-means

Teoria da Decisão

Newsletter Subscription Form