Um Data Lake é um repositório centralizado, que permite armazenar dados estruturados e não estruturados em qualquer escala.Para que um Data Lake torne os dados utilizáveis, ele precisa ter mecanismos definidos para catalogar e proteger os dados. Sem esses elementos, os dados não podem ser encontrados ou serem considerados confiáveis,o que acaba resultando em um “pântano de dados”.
Um data warehouse é um banco de dados otimizado para analisar dados relacionais provenientes de sistemas transacionais e aplicações de linha de negócios. Os dados são limpos, enriquecidos e transformados para que possam atuar como a “fonte única da verdade” em que os usuários podem confiar.
Um data lake é diferente porque a estrutura dos dados ou esquema não é definida quando os dados são capturados.
Raw Layer: tem como objetivo ingerir dados da forma mais rápida e mais eficiente possível. Nesse estágio, não é realizada nenhum tipo de transformação.
Standarized Layer: camada opcional, mas recomendada se é esperado que o Data Lake cresça muito.
Cleansed Layer: essa camada envolve o processo de limpeza, transformação, desnormalização e consolidação de diferentes objetos. Depois de serem transformados em dados utilizáveis, são organizados por propósito, tipo e estrutura, em arquivos ou tabelas.
Application Layer: os dados que foram tratados na camada anterior são reforçados com os requisitos de lógica de negócios.
Sandbox Layer: essa camada também é opcional, utilizada para analistas e cientistas de dados realizarem experimentos e buscarem por padrões ou correlações.
Security: importante principalmente durante a fase inicial e de arquitetura.
Stewardship: criação ou definição de responsabilidades para o usuários, possivelmente através de soluções com metadata.
Master Data: camada essencial para fornecer dados para uso. Eles podem ser armazenados no Data Lake ou referenciados durante a execução de processos ELT.
Archive: o Data Lake armazena alguns arquivos que vem do Data Warehousing para evitar problemas relacionados a armazenamento
Offload: utilizado em casos de soluções de warehousing que usam dados relacionais, para ajudar a liberar tempo e recursos que estão sendo consumidos pelo processo de ETL.
Orchestration and ELT processes: Depois que os dados são enviados da camada bruta para a camada limpa e, em seguida, para as camadas de sandbox e aplicação, é necessária uma ferramenta de orquestraçãoa para o fluxo.
Após compreender o que é um Data Lake e suas nuances, é importante visualizar como essas ideias se aplicam na prática dentro de uma plataforma robusta, como a AWS.
A Amazon Web Services fornece um conjunto completo de serviços gerenciados que permitem construir Data Lakes escaláveis, seguros e preparados para análises avançadas e inteligência artificial. Esse ecossistema é amplamente utilizado por empresas que precisam integrar dados provenientes de múltiplas
fontes, lidar com altos volumes de informação e transformar esses dados em insights acionáveis.
O diagrama construído apresenta uma visão prática e didática de como uma arquitetura de Lakehouse Analítico Multi-Fonte com IA pode ser construída na AWS. Explicado no guia oficial Data Lakes on AWS, ele combina conceitos fundamentais do Data Lake tradicional com recursos modernos de governança, performance analítica e machine learning.
Serviços utilizados nele como Amazon S3, AWS Glue, Amazon Athena, Amazon Redshift, Amazon SageMaker, Amazon Kinesis e AWS Lake Formation trabalham juntos para formar uma solução completa: desde a ingestão até a geração de insights avançados com IA por meio do Amazon Bedrock.
Esse tipo de arquitetura é especialmente relevante para empresas de médio e grande porte em setores como varejo, e-commerce e manufatura, que buscam consolidar dados operacionais, otimizar processos, impulsionar o marketing e desenvolver previsões mais precisas.
Com isso em mente, o diagrama abaixo serve como um guia interativo para explorar, passo a passo, como cada componente da AWS contribui para a construção de um Lakehouse moderno.
NAMBIAR, A.; MUNDRA, D. An Overview of Data Warehouse and Data Lake in Modern Enterprise Data Management. Big Data and Cognitive Computing, Basel, v. 6, n. 4, p. 132, 2022. Disponível em: https://www.mdpi.com/2504-2289/6/4/132. Acesso em: 10 out. 2025
AMAZONWEBSERVICES.What is a Data Lake? 2025. Disponível em: https://aws.amazon.com/what-is/data-lake/. Acesso em: 10 out. 2025
AMAZON WEB SERVICES. Data Lakes on AWS – architecture diagrams [PDF]. Disponível em: <https://d1.awsstatic.com/onedam/marketing-channels/website
/aws/en_US/solutions/approved/documents/architecture-diagrams/data-lakes-on-a ws.pdf>. Acesso em: 22 nov. 2025.
Figura 1. Data Lake. Recuperada de: <https://www.canva.com>. Acesso em: 05 de nov. de 2025.
Figura 2. Arquitetura de um Data Lake. Recuperada de: <https://www.mdpi.com/2504-2289/6/4/132>. Acesso em: 05 de nov. de 2025.
Revise mais
A Teoria da Decisão, proposta por Herbert Alexander Simon, revolucionou a compreensão sobre como decisões são tomadas na prática. Contrariando os modelos econômicos clássicos que assumiam um agente racional com informação completa (homo economicus), Simon introduziu o conceito de Racionalidade Limitada (Bounded Rationality). Esta abordagem reconhece que decisores humanos e sistemas automatizados operam sob restrições severas: limitações cognitivas, informações incompletas e pressão temporal.
Este trabalho explora como a teoria de Simon fundamenta os Sistemas de Apoio à Decisão (SAD) modernos e examina os desafios éticos quando esses princípios são implementados em algoritmos de Inteligência Artificial.