Data Lake

Um Data Lake é um repositório centralizado, que permite armazenar dados estruturados e não estruturados em qualquer escala.Para que um Data Lake torne os dados utilizáveis, ele precisa ter mecanismos definidos para catalogar e proteger os dados. Sem esses elementos, os dados não podem ser encontrados ou serem considerados confiáveis,o que acaba resultando em um “pântano de dados”.

Figura 1 - Data Lake

Data Lake x Data Warehousing

Um data warehouse é um banco de dados otimizado para analisar dados relacionais provenientes de sistemas transacionais e aplicações de linha de negócios. Os dados são limpos, enriquecidos e transformados para que possam atuar como a “fonte única da verdade” em que os usuários podem confiar.

Um data lake é diferente porque a estrutura dos dados ou esquema não é definida quando os dados são capturados.

Arquitetura de um Data Lake Empresarial

Diagrama esquemático ilustrando a arquitetura de um Data Lake, estruturado em um fluxo da esquerda para a direita, com componentes de fundação e orquestração. O diagrama é composto pelas seguintes partes: Fontes de Dados (Data sources): À esquerda, uma caixa lista as origens dos dados acompanhadas de ícones: Streaming, Social Media (Mídias Sociais), Web scraping, Word documents (documentos Word), Files (Arquivos), Photos (Fotos) e PDF documents (documentos PDF). Data Lake (Centro): Uma seta aponta das fontes de dados para um grande bloco central rosa, que é subdividido em zonas de processamento. A parte superior contém as zonas "Raw" (Bruto), "Standardized" (Padronizado), "ELT" e "Cleansed" (Limpo). A parte inferior contém as zonas "Sandbox" e "Application", sendo que esta última inclui uma subcaixa chamada "Master data". Orquestração: Acima do bloco central, há uma barra que mostra "Orchestration (Data lake)" com uma seta apontando para "Orchestration (Applications)". Fundações: Abaixo do bloco central, quatro pequenas caixas bege representam os pilares de controle: "Security" (Segurança), "Governance" (Governança), "Metadata" (Metadados) e "Stewardship" (Curadoria). Consumo de Dados: À direita do diagrama, setas indicam a saída dos dados do Data Lake para os sistemas consumidores. Há blocos verdes para "Archieve" e "Offload" que trocam informações com um bloco azul maior chamado "EDW" (Enterprise Data Warehouse). O EDW se conecta a módulos de "OLAP" e "BI". Abaixo desse grupo, setas diretas do Data Lake alimentam outras duas caixas azuis: "Advance analytics" (Análises avançadas) e "Operationalized Data Science" (Ciência de Dados Operacionalizada)."
Figura 2 - Arquitetura de um Data Lake

Raw Layer: tem como objetivo ingerir dados da forma mais rápida e mais eficiente possível. Nesse estágio, não é realizada nenhum tipo de transformação.

Standarized Layer: camada opcional, mas recomendada se é esperado que o Data Lake cresça muito.

Cleansed Layer: essa camada envolve o processo de limpeza, transformação, desnormalização e consolidação de diferentes objetos. Depois de serem transformados em dados utilizáveis, são organizados por propósito, tipo e estrutura, em arquivos ou tabelas.

Application Layer: os dados que foram tratados na camada anterior são reforçados com os requisitos de lógica de negócios.

Sandbox Layer: essa camada também é opcional, utilizada para analistas e cientistas de dados realizarem experimentos e buscarem por padrões ou correlações.

Security: importante principalmente durante a fase inicial e de arquitetura.

Stewardship: criação ou definição de responsabilidades para o usuários, possivelmente através de soluções com metadata.

Master Data: camada essencial para fornecer dados para uso. Eles podem ser armazenados no Data Lake ou referenciados durante a execução de processos ELT.

Archive: o Data Lake armazena alguns arquivos que vem do Data Warehousing para evitar problemas relacionados a armazenamento

Offload: utilizado em casos de soluções de warehousing que usam dados relacionais, para ajudar a liberar tempo e recursos que estão sendo consumidos pelo processo de ETL.

Orchestration and ELT processes: Depois que os dados são enviados da camada bruta para a camada limpa e, em seguida, para as camadas de sandbox e aplicação, é necessária uma ferramenta de orquestraçãoa para o fluxo.

Diagrama interativo sobre Data Lakes

Após compreender o que é um Data Lake e suas nuances, é importante visualizar como essas ideias se aplicam na prática dentro de uma plataforma robusta, como a AWS.

A Amazon Web Services fornece um conjunto completo de serviços gerenciados que permitem construir Data Lakes escaláveis, seguros e preparados para análises avançadas e inteligência artificial. Esse ecossistema é amplamente utilizado por empresas que precisam integrar dados provenientes de múltiplas

fontes, lidar com altos volumes de informação e transformar esses dados em insights acionáveis.

O diagrama construído apresenta uma visão prática e didática de como uma arquitetura de Lakehouse Analítico Multi-Fonte com IA pode ser construída na AWS. Explicado no guia oficial Data Lakes on AWS, ele combina conceitos fundamentais do Data Lake tradicional com recursos modernos de governança, performance analítica e machine learning.

Serviços utilizados nele como Amazon S3, AWS Glue, Amazon Athena, Amazon Redshift, Amazon SageMaker, Amazon Kinesis e AWS Lake Formation trabalham juntos para formar uma solução completa: desde a ingestão até a geração de insights avançados com IA por meio do Amazon Bedrock.

Esse tipo de arquitetura é especialmente relevante para empresas de médio e grande porte em setores como varejo, e-commerce e manufatura, que buscam consolidar dados operacionais, otimizar processos, impulsionar o marketing e desenvolver previsões mais precisas.

Com isso em mente, o diagrama abaixo serve como um guia interativo para explorar, passo a passo, como cada componente da AWS contribui para a construção de um Lakehouse moderno.

Diagrama de Arquitetura AWS Lakehouse com SageMaker e SAP
Diagrama de Arquitetura AWS Lakehouse com SageMaker e SAP

Referências:

NAMBIAR, A.; MUNDRA, D. An Overview of Data Warehouse and Data Lake in Modern Enterprise Data Management. Big Data and Cognitive Computing, Basel, v. 6, n. 4, p. 132, 2022. Disponível em: https://www.mdpi.com/2504-2289/6/4/132. Acesso em: 10 out. 2025

AMAZONWEBSERVICES.What is a Data Lake? 2025. Disponível em: https://aws.amazon.com/what-is/data-lake/. Acesso em: 10 out. 2025

AMAZON WEB SERVICES. Data Lakes on AWS architecture diagrams [PDF]. Disponível em: <https://d1.awsstatic.com/onedam/marketing-channels/website

/aws/en_US/solutions/approved/documents/architecture-diagrams/data-lakes-on-a ws.pdf>. Acesso em: 22 nov. 2025.

Figura 1. Data Lake. Recuperada de: <https://www.canva.com>. Acesso em: 05 de nov. de 2025.

Figura 2. Arquitetura de um Data Lake. Recuperada de: <https://www.mdpi.com/2504-2289/6/4/132>. Acesso em: 05 de nov. de 2025.

Revise mais

A Teoria da Decisão, proposta por Herbert Alexander Simon, revolucionou a compreensão sobre como decisões são tomadas na prática. Contrariando os modelos econômicos clássicos que assumiam um agente racional com informação completa (homo economicus), Simon introduziu o conceito de Racionalidade Limitada (Bounded Rationality). Esta abordagem reconhece que decisores humanos e sistemas automatizados operam sob restrições severas: limitações cognitivas, informações incompletas e pressão temporal.
Este trabalho explora como a teoria de Simon fundamenta os Sistemas de Apoio à Decisão (SAD) modernos e examina os desafios éticos quando esses princípios são implementados em algoritmos de Inteligência Artificial.

Data Lake

Um Data Lake é um repositório centralizado, que permite armazenar dados estruturados e não estruturados em qualquer escala.Para que um Data Lake torne os dados utilizáveis, ele precisa ter mecanismos definidos para catalogar e proteger os dados. Sem esses elementos,...