Mar 2, 202216 min read

AWS Glue + Athena - Queries SQL em Arquivos CSV

Updated: Mar 3, 2022

Nessa postagem vou mostrar como carregar aquivos CSV para dentro do AWS, com Glue e Athena. Gosto de ressaltar as partes teóricas dentro das postagens para complementar e deixar a postagem mais rica:

O que é a Amazon AWS?

Amazon Web Services (tradução livre: Serviços Web da Amazon), também conhecido como AWS, é uma plataforma de serviços de computação em nuvem, que formam uma plataforma de computação na nuvem oferecida pela Amazon.com. Os serviços são oferecidos em várias áreas geográficas distribuídas pelo mundo.

Sobre o AWS Glue

O AWS Glue é uma plataforma de computação sem servidor orientada a eventos fornecida pela Amazon como parte do Amazon Web Services. É um serviço de computação que executa código em resposta a eventos e gerencia automaticamente os recursos de computação exigidos por esse código. Foi introduzido em agosto de 2017.

O objetivo principal do Glue, em comparação com a plataforma ETL irmã da AWS, AWS Lambda , é verificar outros serviços na mesma Nuvem Privada Virtual (ou elemento de rede acessível equivalente, mesmo que não seja fornecido pela AWS), principalmente S3 . Os trabalhos são faturados de acordo com o tempo de computação, com uma contagem mínima de 1 minuto. O Glue descobre os dados de origem para armazenar metadados associados (por exemplo, o esquema da tabela de nomes de campos, comprimentos de tipos) no Catálogo de dados do AWS Glue (que pode ser acessado por meio do console ou APIs da AWS).

Sobre o AWS Athena

O Amazon Athena é um serviço de nuvem semelhante ao ETL lançado em novembro de 2016 que permite a consulta sem servidor do conteúdo do AWS S3 usando Presto com suporte ANSI SQL.

O Amazon Athena oferece suporte a muitos formatos de dados, como CSV, TSV e JSON, e também oferece suporte a formatos colunares de código aberto, como Snappy, e formatos de dados compactados, como Zlib, LZO e gzip.

O lançamento do produto Athena pode ser visto como o preenchimento de uma lacuna na oferta de nuvem AWS, especialmente em relação ao Google BigQuery que foi lançado em 2011. Embora o BigQuery e o Athena utilizem diferentes tecnologias subjacentes (Dremel e Presto), eles estão posicionados em uma capacidade semelhante aos serviços analíticos sem servidor. Não foi até o lançamento do Athena que a AWS teve uma oferta de produtos comparável ao Google.

Ementa de Desenvolvimento

- Configurar S3 Bucket (CSV);

- Desenvolvimentos em AWS Glue Crawler;

- Athena para queries e relacionados;

- Para dinamizar esse case, decidimos não trabalhar por agora com o Catalog e com o QuickSight;

- Feito!

__________________________________________________________________________________

Steps de Desenvolvimento

Step 1: Criação de solução e arquitetura AWS Glue + Athena

a. Separação e ingestão do .csv para o S3 Bucket, separando o .csv dentro do AWS

- Separamos um arquivo que trabalha com dados vindos das estatísticas de covid-19. Com ele iremos fazer a ingestão para o AWS.

b. Com o Crawler iremos transformar a massa de dados em forma tabular

- Um crawler pode rastrear vários armazenamentos de dados em uma única execução. Após a conclusão, o crawler cria ou atualiza uma ou mais tabelas no Data Catalog. As tarefas de extração, transformação e carregamento (ETL) que você define no AWS Glue usam essas tabelas do Data Catalog como fontes e destinos.

c. Athena para queries armazenadas

- O Amazon Athena é um serviço de consultas interativas que facilita a análise de dados no Amazon S3 usando SQL padrão. O Athena não precisa de servidor. Portanto, não há infraestrutura para gerenciar e você paga apenas pelas consultas executadas.

Step 2: Começando pelo AWS S3 Bucket para o .csv

O Amazon Athena é um serviço de consultas interativas que facilita a análise de dados no Amazon S3 usando SQL padrão. O Athena não precisa de servidor. Portanto, não há infraestrutura para gerenciar e você paga apenas pelas consultas executadas.

Um pouco mais sobre o AWS S3 Bucket

Dinâmicas: Objetivos de aprendizado

Após a conclusão deste laboratório de nível iniciante, você será capaz de:

• Criação de um bucket do S3

• Criação uma pasta em um bucket do S3

• Carregamento de conteúdo para o S3

• Altere as permissões para permitir o acesso público ao conteúdo

• Definia metadados em um bucket do S3

• Exclusão um bucket do S3 e seu conteúdo

Relacionados...

Conceder acesso a apenas um bucket do S3 usando a política do AWS IAM

Copiando objetos de bucket do S3 para outra conta da AWS

Visão geral do gerenciamento de acesso - Amazon Simple Storage Service

Histórico: Permissões entre contas e uso de funções do IAM

As funções do IAM permitem vários cenários para delegar acesso a seus recursos, e o acesso entre contas é um dos cenários principais. Neste exemplo, o proprietário do bucket, a Conta A, usa uma função do IAM para delegar temporariamente acessos a objetos entre contas a usuários em outra Conta da AWS, Conta C. Cada função do IAM que você criar tem duas políticas anexadas a ela:

• Uma política de confiança que identifica outra Conta da AWS que pode assumir a função.

• Uma política de acesso que define quais permissões - por exemplo, s3:GetObject - são permitidas quando alguém assume a função. Para obter uma lista de permissões que você pode especificar em uma política, consulte Ações do Amazon S3.

A Conta da AWS identificada na política de confiança então concede sua permissão de usuário para assumir a função. O usuário pode então fazer o seguinte para acessar os objetos:

• Assumir a função e, em resposta, obter credenciais de segurança temporárias.

• Usando as credenciais de segurança temporárias, acessar os objetos no bucket.

Para obter mais informações sobre as funções do IAM, acesse Funções do IAM no Guia do usuário do IAM.

A seguir é apresentado um resumo das etapas de demonstração:

1. O usuário administrador da Conta A anexa a política do bucket que concede à Conta B uma permissão condicional para fazer upload de objetos;

2. O administrador da Conta A cria uma função do IAM, estabelecendo a confiança com a Conta C, e assim os usuários dessa conta podem acessar a Conta. A. A política de acesso anexada à função limita o que o usuário na Conta C pode fazer quando acessa a Conta A;

3. O administrador da Conta B faz upload de um objeto no bucket de propriedade da Conta A, concedendo permissão de controle total ao proprietário do bucket;

4. O administrador da Conta C cria um usuário e anexa uma política de usuário que permite que o usuário assuma a função;

5. O usuário na Conta C primeiro assume a função, que retorna as credenciais de segurança temporárias ao usuário. Usando essas credenciais de segurança temporárias, o usuário então acessa os objetos no bucket.

Para este exemplo, você precisará de três contas. A tabela a seguir mostra como nos referimos a essas contas e aos usuários administradores nessas contas. Conforme as diretrizes do IAM (veja Sobre o uso de um usuário administrador para criar recursos e conceder permissões), não usamos as credenciais raiz de conta nesta apresentação. Em vez disso, você cria um usuário administrador em cada conta e usa essas credenciais para criar recursos e conceder permissões a eles.

Um bucket é um contêiner de objetos. Um objeto é um arquivo e qualquer metadado que descreva esse arquivo. Para armazenar um objeto no Amazon S3, crie um bucket e faça upload do objeto para o bucket. Quando o objeto estiver no bucket, você poderá abri-lo, fazer download dele e movê-lo.

já em ambiente AWS, via Console de Desenvolvimento, procure por S3 Bucket, e acesse.

Crie o seu bucket. Repare que o Bucket da Amazon é muito similar ao sistema tradicional de diretórios (com pastas, subpastas e arquivos). Deixando a configuração padrão, vamos fazer então a criação.

Dentro do Bucket podemos criar uma pasta, nomeando como covid-19, pois os dados que entrarão na pasta para CSV, são dados sobre o covid-19. Faremos na sequência o upload do arquivo .csv.

Atenção: importante ressaltar. Toda você que você for trabalhar com massas de dados, o ideal é que seja feito particionamentos, gerando assim menores custos. Fazendo também com que as queries sejam muito mais rápidas.

Tudo pronto! Criamos um outro bucket para os resultados (results), efetuando o mesmo procedimento. Fizemos isso por questão de boas práticas e organização sistemática, separando os dados de entrada com os de results.

Agora já podemos ir para o AWS Glue...

Step 3: Trabalhando com o AWS Glue para transformar e configurar aquivos .csv para a forma tabular com o Crawler

Procure por AWS Glue na parte de busca do Console de Desenvolvimento do AWS. E logo em seguida, acesse.

Análises...

Recursos do AWS Glue

O AWS Glue é um serviço de integração de dados sem servidor que facilita preparar dados para análise, machine learning e desenvolvimento da aplicações. O AWS Glue oferece todos os recursos necessários para a integração dos dados, então é possível ter insights e usar seus dados em minutos, em vez de meses. Com o AWS Glue, não existe nenhuma infraestrutura a configurar ou gerenciar. Você paga apenas pelos recursos consumidos durante a execução dos trabalhos.

Descoberta de dados

Faça descobertas e pesquisas em todos os conjuntos de dados da AWS

O catálogo de dados do AWS Glue é um armazenamento persistente de metadados para todos os ativos de dados, independentemente da localização. O catálogo de dados contém definições de tabelas e trabalhos, esquemas e outras informações de controle que ajudam a gerenciar o ambiente do AWS Glue. Ele calcula estatísticas e registra partições de forma automática, possibilitando consultas de dados com eficiência e economia. Além disso, ele mantém um histórico de versões de esquemas abrangente para que você possa compreender como os dados mudam com o tempo.

Descoberta automática de esquemas

Os crawlers do AWS Glue se conectam ao datastore de origem ou de destino, percorrem uma lista priorizada de classificadores para determinar o esquema dos dados e cria metadados no catálogo de dados do AWS Glue. Os metadados são armazenados em tabelas no catálogo de dados e são utilizados no processo de autoria de trabalhos de ETL. Você pode executar crawlers de forma programada, sob demanda, ou acionando-os com base em um evento para garantir a atualização dos metadados.

Gerencie e aplique esquemas nos fluxos de dados

O AWS Glue Schema Registry, um recurso sem servidor do AWS Glue, permite validar e controlar a evolução dos dados de streaming usando esquemas Apache Avro registrados, sem custo adicional. Por meio de serializadores e desserializadores licenciados pelo Apache, o Schema Registry se integra a aplicações Java desenvolvidas para o Apache Kafka,Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink e AWS Lambda. Quando as aplicações de streaming de dados são integradas ao Schema Registry, é possível melhorar a qualidade dos dados e se proteger de mudanças inesperadas usando verificações de compatibilidade que controlam a evolução do esquema. E mais, você pode criar ou atualizar as tabelas e as partições do AWS Glue usando os esquemas armazenados no registro.

Transformação de dados

Transforme os dados visualmente com uma interface do tipo arrastar e soltar

O AWS Glue Studio permite criar trabalhos ETL altamente escalonáveis para o processamento distribuído sem ser especialista em Apache Spark. Defina o processo ETL no editor de tarefas de arrastar e soltar e o AWS Glue gerará automaticamente o código para extrair, transformar e carregar seus dados. O código é gerado em Scala ou Python e escrito para o Apache Spark.

Crie pipelines ETL complexos com um agendamento simples de trabalhos

Os trabalhos do AWS Glue podem ser chamados por agendamento, sob demanda ou com base em um evento. É possível iniciar vários trabalhos em paralelo ou especificar dependências entre tarefas para criar pipelines de ETL complexos. O AWS Glue processa todas as dependências entre tarefas, filtra dados inválidos e tenta executar novamente as tarefas que apresentam falha. Todos os logs e notificações são enviados ao Amazon CloudWatch para que você possa monitorar e obter alertas em um serviço central.

Limpe e transforme os dados de streaming em trânsito

Os trabalhos ETL de streaming sem servidor no AWS Glue consomem dados continuamente de fontes de streaming, incluindo o Amazon Kinesis e o Amazon MSK, são limpos e transformados em trânsito, e disponibilizados para análise em segundos em seu armazenamento de dados de destino. Use esse recurso para processar dados de eventos como streams de eventos da IoT, sequências de cliques e logs da rede. Os trabalhos ETL de streaming do AWS Glue podem enriquecer e agregar dados, unir fontes em lote e de streaming, e fazer diversas operações complexas de análise de dados e machine learning.

Descoberta de dados

Faça descobertas e pesquisas em todos os conjuntos de dados da AWS

Descoberta automática de esquemas

Gerencie e aplique esquemas nos fluxos de dados

Transformação de dados

Transforme os dados visualmente com uma interface do tipo arrastar e soltar

Crie pipelines ETL complexos com um agendamento simples de trabalhos

Limpe e transforme os dados de streaming em trânsito

Replicação de dados

Combine e replique dados entre vários armazenamentos de dados usando SQL

O AWS Glue Elastic Views permite criar exibições dos dados armazenados em vários tipos de armazenamentos de dados AWS e materializar as exibições em um armazenamento de dados de destino de sua preferência. Você pode usar o AWS Glue Elastic Views para criar exibições materializadas escrevendo consultas em PartiQL. O PartiQL é uma linguagem de consulta compatível com SQL e de fonte aberta que você pode usar para consultar e manipular dados, não importando se eles têm uma estrutura de documento em tabela ou flexível. Você pode escrever consultas PartiQL de modo interativo usando o editor de consulta no Console de Gerenciamento da AWS ou publicar consultas por meio da API ou da CLI.

O AWS Glue Elastic Views é compatível com o Amazon DynamoDB como origem (com suporte para o Amazon Aurora e Amazon RDS a seguir) e com o Amazon Redshift, Amazon OpenSearch Service (sucessor do Amazon Elasticsearch Service) e Amazon S3 como destinos (com suporte para o Amazon Aurora, Amazon RDS e Amazon DynamoDB a seguir). É possível agilizar o tempo de desenvolvimento compartilhando suas exibições materializadas para que outros usuários utilizem em suas aplicações. O AWS Glue Elastic Views monitora continuamente as alterações nos dados nos seus armazenamentos de dados de origem e fornece atualizações para seus armazenamentos de dados de destino automaticamente. Saiba mais sobre o AWS Glue Elastic Views.

Preparação dos dados

Acabe com a duplicação e limpe os dados com o machine learning integrado

O AWS Glue ajuda a limpar e preparar seus dados para análise sem que você precise ser especialista em machine learning. O recurso FindMatches deduplica e encontra registros que são correspondências imperfeitas entre si. Por exemplo, use FindMatches para encontrar registros duplicados em seu banco de dados de restaurantes, como quando um registro lista "Joe's Pizza" no endereço "121 Main St." e outro mostra "Joseph's Pizzeria" no endereço"121 Main". O recurso FindMatches apenas solicitará que você rotule os conjuntos de registros como "correspondência" ou "não correspondência". O sistema então aprenderá seus critérios para chamar um par de registros de "correspondência" e criará um trabalho de ETL que pode ser usado para encontrar registros duplicados em um banco de dados ou registros correspondentes em dois bancos de dados.

Edite, depure e teste o código ETL com endpoints do desenvolvedor

Se você optar por desenvolver interativamente o código de ETL, o AWS Glue fornecerá endpoints de desenvolvimento para editar, depurar e testar o código gerado para você. Você pode usar sua IDE ou seu bloco de anotações favorito. Leitores, gravadores ou transformações personalizados podem ser criados e importados para tarefas de ETL do AWS Glue como bibliotecas personalizadas. Também é possível usar e compartilhar código com outros desenvolvedores em nosso repositório do GitHub.

Normalize os dados sem código usando uma interface visual

O AWS Glue DataBrew fornece uma interface visual interativa e do tipo apontar e clicar para usuários como analistas e cientistas de dados, para que limpem e normalizem dados sem escrever código. É fácil visualizar, limpar e normalizar os dados diretamente dos seus data lake, data warehouses e bancos de dados, incluindo o Amazon S3, o Amazon Redshift, o Amazon Aurora e o Amazon RDS. Você pode escolher entre mais de 250 transformações integradas para combinar, girar e migrar os dados, além de automatizar tarefas de preparação de dados aplicando as transformações salvas diretamente nos novos dados recebidos.

AWS Glue, conceitos.

Executar e monitorar o AWS Glue.

Continuando... a nossa parte prática.

Com a parte do Glue acessada, vamos agara trabalhar com o Crawler. Entendendo o que é o Crawler...

Um crawler acessa seu armazenamento de dados, extrai metadados e cria definições de tabela do AWS Glue Data Catalog. O painel Crawlers no console do AWS Glue lista todos os crawlers que você cria. A lista exibe status e métricas da última execução do seu crawler.

Você poderá adicionar um Crawler pelo botão "Adicionar crawler". Neste processo você poderá mapear e configurar de forma exata o seu arquivo. Nesse caso indicamos o path por um caminho da máquina local. Adiantei esse processo de demonstração por questões didáticas e para dinamizar. Repare que o arquivo já se encontra carregado e configurado. Esta nossa configuração é um Crawler sob demanda (on damand).

Marcando a caixinha do nosso crawler, é possível colocarmos ele para executar. Na sequência podemos ir em Tabelas para ver a tranformação dos dados, de CSV para a forma tabular.

Repara no status dele, no momento da execução. Em andamento...

Após o statups executar, ele sinaliza como stopping. Logo em seguida podemos ir em "Tabelas" ou "Tables" caso o seu AWS estiver em inglês.

Tabela listada e colunas encontradas. Após essa etapa, já podemos ir trabalhar com o AWS Athena, para então efetuarmos as queries conforme desejarmos...

Step 4: Trabalhando com o AWS Athena para a implementação das queries desejadas

Explicando um pouco mais sobre o AWS Athena...

Arquitetura do AWS Athena na íntegra

AWS - Transform Data Using AWS Glue and Amazon Athena

Conceitos básicos da análise de dados na AWS usando AWS Glue, Amazon Athena e QuickSight

Já no console do AWS, na parte de buscas de serviços - procure por "Athena", e em seguida acesse.

Já dentro do Athena, podemos filtrar por Data Source e também Database. Dessa forma encontramos o nosso arquivo CSV e também fizemos a configuração anteriormente do mês. Clicando na parte de tabelas, podemos efetuar uma visualização prévia da tabela, com um select automático (nativo do AWS Athena).

__________________________________________________________________________________

O Artefato

Um artefacto (Pt/Pt) ou artefato (Pt/Br) é um dos vários tipos de subprodutos concretos produzido durante o desenvolvimento de software. Alguns artefatos (por exemplo, casos de uso, diagramas de classes, requisitos e documentos de projeto) ajudam a descrever a função, arquitetura e o design do software.

__________________________________________________________________________________

Repositório para Download

> Download em:

https://drive.google.com/drive/folders/1pzE69DT2BqIfIi7Lpl_O-Uzvn-K9HEUG?usp=sharing

Disponibilidade de download direto para cada arquivo ou .rar (pacote inteiro).

__________________________________________________________________________________

Conclusivo do Caso de Uso

O AWS Glue é um serviço Extract, Transform, and Load (ETL – Extrair, transformar e carregar) da AWS totalmente gerenciado. Um dos seus recursos principais é analisar e categorizar dados. Você pode usar os crawlers do AWS Glue para inferir automaticamente o esquema de banco de dados e de tabela dos dados no Amazon S3 e armazenar os metadados associados no AWS Glue Data Catalog.

O Athena usa o AWS Glue Data Catalog para armazenar e recuperar metadados de tabela para os dados do Amazon S3 em sua conta da Amazon Web Services. Os metadados da tabela permitem que o mecanismo de consulta do Athena saiba como localizar, ler e processar os dados que você deseja consultar.

Para criar o esquema de banco de dados e de tabela no AWS Glue Data Catalog, você pode executar um crawler do AWS Glue no Athena em uma origem dos dados ou executar consultas de Data Definition Language (DDL – Linguagem de definição de dados) diretamente no editor de consultas do Athena. Depois disso, usando o esquema de banco de dados e de tabela que você criou, será possível usar as consultas de Data Manipulation (DML – Manipulação de dados) no Athena para consultar os dados.

Agora é possível registrar um AWS Glue Data Catalog de uma conta diferente da sua. Depois de configurar as permissões do IAM necessárias para o AWS Glue, você poderá usar o Athena para executar consultas entre contas.

Nota

O Athena não reconhece os padrões de exclusão que você especifica para um crawler do AWS Glue. Por exemplo, se você tem um bucket do Amazon S3 com os arquivos .csv e .json e exclui os arquivos .json do crawler, o Athena consulta os dois grupos de arquivos. Para evitar isso, coloque os arquivos que você deseja excluir em um local diferente.

__________________________________________________________________________________

Notas e Relacionados

> Inicialmente o nosso propósito com o Blog é efetuar postagens diversas, porém teremos a área separada para as postagens relacionadas ao Constructor SO, que é o nosso Portfólio de Projetos, Agiles e Scrum, em que cada membro do Constructor SO possui a sua área para os seus desenvolvimentos. Dessa forma, cada atualização da área do Constructor SO é seguida de uma postagem no blog do profissional, informando os nossos leitores e criando assim um panorama extensivo de tal trabalho lançado ou versionado;

> A priori em relação aos desenvolvimentos da Space_One Labs, a nossa ideia é lançar e trabalhar de forma aleatória vários projetos da área específica relacionada, não nos tornando assim limitados por apps ou softwares específicos;

> Todos os casos aqui descritos e desenvolvidos, para este blog, no qual me pertence, que seja da categoria "BI Case", são casos de empresas fictícias, criadas e inventadas, para contextualizar e deixar o trabalho mais vivo e realista possível.

#BlogdeMembros #BlogSOLabs / #AWS #AWSS3Bucket #AWSGlue #AWSGlueCrawler #AWSAthena #AWS #Tecnologia #BI #BusinessIntelligence #ConstructorSO

__________________________________________________________________________________

Daniel Sanches

Engenheiro de Produção, Universo - Universidade Salgado de Oliveira, especializado em Analytics e Data, Business e Tecnologia.

SO Labs Developer Member of Research, Business Intelligence Analyst, Data Analyst and Business Analyst, Data Engineer, Blogger DS Space_One Labs | Space Members

Membro SO Labs Desenvolvedor de Pesquisas, Business Intelligence, Data Engineer, Data Analyst e Negócios

Space_One Labs

IT & Business Community

Blog SO Labs na Íntegra

AWS Glue + Athena - Queries SQL em Arquivos CSV

Sobre o AWS Glue

Sobre o AWS Athena

Ementa de Desenvolvimento

Steps de Desenvolvimento

Step 1: Criação de solução e arquitetura AWS Glue + Athena

Step 2: Começando pelo AWS S3 Bucket para o .csv

Step 3: Trabalhando com o AWS Glue para transformar e configurar aquivos .csv para a forma tabular com o Crawler

Step 4: Trabalhando com o AWS Athena para a implementação das queries desejadas

O Artefato

Repositório para Download

Conclusivo do Caso de Uso

Notas e Relacionados

Daniel Sanches

Recent Posts

Comments

Menu

Links

Space_One Labs

Esferas Space_One Labs

Sobre a Space_One

Expandir e Aprender

Em Breve!

quase lá...

Suporte

Space_One Labs

Space_One Labs

IT & Business Community