Este repositório foi criado com o objetivo de hospedar os arquivos relativos ao trabalho final do módulo "Big Data I" da Turma #942 do curso Santander Coders da escola Ada Tech.
- Daniel Rocha (danielsantos852@gmail.com)
- Edgar Yamagata (edgar.yamagata@gmail.com)
- Guilherme Ribeiro (guilherme_f_ribeiro@hotmail.com)
- Sabrina zani (sabrinazani2000@gmail.com)
- Luiza Lima (luiza-97@hotmail.com)
No presente trabalho, serão aplicadas as técnicas aprendidas em aula para a criação de um processo de ETL (Extraction, Transform, and Load) na plataforma de cloud Databricks Community (https://community.cloud.databricks.com/).
- Construir uma pipeline de ETL (Extract, Transform, and Load) para a construção de um Data Warehouse na plataforma Databricks Community.
-
Pesquisar e escolher um dataset para utilização no trabalho;
-
Importar as tabelas do dataset, como dataframes, para um Notebook no Databricks Community;
-
Criar uma camada "raw" com os dataframes importados salvos em formato parquet;
-
Realizar a limpeza dos datasets (títulos das colunas, dados e tipos de dados);
-
Criar uma camada "refined" com os dataframes limpos salvos em formato parquet;
-
Gerar, a partir dos dataframes limpos, novos dataframes com KPIs (Key Performance Indicators) de interesse;
-
Modelar a base em formato Star Schema ou Snowflake para a criação do Data Warehouse;
-
Criar uma camada "trusted" com todos os dataframes da base salvos em formato parquet;
-
Criar um diagrama representativo da estrura de diretórios do projeto utilizando a ferramenta Diagrams (https://www.diagrams.net/);
-
Disponibilizar todo o projeto em um repositório no GitHub (https://github.com/).
fonte: https://us.youtubers.me/global/all/top-1000-youtube-channels
Apresenta um Top 1000 de canais do Youtube com maior número de visualizações de videos.
Dimensões: 1000 linhas x 7 colunas
Colunas:
- Rank: Posição do canal no Top 1000;
- Youtuber: Nome do canal;
- Subscribers: Quantidade de inscritos no canal;
- Video Views: Somatório de todas as visualizações dos videos do canal;
- Video Count: Quantidade de videos carregados no canal;
- Category: Categoria do conteúdo do canal;
- Started: Ano de criação do canal no Youtube.
Dimensões: 1000 linhas x 5 colunas
Colunas:
- Rank: Posição do canal no Top 1000;
- Youtuber: Nome do canal;
- Subscribers/Year: Quantidade média de inscritos por ano no canal;
- Video Views/Year: Quantidade média de visualizações dos videos por ano no canal;
- Video Count/Year: Quantidade média de videos carregados no canal por ano;
fonte: https://us.youtubers.me/global/all/top-1000-youtube-videos
Apresenta um Top 1000 de videos do Youtube com maior número de visualizações.
Dimensões: 1000 linhas x 7 colunas
Colunas:
- Rank: Posição do video no Top 1000;
- Video: Nome do video;
- Video Views: Quantidade de visualizações do video;
- Likes: Quantidade de likes do video;
- Dislikes: Quantidade de dislikes do video;
- Category: Categoria do conteúdo do video;
- Published: Ano em que o video foi publicado no Youtube.
Dimensões: 1000 linhas x 5 colunas
Colunas:
- Rank: Posição do video no Top 1000;
- Video: Nome do video;
- Video Views/Year: Quantidade média de visualizações do video por ano;
- Likes/Year: Quantidade média de likes do video por ano;
- Dislikes/Year: Quantidade média de dislikes do video por ano.
fonte: https://us.youtubers.me/global/all/top-1000-most-subscribed-youtube-channels
Apresenta um Top 1000 de canais do Youtube com maior número de inscritos.
Dimensões: 1000 linhas x 7 colunas
Colunas:
- Rank: Posição do canal no Top 1000;
- Youtuber: Nome do canal;
- Subscribers: Quantidade de inscritos no canal;
- Video Views: Somatório de todas as visualizações dos videos do canal;
- Video Count: Quantidade de videos carregados no canal;
- Category: Categoria do conteúdo do canal;
- Started: Ano de criação do canal no Youtube.
Dimensões: 1000 linhas x 5 colunas
Colunas:
- Rank: Posição do canal no Top 1000;
- Youtuber: Nome do canal;
- Subscribers/Year: Quantidade média de inscritos por ano no canal;
- Video Views/Year: Quantidade média de visualizações dos videos por ano no canal;
- Video Count/Year: Quantidade média de videos carregados no canal por ano;
fonte: https://us.youtubers.me/global/all/top-1000-most-popular-youtube-channels
Apresenta um Top 1000 de canais do Youtube com maior popularidade.
Dimensões: 1000 linhas x 7 colunas
Colunas:
- Rank: Posição do canal no Top 1000;
- Youtuber: Nome do canal;
- Subscribers: Quantidade de inscritos no canal;
- Video Views: Somatório de todas as visualizações dos videos do canal;
- Video Count: Quantidade de videos carregados no canal;
- Category: Categoria do conteúdo do canal;
- Started: Ano de criação do canal no Youtube.
Dimensões: 1000 linhas x 5 colunas
Colunas:
- Rank: Posição do canal no Top 1000;
- Youtuber: Nome do canal;
- Subscribers/Year: Quantidade média de inscritos por ano no canal;
- Video Views/Year: Quantidade média de visualizações dos videos por ano no canal;
- Video Count/Year: Quantidade média de videos carregados no canal por ano;
fonte: https://us.youtubers.me/global/all/top-1000-most-popular-youtube-videos
Apresenta um Top 1000 de videos do Youtube com maior popularidade
Dimensões: 1000 linhas x 7 colunas
Colunas:
- Rank: Posição do video no Top 1000;
- Video: Nome do video;
- Video Views: Quantidade de visualizações do video;
- Likes: Quantidade de likes do video;
- Dislikes: Quantidade de dislikes do video;
- Category: Categoria do conteúdo do video;
- Published: Ano em que o video foi publicado no Youtube.
Dimensões: 1000 linhas x 5 colunas:
Colunas:
- Rank: Posição do video no Top 1000;
- Video: Nome do video;
- Video Views/Year: Quantidade média de visualizações do video por ano;
- Likes/Year: Quantidade média de likes do video por ano;
- Dislikes/Year: Quantidade média de dislikes do video por ano.