Arquitetura Datalake: Extraindo Valor dos Dados – Aula 1
Arquitetura Datalake: Extraindo Valor dos Dados – Aula 1 – Parte 1
Professor: Sergio Nauffal
EP 01. De ontem para hoje
Conteudo:
Qual é o novo nexo da força?
É a facilidade e disponibilidade da informação, é a facilidade de criar conexão entre os indivíduos que residem em diferente geolocalização.
Nexo: Ligação entre uma ou varias coisas – União.
Vinculo, conexão entre circunstancias, acontecimentos, opiniões: Faltou nexo, coerência, neste seu discurso.
“Devemos conhecer o passado para lucrar com suas lições.”
[Referencias]
[Resumo]
Arquitetura Datalake: Extraindo Valor dos Dados – Aula 1 – Parte 2
Professor: Sergio Nauffal
EP 02. Big data
Conteudo:
Introdução ao big data:
O datalake é parte integrante do big data.
“Eu considero o big data a melhor ferramenta de analise para a sua empresa.”
Se você interpretar e colocar a sua empresa para trabalhar orientada a dados (Data Driven), você levará sua empresa a um patamar mais avançado e interconectado com os seus clientes, colaboradores e resultados.
Resumo geral:
Conceito: Big data é a área do conhecimento que estuda como tratar, analisar e obter informações sobre um conjunto de dados grandes de mais para serem analisados por sistemas tradicionais.
Para integrante que correlaciona com a data Science ou ciência de dados.
Entender os problemas:
1- Coletar e analisar dados grandes volumes de dados em alta velocidade. (A velocidade é um requisito e ela vai impactar os resultados)
2- Precisamos ter um motor de busca eficiente. (Algum mecanismo para conseguir trazer o dado que são necessários sem desprender grande volume de tempo procurando).
3- Inteligência de máquina. A maquina precisa entender o que você quer.
4- Motor de inferência? O Nucleo da inteligência artificial de um sistema especialista, onde a capacidade do motor de inferência é baseada em uma combinação de procedimentos e raciocínios de forma regressiva.
Existem duas características mais marcantes em big data:
1- São a interrelação entre os dois motores o de busca e o de inferência.
Quais são as principais diferenças entre o Data warehouse e data lake:
Data warehouse: É uma base de dados de contexto dados preparados, organizados e limpos. Neste ambiente os dados estão bem estruturados, catalogados e já trazem grande volume de informações.
Data lake: Neste caso a disponibilização dos dados esta em seu formato bruto, sem catalogação ou qualquer tipo de organização que permita o acesso de informações de maneira simples ou sem qualquer trabalho de limpeza dos dados prévio.
Desta forma, por que o data lake é mais interessante que o data warehouse?
Depende do contexto, mas em geral, os data warehouse cobrem um conjunto de cenários que foram definidos em algum momento no passado, enquanto os data lakes, possuem toda estrutura necessária para quaisquer correlações de dados e trazer cenários novos de analise de dados que podem trazer maior valor para as empresas. Com os data lakes e outras ferramentas de ciência de dados ou analise de dados, conseguimos criar novos produtos de dados e até mesmo orientar tomada de decisões executivas.
Um esquema básico para funcionamento de um big data seria o seguinte:
1- Entrada de dados, de todas as formas possíveis.
2- Organização dos dados. (Limpeza e preparação)
3- Analise. (Uso de ML para fazer a analise de padrão de dados e trazer informação)
4- Consumo dos dados por aplicações na ponta. (Dashboards, aplicações e até mesmo automações) que serão alimentados por estes dados.
Escada da inteligência artificial.
Fluxo de camadas.
Objetivo de estudo:
Um dos objetivos é criar produtos de dados que possam ser utilizados para tomada de decisão, em mecanismos de automação e até mesmo como produtos como os mecanismos de sugestão de conteúdo ou produtos.
Qual o publico alvo envolvido com big data?
Ferramentas:
Para o uso de big data, existem 4 grandes grupos de ferramentas que devem ser considerados:
1- Armazenamento e Streaming.
2- Pipeline dos dados. (Criação do fluxo que os dados irão percorrer até se tornarem produtos)
3- Visualização dos dados. (Camada de apresentação os resultados obtidos
Kibana: Otima ferramenta para visualização dos dados em forma de dashboards.
Grafana:
4- Camada de Machine learning e criação de modelos.
Quais são as tendencias de mercado?
Uma das tendencia de mercado que o data lake controla são custos.
Uso de cloud.
Diagrama de processos e como implementar big data na empresa?
[Resumo]










