Livro | Big data, uma visão gerencial por Fernando Amaral

O meu primeiro curso de big data, realizado no final do ano passado, foi o do Fernando Amaral na Udemy, o qual eu considero um ótimo introdutório sobre o assunto.  Por este motivo fiquei interessada em ler a sua obra, mesmo que o foco seja mais direcionado aos gerentes de projetos por falar de custos, orientações de contratação de time, ferramentas, dentre outras funções relacionadas ao job deste profissional que é essencial em qualquer time de big data. 

Assista: Por que aplicar Gestão de Projetos em Data Science?

O livro foi importante para relembrar alguns conceitos dados logo no início do curso, sobretudo quando tive o módulo de Introdução ao Big data/Hadoop, em abril deste ano. Destaco alguns trechos interessantes para pretensos cientistas de dados, como eu, sobretudo aqueles que já tem contato com matérias relacionadas. 

Projetos de Big Data crescem horizontalmente, em vez de um “upgrade” no servidor, novos nodos, como data nodes ou name nodes, são adicionados à estrutura de B&A, geralmente, virtualizados. Projetos tradicionais trafegam mais dados do servidor para o cliente ou do servidor para fora da empresa. Em projetos de Big Data, o maior tráfego é entre os nós dos servidores: entre data nodes, entre names nodes e data notes etc.

Em projetos tradicionais, existe uma grande preocupação em só carregar dados em que, a partir de uma análise prévia, se vê valor. Estes dados são tratados e carregados em repositórios pequenos (para os padrões de Big Data) para apoiar decisões. Por outro lado, projetos de Big Data carregam grandes volumes de dados em um sistema de arquivo como o HDFS, em seu formato nativo, mesmo que em princípio não se enxergue valor. Estes dados formam os conhecidos data lakes, ou lagos de dados.

Os 7vs de big data apresentado no Blogando Salvador (Outubro/2018)

Posteriormente, parte destes dados pode ser transformados e carregados em um data mart tradicional. Outra forma que podemos olhar uma solução de Big Data é sob sua arquitetura básica. Neste contexto, temos quatro elementos: fontes de dados, carga, armazenamento, análise e visualização (ou apresentação). Neste aspecto, em uma solução de análise de dados clássica estão presentes estes mesmos elementos de arquitetura, o que mudam são algumas particularidades em alguns elementos. Vamos entender melhor. Quantos às fontes de dados, podemos ter nos dois casos os mesmos elementos: dados estruturados ou não estruturados. Porém, projetos de Big Data têm mais presente fontes de dados não estruturadas, como já estudamos no quesito variedade.

Amaral, Fernando. Big Data: Uma Visão Gerencial: Para Executivos, Consultores e Gerentes de Projetos (Locais do Kindle 195-199). Fernando Amaral. Edição do Kindle.

Se o projeto envolve uma única fonte de dados relacionais para produzir dimensões em um data mart, não podemos considerar Big Data, mas em outras hipóteses, em que existem muitas fontes de dados, ou algumas poucas, mas com, pelo menos, uma não estrutura, ou mesmo dados semiestruturados ou fontes de dados NoSQL, ou até mesmo, claro, volumes de dados além de um projeto tradicional, então sim, todos estes serão considerados projetos de Big Data.

Argumentei no LinkedIn sobre empresas que já falam em domar dados volumosos, sem ao menos terem estruturado o setor de insights nas entregas. O livro é interessante para dar uma freiada nos ansiosos a respeito de big data porque Amaral, por ter vasta experiência no assunto, faz questão de demonstrar que big data não é simples e nem barato. Ás vezes um projeto tem um ano de planejamento para ficar pronto e que pode dar errado (!!!). Big data (ainda) não é carne de vaca, mas, diante da complexidade de implementação e contratação de profissionais, vai demorar bastante pra se tornar a pastelaria como já estão vendendo por aí. 

Para mais comentários sobre (outros) tipos de livros não relacionados diretamente ao que eu trabalho ou estudo, clique aqui

One Comment

  1. […] Em meu blog de análises, eu publico os livros relacionados a big data.  […]

Comments are Disabled