Hadoop pode ser sinônimo de Big Data, mas isso não diminui sua complexidade. Ao contrário. A ascensão do Big Data como um componente essencial nos negócios de uma empresa para modernizar e melhor servir seus clientes tem atraído também seus decisores a adotar uma estratégia efetiva de análise de dados. Neste contexto, o Big Data foi e é impulsionado, em grande parte, pelo surgimento do Hadoop. Dada sua importância, como explicá-lo para o seu chefe, caso “quem assina o cheque” não for exatamente da área técnica ou da TI da empresa? Este post tem como objetivo simplificar a didática para atingir esse intento.

Fundamentos

Hadoop, um framework open source baseado em programação Java, é projetado para suportar o processamento de grandes conjuntos de dados (data sets) em um ambiente de computação distribuída que é normalmente construída a partir de hardware commodity. Hadoop faz parte da Apache Software Foundation, que apoia o desenvolvimento de projetos de software de código aberto.

Hadoop_elephantsSua estrutura é composta por uma parte de armazenamento chamada Hadoop Distributed File System (HDFS), e uma parte de processamento, chamada de MapReduce. Basicamente, o sistema funciona dividindo grandes arquivos em blocos que são distribuídos entre os nós de um cluster para serem então processados.

A base do framework é composta pelo Hadoop Common, que contém bibliotecas e utilitários para outros módulos Hadoop; o HDFS (citado acima), sistema de arquivos distribuído que armazena dados em máquinas de commodities; o YARN, que funciona como uma plataforma de gerenciamento de recursos; e por fim o MapReduce, para o processamento de dados em larga escala.

Curiosidades e empresas adeptas da tecnologia

Os componentes MapReduce e HDFS do Hadoop foram inspirados por documentações do Google em seu MapReduce e Google File System, originalmente publicados em 2003. Doug Cutting, criador do Hadoop, batizou-o dessa forma inspirado no elefante de brinquedo de seu filho. É por isso que muitos dos logos de fornecedores Hadoop, e o próprio logo do Hadoop, são desenhos de elefantes.

Java é a linguagem mais comum no framework Hadoop, embora haja algum código nativo em C e utilitários de linha de comando escritos como scripts shell.

O Hadoop pode ser usado para armazenamento de baixo custo e arquivamento ativo de dados, como uma área de preparo para data warehouse e analytics, ou ainda como um data lake, uma sandbox para descoberta e análise, e para sistemas de recomendação.

Empresas como Facebook, LinkedIn, Netflix e eBay são usuárias do framework. Vale lembrar também que o ecossistema Hadoop é extremamente grande e composto por empresas como a Hortonworks, Cloudera, MapR, Teradata e muitas mais. Alguns dos principais componentes de software incluem; Cassandra, um sistema de banco de dados distribuído; Spark, um framework de computação em cluster com análise in-memory; e Oozie, agendador de tarefas (scheduler) do Hadoop.

Fonte: Computer Business Review

Share This