No centro da atual evolução do Big Data está o framework Hadoop, que oferece um sistema de arquivos eficiente e um ecossistema de soluções para armazenar e analisar grandes conjuntos de dados. O ecossistema Hadoop foi analisado a partir de dois pontos de vista no Data Summit 2016, um dos principais eventos de dados realizado esta semana Nova York, conforme reporta o site Database Trends and Applications. James Casaletto, arquiteto de soluções da MapR, apresentou uma palestra intitulada “Aproveitando o Ecossistema Hadoop”, e Tassos Sarbanes, matemático e cientista dados do banco de investimentos Credit Suisse, falou sobre as vantagens do HBase em uma palestra intitulada “HBase Data Model – O Modelo Definitivo do Hadoop”.

De acordo com Casaletto, quem é novo no mundo do Big Data muitas vezes não possui uma visão abrangente de como as soluções end-to-end são realmente construídas. Como resultado, há uma compreensão incompleta da forma como o Hadoop pode ser usado para resolver os problemas de analytics. Para o arquiteto de soluções, a maneira mais fácil de iniciar no Hadoop é puramente baixar sua própria sandbox e começar a brincar com ela. “Em geral, a análise de log é um grande chamariz para a adoção do Hadoop, e o Hadoop é realmente bom nisso e não requer muita experiência ou dinheiro”, afirmou Casaletto, que fez uma demonstração em sua palestra de uma configuração das ferramentas de código aberto que os usuários podem construir por conta própria.

Casaletto analisou o tráfego web de um caso de uso de Big Data, mostrando como os dados viajam de servidores Apache e HAProxy, usando ferramentas como RSyslog, Flume, Kafka, e Spark Streaming e Kibana, habilitando visualizações, transformações e analytics de padrões de tráfego e páginas importantes no website analisado. “É um processo muito parecido com encanamento”, disse Casaletto. “Arquitetar pipelines de dados é como estruturar um encanamento: você recebe os dados e os estrutura no encanamento da fonte a uma pia onde pode finalmente permitir que os usuários façam suas análises”.

Já Tassos Sarbanes cobriu as vantagens do HBase e o papel que desempenha como um banco de dados para o Hadoop HDFS.

De acordo com Sarbanes, existem muitas limitações no Hadoop HDFS. O HBase, banco de dados do Hadoop, é um banco de dados NoSQL que ajuda a superar esses problemas. Modelado após o BigTable do Google – banco de dados orientado a colunas desenvolvido pelo Google e usado pelo Google File System para gerenciar petabytes de informação – o HBase é um sistema de gerenciamento de banco de dados também colunar que roda em cima do HDFS e é adequado à hospedagem de tabelas muito grandes para armazenar conjuntos de dados (datasets) semi-estruturados. “Há duas coisas em particular que o HDFS não pode fazer”, disse Sarbanes. “Ele não pode operar escritas e leituras aleatórias rápidas o suficiente e também é incapaz de alterar um arquivo sem reescrevê-lo completamente. O HDFS não é um banco de dados, mas preenche essa lacuna”, explicou Sarbanes.

Sobre o Data Summit

datasummitO Data Summit é uma conferência anual de 2 dias, precedida por um dia de oficinas. O evento oferece uma experiência educacional abrangente, projetada para guiar o participante através de todas as questões-chave no gerenciamento e análise de dados. O evento reúne gestores de TI, arquitetos de dados, desenvolvedores de aplicativos, analistas de dados, gerentes de projeto e gerentes de negócios para uma intensa imersão nas principais tecnologias e estratégias para a consolidação dos negócios com base em dados.

Muitas apresentações do Data Summit 2016 estão disponíveis para consulta no link:  www.dbta.com/DataSummit/2016/Presentations.aspx

Fonte: Database Trends and Applications

Share This