Para cada tipo de negócio, o tempo é parte intrínseca da essência: um minuto pode significar milhões em alguns casos. E como os clientes esperam que empresas assegurem todos os seus movimentos, operar com dados em um intervalo de uma semana, um dia ou até mesmo horas pode ser algo fatal. Hadoop, a ferramenta de Big Data para processamento de dados, pode ser o melhor amigo das empresas diante desse contexto, quando se trata de obter uma visão em tempo real baseada em dados.

Como as organizações procuram cada vez mais acelerar o time-to-market, antecipar e responder às necessidades dos seus clientes, e introduzir novos produtos e serviços, precisam também ter a assertiva de que suas decisões são baseadas em informações que são, ao mesmo tempo, frescas e verdadeiras. Por esta razão, um número crescente de desenvolvedores têm buscado formas de otimizar o Hadoop para aumentar tanto o insight para os negócios como as vantagens competitivas.

Para os desenvolvedores que desejam aperfeiçoar o uso do framework Hadoop, aqui vão 5 dicas para começar:

Ineditismo

É algo a se fazer em massa e em lote. Outra coisa completamente diferente é ser capaz de fazê-lo em tempo real. Estar à frente no ritmo dos negócios não é tanto sobre compreender o que seus clientes fizeram no seu site ontem. Mas sobre saber o que eles estão fazendo agora – e ser capaz de influenciar as experiências desses clientes imediatamente – antes que eles deixem o seu site.

Uma das melhores coisas sobre o Spark – e o streaming do Spark – é que ele oferece aos desenvolvedores um conjunto de ferramentas que possibilita operar em massa, em lote e em tempo real. Com as ferramentas de integração de dados, é possível projetar fluxos de integração através de todos os sistemas com um conjunto de ferramentas, e com isso obter dados de históricos de fontes juntamente com a transmissão de dados em tempo real de sites, dispositivos móveis e sensores.

Informações em massa e em lote podem ser armazenadas no Hadoop, enquanto que informações em tempo real podem ser armazenadas em bases de dados NoSQL. Independentemente da fonte de dados, é possível usar uma única interface de consulta com o Spark SQL de aplicativos mobile, analytics e aplicativos web para pesquisar pelas informações corretas em todas as fontes de dados.

Rapidez

De uma maneira geral, combinar o Hadoop com trabalhos de integração de dados tradicionais em massa e em lote pode melhorar drasticamente o desempenho. Simplesmente mover trabalhos de integração de dados criados com o MapReduce para o Apache Spark permitirá completar os trabalhos duas vezes e meia mais rápido. Depois de converter os trabalhos, adicionar componentes específicos do Spark para cache e posicionamento pode aumentar o desempenho em mais de 5 vezes. A partir daí, aumentar a quantidade de memória RAM no seu hardware lhe permitirá fazer mais coisas in-memory e realmente experimentar uma melhoria de 10 vezes na produtividade.

Inteligência

Agora você pode processar dados em tempo real. Mas você está processando de forma inteligente? O Spark utiliza aprendizado de máquina – machine learning – que melhora o QI de sua query, por exemplo, o que permite personalizar o conteúdo da web para cada cliente. Isso por si só pode aumentar significativamente o número de pageviews. As capacidades do machine learning do Spark também permitem entregar ofertas específicas, que podem ajudar a aumentar as taxas de conversão. Assim, ao mesmo tempo em que se cria uma melhor experiência do cliente, também se direciona mais receita – um ganho excelente e importante no processo.

Por exemplo, é possível usar o Spark para prever quais clientes online podem abandonar seus carrinhos de compras – e depois apresentá-los com ofertas de incentivos antes que abandonem o site. Você não tem que ser um grande varejista para se beneficiar. Estas ferramentas de design simples tornam possíveis a empresas de qualquer tamanho fazer análises em tempo real e fornecer uma experiência de cliente aprimorada.

Cria código na mão? Otimize!

Todas as dicas mencionadas acima podem ser programadas no Spark, Java ou Scala. Mas há uma maneira melhor de fazer isso. Usar uma interface de design visual centrada no usuário pode aumentar a produtividade de desenvolvimento em 10 vezes ou mais. Ao projetar trabalhos, usando uma interface de usuário visual torna significativamente mais fácil o compartilhamento de trabalho com os colegas. As pessoas podem visualizar um trabalho de integração e entender o que está sendo feito – tornando a colaboração direta e a capacidade de reutilização do desenvolvimento do trabalho mais simples.

Esteja à frente no jogo

Você pode começar imediatamente, usando uma sandbox de Big Data: uma máquina virtual com Spark pré-carregado e um caso de uso de streaming em tempo real. Se precisar, há um guia simples que oferece um passo a passo.

Fonte: InsideBigData

Share This