A Amazon Web Services anunciou ontem a versão 5.0.0 do seu serviço Elastic MapReduce (EMR), que tem a capacidade de processar grandes quantidades de dados – algo bastante útil quando da análise de dados científicos ou processamento de logs do fluxo de cliques – ao distribuir a carga de computação em vários servidores virtuais gerenciados pelo framework open-source Hadoop.

A nova versão contém atualizações para 8 dos 16 projetos do ecossistema Hadoop cobertos pelo EMR, e contemplam os seguintes nomes: HBase, Hive e HCatalog, Hue, Pig, Presto, Spark, Tez e Zeppelin.

emr_500_release_velocity_1-aws
A versão atualizada do Spark inclui uma API para streaming estruturada e suporte SQL aprimorado, de acordo com a AWS. A nova versão do Apache Tez torna-se o mecanismo de execução padrão para as versões atualizadas da interface Hive tipo SQL e da linguagem de script de fluxo de dados Pig, resultando em um melhor desempenho no Hadoop MapReduce, que ela substitui.

Um webinar (em inglês) está programado para o dia 23 de agosto para comentar essas atualizações, e você pode se inscrever aqui:
https://publish.awswebcasts.com/content/connect/c1/7/en/events/event/private/32559812/40055463/event_registration.html?connect-session=graysonbreezog34xg8msiks7p6u&sco-id=41001725&campaign-id=JBtwt&_charset_=utf-8

Na listagem abaixo há uma rápida recapitulação dos lançamentos deste ano:

EMR 4.7.0 – Atualizações para Apache Tez, Apache Phoenix, Presto, HBase e Mahout (junho).
EMR 4.6.0 – HBase para acesso em tempo real de grandes conjuntos de dados (abril).
EMR 4.5.0 – Atualizações para Hadoop, Presto; adição do Spark e do EMRFS (abril).
EMR 4.4.0 – Sqoop, HCatalog, Java 8 e mais (março).
EMR 4.3.0 – Atualizações para Spark, Presto e Ganglia (janeiro).

Fonte: GeekWire

Share This