Big Data. Isso soa familiar? Claro, você pode ter lido a respeito em jornais ou revistas de tecnologia ou ouvido falar em fóruns e conferências. Mas a maioria de das pessoas ainda está confusa sobre o que vem a ser Big Data. É apenas mais um buzz da indústria de TI ou significa algo realmente importante?

A Wikipedia define Big Data como “um termo abrangente para qualquer coleção de conjuntos de dados tão grande e complexo que se torna difícil processá-los usando ferramentas de gerenciamento de dados ou aplicações de processamento de dados tradicionais”.

datamining

Nos últimos 15 anos, a quantidade de dados coletados por empresas através da Internet aumentou muito. Empresas como Google, Microsoft e Facebook estavam coletando dados cegamente, mas ainda não sabiam o que fazer com toda essa informação. Os conjuntos de dados eram gigantes para serem processados por métodos analíticos tradicionais. Se as empresas podiam ganhar alguma coisa com a extração de todos esses dados, teriam primeiro que desenvolver meios para lidar com isso.

Tudo começou com um trabalho de pesquisa lançado pelo Google e intitulado “Google – MapReduce: Simplified Data Processing on Large Clusters“. (“Google – MapReduce: Processamento de Dados Simplificados em Grandes Clusters)”. O Google – MapReduce é um modelo de programação e uma implementação associada para processamento e geração de grandes conjuntos de dados. Postula que a maioria dos conjuntos de dados pode ser processada usando duas funções básicas: uma função de mapa que processa um par chave/valor para gerar um conjunto de pares de chave/valor intermediários, e uma função de redução que mescla todos os valores intermediários associados a uma mesma chave intermediária. Este trabalho lançou as bases para o desenvolvimento do framework Apache Hadoop.

O Hadoop é um framework open-source para armazenamento e processamento distribuído de grandes conjuntos de dados em clusters de computadores construídos a partir de hardware commodity. Em palavras mais simples, ele nos ajuda a tirar conclusões a partir de grandes conjuntos de dados. Agora, você pode-se perguntar, e por que tudo isso é mesmo importante? É preciso lembrar que muitas dessas empresas são baseadas em serviços. As informações que recebem de seus clientes, se processadas, podem ser usadas para prever demandas com bastante precisão, aumentando, assim, as vendas. Na verdade, você pode experimentar isso sozinho. Acesse a Amazon e compre um produto; digamos, um Raspberry Pi. Uma vez que você estiver na página de ofertas de Raspberry Pi, verá uma lista de recomendações sobre o que outros usuários compraram junto com o Raspberry Pi. E considere 80% de chance de que você chegue a comprar um case juntamente com o seu Raspberry Pi pesquisado.

Mas esse não é o único campo onde o Big Data é útil. O Big Data, hoje, está sendo usado para resolver muitos problemas do mundo real, com o intuito de otimizar processos nas empresas e fazê-las economizar dinheiro. O “Big Data analytics” é usado em todos os setores, de bancos a hospitais até na logística e mesmo nos esportes.

Empresas de diferentes setores apenas começaram a perceber o poder da ciência de dados. Em breve, qualquer empresa que não incorporar a análise de dados em sua estrutura de trabalho se tornará obsoleta. Por isso, muitas estão à procura de profissionais com habilidades analíticas de dados, capazes de dar sentido a todos os dados gerados pela empresa e transformá-los em ideias rentáveis. A demanda cresceu tanto que “a análise estatística e mineração de dados” é a segunda habilidade mais procurada pelos recrutadores em uma pesquisa divulgada pelo LinkedIn no ano passado. Assim, a próxima vez que você pensar sobre em obter uma certificação, certifique-se de que o Hadoop esteja na lista.

Fonte: PaGalGuy

Share This