Hadoop conquista TI das companhias

Entre os usuários do mundo online estão eBay, Facebook, LinkedIn, Netflix e Twitter, mas também está presente em empresas de outros setores como finanças, tecnologia, telecomunicações e governo. 

Cada vez mais, companhias de TI estão encontrando um lugar para Hadoop em seus planos de arquitetura de dados. O atrativo, em poucas palavras, é que o Hadoop permite uma computação massivamente paralela em servidores de commodities de baixo custo. As organizações podem coletar mais dados e realizar análises que antes não eram práticas por causa do custo, complexidade e falta de ferramentas.

Na Concurrent Computer, a decisão de usar o Hadoop foi impulsionada em grande parte pela escalabilidade. "Essa era a maior preocupação. Com um banco de dados relacional tradicional, cada vez que você deseja crescer ou escalar, acaba pagando por isso", diz Will Lazzaro, diretor de engenharia da Concurrent, que fornece vídeo on demand e processa diariamente milhares de registros relacionados aos telespectadores, o consumo de conteúdo e as operações da plataforma.

"Quando se trata do trabalho pesado de obtenção de dados do dia anterior em nosso sistema, o Hadoop é a tecnologia oportuna para buscá-los, mesmo que eles sejam estruturados, semi-estruturados ou não estruturados", diz Lazzaro.

Lidando com Big Data

Hadoop permite que as empresas armazenem e processem dados que antes eram rejeitados [arquivos de log, por exemplo] porque era muito difícil o processo e não se encaixava corretamente em esquemas de banco de dados tradicionais. Esse é o ponto crucial do chamado Big Data, diz Matt Aslett, gerente de pesquisa, gerenciamento de dados e análise da 451 Research. "Trata-se de fazer ações com os dados que anteriormente foram jogados fora, permitindo, assim, novas aplicações e projetos."

"Essa abordagem, que permite apenas armazenar os dados e depois descobrir o que você quer fazer com ele, é muito mais apropriada para dados não estruturados e semi-estruturados como dados de log da web, mas seria necessário fazer alguns testes", afirma Aslett. "O custo para fazer isso em um data warehouse empresarial seria proibitivo."

A Return Path, empresa certificadora de e-mail, começou a experimentar o Hadoop em 2008, atraído pelo seu enorme potencial de armazenamento e a capacidade de escalar facilmente, adicionando servidores. A companhia recolhe grandes quantidades de dados de Internet Service Providers (ISPs) e os analisa para estabelecer a reputação do remetente de e-mail, identificar problemas de entrega ou monitorar as mensagens potencialmente prejudiciais, por exemplo.

Nos primeiros dias, a assinatura de um novo ISP pode resultar em uma quadruplicação dos dados. Diante desse cenário, a empresa encontrou-se em uma posição em que ela não poderia manter os dados, nem processá-los da forma desejada, lembra o CTO, Andy Sautins. Ao longo dos anos, ele e sua equipe tentaram algumas soluções personalizadas. "Esse trabalho foi bem-sucedido, mas exigiu muito mais tempo e investimento em desenvolvimento de software, que fizeram sentido", diz Sautins.

O Hadoop foi um divisor de águas, observa o executivo. "Ele realmente nos ajudou a ser capazes de resistir à tempestade de reter e processar mais dados."

Saindo da sombra

O Apache Hadoop inclui dois subprojetos principais: o Hadoop Distributed File System (HDFS), que proporciona alto rendimento de acesso a dados, e o Hadoop MapReduce, que é uma estrutura de software para processamento distribuído de grandes conjuntos de dados em clusters de computação. 

A entrada do Hadoop ao mercado como plataforma empresarial lembra a chegada do Linux: implementações foram precedidas de projetos de TI, ou testes antes de adotá-lo em larga escala. A adoção está crescendo em grande parte por meio de desenvolvedores. "É exatamente igual à movimentação do Linux nas empresas”, afirma Aslett.

O surgimento de fornecedores com força comercial orientada ao Hadoop, incluindo ferramentas de suporte, gestão e assistência de configuração - acelerou ainda mais a adoção no âmbito empresarial. Companhias-chave nessa arena são Cloudera, MapR Technologies e Hortonworks, que ajudaram o Yahoo a desenvolver a distribuição do Hadoop. A solução também está na mira de empresas como IBM, Oracle, Microsoft e EMC, ávidos para lucrar com ela.

A Concurrent usa a plataforma Cloudera CDH. "Certamente poderíamos ter a versão opensource sem o apoio Cloudera, mas nós encontramos um parceiro que nos permite expandir a solução e aumentar nossos conhecimentos, e realmente compreender como funciona o sistema", explica Lazzaro.

A Return Path começou a trabalhar com o MapR no ano passado, um movimento que fez para melhorar a estabilidade e o desempenho. "Registramos aumento de dois e meio a três vezes na performance em nossas cargas de trabalho", diz Sautins. "Isso significa que podemos executar tarefas duas vezes mais rápido”, observa.

Encontrando talentos

Hadoop torna mais fácil para processar grandes quantidades de dados, mas desafia as empresas na hora de escolher a tecnologia mais apropriada para lidar com diferentes tipos de dados. "Ainda há muita confusão sobre quais aplicações e cargas de trabalho devem estar no Hadoop contra aquelas que deveriam estar em um tradicional data warehouse”, aponta Aslett. "Infelizmente, neste ponto, não há respostas fáceis."

Outro desafio que surge com o crescimento do Hadoop é encontrar pessoas para trabalhar com a tecnologia. "Há falta de habilidade, e isso é definitivamente um obstáculo em termos de adoção”, argumenta Aslett.

Cloudera, IBM, Hortonworks e MapR estão investindo pesadamente em programas de treinamento para ensinar os profissionais de TI como implementar, configurar e gerenciar os produtos do Hadoop. "Eles estão bem conscientes de que esse é um problema que pode limitar o avanço da solução no mercado”, observa o executivo.

"Atualmente, contratar está difícil", reconhece Omer Trajman, vice-presidente de soluções para clientes da Cloudera. Uma abordagem mais viável é olhar internamente para candidatos maduros para aprender Hadoop, sugere.

Por outro lado, conforme a adoção de Hadoop cresce, o número de profissionais de TI com conhecimentos na solução. “Nos últimos dois anos, toda vez que perguntei a um candidato se ele tinha experiência em Hadoop, geralmente a resposta era ‘hã-quê?’. Com o amadurecimento da tecnologia, esse quadro deverá mudar ", diz Lazzaro.

Sautins, da Return Path, afirma que um profissional que vai trabalhar com a plataforma deve ter conhecimento na área de cluster, interesse em unir ferramentas e verificar como elas funcionam juntas. “É um conjunto de habilidades.”

Fonte: computerworld