5 motivos por que amamos Big Data

Hoje é dia dos namorados. Nada mais justo do que escrevermos um texto homenageando nosso maior amor. Aqui vão 5 motivos por que amamos Big Data.

 

1. Alguém acendeu as luzes

Antigamente as pessoas operavam no escuro. O antigo processo de tomada de decisão envolvia muito instinto e intiuição. Agora não é mais assim. Com a análise de Big Data podemos monitorar e prever resultado para praticamente tudo que podemos imaginar. Com o  racicínio baseado em evidências, a lógica é utilizada apenas para apoiar esse processo. É como se antes trabalhassemos no escuro e alguém acendesse a luz.

2. O mundo se tornou mais eficiente

2015 é o ano da "internet das coisas" (IoT), já ouviu falar dela? Para quem não sabe, IoT é um termo utilizado para descrever um sistema de dispositivos conectados que são utilizados para capturar, gravar e transmitir uma grande quantidade de dados que descrevem operações de equipamentos no mundo físico. Diversos são os profissionais envolvidos nesse processo, não apenas os cientistas de dados, mas também engeinheiros, mecânicos designers e vários outros. Como você pode imaginar, a internet das coisas é incrivelmente útil quando estamos tentando alcançar a máxima eficiência nos recursos mecânicos e de operações. O mundo se tornou mais eficiente.

3. Ela nos da poder para manipular resultados

A análise de Big Data é como uma lanterna que ilumina qualquer sistema, processo ou operação de dados. Você quer mais visibilidade online? Tente usar as métricas analíticas para mensurar, monitorar e otimizar sua atividade na midia social. Quer aumentar a conversão para seu e-commerce? Tente monitorar o que seus visitantes estão fazendo quando entram em seu site. Quer aumentar suas vendas? Tente implementar um sistema de recomendação de produtos. Invista na ciência de dados e você poderá alcançar praticamente qualquer resultado que almeja.

4. O Big Data está salvando vidas

Organizações sem fins lucrativos estão usando a análise de Big Data para salvar vidas. Por exemplo:

- Elva’s long-standing community safety network. Esse projeto envolve o mapeamento, análise, modelagem e uma plataforma mobile de comunicação para salvar e proteger vidas dos perigos e incidentes que ocorrem com frequência na região de Shida Kartli, na Geórgia (EUA).

- QCRI’s Artificial Intelligence for Disaster Response (AIDR) program. Um dashboard no Twitter que, a partir da análise dos dados da rede, auxilia os tomadores de decisão em momentos de desastres com insights em tempo real.

5. Auxilia em nosso próprio negócio

Por fim, o Big Data aulixia também nosso próprio negócio. Existimos para ajudar empresas a tomarem decisões inteligentes, mas com o conhecimento de nossos cientistas de dados, somos capazes de ter insights também sobre a e-Setorial. Ajudamos os outros e ajudamos a nós próprios. Como não amar?

Escrever um comentário (0 Comentários)

Chega de mentiras: o Big Data nos fará mais honestos?

Cada vez mais coletamos dados sobre nossos costumes do dia a dia. Isso torna mais difícil para alguém mentir sem ser descoberto. O Big Data e as inovações analíticas são capazes de dizer se você está dizendo ou não a verdade. 

Dados de dispositívos móveis já estão sendo utilizados por empresas de seguros de automóveis, por exemplo, para rastreas hábitos de condução reais de seus clientes e hospitais estão monitorando seus pacientes. Todos os seus hábitos viraram dados, que por sua vez são armazenados e, portanto, podem ser rastreados.

Será o fim da mentira como a conhecemos?

Empresas estão ficando mais inteligentes. Por exemplo, uma companhia de seguros agora pode monitorar o preenchimento de seus formulátios online. Isso pode mostrar-lhes que algumas vezes as informações são re-digitadas. Ao enviar o formulário, o cliente mudou uma informação: ao invés de falar que o carro estava estacionado na estrada, afirmou que estava em uma garagem. Ferramentas de análise de Big Data agora são capazes de sinalizar esse tipo de fraude. 

Em um sério acidente de carro, a polícia pode recolher os telefones das partes envolvidas e checar se alguém estava falando, redigindo mensagem ou usando algum tipo de aplicativo no momento do acidente. Fulano pode até dizer que estava com as mãos no volante e os olhos na estrada, mas os sensores de seu smartphone não o deixa mentir. É apenas uma questão de tempo para  todos começarmos a usar esse tipo de dado, e cada vez menos será importante a utilização de testemunhas.

E não precisa nem ser em escalas tão grandes. Um gerente de RH pode rapidamente verificar o passado e as qualificações dos candidatos a um emprego. Pais podem rastrear seus filhos para saber se foram realmente para escola ou o quão rápido estavam dirigindo. Podem até mesmo receber uma notificação ou um e-mail quando deixam uma área geográfica pré-definida. 

Essa facilidade na manipulação de dados pode ser até mesmo perigosa. As redes sociais estão cheias de mentiras e boatos, que podem se espalhar muito rapidamente. Um exemplo clássico: Quando a agência de notícias Associated Press teve sua conta do Twitter invadida por hackers, que publicaram a notícia de que o presidente Barack Obama havia se ferido a ataques na Casa Branca. A informação se espalhou tão rapidamente a ponto de interferir no mercado financeiro do país. O índiceDow Jones chegou a perder 130 pontos em questão de minutos. Mas logo a mentira foi detectada e tudo voltou ao normal.

É fascinante observar o poder das informações. Muitos desses algorítmos estão disponíveis nas palmas de nossas mãos, mesmo que ainda para fim de entretenimento. Mas as câmeras e sensores processados em nossos smartphones poderão, muito em breve, dedurar mentirosos.

Escrever um comentário (0 Comentários)

O perfil do cientista de dados, de acordo com o LinkedIn

Ferris Jumah, cientista de dados do Linked In, publicou na rede um artigo sobre a dificuldade em descrever as características de sua profissão, mesmo que já existam diversos materiais que oferecem descrições e guias sobre esta carreira. Jumah fez algo diferente: analisou dados retirados da própria plataforma Linked In, a partir do perfil de pessoas que se dominavam “cientistas de dados”. Assim, conseguiu realizar uma abordagem mais assertiva para a definição desse profissional.

Habilidades mais populares entre os cientistas de dados, de acordo com o Linked In

Data Mining

Machine Learning

R

Phyton

Data Analysis

Statistics

SQL

Java

Matlab

Algorithms

Embora essa lista nos mostre quais são as habilidades mais encontradas nos perfis profissionais, fica difícil relacioná-las observando apenas para um ranking. Para facilitar o entendimento, Ferris Jumah foi mais fundo e criou o seguinte gráfico:

(clique aqui para visualizar a imagem em melhor resolução)

Cada nó representa uma habilidade. Com o objetivo de facilitar a visualização e o entendimento dessas informações, elas foram agrupadas por semelhança e representadas por cores. Em seguida, foram dimensionadas em relação a quantas vezes apareceram conectadas e em suas influências em outras habilidades na rede.

Várias são as conclusões podem ser tiradas a partir desse estudo. São algumas delas:

1) Abordam dados com uma mentalidade matemática

Vemos que machine learning, data mining, data analysisstatistics possuem uma classificação alta. Isso indica que ser capaz de entender e representar dados matematicamente, com intuição estatística, é uma habilidade fundamental para os cientistas de dados.

2) Uso de uma linguagem comum para o acesso, exploração e modelagem de dados

Python, R, e Matlab são as três linguagens mais populares para a visualização e modelo de desenvolvimento, e SQL é a mais comum para acesso a dados . Quando se trata de dados, extrair, explorar e testar hipóteses é uma grande parte do trabalho. Não é nenhuma surpresa que estas habilidades estejam em destaque.

3) Fortes desenvolvedores

Vemos também computer science e software engineering como qualificações, juntamente com Java, C ++, Algoritmos e Hadoop - todas tendo espaço notável na visualização de rede . Estas são as habilidades são usadas principalmente para aproveitar os dados para o desenvolvimento de sistemas.

Provavelmente não existe um profissional especialista em todas essas habilidades, mas sim e um ou duas delas. Esta é, portanto, uma visão holística das características representadas dentro de uma equipe típica de cientistas de dados.

E você, chegou a alguma outra conclusão a partir do estudo de Ferris Jumah? Divida com a gente!

Escrever um comentário (0 Comentários)

Pentaho Day 2015: Um evento dedicado à troca de ideias sobre desenvolvimento Open Source e Pentaho. 

 

A Comunidade Pentaho, qual a e-Setorial está inserida, vem se reunindo desde 2008 para trocar experiências, com o intuíto de fortalecer o grupo. Afinal, precisamos realizar um trabalho excelente para que sejamos reconhecidos como fortes e capazes de realizar grandes feitos com desenvolvimento Open Source. E nada como uma boa troca de ideias e conhecimentos para a obtenção de insights.

No último final de semana, nos dias 15 e 16 de maio, estivemos em Curitiba (PR) para participar do Pentaho Day 2015. Profissionais da área da tecnologia vieram de diversas áreas do Brasil e do mundo. Em média 500 participantes fizeram o maior Pentaho Day da história do evento. 

A organização foi algo que chamou atenção logo de início: desde os e-mails com lembretes antes do evento, o credenciamento divido por ordem alfabética, a divisão das atrações por iniciante/avançado, a estrutura dos auditórios e salas de aula da Universidade Positivo.

Leonardo Matt (Assespro-Paraná), Lincoln Paulo Martins Moreira (Sucesu-Pr), Marcio Junior Vieira (Ambiente Livre Tecnologia), Christian Capelini (Universidade Positivo) e Pedro Alves (Pentaho) abriram o evento com uma breve introdução antes de iniciarem as atrações efetivamente. Nomes como Caio Moreno, Marcio Junior Vieira e Marcello Pontes foram responsáveis pela transmissão de conteúdos para os participantes, através de paletras, mini-cursos e apresentações de cases.

Palestrantes_Pentahoday_2015

(palestrantes Pentaho Day 2015)

Temas específicos foram abordados: Pentaho Data Integration, Modelagem de Dados, CGG & Pentaho Reports, Dashboards Ctools, plug-ins, Amazon Redshift, entre outros. Também foram pincelados o funcionamento de tecnologias complementares.

Além disso por diversos momentos o networking foi facilitado, tanto durante os coffees e quanto durante o jantar de confraternização ao final do primeiro dia de evento.

(coffee break)

(jantar pós primeiro dia de evento) 

E pelo visto, não fomos os únicos animados.

A união do grupo é visível. Temos um objetivo em comum: antes de concorrentes, somos responsáveis pelo fortalecimento Comunidade Pentaho e Open Source. Encontros como esse são muito importantes, mais do que apenas transmissão de conhecimento: o networking e a troca de ideias podem ser a porta de entrada para grandes inovações, tanto para empresas quanto para a sociedade.

(foto oficial do evento/fonte: facebook Pentaho Brasil)

Escrever um comentário (0 Comentários)

O que é uma Solução de Apoio à Decisão?

Solução de Apoio à Decisão (SAD) também conhecido Business Intelligence ou Business Analytics, é a especialidade da e-Setorial: transformar dados em informações úteis para auxiliar a tomada de decisões. A partir da integração de dados oriundos de diversas fontes, é possível organizá-los, categorizá-los e filtrá-los em uma única plataforma. Oferecemos ferramentas visuais intuitivas que permitem a análise e compartilhamento das informações com sua equipe, assegurando a confiabilidade da escolha do gestor. 

(modelos de dashboards oferecidos pela e-Setorial)

Confira o Workflow das nossas Soluções de Apoio à Decisão.

 

Não entendeu muito bem? A gente exemplifica. O seguinte caso aconteceu com uma distribuidora de carros da Toyota: 

No final dos anos 90, a empresa enfrentou grandes problemas em sua cadeia de operações. O custo de armazenamento de carros se elevou e ela não estava mais conseguindo fornecer o produto a tempo para seus clientes. Utilizava computadores que geravam uma quantidade enorme de dados e relatórios que não eram utilizados estratégicamente porque nem sempre eram exatos e muitas vezes eram fornecidos tarde demais - o que atrasava a tomada de decisões.

Uma nova CEO foi contratada. Ela identificou algumas soluções: primeiro, a necessidade de um Data Warehouse - um repositório central de dados, organizado e de fácil acesso. Segundo, a necessidade de implementação de ferramentas de software para efetuar a manipulação desses dados. O novo sistema implantado infelizmente não funcionou de maneira correta: a entrada de dados históricos incluiam anos de erros humanos que foram desapercebidos, dados duplicados, inconsistentes e falta de importantes informações. Tudo isso gerou análises e conclusões precipitadas sobre o funcionamento da distribuidora.

Apenas em 1999 a empresa resolveu implantar uma plataforma de Business Intelligence. Em questão de dias o sistema apresentou bons resultados. Por exemplo, descobriram que a empresa era cobrada duas vezes por um envio especial por trem (um erro de US$ 800.000). Entre 2001 e 2005, o volume de carros negociados aumentou em 40%, o tempo de trânsito foi reduzido em 5%. Esses e vários outros  benefícios ajudaram a Toyota a alcançar as maiores margens de lucro no mercado automotivo desde 2003, e estão aumentando consistentemente a cada ano desde então. Além disso, um estudo realizado pela IDC Inc. em 2011, indicou que a instituição alcançou, naquele ano, um retorno de pelo menos 506% sobre o investimento em BI.

dado-informacao-conhecimento-inteligencia

Esse é apenas um dos inúmeros casos que ilustram a eficiência dessas soluções capazes de integrar e interpretar dados, transformando-os, de alguma forma, em Informação relevante ao seu negócio, possibilitando, com a devida análise, a criação de Conhecimento. Através da utilização e da gestão deste conhecimento nasce a Inteligência. 

Mais de 15 anos passaram desde que a Toyota adotou o BI. Atualmente, geramos mais de 2.5 quintilhões de bytes de dados diariamente, sendo que 90% dos existentes hoje foram criados nos últimos 2 anos. A tendência é que esse número cresça de uma forma cada vez mais rápida. 

E você, o que vai fazer com os seus dados? 

Escrever um comentário (0 Comentários)

Entre os Vs do Big data, velocidade cresce em importância

Ferramentas open source começam a surgir proporcionando análises mais rápidas de grandes volumes de dados. Nem sempre o negócio poderá esperar decisões com espera de vários dias...

O tema Big Data está na mídia e começando a se tornar realidade. Mas curiosamente, até pela inexatidão do nome, atenta-se muito ao fator volume. A capacidade de armazenar dados cresce rapidamente, ao mesmo tempo que seu custo cai. Mas uma variável importante é a velocidade com que, rápida e eficazmente, conseguimos acessar, analisar e tomar decisões baseadas nestas informações. A variável velocidade, ou a velocidade com que o fluxo de informações navega pela organização, é um dos principais Vs dos conceitos embutidos em Big Data.

Velocidade de acesso já é realidade em alguns setores, como financeiro, onde a vantagem competitiva na compra e venda de ações mede-se em microssegundos. Mas à medida que interagimos com as empresas de forma contínua, com nossos smartphones e tablets, elas começam a identificar a importância de interagir com seus clientes durante as próprias interações. Assim, um negócio de comércio eletrônico,  como o da Amazon, propõe recomendações baseadas nos seus padrões de compra no instante em que você está ativo no site. E bancos tentam identificar uma fraude no momento em que você está utilizando um cartão de crédito, em qualquer lugar do planeta.

Mas, vocês pararam para pensar no imenso volume de dados e demanda de processamento que está por trás destas operações? Identificar um padrão de compras ou uma tentativa de fraude envolve a análise de uma montanha de dados estruturados e não estruturados.

Com maior variedade de dados disponiveis, maiores as chances dos algoritmos conseguirem identificar padrões. Em Big Data, a análise, portanto, não se restringe apenas a volumes maiores, mas a um montante mais complexo (diversidade de dados) e a uma velocidade que atenda às necessidades do negócio. Um exemplo interessante é a empresa Dataminr que vasculha cerca de 500 milhões de tuites por dia para buscar informações que mexam com o mercado antes que cheguem ao noticiário. A Dataminr categoriza e analisa cada tuite em tempo real, separando o spam, e comparando a informação com outras fontes de noticias, preços de mercado, padrões climáticos e outros dados para determinar sua importância.

Este quesito, velocidade, tem sido o alvo de inúmeras pesquisas e projetos tecnológicos. Alguns exemplos são o Druid e o Drill. O Drill é a versão open source do Dremel, do Google. Vale a pena estudar um pouco mais a tecnologia Dremel, e para isso sugiro a leitura do texto http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/36632.pdf. Recomendo também olhar o Storm, usado pelo Twitter. É um sistema open source de baixa latência, com o conceito de “stream processing”. Esta modalidade de processamento é necessária quando a aplicação demanda resposta imediata ao dado que chega. Reparem como temos soluções de tecnologia de ponta em open source! Me parece que aos poucos, soluções proprietárias começam a dar lugar a soluções open source, à medida que estas amadurecem e criam um ecossistema consistente em torno de si.

Estas tecnologias complementam o onipresente Hadoop, que foi desenvolvido para operar em batch (tempo muito mais lento...) e provavelmente se consolidarão nos próximos anos. Por sua vez, distribuidores Hadoop, como a Cloudera, desenvolvem soluções que permitem fazer análises rápidas, em cima da massa de dados, sem necessidade de passar por processos batch. O Impala é um exemplo bem emblemático.

Mas temos aí um interessante fato. Ser rápido não significa ser tempo real. Na prática não existe tempo real, mas “quase tempo real”. Tempo real significa que você trata o dado no instante em que ele chega. Trata o dado no presente. Diferente de sistemas como o Drill e o Dremel que tratam dados já armazenados, embora em alta velocidade. O mesmo com o Dataminr, que trata tuites já postados. No dia a dia são poucos os casos de tempo real. Um algoritmo de recomendação como o da Amazon não precisa ser em tempo real. Ele precisa, sim, interagir com o cliente enquanto ele navega pelo site da empresa, o que pode levar alguns segundos ou minutos. Tempo real é necessário para um veículo autonômo como o carro sem motorista do Google, pois tem que tomar decisão no instante que a situação ocorre.

Planejar iniciativas de Big Data passa necessariamente em maior ou menor graus pelos vários Vs, como volume e variedade. Mas, o aspecto velocidade não pode e nem deve ser menosprezado.

Nem sempre o negócio poderá esperar decisões com espera de vários dias...Talvez precisemos analisar e decidir na hora em que o fato está acontecendo.

(*) Cezar Taurion é CEO da Litteris Consulting, autor de seis livros sobre Open Source, Inovação, Cloud Computing e Big Data

Cio.com.br

Escrever um comentário (0 Comentários)

Visualização é fantástico para a transmissão do conhecimento

Visualização é uma das melhores formas de transmissão do conhecimento

Usando conceitos de Big Data e visualizações dinâmicas podemos tomar decisões de negócio muito mais corretas e precisas

Cezar Taurion *

À medida que trabalhamos com volumes e variedades de dados cada vez maiores, o antigo ditado “uma imagem vale mais que mil palavras” torna-se mais verdadeiro.

Um exemplo simples é usar o metrô de uma grande cidade, como Londres. O tube, como é chamado, tem 11 linhas e 270 estações. Em tese, as informações básicas são uma lista de estações em ordem alfabética e nomes das linhas. Mas tente fazer isso... Compare a lista alfabética com o mapa. Fica claríssimo que tentar ir de uma estação para outra tendo em mãos apenas uma lista alfabética é extremamente desgastante. No próprio link da Wikipedia aparece o mapa do tube. Nele fica claro como chegar de uma estação a outra, que linha pegar e mesmo saber quantas estações intermediárias existem e se será necessário trocar de linha e em qual estação fazer isso. De forma bem visível e simples. A imagem vale bem mais que mil palavras.

Este exemplo mostra quanto é importante a visualização de dados. Em uma planilha fica difícil identificarmos tendências ou fazermos correlações entre dados. Mas através de gráficos e imagens nossa percepção dos números muda. Podemos identificar com muita rapidez qual produto vende mais e qual loja é mais lucrativa.

O conceito de Big Data amplia o potencial das análises. Vamos pegar o exemplo acima, das lojas. Analisando apenas dados internos podemos identificar que lojas são mais lucrativas e que produtos vendem mais, dentro de nossa empresa. Podemos tomar ações corretivas em casos de desvios e de tendências negativas. Mas, e quando vemos uma queda nas vendas em determinada região? Sem dados externos, como situação econômica da região, nossas ações terão pouco resultado. Se soubermos da crise econômica, podemos, por exemplo, trocar o mix de produtos para baratear os preços unitários.

Portanto, o conceito de Big Data, apesar da palavra Big chamar atenção, não é apenas volume. Um imenso volume de dados, mas sem as referências que me ajudem a identificar as reais causas da queda nas vendas não será muito útil. Variedade, ou seja, acesso a outras fontes de dados, geralmente externas, possibilita ter uma visão mais ampla do contexto. Aqui de forma simplista, Big data é contexto interno + contexto externo.

Ótimo, demos um passo importante. Mas sem uma boa ferramenta de visualização esta montanha de dados não vai ser de muita serventia...

Querem ver na prática? Confiram esta apresentação de David McCandless, no TED 2010, “The beauty of data visualization”.

Com técnicas modernas de visualização temos condições de identificar padrões ou correlações de dados antes invisíveis. Fazendo as perguntas certas podemos identificar coisas que estão acontecendo ou que irão acontecer, se identificarmos corretamente as tendências. Não o conseguiremos olhando uma planilha... Aliás, David cita uma frase que vale a pena repetir aqui: “ visualization is a form of knowledge compression”. Uma única imagem pode comprimir em um gráfico colorido um imenso volume de dados. Portanto, apenas com visualizações é que será possível compreender volumes imensos e variados de dados.

Afinal a imensa maioria das informações que captamos como seres humanos é visual. Pesquisas mostram que a retina humana consegue transmitir 10 megabits por segundo. Em segundo vem a audição, com 1/10 desta capacidade. Nada mais natural que exploremos a potencialidade das técnicas de visualização para analisarmos e correlacionarmos dados de forma mais eficiente.

Um exemplo do potencial de exploração de bases de dados é o projeto do Google, “Google Public Data Explorer”. E vale a pena ver a apresentação de Hans Rosling, no TED 2006, sobre como uma visualização dinâmica pode mudar ideias pré-concebidas, usando dados públicos: em http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen. Isto é importante, pois muitas decisões de negócios são baseadas na intuição, muitas vezes formada por ideias pré-concebidas e enraizadas por experiências anteriores. Mas, serão realmente válidas?

Usando conceitos de Big Data e visualizações dinâmicas podemos quebrar estas ideias e tomar decisões de negócio muito mais corretas e precisas.
Na verdade, à medida que mais dados temos, mais importante torna-se a capacidade de visualizar estes dados, destilando este imenso e variado volume em informação útil.

As técnicas de visualização são hoje extremamente importantes para a geração de valor do conceito de Big Data. Afinal, Big Data não é um conceito apenas sobre dados, mas como nós podemos extrair insights e inteligência deles. Visualização é a chave mestra para isso.

(*) Cezar Taurion é CEO da Litteris

cio.com.br

Escrever um comentário (0 Comentários)