O perfil do cientista de dados, de acordo com o LinkedIn

Ferris Jumah, cientista de dados do Linked In, publicou na rede um artigo sobre a dificuldade em descrever as características de sua profissão, mesmo que já existam diversos materiais que oferecem descrições e guias sobre esta carreira. Jumah fez algo diferente: analisou dados retirados da própria plataforma Linked In, a partir do perfil de pessoas que se dominavam “cientistas de dados”. Assim, conseguiu realizar uma abordagem mais assertiva para a definição desse profissional.

Habilidades mais populares entre os cientistas de dados, de acordo com o Linked In

Data Mining

Machine Learning

R

Phyton

Data Analysis

Statistics

SQL

Java

Matlab

Algorithms

Embora essa lista nos mostre quais são as habilidades mais encontradas nos perfis profissionais, fica difícil relacioná-las observando apenas para um ranking. Para facilitar o entendimento, Ferris Jumah foi mais fundo e criou o seguinte gráfico:

(clique aqui para visualizar a imagem em melhor resolução)

Cada nó representa uma habilidade. Com o objetivo de facilitar a visualização e o entendimento dessas informações, elas foram agrupadas por semelhança e representadas por cores. Em seguida, foram dimensionadas em relação a quantas vezes apareceram conectadas e em suas influências em outras habilidades na rede.

Várias são as conclusões podem ser tiradas a partir desse estudo. São algumas delas:

1) Abordam dados com uma mentalidade matemática

Vemos que machine learning, data mining, data analysisstatistics possuem uma classificação alta. Isso indica que ser capaz de entender e representar dados matematicamente, com intuição estatística, é uma habilidade fundamental para os cientistas de dados.

2) Uso de uma linguagem comum para o acesso, exploração e modelagem de dados

Python, R, e Matlab são as três linguagens mais populares para a visualização e modelo de desenvolvimento, e SQL é a mais comum para acesso a dados . Quando se trata de dados, extrair, explorar e testar hipóteses é uma grande parte do trabalho. Não é nenhuma surpresa que estas habilidades estejam em destaque.

3) Fortes desenvolvedores

Vemos também computer science e software engineering como qualificações, juntamente com Java, C ++, Algoritmos e Hadoop - todas tendo espaço notável na visualização de rede . Estas são as habilidades são usadas principalmente para aproveitar os dados para o desenvolvimento de sistemas.

Provavelmente não existe um profissional especialista em todas essas habilidades, mas sim e um ou duas delas. Esta é, portanto, uma visão holística das características representadas dentro de uma equipe típica de cientistas de dados.

E você, chegou a alguma outra conclusão a partir do estudo de Ferris Jumah? Divida com a gente!

Escrever um comentário (0 Comentários)

Pentaho Day 2015: Um evento dedicado à troca de ideias sobre desenvolvimento Open Source e Pentaho. 

 

A Comunidade Pentaho, qual a e-Setorial está inserida, vem se reunindo desde 2008 para trocar experiências, com o intuíto de fortalecer o grupo. Afinal, precisamos realizar um trabalho excelente para que sejamos reconhecidos como fortes e capazes de realizar grandes feitos com desenvolvimento Open Source. E nada como uma boa troca de ideias e conhecimentos para a obtenção de insights.

No último final de semana, nos dias 15 e 16 de maio, estivemos em Curitiba (PR) para participar do Pentaho Day 2015. Profissionais da área da tecnologia vieram de diversas áreas do Brasil e do mundo. Em média 500 participantes fizeram o maior Pentaho Day da história do evento. 

A organização foi algo que chamou atenção logo de início: desde os e-mails com lembretes antes do evento, o credenciamento divido por ordem alfabética, a divisão das atrações por iniciante/avançado, a estrutura dos auditórios e salas de aula da Universidade Positivo.

Leonardo Matt (Assespro-Paraná), Lincoln Paulo Martins Moreira (Sucesu-Pr), Marcio Junior Vieira (Ambiente Livre Tecnologia), Christian Capelini (Universidade Positivo) e Pedro Alves (Pentaho) abriram o evento com uma breve introdução antes de iniciarem as atrações efetivamente. Nomes como Caio Moreno, Marcio Junior Vieira e Marcello Pontes foram responsáveis pela transmissão de conteúdos para os participantes, através de paletras, mini-cursos e apresentações de cases.

Palestrantes_Pentahoday_2015

(palestrantes Pentaho Day 2015)

Temas específicos foram abordados: Pentaho Data Integration, Modelagem de Dados, CGG & Pentaho Reports, Dashboards Ctools, plug-ins, Amazon Redshift, entre outros. Também foram pincelados o funcionamento de tecnologias complementares.

Além disso por diversos momentos o networking foi facilitado, tanto durante os coffees e quanto durante o jantar de confraternização ao final do primeiro dia de evento.

(coffee break)

(jantar pós primeiro dia de evento) 

E pelo visto, não fomos os únicos animados.

A união do grupo é visível. Temos um objetivo em comum: antes de concorrentes, somos responsáveis pelo fortalecimento Comunidade Pentaho e Open Source. Encontros como esse são muito importantes, mais do que apenas transmissão de conhecimento: o networking e a troca de ideias podem ser a porta de entrada para grandes inovações, tanto para empresas quanto para a sociedade.

(foto oficial do evento/fonte: facebook Pentaho Brasil)

Escrever um comentário (0 Comentários)

O que é uma Solução de Apoio à Decisão?

Solução de Apoio à Decisão (SAD) também conhecido Business Intelligence ou Business Analytics, é a especialidade da e-Setorial: transformar dados em informações úteis para auxiliar a tomada de decisões. A partir da integração de dados oriundos de diversas fontes, é possível organizá-los, categorizá-los e filtrá-los em uma única plataforma. Oferecemos ferramentas visuais intuitivas que permitem a análise e compartilhamento das informações com sua equipe, assegurando a confiabilidade da escolha do gestor. 

(modelos de dashboards oferecidos pela e-Setorial)

Confira o Workflow das nossas Soluções de Apoio à Decisão.

 

Não entendeu muito bem? A gente exemplifica. O seguinte caso aconteceu com uma distribuidora de carros da Toyota: 

No final dos anos 90, a empresa enfrentou grandes problemas em sua cadeia de operações. O custo de armazenamento de carros se elevou e ela não estava mais conseguindo fornecer o produto a tempo para seus clientes. Utilizava computadores que geravam uma quantidade enorme de dados e relatórios que não eram utilizados estratégicamente porque nem sempre eram exatos e muitas vezes eram fornecidos tarde demais - o que atrasava a tomada de decisões.

Uma nova CEO foi contratada. Ela identificou algumas soluções: primeiro, a necessidade de um Data Warehouse - um repositório central de dados, organizado e de fácil acesso. Segundo, a necessidade de implementação de ferramentas de software para efetuar a manipulação desses dados. O novo sistema implantado infelizmente não funcionou de maneira correta: a entrada de dados históricos incluiam anos de erros humanos que foram desapercebidos, dados duplicados, inconsistentes e falta de importantes informações. Tudo isso gerou análises e conclusões precipitadas sobre o funcionamento da distribuidora.

Apenas em 1999 a empresa resolveu implantar uma plataforma de Business Intelligence. Em questão de dias o sistema apresentou bons resultados. Por exemplo, descobriram que a empresa era cobrada duas vezes por um envio especial por trem (um erro de US$ 800.000). Entre 2001 e 2005, o volume de carros negociados aumentou em 40%, o tempo de trânsito foi reduzido em 5%. Esses e vários outros  benefícios ajudaram a Toyota a alcançar as maiores margens de lucro no mercado automotivo desde 2003, e estão aumentando consistentemente a cada ano desde então. Além disso, um estudo realizado pela IDC Inc. em 2011, indicou que a instituição alcançou, naquele ano, um retorno de pelo menos 506% sobre o investimento em BI.

dado-informacao-conhecimento-inteligencia

Esse é apenas um dos inúmeros casos que ilustram a eficiência dessas soluções capazes de integrar e interpretar dados, transformando-os, de alguma forma, em Informação relevante ao seu negócio, possibilitando, com a devida análise, a criação de Conhecimento. Através da utilização e da gestão deste conhecimento nasce a Inteligência. 

Mais de 15 anos passaram desde que a Toyota adotou o BI. Atualmente, geramos mais de 2.5 quintilhões de bytes de dados diariamente, sendo que 90% dos existentes hoje foram criados nos últimos 2 anos. A tendência é que esse número cresça de uma forma cada vez mais rápida. 

E você, o que vai fazer com os seus dados? 

Escrever um comentário (0 Comentários)

Entre os Vs do Big data, velocidade cresce em importância

Ferramentas open source começam a surgir proporcionando análises mais rápidas de grandes volumes de dados. Nem sempre o negócio poderá esperar decisões com espera de vários dias...

O tema Big Data está na mídia e começando a se tornar realidade. Mas curiosamente, até pela inexatidão do nome, atenta-se muito ao fator volume. A capacidade de armazenar dados cresce rapidamente, ao mesmo tempo que seu custo cai. Mas uma variável importante é a velocidade com que, rápida e eficazmente, conseguimos acessar, analisar e tomar decisões baseadas nestas informações. A variável velocidade, ou a velocidade com que o fluxo de informações navega pela organização, é um dos principais Vs dos conceitos embutidos em Big Data.

Velocidade de acesso já é realidade em alguns setores, como financeiro, onde a vantagem competitiva na compra e venda de ações mede-se em microssegundos. Mas à medida que interagimos com as empresas de forma contínua, com nossos smartphones e tablets, elas começam a identificar a importância de interagir com seus clientes durante as próprias interações. Assim, um negócio de comércio eletrônico,  como o da Amazon, propõe recomendações baseadas nos seus padrões de compra no instante em que você está ativo no site. E bancos tentam identificar uma fraude no momento em que você está utilizando um cartão de crédito, em qualquer lugar do planeta.

Mas, vocês pararam para pensar no imenso volume de dados e demanda de processamento que está por trás destas operações? Identificar um padrão de compras ou uma tentativa de fraude envolve a análise de uma montanha de dados estruturados e não estruturados.

Com maior variedade de dados disponiveis, maiores as chances dos algoritmos conseguirem identificar padrões. Em Big Data, a análise, portanto, não se restringe apenas a volumes maiores, mas a um montante mais complexo (diversidade de dados) e a uma velocidade que atenda às necessidades do negócio. Um exemplo interessante é a empresa Dataminr que vasculha cerca de 500 milhões de tuites por dia para buscar informações que mexam com o mercado antes que cheguem ao noticiário. A Dataminr categoriza e analisa cada tuite em tempo real, separando o spam, e comparando a informação com outras fontes de noticias, preços de mercado, padrões climáticos e outros dados para determinar sua importância.

Este quesito, velocidade, tem sido o alvo de inúmeras pesquisas e projetos tecnológicos. Alguns exemplos são o Druid e o Drill. O Drill é a versão open source do Dremel, do Google. Vale a pena estudar um pouco mais a tecnologia Dremel, e para isso sugiro a leitura do texto http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/36632.pdf. Recomendo também olhar o Storm, usado pelo Twitter. É um sistema open source de baixa latência, com o conceito de “stream processing”. Esta modalidade de processamento é necessária quando a aplicação demanda resposta imediata ao dado que chega. Reparem como temos soluções de tecnologia de ponta em open source! Me parece que aos poucos, soluções proprietárias começam a dar lugar a soluções open source, à medida que estas amadurecem e criam um ecossistema consistente em torno de si.

Estas tecnologias complementam o onipresente Hadoop, que foi desenvolvido para operar em batch (tempo muito mais lento...) e provavelmente se consolidarão nos próximos anos. Por sua vez, distribuidores Hadoop, como a Cloudera, desenvolvem soluções que permitem fazer análises rápidas, em cima da massa de dados, sem necessidade de passar por processos batch. O Impala é um exemplo bem emblemático.

Mas temos aí um interessante fato. Ser rápido não significa ser tempo real. Na prática não existe tempo real, mas “quase tempo real”. Tempo real significa que você trata o dado no instante em que ele chega. Trata o dado no presente. Diferente de sistemas como o Drill e o Dremel que tratam dados já armazenados, embora em alta velocidade. O mesmo com o Dataminr, que trata tuites já postados. No dia a dia são poucos os casos de tempo real. Um algoritmo de recomendação como o da Amazon não precisa ser em tempo real. Ele precisa, sim, interagir com o cliente enquanto ele navega pelo site da empresa, o que pode levar alguns segundos ou minutos. Tempo real é necessário para um veículo autonômo como o carro sem motorista do Google, pois tem que tomar decisão no instante que a situação ocorre.

Planejar iniciativas de Big Data passa necessariamente em maior ou menor graus pelos vários Vs, como volume e variedade. Mas, o aspecto velocidade não pode e nem deve ser menosprezado.

Nem sempre o negócio poderá esperar decisões com espera de vários dias...Talvez precisemos analisar e decidir na hora em que o fato está acontecendo.

(*) Cezar Taurion é CEO da Litteris Consulting, autor de seis livros sobre Open Source, Inovação, Cloud Computing e Big Data

Cio.com.br

Escrever um comentário (0 Comentários)

Visualização é fantástico para a transmissão do conhecimento

Visualização é uma das melhores formas de transmissão do conhecimento

Usando conceitos de Big Data e visualizações dinâmicas podemos tomar decisões de negócio muito mais corretas e precisas

Cezar Taurion *

À medida que trabalhamos com volumes e variedades de dados cada vez maiores, o antigo ditado “uma imagem vale mais que mil palavras” torna-se mais verdadeiro.

Um exemplo simples é usar o metrô de uma grande cidade, como Londres. O tube, como é chamado, tem 11 linhas e 270 estações. Em tese, as informações básicas são uma lista de estações em ordem alfabética e nomes das linhas. Mas tente fazer isso... Compare a lista alfabética com o mapa. Fica claríssimo que tentar ir de uma estação para outra tendo em mãos apenas uma lista alfabética é extremamente desgastante. No próprio link da Wikipedia aparece o mapa do tube. Nele fica claro como chegar de uma estação a outra, que linha pegar e mesmo saber quantas estações intermediárias existem e se será necessário trocar de linha e em qual estação fazer isso. De forma bem visível e simples. A imagem vale bem mais que mil palavras.

Este exemplo mostra quanto é importante a visualização de dados. Em uma planilha fica difícil identificarmos tendências ou fazermos correlações entre dados. Mas através de gráficos e imagens nossa percepção dos números muda. Podemos identificar com muita rapidez qual produto vende mais e qual loja é mais lucrativa.

O conceito de Big Data amplia o potencial das análises. Vamos pegar o exemplo acima, das lojas. Analisando apenas dados internos podemos identificar que lojas são mais lucrativas e que produtos vendem mais, dentro de nossa empresa. Podemos tomar ações corretivas em casos de desvios e de tendências negativas. Mas, e quando vemos uma queda nas vendas em determinada região? Sem dados externos, como situação econômica da região, nossas ações terão pouco resultado. Se soubermos da crise econômica, podemos, por exemplo, trocar o mix de produtos para baratear os preços unitários.

Portanto, o conceito de Big Data, apesar da palavra Big chamar atenção, não é apenas volume. Um imenso volume de dados, mas sem as referências que me ajudem a identificar as reais causas da queda nas vendas não será muito útil. Variedade, ou seja, acesso a outras fontes de dados, geralmente externas, possibilita ter uma visão mais ampla do contexto. Aqui de forma simplista, Big data é contexto interno + contexto externo.

Ótimo, demos um passo importante. Mas sem uma boa ferramenta de visualização esta montanha de dados não vai ser de muita serventia...

Querem ver na prática? Confiram esta apresentação de David McCandless, no TED 2010, “The beauty of data visualization”.

Com técnicas modernas de visualização temos condições de identificar padrões ou correlações de dados antes invisíveis. Fazendo as perguntas certas podemos identificar coisas que estão acontecendo ou que irão acontecer, se identificarmos corretamente as tendências. Não o conseguiremos olhando uma planilha... Aliás, David cita uma frase que vale a pena repetir aqui: “ visualization is a form of knowledge compression”. Uma única imagem pode comprimir em um gráfico colorido um imenso volume de dados. Portanto, apenas com visualizações é que será possível compreender volumes imensos e variados de dados.

Afinal a imensa maioria das informações que captamos como seres humanos é visual. Pesquisas mostram que a retina humana consegue transmitir 10 megabits por segundo. Em segundo vem a audição, com 1/10 desta capacidade. Nada mais natural que exploremos a potencialidade das técnicas de visualização para analisarmos e correlacionarmos dados de forma mais eficiente.

Um exemplo do potencial de exploração de bases de dados é o projeto do Google, “Google Public Data Explorer”. E vale a pena ver a apresentação de Hans Rosling, no TED 2006, sobre como uma visualização dinâmica pode mudar ideias pré-concebidas, usando dados públicos: em http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen. Isto é importante, pois muitas decisões de negócios são baseadas na intuição, muitas vezes formada por ideias pré-concebidas e enraizadas por experiências anteriores. Mas, serão realmente válidas?

Usando conceitos de Big Data e visualizações dinâmicas podemos quebrar estas ideias e tomar decisões de negócio muito mais corretas e precisas.
Na verdade, à medida que mais dados temos, mais importante torna-se a capacidade de visualizar estes dados, destilando este imenso e variado volume em informação útil.

As técnicas de visualização são hoje extremamente importantes para a geração de valor do conceito de Big Data. Afinal, Big Data não é um conceito apenas sobre dados, mas como nós podemos extrair insights e inteligência deles. Visualização é a chave mestra para isso.

(*) Cezar Taurion é CEO da Litteris

cio.com.br

Escrever um comentário (0 Comentários)

Qual é o real valor dos dados?

Um beneficio da valorização dos dados é que ela torna mais simples a proposição de projetos que envolvam os conceitos de manuseio de informação, como Big Data

Cezar Taurion*

Hoje geramos dados a todo instante e em praticamente todas as nossas ações do dia a dia: quando fazemos compras nos supermercados, quando postamos no Facebook, quando usamos nosso smartphone, quando ativamos o GPS no carro e assim por diante. Claramente dados tem muito valor, mas ainda não conseguimos avaliar este seu valor corretamente. Alguns estudos apontam valores elevadíssimos.

Um recente estudo do Federal Reserve, nos EUA, estima que o total de dados e outros ativos intangíveis das empresas, como patentes, marcas registradas e direitos autorais podem valer mais de oito trilhões de dólares, que é um valor quase igual ao PIB somado da Alemanha, França e Itália. Estes ativos intangíveis estão se tornando parte cada vez mais importante da economia global.

As patentes, por exemplo, vêm sendo um dos principais motivadores de aquisições de empresas, como a compra da Motorola pelo Google, por mais de 11 bilhões de dólares em 2011. Outro exemplo é o valor de ações de empresas como Facebook, eBay e Google. Se subtrairmos suas dividas, vemos que elas possuem um total de 125 bilhões em ativos, mas o valor combinado de suas ações é de 660 bilhões de dólares. A diferença reflete a percepção do mercado de que os ativos mais valiosos destas empresas são seus algoritmos, patentes e um enorme volume de informações sobre usuários e clientes. Este valor não aparece nos balanços.

O desafio de valorizar dados

A partir de 2012 o Gartner começou a propor um novo modelo econômico para mensurar o valor dos dados, que ele batizou de infonomics. Infonomics é a disciplina de mensurar e avaliar a significância econômica dos dados e informações que uma empresa possui, de modo que estas informações possam ser valorizadas monetária e contabilmente. Recomendo ler um artigo sobre o assunto, publicado na Forbes:  http://www.forbes.com/sites/gartnergroup/2012/05/22/infonomics-the-practice-of-information-economics/.

É curioso observar que os dados, apesar de todos os discursos sobre seu valor competitivo, não são valorizados monetariamente e contabilmente. Por exemplo, se um data center pegar fogo, as seguradoras cobrem o prejuízo sofrido pelas instalações e pelo maquinário, de geradores a servidores. Mas não cobre o conteúdo dos dados que foram perdidos.

De maneira geral, uma empresa com boa governança de TI mantém uma política de backup eficiente e consegue recuperar todas ou quase todas os seus dados e informações. Mas caso não consiga, não obterá da seguradora a reparação pelo valor dos dados perdidos.

Vivemos hoje na sociedade a informação e informação é um produto por si mesmo, além de ser o combustível que impulsiona os negócios da maioria das empresas. A consequência deste fato é o surgimento, ao longo das ultimas décadas, de tecnologias de bancos de dados, data warehouses e, mais recentemente, o próprio conceito de Big Data.

Se analisarmos a informação vemos que ela se encaixa perfeitamente nas características de um bem econômico intangível. Entre elas:

a) Custo relativamente alto para sua criação. A produção da informação custa muito mais que as cópias geradas, que tem custo marginal.

b) Escalabilidade. Custos marginais para produzir duas ou duas centenas de cópias. Atualmente com armazenamento e cópias inteiramente digitais elimina-se também o custo de produção das cópias impressas.

c) Economias de escala em termos de produção. No caso da informação impressa, como em livros, quanto maior a edição, menores os custos individuais devido à economia de escala. Nos meios digitais, como e-books,  tais custos inexistem.

Escrever um comentário (0 Comentários)

5 coisas que o Big Data faz pela sua saúde

Nos últimos anos, hospitais, laboratórios e centros de pesquisa vêm se beneficiando do big data (tecnologia usada para captar e cruzar dados) com o intuito de monitorar, em tempo real, a saúde dos pacientes e de cruzar informações sobre tratamentos que são usados em outros países.

De acordo com a consultoria IDC, o uso do big data deve, ainda, reduzir os custos de clínicas e hospitais e viabilizar avanços na área de pesquisa de doenças complexas, como aids e diferentes tipos de câncer. Conheça, a seguir, cinco aplicações do big data na área de saúde:

1. Vacina contra o HIV

No Brasil, a unidade de imunologia do Instituto do Coração (Incor), em São Paulo, usa algoritmos disponíveis em bancos de dados públicos de todo o mundo para analisar padrões de mutação do vírus HIV. Esse recurso permite que os pesquisadores estudem as variações do vírus, o que é fundamental para que possam desenvolver uma vacina capaz de responder a essas mutações. “O uso do big data pode acelerar a descoberta para a cura da doença”, diz o médico Edécio Cunha, pesquisador do Incor

2. Avanços no tratamento do câncer

Enquanto os tipos de câncer mais comuns, como mama e próstata, já contam com protocolos de tratamento bem conhecidos, tipos menos comuns, como os cânceres que afetam crianças, ainda são um desafio para a medicina. A Universidade de Boston, nos Estados Unidos, usa bancos de dados espalhados pelo mundo para pesquisar e cruzar casos similares de doenças. Com isso, consegue orientar os médicos a prescrever drogas e terapias mais eficientes para cada tipo de tumor. Na prática, é como poder pesquisar, em tempo real, experiências bem-sucedidas executadas em todo o mundo para cada tipo de câncer

3. Sistemas antiepidemia

O cruzamento de dados de internações e diagnósticos de doenças registradas em hospitais de todo o mundo pode auxiliar os especialistas a detectar, logo no início, o surgimento de uma nova epidemia. Essa agilidade trazida pelo big data ajuda as autoridades sanitárias a identificar áreas onde há surtos de doenças tropicais ou infecciosas antes que elas se alastrem

4. Prevenção em tempo real

O uso de gadgets vestíveis, aqueles que monitoram a pressão arterial, o nível de glicose, a qualidade do sono e os batimentos cardíacos, por exemplo, já permite que pacientes de várias partes do mundo obtenham diagnósticos precoces de doenças como diabetes e arritmia cardíaca, agilizando o início do tratamento

5. Exames na nuvem

Uma das possibilidades do uso big data é a criação de bancos privados onde ficaria reunido o histórico médico e clínico dos pacientes. Uma vez analisados por algoritmos específicos, esses dados ajudariam o médico a acompanhar a saúde do paciente e prescrever, de forma mais detalhada e automática, a guia de exames necessários

Info

Escrever um comentário (0 Comentários)