10 posições de TI mais difíceis de serem preenchidas

Dos profissionais de segurança cibernética aos engenheiros de DevOps, o relatório 2018 State of the CIO revela quais funções de TI continuam com demanda bem superior à oferta.

Melissa Person-Ashforth

CEO da Melissa International

"Encontrar e reter talentos de TI exige que as organizações pensem fora da caixa e se concentrem menos em encontrar a contratação perfeita e mais em manter os candidatos e funcionários atuais engajados, motivados e ansiosos para aprender novas habilidades. Para mim, claro, é sobre encontrar as habilidades certas, mas também saber que tratar bem meus funcionários, compensando-os e recompensando-os, significa que mantê-los felizes."

O relatório State of the do CIO de 2018 concluiu que, após anos de discórdia, a TI e as áreas de negócio estão finalmente aprendendo a trabalhar juntas para conduzir iniciativas estratégicas e atingir metas compartilhadas. Para fazer isso, é claro, as organizações precisam de talento em TI - mas alguns papéis são mais difíceis de preencher do que outros.

Os trabalhos relacionados à tecnologia de ponta, como Inteligência Artificial, Machine Learning e Realidade Virtual são tão especializa dos que os programas educacionais não conseguem acompanhar as demandas de pipeline, enquanto outros, como nuvem, desenvolvimento de aplicativos e software corporativo, simplesmente têm demanda excessiva.

Encontrar e reter talentos de TI exige que as organizações pensem fora da caixa e se concentrem menos em encontrar a contratação perfeita e mais em manter os candidatos e funcionários atuais engajados, motivados e ansiosos para aprender novas habilidades, diz Melissa Person-Ashforth, CEO da Melissa International.

"Para mim, claro, é sobre encontrar as habilidades certas, mas também saber que tratar bem meus funcionários, compensando-os e recompensando-os, significa que mantê-los felizes", diz Ashforth. “Todos fazendo um esforço conjunto para ir além, aprender mais e adquirir novas habilidades.”

A cultura também é uma peça importante do quebra-cabeça, diz Sherri Douville, CEO da Medigram, uma startup em rápido crescimento. Douville diz que a cultura é a chave para garantir que ela possa atrair, contratar e reter as pessoas certas. “Não temos um grande problema em contratar para funções de TI, mas nossa cultura é uma grande parte disso. Não estamos tentando transformar ou mudar uma cultura existente, o que pode dificultar nas empresas existentes e tradicionais”, diz ela.

O salário, é claro, ainda está no topo da lista de atratividade dos candidatos, e a contratação para qualquer função de TI exige acompanhar as taxas do mercado. Mas concentrar-se em benefícios, vantagens e cultura pode ajudá-lo a atrair, contratar e reter até mesmo para os papéis de TI mais difíceis de preencher.

Com base no relatório de 2018 sobre o estado do CIO, aqui estão os 10 principais empregos de TI mais difíceis para os empregadores preencherem, para que você saiba onde gastar esforços extras ao contratar.

1. Gerenciamento de segurança/risco

Mais de um terço (39%) dos entrevistados afirmam esperar dificuldades em encontrar as qualificações adequadas para preencher cargos de segurança e gerenciamento de risco, de acordo com nossa pesquisa. “As proteções de segurança cibernética devem ser sua prioridade número 1, sempre”, diz Person-Ashforth. “Muitas vezes vemos clientes evitando isso até que tenham uma brecha, o que é um erro”.

Além disso, conforme regulamentações como o GDPR entram em vigor, essa área, que já apresenta escassez de talentos, passa a ser uma das prioridades mais importantes para os departamentos de TI.

2. Inteligência de Negócios (BI) e Análise de Dados

Trinta e seis por cento dos entrevistados dizem que o preenchimento de funções de Business Intelligence e Analytics continua difícil. Saber como coletar, processar, analisar e atuar sobre as vastas quantidades de inteligência de negócios e dados que fluem para as empresas a cada ano é uma área estratégica crucial; e um grande diferencial competitivo em uma economia digital.

3. Integração na nuvem

Vinte e um por cento dos entrevistados dizem esperar dificuldades para preencher as funções de integração na nuvem. E à medida que mais organizações mudam de implantações locais para as implantações em nuvem, a necessidade de talentos de integração na nuvem continuará a crescer. Seja integrando com sistemas legados ou migrando entre provedores de nuvem, é um conjunto de habilidades críticas em TI.

4. Desenvolvimento de aplicativos

Seja no desenvolvimento de aplicativos para uso corporativo interno para promover objetivos de negócios ou no desenvolvimento de aplicativos para clientes externos, essa área é outra função crítica de TI que enfrenta escassez de talentos qualificados. Algumas organizações estão se voltando para o desenvolvimento de códigos para ajudar a aliviar a pressão; 20% dos entrevistados disseram que terão problemas para preencher as funções de desenvolvimento de aplicativos.

5. Software empresarial (ERP, CRM)

Para grandes empresas, as soluções de ERP e CRM são necessárias para garantir eficiência, permanecer dentro dos orçamentos e, é claro, comunicar-se efetivamente com os clientes, e 19% dos entrevistados dizem que terão dificuldade em preencher as funções de software corporativo. “Essa área é especialmente importante para nós, já que estamos usando o Salesforce para gerenciar e medir a eficácia das campanhas, além das plataformas de Marketing Digital de próxima geração”, diz Person-Ashworth.

6. Inteligência Artificial (IA)

Há um grande burburinho em torno da IA ​​ultimamente, especialmente em como ela pode ajudar as empresas a serem mais eficientes e as maneiras pelas quais ela afetará ou eliminará certas funções. Talento habilidoso para a construção, monitoramento e manutenção de IA estará em alta demanda à medida que esta tecnologia evoluir e amadurecer. Atualmente, 18% dos entrevistados antecipam que as funções de IA serão difíceis de preencher.

7. DevOps / Processos Ágeis

Hoje em dia, toda empresa é uma empresa de TI, e a grande maioria está envolvida em algum tipo de desenvolvimento de software para realizar seus negócios, seja sua única missão operacional ou apenas alavancando software para aprimorar sua linha principal de negócios. DevOps e Agile são metodologias que tornam mais fácil e rápido criar e implantar software, mantendo uma aderência próxima aos requisitos do cliente e do usuário final em todas as etapas de desenvolvimento. Dezessete por cento dos entrevistados dizem que será difícil preencher os papéis DevOps/Agile.

8. Internet das Coisas (IoT - dispositivos conectados, sensores)

Dezesseis por cento dos entrevistados dizem que terão dificuldade em preencher papéis relacionados à Internet das Coisas (IoT), incluindo papéis que envolvem a construção, programação, monitoramento e manutenção de dispositivos conectados, sensores e tudo o mais que envolve IoT.

9. Arquitetura Corporativa

As regras de transformação e disrupção digital no mundo da tecnologia atual e a arquitetura corporativa podem ajudar de forma proativa e holística na resposta de uma empresa a essas forças, identificando a estrutura e a estratégia existentes da empresa e planejando como direcioná-la melhor. Essas funções são críticas para qualquer empresa voltada para o futuro que queira permanecer líder de mercado, mas 16% dos entrevistados dizem que terão dificuldade para preencher as funções de arquitetura corporativa.

10. Serviços em nuvem

Seja público ou privado, os serviços em nuvem permitem acesso onipresente a pools de compartilhamento de recursos configuráveis ​​e personalizáveis ​​oferecidos aos clientes pela Internet. Com cada vez mais organizações acessando um ou mais serviços em nuvem, a demanda por talentos com experiência no fornecimento, solução de problemas e gerenciamento de serviços em nuvem está aumentando. Atualmente, 16% dos entrevistados dizem que terão dificuldades para preencher os papéis relacionados aos serviços na nuvem. Fonte:http://cio.com.br/gestao/

 

5 transformações que a internet causou ao mundo dos negócios

Qualquer pessoa com acesso a aparelhos eletrônicos inteligentes pode notar que estamos em uma época onde a internet está sendo introduzida em praticamente tudo que utilizamos. Há quem diga que estamos próximos de uma "internet dos seres humanos", não apenas "internet das coisas".

Abaixo listamos 5 mudanças que essa evolução causou ao mundo dos negócios.

1) Monitoramento

Empresas agora podem avaliar melhor como seus consumidores utilizam seus produtos através do monitoramento de diversas redes. Isso permite uma estimativa mais precisa do ciclo de vida de um produto. É quase como se as empresas pudessem monitorar equipamentos ou produtos em sua casa tão facilmente como se podem controlá-los em seus laboratórios.

2) Altas expectativas

Os consumidores sabem que estão fornecendo às empresas mais informações do que nunca. Isso resulta em clientes com grande expectativa de qualidade, valor e suporte contínuo.

3) Presença online

Independente do tamanho da sua empresa, seus clientes esperam encontra-lo online. Mesmo que vejam sua loja física na cidade, sem um site acessível através de uma pesquisa no Google, você está na contra mão. Você quer continuar competindo na economia do século 21? Capriche na identidade visual e confie em uma empresa de marketing digital para desenvolver conteúdo para seu site. Dê para sua empresa a imagem que ela merece.

4) Suporte e solução de problemas

Caso tenha um problema com seu produto/serviço, o cliente espera que você saiba lidar com isso, que forneça uma solução e que tenha uma equipe de técnicos de apoio 24 horas por dia. Sem um site projetado para resolver os problemas de seus clientes de forma rápida, você vai perder para a concorrência.

5) Análise de Big Data

As empresas atuais geram internamente uma grande variedade de dados e também têm acesso a uma infinidade de informações na grande rede, em publicações e em redes sociais. A análise desses dados tornou-se um dos principais desafios para quem busca se posicionar no mercado.

Isso significa que qualquer ação se tornou muito mais competitiva e eficaz no momento de envolver o público-alvo. Além disso, essas informações podem ser utilizadas para melhorar a experiência dos clientes: as empresas agora podem compreender exatamente o que eles estão procurando, quando e como preferem fazer realizar suas tarefas diárias.

 

A especialidade da e-Setorial é transformar dados em informações úteis para auxiliar a tomada de decisões. Saiba mais sobre as nossas Soluções de Apoio à Decisão clicando aqui.

A Internet das Coisas (IoT) na prática - Desafios e Case de Sucesso

É bastante promissor observar que muitas empresas já estão evoluindo e colocando em prática os pilotos desenvolvidos nos últimos anos.

Em outubro de 2017, a segunda edição do IoT Snapshot, Um retrato da adoção e do potencial da internet das coisas no mercado brasileiro, revelou uma evolução bastante promissora em relação ao que o mercado espera da internet das coisas (IoT - Internet of Things) e o quanto essa tecnologia está sendo adotada pelas empresas. Para citar um exemplo, as organizações que estão investindo em IoT, em processo de adoção ou que pretendem adotar a tecnologia em 2018 já são mais de 60% dos respondentes.

Nos últimos anos, aconteceram muitos testes, protótipos, experimentações e aprendizados. Além disso, surgiram modelos de negócios diferentes, parcerias e o florescimento de um novo mercado. Mas em meio a esse ambiente de pioneirismo, observamos empresas que já começaram a se deparar com um novo conjunto de desafios: os projetos-piloto começaram a dar certo e é hora de fazer o roll-out – e agora

Abaixo, listo quatro fatores que surgiram na pauta dessas empresas que já se convenceram dos benefícios da internet das coisas e agora querem usá-la na prática:

1 - Mensuração dos benefícios frente aos investimentos

As iniciativas de inovação e os projetos de IoT vinham, e ainda vêm, muitas vezes, sendo desenvolvidos com investimentos e budgets direcionados à experimentação. Esse movimento também contava com uma boa parcela de patrocínio da indústria, que queria mostrar suas soluções e se posicionar no mercado.

Quando esses projetos ganham proporções de operação real, a conta muda de dimensão. O entendimento dos benefícios se torna uma questão crítica, uma vez que os investimentos passam a concorrer com orçamentos direcionados a outras prioridades da organização.

2 - Robustez financeira e técnico-operacional dos parceiros

Outra mudança de patamar que acontece nesse momento diz respeito aos players envolvidos nas iniciativas de IoT. Enquanto teste, PoC ou piloto, exige-se pouca robustez dos participantes envolvidos – até porque muitas das soluções demandadas não são desenvolvidas por grandes players, mas sim por start-ups focadas em nichos muito específicos de mercado.

Quando a empresa passa dos testes para tentativas de roll-out, entram em cena necessidades como solidez financeira, volume de produção, suporte operacional às soluções e outros requisitos que são muito menos atrativos, mas que não podem falhar em uma operação real. Equilibrar as especificidades das soluções com a necessidade de robustez para um ambiente operacional é um dos desafios de quem está amadurecendo.

3 - Maturidade das equipes quanto às novas tecnologias e processos

A identificação, desenvolvimento e retenção de profissionais capacitados e motivados sempre foi um desafio comum de qualquer gestor. Esta complexidade aumenta consideravelmente quando estamos tratando de temas que ainda não estão maduros.
Muitas empresas contam com alguns profissionais de referência, que têm conseguido acompanhar essas inovações, mas têm dificuldade em construir equipes que possibilitem a concretização dos projetos. Contar com profissionais capacitados (e em constante aprimoramento) foi e, provavelmente, continuará sendo um tema relevante para os gestores de tecnologia.

4 - Segurança da informação, continuidade de negócios e governança – gestão de riscos

É sabido que, com a IoT, a quantidade de dispositivos conectados se multiplica e cada um deles pode se tornar um ponto de vulnerabilidade no ambiente tecnológico das empresas. Mas mesmo que este fato seja de conhecimento geral, o tema de segurança ainda não aparece de maneira voluntária como um elemento essencial na arquitetura de IoT. Isso ficou comprovado no IoT Snapshot 2017 – quando provocados, os respondentes concordaram que esse é um tema crítico, mas foi um dos menos citados de maneira voluntária.

Além disso, com as soluções de internet das coisas, a tecnologia passa a integrar elos da cadeia que usualmente contavam com pouco suporte tecnológico. Com isso, o escopo de continuidade de negócios tende a se ampliar de maneira significativa. A cobertura da tecnologia se amplia e, proporcionalmente, a necessidade de uma gestão de riscos relacionados à segurança e à continuidade das operações.

De qualquer forma, é bastante promissor observar que muitas empresas já estão evoluindo e colocando em prática os pilotos desenvolvidos nos últimos anos. O que eram promessas e apostas começam a se concretizar como uma realidade tangível. Mas a IoT, na prática, traz à tona novos desafios, que não são mais de experimentação, mas sim de operação, resiliência e confiabilidade. Por isso, é necessário manter o espírito jovem e a mente ainda mais aberta às novidades, mas amadurecer e ganhar robustez para se encaixar no ambiente real de operações.

Carros e caminhões da Volvo vão compartilhar alertas de trânsito

A Volvo decidu se unir na busca de um trânsito mais seguro e anunciou que seus veículos vão compartilhar em tempo real as informações recolhidas por suas tecnologias de alertas de trânsito.

Com isso, quando o pisca-alerta de um carro equipado com o sistema Hazard Light Alert for acionado, um alerta será enviado tanto para outros carros equipados com a tecnologia quanto para caminhões da Volvo Trucks que possuem sistema semelhante. O mesmo acontecerá caso o motorista de um desses caminhões ligue o pisca-alerta de seu veículo.

A partir da informação de que há automóveis diminuindo a velocidade ou completamente parados adiante, os motoristas poderão tomar atitudes que reduzem a chance de acidentes, como ir mais devagar ou até alterar a rota.

Esta é a primeira vez que a Volvo Cars divide com outra empresa (apesar de ambas serem Volvo, as companhias pertencem a grupos diferentes) os dados compartilhados entre carros com o sistema Hazard Light Alert, que é item de série de diversos modelos da marca desde 2016.

De acordo com a vice-presidente do Centro de Segurança Volvo Cars, Malin Ekholm, a expectativa é de que novas colaborações ocorrem nesse sentido. “Quanto mais veículos temos compartilhando dados de segurança em tempo real, mais seguras se tornam nossas estradas. Estamos ansiosos para estabelecer novas colaborações com outros parceiros que compartilham nosso compromisso com a segurança no trânsito”, disse em comunicado à imprensa.

Por enquanto, a comunicação entre carros e caminhões acontecerá somente entre veículos vendidos na Suécia e na Noruega. Para garantir o cumprimento da Regulação Geral de Proteção de Dados da União Europeia, que entra em vigor no fim de maio, os dados serão anônimos e agregados.

Referências:
http://cio.com.br/opiniao/
https://www.tecmundo.com.br/mobilidade-urbana-smart-cities

Atualizações sobre o mundo Pentaho

Aquecimento

Para iniciar, cabe uma breve explanação sobre os acontecimentos que têm aquecido o mercado e a comunidade de empresas, usuários e desenvolvedores de soluções de apoio a decisão, que evitam desperdiçar verdadeiros latifúndios com licenças de uso de softwares antigos e criam suas próprias soluções, sob medida, e sem vínculos com quem quer que seja. Nem com vendedores de licenças, nem de servidores nem de consultorias, cursos ou treinamentos caríssimos e infinitos.

Muitos projetos ambiciosos da atualidade, em todo o mundo, só são considerados viáveis por conta das facilidades oferecidas pelo produto Pentaho, uma suíte (um conjunto de softwares integrados entre si) de código aberto, gratuito, que contempla todas as etapas de soluções de Business Analytics e/ou Business Intelligence, end to end. O Pentaho tem sido turbinado, digamos assim, pelas CTools, um conjunto de plugins criados por uma empresa portuguesa, a Webdetails. Em 2013 ela foi comprada pela Pentaho, empresa que mantém o produto com o mesmo nome, que conta com uma versão Enterprise, não gratuita e ainda mais completa que a versão gratuita, a Community. Ambas as versões passam a contar com várias das Ctools como parte integrante, juntamente com o Pentaho Marketplace, responsável pela instalação e gerenciamento de plugins.

Em 2015 a empresa Pentaho foi comprada por um dos maiores grupos do mundo, a Hitachi, um líder global em indústrias, infraestrutura e tecnologia, que tem, entre outros, foco no mercado de IoT, internet das coisas. Eles gerenciam entre outros empreendimentos, usinas nucleares, metrôs, ferrovias e têm uma gama de sensores bastante considerável. Todos estes sensores geram dados, que precisam ser analisados em tempo hábil para que façam algum sentido e ajudem na tomada de decisões, aplicáveis em praticamente todas as esferas da sociedade. Aí é que entra a suíte Pentaho.

Pentaho Day 2017 Brasil - Curitiba/PR

Pentaho Day 2017 - BrasilE ao falarmos de Pentaho, cabe aqui destacar, ainda com certo delay, que o Pentaho Day 2017 Brasil - Curitiba/PR foi fantástico, como sempre. Foram tantos aprendizados e tantos contatos estabelecidos, que vários projetos desde então foram executados aqui na e-Setorial e nos consumiram, mas não podemos deixar de enaltecer mais essa iniciativa da comunidade Pentaho Brasil, que ajuda profissionais e empresas de ramos de atividade e portes diferentes. A título de exemplo, nossos projetos este ano foram tão variados, que foram desde a análise de dados de Educação à Distância, do Enriquecimento de Dados de Pessoas Físicas e Jurídicas do Brasil, a análise de dados Hospitalares para Planos de Saúde, até um sistema completo para gestão de risco em Usinas Hidrelétricas e Barragens. Todos desenvolvidos utilizando o Pentaho em sua versão gratuita, atingindo excelentes resultados.

O maior evento da comunidade Pentaho do Mundo, contou com mais de 400 participantes e teve Palestras, Cases e Minicursos ministrados por algumas das maiores referências sobre o tema, que aconteceu na Universidade Positivo, em Curitiba/PR, no Brasil, nos dias 11 e 12 de maio.

O destaque principal ficou para apresentação de Matt Casters sobre o seu fantástico Web Spoon, que é o Pentaho Data Integration rodando inteiramente na web, facilitando ainda mais o desenvolvimento e manutenção das soluções.

Muito do material produzido e apresentado no evento está disponível no site do evento, inclusive o minicurso oferecido por Eduardo Carvalho, da e-Setorial, com o título "Design Patterns para Tuning Pentaho com Ctools".

Espaço para Tietagem

Eduardo Alves de Carvalho

Analista Sênior de BI na e-Setorial

"Não são todos os dias que encontramos tantos profissionais que admiramos de uma só vez. Não poderia deixar de registrar a confraternização com o norte americano Matt Casters, à esquerda, criador do Pentaho Data Integration e o português Pedro Alves, ao centro, o Criador das CTools, amigo e meu instrutor por diversas oportunidades, desde 2012. E isso acontecendo em minha cidade natal, Curitiba. Pentaho Day Brasil 2017"


Capricho da organização

A organização do evento foi impecável. Deixamos o agradecimento ao amigo Marcio Junior Vieira, da Ambiente Livre, responsável por mais esta edição do evento.

Hitachi Vantara

Hitachi VantaraEm 18 de setembro de 2017 a Hitachi anunciou a formação da Hitachi Vantara, uma empresa cujo objetivo é ajudar as organizações a prosperar nos tempos incertos e turbulentos de hoje e se preparar para o futuro. Esta nova empresa unifica a missão e as operações da Pentaho, Hitachi Data Systems e Hitachi Insight Group em um único negócio, a Hitachi Vantara. Juntas, dão aos líderes empresariais uma vantagem para encontrar e usar o valor em seus dados, inovar inteligentemente e atingir os resultados que são importantes para as empresas e a sociedade.

Apresentando a Vantara: uma combinação de TI, tecnologia operacional (OT) e expertise de domínio. Com o software de integração e análise de dados Pentaho, a Vantara oferece às organizações o poder de capturar e usar dados de forma eficiente a partir da "borda", onde os dados são movidos de forma fluida por sensores e dispositivos fora dos internos do negócio do dia-a-dia e combinam estes dados de sensores com recursos de dados corporativos mais tradicionais para fornecer um alto nível de contexto e previsões inteligentes que levam a resultados comerciais reais.

O que dizem os envolvidos

Donna Prlich

CHIEF PRODUCT OFFICER

A integração e análise de dados Pentaho continuará a evoluir, e a Hitachi Vantara irá investir para se manter à frente dos futuros desenvolvimentos em grandes dados, IoT e aprendizagem de máquinas. Sabemos o que nossos clientes precisam e com o poder e os recursos da Hitachi, podemos levá-los até mais rápido.

Pedro Alves

SVP Community / Product Designer for Pentaho at Hitachi Vantara

Não há planos de mudar a estratégia de código aberto ou parar de fornecer uma edição CE para a nossa comunidade! Essa mudança pode acontecer no futuro? Oh, absolutamente sim! Assim como poderia ter mudado no passado. E quando poderia mudar? Quando ele deixa de fazer sentido; quando deixa de ser mutuamente benéfico. E naquele dia, serei o primeiro a sugerir uma mudança em nosso modelo. Se a opensource nos trouxe aqui em primeiro lugar - mudaremos realmente isso agora que as coisas estão se aquecendo? Nós somos loucos, não estúpidos;)

Em resumo, foi criada uma nova empresa com uma estrutura muito maior, chamada Hitachi Vantara, que continuará a trabalhar com o produto Pentaho nas suas versões Enterprise, paga, e Community, gratuita.

Pentaho 8.0

Hitachi VantaraA comunidade está em polvorosa e no evento mundial da Pentaho, o PentahoWorld 2017, que aconteceu na semana passada, entre 25 e 27 de outubro em Orlando na Florida.

Entre todos os fantásticos cases apresentados, surgiu mais uma novidade bombástica. Foi anunciado a versão 8 do Pentaho, já para o mês que vem.

  • Plataforma e Escalabilidade
    • Worker nodes
    • Novo tema
  • Data Integration
    • Suporte de streaming!
    • Execute configurações para jobs
    • Filtros no Data Explorer
    • Nova experiência de Abrir / Salvar
  • Big Data Vendemos Inteligência Empresarial
    • Melhorias em AEL
    • Formatos de arquivo para Big Data - Avro e Parquet
    • Segurança em Big Data- Suporte para Knox
    • Melhorias de VFS para Clusters de Hadoop
  • Outras
    • Ops Mart para Oracle, MySQL, SQL Server
    • Melhorias na segurança da senha da plataforma
    • Mavenization PDI
    • Alterações de documentação em help.pentaho.com
    • Remoção de recursos:
      • Analisador em MongoDB
      • Plug-in móvel (desativado em 7.1)

Conclusão

Hitachi Vantara Com investimentos que só uma grande corporação pode fazer, o produto tem tudo para se disseminar ainda mais e ganhar espaço dos grandes players. A equipe de desenvolvimento não para, ao contrário dos concorrentes que só pensam em vender licenças de uso de suas ferramentas. Cada vez mais o pentaho traz segurança, facilidade em desenvolver e manter e o melhor de tudo, com funcionalidades que surpreende até aos mais exigentes. É verdade que ainda são necessários conhecimentos em Java Script e MDX para a implementação de dashboards mais específicos, entretanto aplicações simples, mas e poderosas, podem ser criadas em minutos, sem escrever uma linha de código. O caminho é este.

E que venha o Pentaho 8.0!

Links Úteis

E para onde foram os fóruns, wikis e comunidades? Abaixo separamos alguns links importantes, que o deixarão com mais segurança: 

# Dicas
1 Ctools
2 CCC Playground - Documentação dos gráficos Ctools
3 Alguns dashboards de demonstração
4 Pentaho Community website
5 Grupo de usuários Brasil
6 Forum mundial da comunidade
7 Blog Pedro Alves
8 Desenvolvimento, treinamento e consultoria especializada em Pentaho

Referências

Chega de mentiras: o Big Data nos fará mais honestos?

Cada vez mais coletamos dados sobre nossos costumes do dia a dia. Isso torna mais difícil para alguém mentir sem ser descoberto. O Big Data e as inovações analíticas são capazes de dizer se você está dizendo ou não a verdade. 

Dados de dispositívos móveis já estão sendo utilizados por empresas de seguros de automóveis, por exemplo, para rastreas hábitos de condução reais de seus clientes e hospitais estão monitorando seus pacientes. Todos os seus hábitos viraram dados, que por sua vez são armazenados e, portanto, podem ser rastreados.

Será o fim da mentira como a conhecemos?

Empresas estão ficando mais inteligentes. Por exemplo, uma companhia de seguros agora pode monitorar o preenchimento de seus formulátios online. Isso pode mostrar-lhes que algumas vezes as informações são re-digitadas. Ao enviar o formulário, o cliente mudou uma informação: ao invés de falar que o carro estava estacionado na estrada, afirmou que estava em uma garagem. Ferramentas de análise de Big Data agora são capazes de sinalizar esse tipo de fraude. 

Em um sério acidente de carro, a polícia pode recolher os telefones das partes envolvidas e checar se alguém estava falando, redigindo mensagem ou usando algum tipo de aplicativo no momento do acidente. Fulano pode até dizer que estava com as mãos no volante e os olhos na estrada, mas os sensores de seu smartphone não o deixa mentir. É apenas uma questão de tempo para  todos começarmos a usar esse tipo de dado, e cada vez menos será importante a utilização de testemunhas.

E não precisa nem ser em escalas tão grandes. Um gerente de RH pode rapidamente verificar o passado e as qualificações dos candidatos a um emprego. Pais podem rastrear seus filhos para saber se foram realmente para escola ou o quão rápido estavam dirigindo. Podem até mesmo receber uma notificação ou um e-mail quando deixam uma área geográfica pré-definida. 

Essa facilidade na manipulação de dados pode ser até mesmo perigosa. As redes sociais estão cheias de mentiras e boatos, que podem se espalhar muito rapidamente. Um exemplo clássico: Quando a agência de notícias Associated Press teve sua conta do Twitter invadida por hackers, que publicaram a notícia de que o presidente Barack Obama havia se ferido a ataques na Casa Branca. A informação se espalhou tão rapidamente a ponto de interferir no mercado financeiro do país. O índiceDow Jones chegou a perder 130 pontos em questão de minutos. Mas logo a mentira foi detectada e tudo voltou ao normal.

É fascinante observar o poder das informações. Muitos desses algorítmos estão disponíveis nas palmas de nossas mãos, mesmo que ainda para fim de entretenimento. Mas as câmeras e sensores processados em nossos smartphones poderão, muito em breve, dedurar mentirosos.

CIENTISTA DE DADOS – POR ONDE COMEÇAR EM 8 PASSOS

Ansioso por desbravar o universo da Ciência de Dados e não sabe por onde começar? Nós ajudaremos você. Preparamos um guia que vai ajuda-lo a compreender o que faz um Cientista de Dados e como iniciar sua preparação! Confira.

McKinsey Global Institute

Big Data Report 2015

"Até 2018, haverá um deficit de 140 a 190 mil profissinais com habilidades em análise de dados e mais de 1,5 milhão de gerentes e analistas que saibam usar Big Data de forma efetiva para tomada de decisões."

Vamos começar definindo o que é um Cientista de Dados:

Cientistas de Dados são uma nova geração de especialistas analíticos que têm as habilidades técnicas para resolver problemas complexos – e a curiosidade de explorar quais são os problemas que precisam ser resolvidos.

Eles também são um sinal dos tempos modernos. Cientistas de dados não estavam no radar há uma década, mas sua popularidade repentina reflete como as empresas agora pensam sobre Big Data. Essa incrível massa de informações não estruturadas já não pode mais ser ignorada e esquecida. É uma mina de ouro virtual que ajuda a aumentar receitas – contanto que haja alguém que escave e desenterre insights empresariais que ninguém havia pensado em procurar. Entra em cena o Cientista de Dados.

Para a comunidade em geral, um Cientista de Dados é um desses “Magos de Dados”, que pode adquirir massas de dados de diversas fontes e então limpar, tratar, organizar e preparar os dados; e, em seguida, explorar as suas habilidades em Matemática, Estatística e Machine Learning para descobrir insights ocultos de negócios e gerar inteligência.

Os dados utilizados por um Cientista de Dados podem ser tanto estruturados (bancos de dados transacionais de sistemas ERP ou CRM, por exemplo) e não estruturados (e-mails, imagens, vídeos ou dados de redes sociais). O Cientista de Dados cria algoritmos para extrair insights destes dados. Em seguida, cabe ao Cientista de Dados, apresentar estes dados, de forma que os tomadores de decisão possam utilizar o resultado da análise ao definir as estratégias empresariais ou mesmo para criar novos produtos ou serviços baseados em dados.

De acordo com Anjul Bhambhri, ex Vice Presidente de Big Data da IBM e atual Vice Presidente da Adobe, o Cientista de Dados é o profissional capaz de trazer a mudança para uma organização através da análise de diversas fontes de dados. Anjul Bhambhri escreve:

“Um Cientista de Dados representa uma evolução do papel de Analista de Negócios ou Analista de Dados. Estes profissionais possuem uma base sólida normalmente em ciência da computação, aplicações, modelagem, estatísticas, análises e matemática. O que define o Cientista de Dados é a forte visão de negócios, juntamente com a capacidade de comunicar os resultados, tanto para os líderes de negócios quanto para seus pares, de uma forma que influencie como uma organização posiciona-se diante dos desafios do mercado”.

Não existe uma formação que prepare Cientistas de Dados, pois esta é uma profissão relativamente nova. Tem havido muito debate sobre isso no ambiente acadêmico (principalmente nos EUA), pois o mercado precisa de profissionais agora e o tempo de preparação de um profissional como estas habilidades, pode levar algum tempo. E por isso formações técnicas em determinadas áreas, podem ajudar a preparar estes profissionais.

Com tantas informações sobre a profissão de Cientista de Dados e seu crescimento exponencial nos últimos anos, é fácil se perder diante de tantos artigos e materiais com fórmulas mágicas sobre qual caminho seguir. Vou fazer um alerta: não existe caminho fácil para se tornar um Cientista de Dados! É preciso estudar, aprender diferentes técnicas e ter conhecimento interdisciplinar. Por esse motivo, os Cientistas de Dados são bem remunerados e difíceis de encontrar no mercado.

Abaixo, os 8 passos que consideramos fundamentais para a preparação de um Cientista de Dados:

Passo 1: Faça uma auto avaliação

Este é o primeiro passo e acredite, é fundamental. Você, como profissional, precisa avaliar o momento atual da sua carreira e como pretende estar em 5 ou 10 anos. Se pretende seguir uma carreira em Analytics, seja como Cientista de Dados, Engenheiro de Dados ou Analista, precisa compreender quais são suas habilidades atuais, onde pretende chegar, avaliar os gaps e traçar um plano de ação.

Como não existe uma formação acadêmica específica para se tornar um Cientista de Dados, este profissional pode vir de áreas como Estatística ou Ciência da Computação, sendo comum encontrar profissionais de outras áreas atuando como Cientistas de Dados (Marketing, Economia, Ciências Sociais, etc..). Mas independente da área de formação, algumas características serão comuns a todos os profissionais que trabalham com Ciência de Dados:

Programação – Conhecimento de programação é necessário. Linguagens de programação como R, Python, Julia, Scala, Java são parte do arsenal de ferramentas utilizadas em Data Science. Mesmo outros pacotes de análise de dados, como SAS, Matlab, Octave, SPSS e até o IBM Watson Analytics, requerem conhecimento em programação, para se extrair o melhor de cada ferramenta. É a habilidade de programação, que permite ao Cientista de Dados colocar em prática sua criatividade e extrair dos dados respostas para perguntas que ainda não foram feitas. Se você já tiver conhecimento em programação, isso será uma vantagem. Caso não tenha experiência em programação, mas tenha uma boa noção dos conceitos envolvidos em programação de computadores, isso vai ajudar muito. Avalie de forma clara seu nível de conhecimento em programação.

Pensamento Lógico – Cientistas de Dados usam o pensamento lógico para fazer análises. Programação requer lógica. Se você já possui esta habilidade, isso vai acelerar seu aprendizado em Data Science.

Habilidade com Números – Matemática é a base da Ciência de Dados. Programação de computadores, envolve habilidade com números. Os algoritmos de Machine Learning, são baseados em conceitos matemáticos. A Estatística, parte fundamental da Ciência de Dados, requer habilidade com números. Avalie suas características e na sua auto avaliação, verifique se esse item será um problema ou não.

Conhecimento em Banco de Dados – Em diversas fases do processo de análise de dados, interações com bancos de dados serão necessárias. Bancos de sados relacionais, Data Warehouses, bancos de dados NoSQL, Hadoop, linguagem SQL. Todas estas tecnologias estão diretamente ligadas ao trabalho do Cientista de Dados e pelo menos sua compreensão será um ponto que poderá fazer diferença. Avalie se você compreende o conceito de banco de dados, entende as diferenças entre bancos de dados relacionais e NoSQL e como utilizar linguagem SQL para consultas.

A esta altura, talvez você já esteja se perguntando: como você pretende que eu aprenda tudo isso? Aqui entra um dos conceitos mal interpretados sobre a profissão de Cientista de Dados. Acredita-se que este profissional precisa conhecer todas as ferramentas. Isso não é verdade e nem mesmo necessário. Escolha suas ferramentas e se especialize nelas. Por exemplo: conhecimento em linguagem R e Hadoop, permitirá fazer análises de grandes volumes de dados (Big Data). Você não precisa conhecer todas as linguagens de programação, bem como não tem que conhecer todos os bancos de dados. O mais importante é o pensamento lógico, esse sim indispensável (e esta habilidade talvez você já tenha). A tecnologia oferece ferramentas e nenhuma delas resolve sozinha 100% dos problemas, pois todas possuem suas limitações.

Ao fazer esta auto avaliação, será possível compreender seu nível atual de conhecimento e começar a pensar no plano de ação! 

Passo 2: Prepare seu computador

Surpreso com este passo? Esta é a etapa onde você prepara seu ambiente de testes e não deve ser subestimada. Pode ser frustrante durante seu processo e aprendizagem, não ter o equipamento ideal para instalar softwares ou executar operações que requerem poder computacional.

Ciência dados é computacionalmente intensa (isso não deve ser uma novidade para você!). Portanto, você precisa de um computador que permita processar seus scripts e aprender sobre análise de dados. Além disso, você vai precisar instalar ferramentas, interpretadores, pacotes office, etc…Para trabalhar com Ciência de Dados, um computador com 8GB de memória RAM, com um processador intel i5/i7 ou equivalente é a nossa recomendação. Naturalmente, quanto maior a capacidade do seu computador, melhor! É possível também utilizar serviços como o Cloud9 ou Amazon AWS e montar um ambiente virtual de trabalho.

Sistema Operacional – A decisão por qual sistema operacional utilizar é bastante pessoal e qualquer um dos 3 principais sistemas operacionais (Windows, Mac OS e Linux) vai atender as suas necessidades. De qualquer forma, você poderá instalar máquinas virtuais com outro sistema operacional. Boa parte do framework de Data Science e Big Data, foi construída sobre plataforma Unix. Para um servidor Hadoop ou Spark, um servidor Linux é a melhor recomendação. Já para a parte de apresentação de dados, Microsoft Office e outras ferramentas de visualização podem depender de um sistema Windows. Não há uma regra aqui, mas para usuários mais avançados, um sistema Unix é recomendado. Para aqueles que se sentem mais confortáveis com o Windows, não há problema algum. Utilize o Windows como seu sistema operacional e, se necessário, crie uma máquina virtual com Linux, se quiser processar arquivos com Hadoop e/ou Spark ou realizar outros testes. Os principais fornecedores do Hadoop (Cloudera, Hortownworks e MapR) fornecem gratuitamente máquinas virtuais com Linux e Hadoop, prontas para uso em poucos cliques. Já o Microsoft Azure Machine Learning pode ser utilizado online, por exemplo. É possível também fazer o download o SAS University Edition, uma máquina virtual com Linux e SAS, que em poucos segundos permite você utilizar o SAS (uma das principais soluções de Analytics atualmente) para seu aprendizado e totalmente gratuito.

Softwares – Independente da linguagem de programação que você escolher, você vai precisar instalar o interpretador e uma IDE. Se a sua escolha for pelo R, por exemplo, além de instalar a linguagem, você poderá instalar o R Studio. O mesmo vale para outras linguagens de programação. É possível criar seus scripts de Data Science 100% online, via browser, usando o Jupyter Notebook. Mas nem sempre você pode estar online e ter suas ferramentas instaladas localmente vai trazer uma série de vantagens. Além disso, considere instalar:

– Editores de texto: Sublime, Atom, Notepad++
– Software para Máquinas Virtuais: VirtualBox
– Git e Github: para criar seu portfólio de projetos em Data Science
– Suite Office: Microsoft Office, Libre Office

Com exceção do Microsoft Office, todas as demais ferramentas são gratuitas.

Passo 3: Estatística e Matemática

Conhecimentos de Estatística e Matemática fazem parte do pacote essencial para quem pretende trabalhar como Cientista de Dados. Modelos estatísticos e algoritmos de Machine Learning, dependem de conhecimentos em regressão linear, regressão múltipla, clustering, Álgebra Linear, etc… Você precisa ser especialista em Estatística ou Matemática ou mesmo ter feito uma graduação nestas áreas? A resposta é não. Apesar dessas áreas permitirem uma compreensão mais abrangente, é possível aprender estes conceitos e aplica-los, ao longo da sua jornada de aprendizagem em Data Science. Você não precisa aprender todos os tópicos relacionados à Estatística ou Matemática.

Existem muitas formas de aprender os conceitos de Estatística e Matemática aplicada e isso leva tempo. Para qualquer aspirante a Cientista de Dados a recomendação é aprender Estatísticas codificando, de preferência em Python ou R, de forma que você possa aplicar imediatamente um conceito aprendido. Nada substitui uma graduação em Estatística ou Matemática claro, mas você pode aprender os conceitos que serão usados no seu dia a dia em Data Science, aplicando estes conceitos através de uma linguagem de programação. Data Science é uma área multi-disciplinar.

No fim deste artigo, você encontra alguns recursos indicados por nosso time de especialistas!Analytics

Passo 4: Big Data

Big Data é a matéria prima da Ciência de Dados. A profissão de Cientista de Dados, surgiu da necessidade de criar novos métodos de análise do imenso volume de dados que vem crescendo exponencialmente. Técnicas analíticas já existem há muitas décadas (talvez há séculos), mas nunca na história da humanidade, gerou-se tantos dados como atualmente. Novas formas de coleta, armazenamento e análise de dados são necessárias e o Big Data está revolucionando o mundo atual, pois com tantos dados a nossa disposição, podemos tomar decisões em tempo real e isso gera impacto direto na vida de todos nós.

O Cientista de Dados vai consumir Big Data, ou seja, vai utilizar o Big Data como matéria prima, aplicar diversas técnicas e colher insights. Mas a responsabilidade por coletar e armazenar os dados normalmente é do Engenheiro de Dados. Criação de clusters Hadoop, streaming de dados com Spark, integração entre diferentes fontes de dados são todas atribuições novas e normalmente exercidas por Engenheiros de Dados. Mas é importante que o Cientista de Dados conheça bem como funciona a infraestrutura que armazena os dados que serão analisados, pois isso pode fazer a diferença na hora de analisar 1 trilhão de registros, por exemplo.

Hadoop – O Hadoop está se tornando o coração da infraestrutura de Big Data, o que vai revolucionar o sistema tradicional de armazenamento em bancos de dados como conhecemos hoje. Além de gratuito, o Hadoop foi criado para ser usado em hardware de baixo custo, uma combinação essencial para empresas que buscam reduzir seus custos de infraestrutura de TI e ainda capitalizar os benefícios do Big Data.

Spark – Spark é um projeto open source, mantido por uma comunidade de desenvolvedores que foi criado em 2009 na Universidade da Califórnia, Berkeley. O Spark foi concebido com o principal objetivo de ser veloz, tanto no processamento de queries quanto de algoritmos, além de processamento em memória e eficiente recuperação de falha. É atualmente um dos assuntos mais quentes em Data Science e vem ganhando muita popularidade.

Bancos de Dados NoSQL – Bancos de Dados tradicionais RDBMS (Relational Database Management Systems) são foram projetados para tratar grandes quantidades de dados (Big Data). Bancos de Dados tradicionais foram projetados somente para tratar conjuntos de dados que possam ser armazenados em linhas e colunas e portanto, possam ser consultados através do uso de queries utilizando linguagem SQL (Structured Query Language). Bancos de Dados relacionais não são capazes de tratar dados não-estruturados ou semi-estruturados. Ou seja, Bancos de Dados relacionais simplesmente não possuem funcionalidades necessárias para atender os requisitos do Big Data, dados gerados em grande volume e alta velocidade. Esta é a lacuna preenchida por Bancos de Dados NoSQL, como o MongoDB por exemplo. Bancos de Dados NoSQL, são bancos de dados distribuídos e não-relacionais, que foram projetados para atender os requerimentos deste novo mundo de dados em que vivemos.

Bancos de Dados Relacionais e Data Warehouses – Nas últimas décadas, todos os dados corporativos tem sido armazenados em bancos de dados relacionais e soluções de Business Intelligence usaram DataWarehouses para criar soluções analíticas. Estes dados estruturados, serão fonte de dados para Data Science e daí a importância do conhecimento em linguagem SQL, a linguagem padrão para consultar estes tipos de dados.

Como Cientista de Dados, você precisa ser especialista em todas as tecnologias? Não. Mas parte do trabalho do Cientista de Dados, será coletar dados do HDFS (Hadoop File system), criar RDD’s no Spark, aplicar algoritmos de Machine Learning em streaming de dados, cruzar dados não estruturados coletados de redes sociais, com bancos de dados de CRM, etc…portanto, o Cientista de Dados precisa estar confortável com a forma como os dados estão armazenados e extrair da tecnologia o melhor que ela pode oferecer.

Passo 5: Linguagem de Programação e Machine Learning

Existem diversas ferramentas de análise e o número de soluções não para de crescer. Mas a recomendação para quem está iniciando, é obter o conhecimento básico, antes de tentar usar ferramentas de análise ou pacotes comerciais, de forma a conseguir extrair o melhor destas ferramentas. Algumas linguagens de programação se tornaram ícones em Ciência de Dados, como Python e R, por diversas razões: são gratuitas, contam com uma comunidade ativa e crescente, já atravessaram o período de maturação, são amplamente utilizadas, tanto no meio acadêmico quanto no meio empresarial e se especializaram em Data Science.

Python – É uma linguagem de uso geral, que tem recebido nos últimos anos, mais e mais módulos e pacotes para Data Science como Pandas, Matplotlib, Scikit-Learn e Stats Models. Python é mais fácil de aprender em comparação a outras linguagens, tem uma comunidade ativa, muita documentação disponível (inclusive em português) e pode ser usada para outras atividades além de Data Science.

Linguagem R – Linguagem estatística, que existe há mais de 30 anos. Sua capacidade de processar estatísticas de grandes volumes de dados e criar gráficos sofisticados, fizeram com que gigantes do mercado de tecnologia, como Oracle e Microsoft, adotassem R como linguagem padrão para análises estatísticas. Um dos problemas mais comuns que as pessoas enfrentam em aprender R é a falta de um guia. As pessoas não sabem, por onde começar, como proceder e nem que caminho seguir. Há uma sobrecarga de bons recursos gratuitos disponíveis na Internet e isso torna o caminho de aprendizado muito mais tortuoso.

Por exemplo: a plataforma de Aprendizado de Máquina da Microsoft (Microsoft Azure Machine Learning), possui uma série de módulos Python e R, prontos para uso. O conhecimento de pelo menos uma destas linguagens é fundamental.

Outras linguagens como Julia, Scala e Java também são muito utilizadas em Data Science, mas se estiver começando, opte pelas linguagens R ou Python. Estas linguagens vão permitir uma base sólida, fazendo com o que o profissional avance para soluções comerciais como SAS, Microsoft Azure Machine Learning, Oracle Advanced Analytics, Microstrategy, SAP Predictive Analytics, Tibco Analytics, entre outros.

Se você já possui conhecimento em Matlab, Octave, Stata ou Minitab, saiba que seu conhecimento já pode ser utilizado em Data Science.

Uma dica importante: não tente aprender tudo! Selecione 2 ou 3 ferramentas e se dedique ao aprendizado delas de forma detalhada.

E claro, não dá para falar em Data Science, sem falar em Machine Learning.

Machine Learning (ou Aprendizado de Máquina) é uma das tecnologias atuais mais fascinantes. Você provavelmente usa algoritmos de aprendizado várias vezes por dia sem saber. Sempre que você usa um site de busca como “Google” ou “Bing“, uma das razões para funcionarem tão bem é um algoritmo de aprendizado. Um algoritmo implementado pelo “Google” aprendeu a classificar páginas web. Toda vez que você usa o aplicativo para “marcar” pessoas nas fotos, do “Facebook” e ele reconhece as fotos de seus amigos, isto também é Machine Learning. Toda vez que o filtro de spam do seu email filtra toneladas de mensagens indesejadas, isto também é um algoritmo de aprendizado.

Algumas razões para o crescimento Machine Learning são o crescimento da web e da automação. Isso significa que temos conjuntos de dados maiores do que nunca. Por exemplo, muitas empresas estão coletando dados de clicks na web, também chamados dados de “clickstream”, e estão criando algoritmos para minerar esses dados e gerar sistemas de recomendação, que “aprendem” sobre os usuários e oferecem produtos que muito provavelmente eles estão buscando. O Netflix é um dos exemplos mais bem sucedidos de aplicação de Machine Learning. Cada vez que você assiste um filme ou faz uma avaliação, o sistema “aprende” seu gosto e passa a oferecer filmes de forma personalizada para cada usuário.

Existem diversos algoritmos de aprendizagem de máquina, dependendo se a aprendizagem é supervisionada ou não supervisionada, tais como: Linear Regression, Ordinary Least Squares Regression (OLSR), Logistic Regression, Classification and Regression Tree (CART), Naive Bayes, Gaussian Naive Bayes, k-Nearest Neighbour (kNN), k-Means, Bootstrapped Aggregation (Bagging), Natural Language Processing (NLP), Principal Component Analysis (PCA), Principal Component Regression (PCR), Back-Propagation e muito mais.

Cada algoritmo será ideal para determinado tipo de dado e de acordo com a análise pretendida. Não há necessidade de aprender todos os algoritmos. Mas é importante compreender os conceitos e como implementa-los. Daí a importância da Matemática e da Estatística. Confira as dicas no fim do artigo.

Passo 6: Conhecimento de Negócios

Qual o objetivo da sua análise? Para que você vai coletar montanhas de dados e aplicar modelos de análise? Que problema você pretende resolver, analisando dados? O principal objetivo da Ciência de Dados, é resolver problemas. As empresas não vão iniciar um projeto de Data Science, se isso não for relevante para o negócio. Portanto, o Cientista de Dados deve estar familiarizado com a área de negócio para a qual ele está iniciando um projeto, utilizando Data Science.

Normalmente o mercado interpreta de forma equivocada este requerimento para a profissão de Cientista de Dados, fazendo crer que o profissional precisa ser expert em determinado segmento de negócio. Mas aqui vale fazer algumas considerações importantes. Primeiro, os profissionais de Business Intelligence sempre tiverem este requerimento, conhecer bem uma área de negócio, a fim de coletar os KPI’s (indicadores) e com isso prover soluções BI que atendessem as necessidades do cliente. Isso não mudou, o que mudou foi a forma como a análise é feita, uma vez que o Big Data entrou na equação. Em segundo, dada a amplitude de projetos de Data Science e Big Data, dificilmente haverá um único profissional atuando e sim uma equipe de Data Science, normalmente liderada pelo Cientista de Dados. E no Data Science Team, diferentes perfis irão atuar, como por exemplo especialistas em segmentos de negócio.

A dica aqui é simples. Procure compreender a área de negócio na qual você pretende atuar como Cientista de Dados. Se vai trabalhar em uma mineradora por exemplo, quais são so principais indicadores? De onde vem os dados? Que problemas a empresa precisa resolver? Que tipos de dados devem ser analisados e correlacionados? Como técnicas de Machine Learning podem ser empregadas para melhorar o faturamento da empresa? Como a análise de dados permite oferecer um serviço melhor aos clientes? Cada área de negócio tem as suas particularidades e uma compreensão ampla disso, vai permitir um trabalho que realmente gere valor.

Passo 7: Técnicas de Apresentação e Visualização de Dados

Com a massiva quantidade de dados aumentando a cada dia, um grande desafio vem surgindo para aqueles responsáveis por analisar, sumarizar e apresentar os dados: fazer com que a informação gerada, possa ser facilmente compreendida.

E uma das tarefas mais importantes do trabalho do Cientista de Dados, é ser capaz de transmitir tudo aquilo que os dados querem dizer. E às vezes os dados querem dizer coisas diferentes, para públicos diferentes. Pode parecer fácil em princípio. Hoje temos à nossa disposição os mais variados recursos para apresentação e exatamente aí que está o desafio. Nunca foi tão fácil gerar tabelas e gráficos, com diferentes estruturas, formatos, tamanhos, cores e fontes. Os gráficos estão deixando de ser gráficos e se tornando infográficos. Ter um volume cada vez maior de dados à nossa disposição, não torna mais fácil a apresentação da informação gerada. Pelo contrário, torna a tarefa mais complicada. Quase uma arte.

Uma das tarefas do Cientista de Dados, é apresentar seus resultados. Ninguém melhor que o profissional que faz a análise, desde a coleta, limpeza e armazenamento dos dados, até a aplicação de modelos estatísticos, para explicar seus resultados. Uma visualização efetiva de dados, pode ser a diferença entre sucesso e falha nas decisões de negócio. Particularmente, eu acredito que em breve, a capacidade de comunicar e contar as histórias dos dados, será uma das características mais valorizadas e buscadas pelas empresas. Técnicas de apresentação é um dos skills que fará a diferença na hora de contratar um Cientista de Dados, à medida que o conhecimento técnico estiver difundido.

O Cientista de Dados deve ser um contador de histórias e deve ser capaz de contar a mesma história de maneiras diferentes. O profissional que for capaz de unir as habilidades técnicas necessárias para análise de dados, com a capacidade de contar histórias, será um profissional único. Este é o verdadeiro conceito de unicórnio, atribuído aos Cientistas de Dados.

Diversas ferramentas possuem funcionalidades avançadas para visualização de dados: Pentaho, Tableau, QlikView, Microsoft Excel, Microsoft Power BI, Microstrategy, Weka, NetworkX, Gephi, bibliotecas Java Script (D3.js, Chart.js, Dygraphs), além de visualizações alto nível que podem ser feitas em Python ou R.

É importante não apenas estar familiarizado com uma ou mais ferramentas para visualizar dados, mas também os princípios por trás da codificação visual de dados e comunicação de informações.

Passo 8: Pratique!!

Não há outra forma de aprender qualquer que seja o assunto. É preciso praticar, testar, experimentar, cometer erros, aprender com eles, testar novamente, interagir com a comunidade.

Ufa. Se você chegou até aqui, parabéns! Agora você compreende melhor porque o Cientista de Dados é uma profissão em ascensão e porque sua remuneração está entre as maiores em qualquer pesquisa que se faça? Mas ainda não terminamos, continue sua leitura:

Erros que devem ser evitados ao longo da caminhada:

1- Achar que o aprendizado é fácil e rápido – Em nenhuma profissão, o aprendizado é rápido e fácil. Adquirir conhecimento e experiência requer tempo, esforço, investimento e bastante dedicação. Não caia nesta armadilha. Comece sua preparação hoje mesmo, mas esteja ciente que adquirir conhecimento leva tempo.

2- Aprender muitos conceitos ao mesmo tempo – Este é o erro mais comum. Por se tratar de uma área interdisciplinar, há normalmente a tendência em querer aprender muita coisa ao mesmo tempo. Não foque em quantidade e sim qualidade. Aprenda um conceito, consolide, pratique e só então avance para outra área de estudo. O começo será mais difícil, mas à medida que aprende e adquire experiência, o aprendizado de novas ferramentas fica mais fácil.

3- Começar por problemas muito complexos – A solução de problemas mais complexos em Data Science, requer tempo e experiência. Não tente fazer isso no começo da sua jornada.

4- Focar apenas na programação – Data Science não é apenas programação. Outros conceitos são tão importantes quanto. Estatística é importante. Visualização de dados e apresentação são importantes. Tenha seu foco em outras áreas e não apenas programação.

E como estudar?

Antes de investir em formação analítica, tome essas medidas para ter certeza de obter o valor real do seu investimento.

1. Defina suas metas. Como diz o ditado: “Quem não sabe para onde vai, qualquer caminho serve!”. Você fez a auto avaliação sugerida lá no início do texto? Qual foi o resultado? Quais são as áreas que você precisa se dedicar? Como será sua disponibilidade? Qual seu objetivo? Sei que são muitas perguntas, mas elas precisam ser respondidas, antes de definir sua trilha de aprendizagem.

2. Participe de comunidades. Cientistas de Dados costumam se encontrar em Meetups e em alguns blogs (links abaixo). Estas comunidades vão permitir a troca de experiências e isso é muito valioso.

3. Experimente. Enquanto você não executar um algoritmo de aprendizado de máquina em um dataset com milhões de registros, não criar um algoritmo de limpeza e transformação de dados, não coletar streaming de dados de redes sociais, você não vai compreender como as coisas funcionam. Experimente! Aprenda, faça, erre, faça novamente e quando você menos esperar, você vai ser capaz de analisar dados e contribuir para a empresa onde trabalha ou para seu próprio negócio.

Use as informações que você recolheu para selecionar opções de treinamento que ajudam você a alcançar seus objetivos, sem perder tempo e dinheiro.

Conhecimento em Ciência de Dados requer tempo e dedicação. O treinamento que você escolher deve ser um mix de fundamentação teórica, com prática e experimentação.

Recursos

Existem muitos recursos disponíveis para aprender Data Science e tantos recursos acabam gerando sobrecarga nos iniciantes, que podem perder o foco. Separamos aqui uma lista com as que consideramos as melhores fontes de aprendizagem em Data Science.

Blogs:

Data Science Central: http://www.datasciencecentral.com
KDD Nuggets: http://www.kdnuggets.com
Artigos sobre R: http://www.r-bloggers.com
Python Brasil: http://python.org.br

Estatística:

Statistics: http://www.statistics.com
Simply Statistics: http://simplystatistics.org

Machine Learning:

Machine Learning Coursera: https://www.coursera.org/learn/machine-learning
Deep Learning: http://deeplearning.net/
Deep Learning Book: http://www.deeplearningbook.com.br

Vídeos e Competições:

Top 10 TED Talks for Data Scientists: http://www.kdnuggets.com/2016/02/top-10-tedtalks-data-scientists.html
Data Science for Social Goods: http://dssg.uchicago.edu
Kaggle: https://www.kaggle.com
Data Science Game: http://www.datasciencegame.com

Capacitação:

Data Science from Harvard: http://cs109.github.io/2014
Visualização de Dados: https://columbiadatascience.com/category/course-topics/data-visualization
Open Data Science Master: http://datasciencemasters.org
Big Data e Social Analytics MIT: http://getsmarter.mit.edu/big-data-and-social-analytics-course-aw
Metis Data Science: http://www.thisismetis.com
Zipfian Academy: http://www.zipfianacademy.com
e-Setorial Business Analytics: http://www.e-setorial.com.br/servicos 

Fonte http://datascienceacademy.com.br

Como 'Simpsons' consegue prever o futuro da tecnologia e do mundo?

Simpsons previu Trump presidente em 2000

Viagem no tempo, coincidência, análise de Big Data... Muitas as razões são especuladas como brincadeira para a série no ar há décadas continuar surpreendendo seus telespectadores com previsões que pareciam inimagináveis.

William Edwards Deming

"Em Deus nós confiamos; todos os outros devem trazer dados."

"In God we trust; all others must bring data."

A lista de vezes em que "Os Simpsons" previram o futuro da tecnologia e da sociedade em geral é extensa. Volta e meia vemos casos do tipo – já rolou com a eleição de Donald Trump, com smartwatches, correções automáticas no celular... Mas como o desenho consegue acertar tanto?

Viagem no tempo, coincidência, análise de Big Data... Muitas as razões são especuladas como brincadeira para a série no ar há décadas continuar surpreendendo seus telespectadores com previsões que pareciam inimagináveis.

O site Mic conversou com ex-executivo dos Simpsons, um estatístico e um professor de matemática para tentar entender o que está por trás de tantos acertos. E as razões são mais mundanas do que você imagina.

1 - É tudo questão de quantidade

Episódio futurístico de 1995 tem Lisa falando com sua mãe por um telefone que continha uma tela de vídeo em tempo real
A série "Os Simpsons" está no ar desde 1989. São mais de 600 episódios já mostrados na TV. Em cada episódio, há uma quantidade enorme de piadas. Deu pra entender, né? Quanto mais conteúdo, mais chance de pelo alguma das cenas retratadas em certos episódios estar certa.

"Nós fizemos um zilhão de episódios de televisão, então são muitas oportunidades para fazer previsões. Não acho que alguém fale das previsões que os Simpsons erraram, mas a lista é muito mais longa do que as coisas que foram certas", apontou ao site Daniel Chun, ex-executivo do seriado.

O número de previsões da série realmente não é baixo. Matt Zaremsky, professor assistente de matemática da Universidade de Albany, estima que o desenho fez mais de 120 mil piadas em suas 29 temporadas, levando como base uma média de 8,54 por minuto nas primeiras 12 temporadas. À conta, são adicionadas mais de 1.200 "previsões explícitas sobre o futuro".

"Dos episódios baseados no futuro, estimo em 500 no total as previsões. Dos outros episódios regulares, estimo uma por episódio, o que daria 624 (até a realização da entrevista)", aponta.

De todas as previsões, muitos citam como 20 o número de previsões acertadas, apesar de que o número pode e deve ser maior. Se forem consideradas 20 entre 1.224, a porcentagem de sucesso é de 1,6%.

Com 20 previsões acertadas entre 1.224, a porcentagem de sucesso é de 1,6%

Matt Zaremsky

"As estatísticas dizem que os Simpsons tiveram tantas piadas e previsões que essencialmente tiveram apenas sorte."

2 - O que é uma previsão?

Simpsons e uma espécie de Apple Watch em 1995
Outro tema levantado pelo site é que as pessoas são generosas com a palavra "previsão". Muitos artigos e vídeos são feitos sobre as profecias dos Simpsons, mas essas visões do futuro não são necessariamente chocantes ou específicas do seriado. Um exemplo citado é que o celular no pulso (que lembra os atuais smartwatches) em um episódio de 95 não é tão original.

"O exemplo é que o Simpsons tinha algo que parecia um Apple Watch. Bom, um dispositivo de comunicações no pulso remonta a até Dick Tracy (tira de quadrinhos que estreou em 1931) e os recursos do Apple Watch não vão ser exatamente os mesmos que os Simpsons tinham no relógio. Você tem que dizer se isso é uma previsão ou não", opina Gary Simon, professor aposentado de estatística da New York University Stern School of Business.

3 – O estilo da série

Chapéu com câmera em episódio de 1994 lembra muito as câmeras GoPro
Pelos Simpsons serem um cartoon, os roteiristas podem colocar no seriado qualquer celebridade da vida real nos episódios que quiserem – como ocorreu com Donald Trump em 2000. Os roteiristas também podem criar previsões realísticas diferentes porque a série se passa em dias atuais muito parecidos com a nossa sociedade do presente.

Obviamente, um cartoon pode fazer muito mais previsões do que dramas da TV que se passam no passado, como Downton Abbey. Programas de comédia também são escritos de uma maneira que os espectadores consideram mais realista, segundo Chun. Muitos médicos consideram a comédia Scrubs mais realista da vida em um hospital do que o drama ER, de acordo com o ex-executivo.

"Quando escreve um drama, o roteirista normalmente tenta ter princípios e trata uma sociedade que realmente respeita a moral, onde todos são muito sérios e atuam com máxima integridade em todos os momentos", aponta.

É claro que nos últimos anos a família Simpsons ganhou um concorrente de peso para prever o futuro: a série de ficção Black Mirror, atualmente na Netflix, mas que tem como função exatamente prever uma sociedade futurística baseada em nossas tecnologias atuais.

4 – O cinismo dos roteiristas

Espécie de autocorretor apareceu em episódio de 1994 com um aparelho Newton da Apple
Uma parte das previsões acertadas do Simpsons também é associada ao estilo dos roteiristas. Eles são cínicos e retratam sua visão de mundo no seriado.

"Existe uma visão de mundo que os roteiristas dividem com alguns princípios básicos. Entre eles, de que as pessoas são gananciosas e que as corporações são terríveis e têm uma tendência de arruinar tudo. A corrupção é desenfreada e a sociedade como um todo tem a memória de um peixe", cita Chun, ex-executivo do seriado.

Alguma semelhança com a realidade? Bom, então enquanto a sociedade seguir desta maneira, os Simpsons continuarão acertando.

Fonte:
https://tecnologia.uol.com.br

Como o big data já está mudando a sua vida

O que é?

É a possibilidade de acesso a uma inimaginável quantidade de dados e informações sobre objetos, sistemas, pessoas, e a relação desses elementos entre eles mesmos. Com isso, podemos transformar tudo aquilo que conhecemos em códigos binários, permitindo medir e transformar em padrões a combinação desses códigos.

O que pode fazer?

Medir e controlar quase tudo que acontece nas cidades, de sistemas de infraestrutura (como transporte, abastecimento de água, rede de esgoto, comunicação) a estratos de grupos e pessoas (perfis socioeconômicos geolocalizados podem avaliar a eficiência e necessidade de programas de saúde e educação) e monitoramento em tempo real do que ocorre nas cidades (de falhas, acidentes de trânsito a problemas de segurança).

Por que é possível?

Tudo isso já acontece em grande parte devido ao desenvolvimento de tecnologias cada vez menores, que se misturam ao ambiente na forma de sensores e microchips e podem coletar e analisar dados, promover a comunicação entre si (internet das coisas) e até disparar uma série de ações pré-programadas para reagir a determinados eventos.

Perigos

Embora prometam mais eficiência urbana, esses mecanismos também representam uma sociedade mais vigiada e controlada, com riscos como a manipulação deliberada de dados e informações, fraudes, interpretações equivocadas, uso de dados para fins obscuros, perda de privacidade e liberdades civis.


Deslize para o lado para ver o conteúdo completo


Como o Spotify migrou todo seu data center para o Google Cloud

"E o que as empresas podem aprender com isso; Migração foi complexa, mas agora desenvolvedores têm mais liberdade e maior escala."

O Spotify iniciou a utilização da Google Cloud Platform (GCP) em 2016, com investimentos de US$ 450 milhões em três anos. Para o Google, a plataforma de streaming de músicas tornou-se um cliente referência, não apenas pela sua marca e escala, mas também pela reputação como uma empresa centrada em engenharia e orientada por dados.

O Spotify, desde então, fechou ambos os data centers instalados nos EUA e estará livre de infraestrutura on-premise até o final do ano, após uma migração complexa.

Por que migrar?

Ramon van Alteren, diretor de engenharia do Spotify, comenta que, se pensar na quantidade de esforço necessário para manter a capacidade de computação, em armazenamento e rede de uma empresa global que atende a mais de 170 milhões de usuários, isso é uma quantidade considerável de trabalho.

Além de evitar que desenvolvedores se preocupem com provisionamento e manutenção de infraestrutura, a empresa também queria aproveitar algumas das inovações do Google Cloud, especificamente o data warehouse em nuvem BigQuery, Pub/Sub para envio de mensagens, além da ferramenta DataFlow para processamento em lote e streaming.

Migração de serviços: passo a passo

O plano de migração atual foi formulado em 2015 e dividido em duas partes: serviços e dados. A migração de serviços se concentrou na transferência de quase 1,2 mil microsserviços de data centers para o Google Cloud Platform.

Os três principais objetivos durante a migração, de acordo com van Alteren, foram minimizar a interrupção do desenvolvimento do produto, terminar o mais rápido possível para evitar o custo e a complexidade da execução em um ambiente híbrido, além de garantir que o Spotify não tivesse nenhum serviço executando em seus data centers.

Uma das primeiras ações que as empresas fizeram foi construir uma pequena equipe de migração de engenheiros e criar uma visualização real time de todo o estado de migração para que os engenheiros pudessem se assistir para ver o andamento do projeto.

Essa visualização parece um conjunto de bolhas vermelhas (data center) e verdes (Google Cloud), com cada bolha representando um sistema e o tamanho da bolha representando o número de máquinas envolvidas.

A migração de serviços começou com as dependências de mapeamento, já que a arquitetura no Spotify significa que cada microsserviço depende de 10 a 15 pessoas para atender uma solicitação do cliente. Isso significa que uma migração “big bang”, em que tudo para, não era uma opção, pois os clientes esperam um tempo de atividade constante do serviço.

Em vez disso, as equipes de engenharia do Spotify receberam a tarefa de transferir seus serviços para a nuvem em um sprint de duas semanas, período em que pararam efetivamente qualquer desenvolvimento de produto. Isso também permitiu que essas equipes começassem a avaliar sua arquitetura e desativassem qualquer coisa desnecessária.

Uma coisa que o Google Cloud fez especificamente para o Spotify durante a migração é a opção Virtual Private Cloud (VPC). “Isso permite que você construa de forma semelhante a uma rede interna que conecta vários projetos e eles podem cruzar conversas”, disse van Alteren.

Isso permite às equipes terem um bom controle de suas demandas e, com isso, elas conseguem fazer o que precisam e, se algo dá errado, é somente no setor, e não em toda a empresa.

Uma vez que a migração estava em fluxo total, a equipe de migração central começou a induzir secretamente falhas nesses sistemas de nuvem, registrando como as equipes reagiram na nova arquitetura.

“Isso ajudou a garantir que os sistemas de monitoramento fossem adequadamente estendidos para a nova implementação na nuvem, se uma equipe não percebesse, Finalmente, tivemos esta cartilha em que eles poderiam começar a usar os modos de falha na nuvem que talvez não tivessem no passado”, explica Peter Mark Verwoerd, arquiteto de soluções do Google.

Em maio de 2017, cada sprint de migração foi concluído e o tráfego estava sendo encaminhado para o Google Cloud. Então, em dezembro de 2017, o Spotify atingiu 100% dos usuários e já havia fechado o primeiro dos quatro data centers. Desde então, o segundo data center foi fechado e os dois últimos, ambos na Europa, serão encerrados até o final deste ano.

Migração de dados

Devido a um gráfico de dependência altamente complexo, foi um desafio mover 20 mil tarefas diárias de dados para o GCP sem causar falhas no fluxo, de acordo com Josh Baer, ​​gerente sênior de produtos para a infraestrutura de machine learning do Spotify.

O Spotify começou avaliando a possibilidade de uma migração ‘big bang’. Porém, mesmo com um link de rede de 160 gigabits por segundo, seriam necessários dois meses para copiar os dados do cluster do Hadoop para a infraestrutura do Google. “Nós não seríamos um grande negócio se estivéssemos perdidos por dois meses”, acrescentou ele.

A melhor estratégia, então, foi copiar os dados. “À medida que você transfere seu trabalho para o GCP, você copia suas dependências e, em seguida, pode transportar seu trabalho”, explicou. “Então, se você tem consumidores downstream, talvez tenha que copiar a saída do seu trabalho de volta ao nosso cluster local para que eles não sejam quebrados. Como a maior parte da migração de dados durou de seis a 12 meses, estávamos executando muitos desses empregos para preencher lacunas em nossa árvore de dependência.

Lições aprendidas

Max Charas, engenheiro de nuvem do Google, alerta: “essa estratégia de migração é muito personalizada para o Spotify, então, quem quiser fazer algo assim, pode parecer muito diferente.”

A empresa aprendeu algumas lições importantes com a migração. A primeira delas foi a preparação. “Nós nos preparamos provavelmente dois anos antes da migração e cada migração levou cerca de um ano. Tentamos criar um caso de uso mínimo para mostrar os benefícios da mudança para o GCP, mas isso não poderia ser uma coisa pequena para mostrar a verdadeira valor”, diz Charas.

Em segundo lugar foi o foco. Para Van Alteren, é realmente incrível o que pode ser feito com uma equipe de engenheiros focada em uma única coisa. Isso também ajudará os parceiros de negócios, que ficam mais felizes com um curto período de tempo sem desenvolvimento de produto em vez de um longo período de tempo.

A terceira foi a construção de uma equipe de migração dedicada para atuar como proteção para ajudá-los a saber o que precisam, transmitir experiências e aprendizados passados ​​e apenas os recursos de que precisam.

A última foi “sair do híbrido o mais rápido possível – todos esses trabalhos de cópia são caros e complexos”, disse Baer.

Resultados

Com a migração, os desenvolvedores estão com mais liberdade e maior escala, sem sacrificar a qualidade do serviço. “Qualidade de serviço é algo que medimos diligentemente e não houve degradação”, disse Van Alteren. “Os benefícios incluem nosso canal de entrega de eventos, que carrega os pagamentos de royalties para detentores de direitos. Quando mudamos para a nuvem, o pipeline transportava no pico de 800 mil eventos por segundo e agora carregam três milhões por segundo”, finaliza.

serviços de migração de dados

 

 

http://idgnow.com.br/ti-corporativa/2018/08/01/como-o-spotify-migrou-todo-seu-data-center-para-o-google-cloud/

Como usar Data Science para revelar perfis comportamentais?

Em junho deste ano, a empresa Tail Target, em parceria com grupos de usuário, fez um estudo sobre o perfil do desenvolvedor Java no Brasil. Para isso, divulgou entre os desenvolvedores um link que deveria ser clicado por quem quisesse participar da pesquisa.

Este link não continha uma pergunta sequer nem levava para nenhum questionário. Imediatamente, choveram e-mails avisando que o link divulgado estava errado. Não estava. Em menos de uma semana estava pronto um estudo completo que mostrava os interesses, demografia e estilo de vida dos desenvolvedores. Mágica? Não, Data Science.

Data Science é um novo campo que alia Big Data, processamento estatístico e inteligência artificial para encontrar informações e detectar padrões. É cada vez mais comum encontrar grandes empresas cuja tomada de decisão está baseada em Data Science.

Para outras, Data Science é fundamental para a própria existência do seu negócio. No Netflix, 75% da audiência vem do seu algoritmo de recomendação, que é um ótimo exemplo de Data Science aplicada. A plataforma de relacionamentos e-Harmony usa Data Science para encontrar o par ideal para uma pessoa e já é responsável por 5% dos casamentos nos EUA.

O estudo sobre o perfil do desenvolvedor Java analisou dados de navegação anônimos de centenas de pessoas que visitaram um dos sites sobre desenvolvimento Java que estavam sendo monitorados. Fazendo uma análise sobre que outros sites estas pessoas visitavam, algoritmos de inteligência artificial detectaram padrões que permitiram traçar um perfil comportamental dessas pessoas.

Segundo esse estudo, 88% dos desenvolvedores Java brasileiros são homens e apenas 12% são mulheres. Os adultos representam a maioria desses desenvolvedores (44%), seguidos de jovens adultos (30%) e adolescentes (25%). Finanças, tecnologia, futebol, viagens e TV, nessa ordem, são os assuntos que mais interessam os desenvolvedores.

A surpresa nesse estudo veio ao medir os microssegmentos que mais interessavam aos desenvolvedores homens e mulheres. Entre os homens, os principais microssegmentos são TV Aberta, novelas, carros de alta renda, séries de TV e viagens internacionais. Já as mulheres preferem ler sobre TV Aberta, TV a cabo, cabelo e maquiagem. Ou seja, os desenvolvedores homens são noveleiros. As desenvolvedoras não.

Os algoritmos aplicados não coletam informações demográficas nem qualquer informação fornecida pelos usuários. O que eles fazem é processar registros de acesso a milhares de sites e executar uma série de algoritmos de inteligência artificial que tentam adivinhar as informações demográficas e os interesses baseado no comportamento online dessas pessoas.

Obviamente existe uma margem de erro nesses algoritmos, mas eles têm se tornado cada vez mais precisos. Depois da publicação deste estudo, um pesquisador da Universidade de Kent enviou os dados de uma pesquisa similar feita em 2003. Esse estudo usou métodos tradicionais: entrevistas e questionários para encontrar a demografia do desenvolvedor Java. O estudo de 2003 identificou que 88% dos desenvolvedores eram homens. Esse é exatamente o mesmo número encontrado pelos algoritmos que fizeram o mesmo levantamento usando dados comportamentais.

*Fabiane Nardon é PhD em Engenharia Eletrônica pela Escola Politécnica da USP, Mestre em Ciência da Computação pela Universidade Federal do Rio Grande do Sul e Bacharel em Ciência da Computação pela Universidade de Passo Fundo. Desde 2012, é a Cientista Chefe da Tail Target.

fonte

Digital Analytics: desmistificando o fabuloso mundo das métricas digitais

Web Analytics, Digital Marketing Analytics, Online Analytics, Business Intelligence, Big Data, Google Analytics… São tantos nomes e misturebas desenfreadas que é difícil entender de fato o que faz, ou não, parte do universo das métricas digitais.

Pra tirar essa bagunça da frente e ajudar a simplificar o conceito, principalmente mostrar que vai muito além de ferramentas, adaptei esse artigo no qual compartilho os seguintes assuntos com você:

  1. Digital Analytics em 140 caracteres
  2. Digital Analytics é o mesmo que usar o Google Analytics?
  3. Digital Analytics é o mesmo que Web Analytics?
  4. E Business Intelligence / BI, é Digital Analytics?
  5. Posso chamar só de Analytics?
  6. Direto ao ponto: o que é Digital Analytics?
  7. Aplicações de Digital Analytics
  8. Bônus: como começar
  9. Referências

1. Digital Analytics em 140 caracteres

"Utilização de dados para a otimização recorrente da experiência online dos seus usuários."

Experiência online pode ser vender, utilizar um app, postar em uma rede social, clicar em um anúncio etc.

Usuário pode ser um cliente, um funcionário, um parceiro etc.

De fato, Digital Analytics não é nem de perto um bicho de sete cabeças.

2. Então é o mesmo que usar o Google Analytics?

Não. Usar o Google Analytics para a tomada de decisão de melhorias no seu site faz parte do escopo de Digital Analytics, mas é apenas uma das possíveis aplicações desse universo todo potentoso.

  • Analytics Maturity Model publicado na Twinkle Magazine

Explicando visualmente:

Este é um modelo criado por um profissional de renome no mercado, o Stéphane Hamel, que foi diretor em uma das consultorias mais prestigiadas do segmento, a Cardinal Path.

O Online Analytics Maturity Model mostra pra gente que Digital (ou Online) Analytics vai muito além de ferramentas (tools) e tecnologia. Contempla também do gerenciamento de times a processos e metodologias. Logo o Google Analytics é "só" um aspecto de uma dessas pontas desse gráfico.

Só esse tema merece um belo post no futuro, mas acho que deu para ter uma noção né?

3. É o mesmo que Web Analytics?

Web Analytics & Digital Analytics são sinônimos, porém o último a gente pode dizer que é a versão melhorada do primeiro, que ficou muito datado.

O termo "Web" é muito ligado à WWW (World Wide Web) e consequentemente ao browser, porém hoje a gente respira mobilidade e internet das coisas (IoT), então nada mais justo que ampliar de "Web" para "Digital".

Isso não é algo que tô puxando da cartola não, uma das maiores associações do mercado, a Digital Analytics Association (DAA), mudou do seu antigo nome "Web Analytics Association" (WAA) para o atual em 2012 justamente por esse motivo.

Logo, se você é mais Old School e prefere continuar usando o termo Web Analytics, tem problema não. Provavelmente você já usou mouse de bolinha e monitor CRT no seu passado longínquo e, assim como eu, pode ser um pouco mais apegado ao vocabulário tech-clássico.

4. E Business Intelligence / BI?

Não. E sim.

Confesso que é um pouco revoltante a descarada prostituição e buzzwordificação do termo. Tudo quanto é agência digital do novo século faz, vende e contrata gente de BI: de analista de BI, estagiário de BI, gerente de Business Intelligence, programador BI…

Aí você vai ver na descrição da função, é pra tirar relatório no Google Analytics, analisar desempenho de mídia ou confeccionar lindas e coloridas planilhas de Excel. Melhor falar que a vaga é para Digital Analytics (ou Online Analytics, ou Web Analytics ao melhor estilo mouse com bolinha).

Revoltas à parte, Business Intelligence está para o Sistema Solar assim como Digital Analytics está para o planeta Terra (#AmoAnalytics). Um está incluído no outro, mas o primeiro é monstruosamente maior.

“(…) a set of techniques and tools for the acquisition and transformation of raw data into meaningful and useful information for business analysis purposes”

Este é o "Tweet" na Wikipedia sobre Business Intelligence, e se você tiver alguns minutos de paciência verá que BI é mais amplo, complexo e encorpado que o nosso querido fitness Digital Analytics, mas isso não deixa em nada o último desinteressante, mesmo que a gente não chegue a comentar aqui sobre Ralph Kimball ou William Inmon, as duas maiores referências no tema... então bora continuar com nossa lupa analisando o nosso planeta azul de métricas.

[revolta ON] Só pra não perder o hábito: você usar o Google Analytics pra gerar relatórios de performance do seu site e dizer que faz BI seria como você fazer a arte de um cartão de visitas da empresa do seu tio (sim, você é o sobrinho) e dizer para os amiguinhos que faz planejamento e desenvolvimento estratégico de comunicação e publicidade. [/revolta OFF]

E o Big Data?

Você pode praticar Digital Analytics e Big Data ao mesmo tempo, uma vez que o último se refere a uma quantidade elefântica de dados. Ou seria baleística-azulística?

Transcendendo a biologia da coisa, Big Data, que virou outra buzzword, está ligada da coleta à extração de dados a partir de uma volume realmente monstruoso de dados, com intuito de fazer descobertas (a.k.a. gerar insights). Logo o Big Data é praticável tanto no escopo de Digital Analytics como em Business Intelligence.
Entenda melhor este processo seguindo este link.

5. Posso chamar só de Analytics?

Ô se pode. Deve. É nome short, tá na moda também. Ousaria dizer que "Analytics" é sexy. O que tenho reparado é que ficou chic, cool, descolado, e que cada vez mais ganha novos prefixos.

Veja se você já se deparou com algum desses aí:

  • Digital Marketing Analytics
  • Startup Analytics
  • Online Business Analytics
  • eCommerce Analytics
  • App Analytics

Só de usar, já dá uma embelezada né? #AnalyticsSuaLinda

E o significado é o mesmo pra tudo, porém já está segmentado no seu devido contexto:

"Utilização de dados para a otimização da experiência online dos seus usuários [no App / no Ecommerce / na Startup / etc…]"

6. Afinal de contas, sem enrolação, do que se trata Digital Analytics?

Agora vamos à parte mais teórica do texto, só pra deixá-lo um pouco mais sério:

A gente aprendeu antes que

Digital Analytics tem um bocado de nomes doidos, que você pode escolher na maioria das vezes como chamá-lo, mas por favor não use o termo BI pra se referir a tarefas como gerar relatórios no GA, ou ainda atestar que o CTR escapuliu do CPC que foi enquadrado pelo CPA.

E agora vamos aprender que

De uma forma bem objetiva, Digital Analytics compreende um conjunto de técnicas, processos e metodologias que visam a utilização de dados em ambientes digitais para a otimização recorrente e (melhor) tomada de decisão, percorrendo ao menos 3 áreas ou estágios:

  • Coleta de dados (Data Capture): ferramentas, armazenamento de dados, integridade, implementações técnicas, modelagem etc.
  • Visualização dos dados (Data Reporting): relatórios, painéis de controle (dashboards), monitoramento, alertas etc.
  • Análise dos dados (Data Analysis): geração de insights, criação de planos de ação e otimização, formação de base de conhecimento, aprendizado etc.

Avinash Kaushik

em seu livro Digital Analytics 2.0

"Digital analytics is the analysis of qualitative and quantitative data from your business and the competition to drive a continual improvement of the online experience that your customers and potential customers have which translates to your desired outcomes (both online and offline)"

Em tradução livre e descompromissada, seria algo como "Digital Analytics é a análise de dados quantitativos e qualitativos do seu negócio e dos concorrentes orientada ao melhoramento contínuo da experiência dos seus clientes e potenciais clientes que se traduz no seu retorno desejado (ambos online e offline).

E fechamos esta parte teórica com mais uma definição:

Digital Analytics Association

What is Digital Analytics?
"The science of analysis using data to understand historical patterns with an eye to improving performance and predicting the future. The analysis of digital data refers to information collected in interactive channels (online, mobile, social, etc.). Digital Analytics has become an integral part of core business strategies and maintaining a competitive edge. Digital data started the Big Data meme as it heralded the onslaught of Volume, Variety and Velocity, opening the door to new types of correlative discovery much wider. Digital Analytics is a moving target of innovation and exploration. That’s what makes it fascinating."

Realmente fascinante!

[Modo Preguiça ON] Link para o Google Tradutor

7. Que tal demonstrar algumas aplicações?

  • Exemplo de Dashboard postado por ∆ Studio–JQ ∆ no Dribble

Vamos explorar mais a fundo em outras postagens, porém para ficar fácil ligar o nome à coisa, alguns exemplos de aplicações de Digital Analytics:

  • Desenvolver dashboards (painéis de métricas).
  • Gerar relatórios de desempenho de mídia.
  • Implementar ferramentas de analytics com as melhores práticas de mercado.
  • Planejar e definir os indicadores chave de performance (KPI's) do seu site ou campanha.
  • Integrar diferentes fontes de dados em um Data Warehouse.
  • Utilizar os dados coletados para criar novos planejamentos de comunicação digital.
  • Criar e planejar testes A/B definindo métricas de sucesso.
  • Formar uma base de conhecimento do comportamento de navegação do seu usuário.
  • Desenvolver automações (e-mails, conteúdo personalizado, formulários de lead etc.) com base neste mesmo comportamento de navegação.
  • Criar públicos e segmentos de audiência para Remarketing.
  • E a lista vai longe…

Você deve ter notado vários itens acima são táticas ou ações de Marketing Digital, Inbound Marketing e/ou Growth Hacking. Não tem jeito, todos estão relacionados, ligados nessa [termo duramente censurado] gostosa capicce?

No final, a coisa funciona mais ou menos assim: você pode praticar marketing digital ou inbound sem nem olhar para Digital Analytics (shame on you). Mas na maioria das vezes, a prática de Digital Analytics estará sempre associada a outros temas. Sem dúvida uma bela de uma companhia!

8. **Bônus — Como começar?

Aproveitando toda a nova onda de Inbound & Fórmula de Lançamento, marotamente vou compartilhar 2 bônus com você:\

a. Curso oficial do Google

Se já não está praticando hoje nenhuma das atividades de Digital Analytics, ou se já está, mas quer aprofundar seus conhecimentos, minha recomendação top estrela na testa é sempre a mesma: comece pelo curso oficial do Google, o Digital Analytics Fundamentals .

É free. É top. É online e, pra quem prefere, tem legenda em português. Mas não se acostume com traduções, pois a maior parte do conteúdo de Digital Analytics na web está em inglês.

b. Avaliação de Digital Analytics Maturity

  • Exemplo de Relatório da Ferramenta DigitalAnalyticsMaturity.org

Mais um 0800, mas dessa vez se você não se sente confortável em ler em inglês nem tente.

Essa é uma ferramenta free de auto avaliação do modelo de maturidade de Analytics, citado anteriormente.

Espero humildemente que este artigo tenha contribuído um pouquinho mais na sua jornada pelo nirvana Analítico.

Tem sugestões e referências? Elogios de montão? Críticas vulcânicas? Deixe seu comentário!


"Muito obrigado e até a próxima!
May the Analytics be with you!!!"

9. Referências

Pra desenvolver esse texto usei as referências legalmente surripiadas e devidamente creditadas:

Entre os Vs do Big data, velocidade cresce em importância

Ferramentas open source começam a surgir proporcionando análises mais rápidas de grandes volumes de dados. Nem sempre o negócio poderá esperar decisões com espera de vários dias...

O tema Big Data está na mídia e começando a se tornar realidade. Mas curiosamente, até pela inexatidão do nome, atenta-se muito ao fator volume. A capacidade de armazenar dados cresce rapidamente, ao mesmo tempo que seu custo cai. Mas uma variável importante é a velocidade com que, rápida e eficazmente, conseguimos acessar, analisar e tomar decisões baseadas nestas informações. A variável velocidade, ou a velocidade com que o fluxo de informações navega pela organização, é um dos principais Vs dos conceitos embutidos em Big Data.

Velocidade de acesso já é realidade em alguns setores, como financeiro, onde a vantagem competitiva na compra e venda de ações mede-se em microssegundos. Mas à medida que interagimos com as empresas de forma contínua, com nossos smartphones e tablets, elas começam a identificar a importância de interagir com seus clientes durante as próprias interações. Assim, um negócio de comércio eletrônico,  como o da Amazon, propõe recomendações baseadas nos seus padrões de compra no instante em que você está ativo no site. E bancos tentam identificar uma fraude no momento em que você está utilizando um cartão de crédito, em qualquer lugar do planeta.

Mas, vocês pararam para pensar no imenso volume de dados e demanda de processamento que está por trás destas operações? Identificar um padrão de compras ou uma tentativa de fraude envolve a análise de uma montanha de dados estruturados e não estruturados.

Com maior variedade de dados disponiveis, maiores as chances dos algoritmos conseguirem identificar padrões. Em Big Data, a análise, portanto, não se restringe apenas a volumes maiores, mas a um montante mais complexo (diversidade de dados) e a uma velocidade que atenda às necessidades do negócio. Um exemplo interessante é a empresa Dataminr que vasculha cerca de 500 milhões de tuites por dia para buscar informações que mexam com o mercado antes que cheguem ao noticiário. A Dataminr categoriza e analisa cada tuite em tempo real, separando o spam, e comparando a informação com outras fontes de noticias, preços de mercado, padrões climáticos e outros dados para determinar sua importância.

Este quesito, velocidade, tem sido o alvo de inúmeras pesquisas e projetos tecnológicos. Alguns exemplos são o Druid e o Drill. O Drill é a versão open source do Dremel, do Google. Vale a pena estudar um pouco mais a tecnologia Dremel, e para isso sugiro a leitura do texto http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/36632.pdf. Recomendo também olhar o Storm, usado pelo Twitter. É um sistema open source de baixa latência, com o conceito de “stream processing”. Esta modalidade de processamento é necessária quando a aplicação demanda resposta imediata ao dado que chega. Reparem como temos soluções de tecnologia de ponta em open source! Me parece que aos poucos, soluções proprietárias começam a dar lugar a soluções open source, à medida que estas amadurecem e criam um ecossistema consistente em torno de si.

Estas tecnologias complementam o onipresente Hadoop, que foi desenvolvido para operar em batch (tempo muito mais lento...) e provavelmente se consolidarão nos próximos anos. Por sua vez, distribuidores Hadoop, como a Cloudera, desenvolvem soluções que permitem fazer análises rápidas, em cima da massa de dados, sem necessidade de passar por processos batch. O Impala é um exemplo bem emblemático.

Mas temos aí um interessante fato. Ser rápido não significa ser tempo real. Na prática não existe tempo real, mas “quase tempo real”. Tempo real significa que você trata o dado no instante em que ele chega. Trata o dado no presente. Diferente de sistemas como o Drill e o Dremel que tratam dados já armazenados, embora em alta velocidade. O mesmo com o Dataminr, que trata tuites já postados. No dia a dia são poucos os casos de tempo real. Um algoritmo de recomendação como o da Amazon não precisa ser em tempo real. Ele precisa, sim, interagir com o cliente enquanto ele navega pelo site da empresa, o que pode levar alguns segundos ou minutos. Tempo real é necessário para um veículo autonômo como o carro sem motorista do Google, pois tem que tomar decisão no instante que a situação ocorre.

Planejar iniciativas de Big Data passa necessariamente em maior ou menor graus pelos vários Vs, como volume e variedade. Mas, o aspecto velocidade não pode e nem deve ser menosprezado.

Nem sempre o negócio poderá esperar decisões com espera de vários dias...Talvez precisemos analisar e decidir na hora em que o fato está acontecendo.

(*) Cezar Taurion é CEO da Litteris Consulting, autor de seis livros sobre Open Source, Inovação, Cloud Computing e Big Data

Cio.com.br

Generalista ou especialista? Kubrick parece ter a resposta.

Stanley Kubrick

Que tipo de executivo contratar: Generalista ou Especialista?

Se estivesse vivo, Stanley Kubrick teria completado 90 anos no dia 26 de julho. Muito já se falou sobre este gênio do cinema e seu legado mas, talvez, poucos tenham feito paralelo entre a carreira do artista e o mercado corporativo. Em termos gerais, uma das grandes questões de recursos humanos é definir que tipo de executivo contratar: generalista ou especialista? Kubrick parece ter a resposta.

O diretor filmou apenas 13 longas-metragens, sendo que pelo menos sete de seus filmes se tornaram obras-primas reconhecidas e plenamente aceitas no meio artístico. Outras películas, no todo ou em parte, também se destacaram como pérolas cinematográficas. O mais instigante, de fato, é a variação de gênero que o cineasta vivenciou na profissão. Em Dr. Fantástico, fez comédia de humor negro. Spartacus, épico. 2001, expandiu o alcance da ficção. Uma odisseia no espaço! Com O Iluminado, intensificou o horror psicológico. Explorou a guerra em Nascido para Matar. Refinou a história policial em O Grande Golpe. É como se um executivo de marketing percoresse segmentos tão distintos como a indústria bélica, o comércio exterior, a inteligência artificial, hotelaria, recrutamento e seleção, loterias etc. Sempre com resultados bem acima da média.

Kubrick abordou diversos gêneros do cinema
assim como um executivo generalista atua em
diferentes segmentos de mercado.

E não é apenas na diversidade de estilos que Kubrick foi um generalista. Nos sets de filmagens atuava em outras frentes – fotografia, roteiro, efeitos especiais, montagem e produção. Também participava da direção de arte, da cenografia e da sonorização, com controle absoluto, embora os créditos fossem associados a outros profissionais atentos à sua batuta. Estudo conduzido por pesquisadores da Columbia Business School e da Tulane University com 400 executivos confirmou a vantagem daqueles que trazem um repertório mais amplo e eclético, com experiências diversas, tendendo a assumir posições de liderança mais rapidamente. No jargão do RH, Kubrick tinha habilidades multifuncionais (cross-functional skills).

Outra pesquisa, encomendada pela Microsoft e realizada pela International Data Corporation – IDC, empresa global de inteligência de mercado e consultoria, após avaliar 76 milhões de vagas de empregos, cravou que as oportunidades mais promissoras de ascensão profissional entre 2016 e 2024 exigirão competências multifuncionais em detrimento de habilidades técnicas e específicas, mesmo em áreas como TI, direito e saúde. A consultoria ainda apontou que nas 10 principais habilidades do profissional do futuro estão a orientação para o detalhe (detail oriented). O generalista não é um “superficialista”.

Relatórios de importantes universidades e
empresas americanas apontam as
competências multifuncionais como
habilidades essenciais do profissional do
futuro.

Mais uma vez Kubrick corresponde. Como um cientista de dados que cruza estatísticas, amostras e informações diversas do negócio para orientar estratégias mercadológicas, o cineasta americano ficou conhecido por seu perfeccionismo. Nas filmagens de 2001: Uma Odisseia no Espaço, desenvolveu a centrífuga que simulava os movimentos e efeitos de gravidade zero em uma estação espacial, muito similares ao que acontece na Estação Espacial Internacional construída 30 anos depois. O clássico que completou 50 anos este ano e que está sendo homenageado pelo Museu da Imagem e do Som – MIS em São Paulo, recebeu o Oscar de efeitos especiais. Para gravar Barry Lyndon, filme de época com locações na Inglaterra, encontrou na NASA a lente que permitiria a filmagem sob à luz de velas, com resultados estéticos jamais vistos e ainda não superados. A obra é uma referência estilística, inspirada em quadros do século XVIII, e transposta para as telas de cinema com rara beleza. Em O Iluminado utilizou os recursos da recém-inventada steadicam para obter planos-sequências fascinantes como nas cenas dos corredores e no labirinto do hotel Overlook.

Sempre na vanguarda da tecnologia, Kubrick
já abordava a inteligencia artificial, com o
computador HAL 9000, muito antes da
massificação deste conceito.

O reconhecimento pela gestão de atores é outro diferencial. Ao gravar inúmeras tomadas até a perfeição, Kubrick extraiu atuações icônicas de Peter Sellers, Sue Lyon, Malcolm McDowell, Jack Nicholson, Shelley Duvall e R. Lee Ermey. O desejo de trabalhar com o mestre fez o casal Tom Cruise e Nicole Kidman, o mais cobiçado na década de 90, dedicar-se exclusivamente ao filme De Olhos Bem Fechados, rejeitando qualquer outra oferta durante as gravações.

O ponto máximo da meticulosidade de Kubrick, no entanto, foi o projeto Napoleão. Embora não tenha sido viabilizado por limitações orçamentárias, o trabalho de pré-produção é considerado o mais perfeito já realizado. O livro Napoleon: The Greatest Movie Never Made (editora Taschen), sem tradução em português, de Alison Castle, revela o envolvimento do diretor na intensa pesquisa das locações, cenários, figurinos, elenco, cronologia dos fatos, textos históricos, cinematografia e no desenvolvimento dos argumentos e do roteiro para fundamentação da obra, o que gerou conteúdo e uma base de dados com aproximadamente 17 mil imagens relacionadas à era napoleônica. A intenção do filme, inacabado, fez a fama do diretor, completo.

Como um cientista de dados, Kubrick reuniu
conteúdo e 17 mil imagens para filmar a vida
de Napoleão Bonaparte.

A diversidade é um conceito poderoso e para profissionais generalistas, o conhecimento humano, em qualquer substância, forma ou amplitude é matéria-prima. Soma-se liberdade criativa e ousadia e tem-se o ambiente perfeito para o desenvolvimento de novos produtos, serviços e soluções nos negócios. O relatório da IDC ainda traz que a criatividade (creativity), também compõe o perfil do futuro executivo. Kubrick buscou nas outras artes elementos para enriquecer a sua própria. Escreveu seus filmes a partir da literatura de Nabokov, Clarke, Burgess, Thackeray, King, Schnitzler; orquestrou suas tramas com Strauss (Johann e Richard), Beethoven, Schubert, Haendel, Penderecki, Liszt, Ligeti; inspirou-se nas pinturas de Gainsborough, Reynolds, Chardin, Watteau, Chadowiecki para estabelecer o virtuosismo estético definitivo na sétima arte. Ganhou o reconhecimento dos estúdios, em especial da Warner Bros., que lhe conferia autonomia em troca do prestígio do diretor.

Kubrick buscou na diversidade de outras artes
elementos para enriquecer a sua própria.
Literatura, música e pintura abrilhantaram
a sua obra.

Conquistou a independência. Cativou o público. Impressionou a crítica. Generalista!





https://www.linkedin.com/pulse/generalista-ou-especialista-kubrick-parece-ter-resposta-rodrigo-costa

Não posso fazer tijolos sem barro

Sherlock Holmes

"Dados! Dados!", gritou impaciente.
"Eu não posso fazer tijolos sem barro."
As Faias Cor de Cobre





E você? Como tomas suas decisões?
Tem o apoio de informações precisas sobre o seu negócio?

conheça nossos serviços





O perfil do cientista de dados, de acordo com o LinkedIn

Ferris Jumah, cientista de dados do Linked In, publicou na rede um artigo sobre a dificuldade em descrever as características de sua profissão, mesmo que já existam diversos materiais que oferecem descrições e guias sobre esta carreira. Jumah fez algo diferente: analisou dados retirados da própria plataforma Linked In, a partir do perfil de pessoas que se dominavam “cientistas de dados”. Assim, conseguiu realizar uma abordagem mais assertiva para a definição desse profissional.

Habilidades mais populares entre os cientistas de dados, de acordo com o Linked In

Data Mining

Machine Learning

R

Phyton

Data Analysis

Statistics

SQL

Java

Matlab

Algorithms

Embora essa lista nos mostre quais são as habilidades mais encontradas nos perfis profissionais, fica difícil relacioná-las observando apenas para um ranking. Para facilitar o entendimento, Ferris Jumah foi mais fundo e criou o seguinte gráfico:

(clique aqui para visualizar a imagem em melhor resolução)

Cada nó representa uma habilidade. Com o objetivo de facilitar a visualização e o entendimento dessas informações, elas foram agrupadas por semelhança e representadas por cores. Em seguida, foram dimensionadas em relação a quantas vezes apareceram conectadas e em suas influências em outras habilidades na rede.

Várias são as conclusões podem ser tiradas a partir desse estudo. São algumas delas:

1) Abordam dados com uma mentalidade matemática

Vemos que machine learning, data mining, data analysisstatistics possuem uma classificação alta. Isso indica que ser capaz de entender e representar dados matematicamente, com intuição estatística, é uma habilidade fundamental para os cientistas de dados.

2) Uso de uma linguagem comum para o acesso, exploração e modelagem de dados

Python, R,e Matlab são as três linguagens mais populares para a visualização e modelo de desenvolvimento, e SQL é a mais comum para acesso a dados . Quando se trata de dados, extrair, explorar e testar hipóteses é uma grande parte do trabalho. Não é nenhuma surpresa que estas habilidades estejam em destaque.

3) Fortes desenvolvedores

Vemos também computer science e software engineering como qualificações, juntamente com Java, C ++, Algoritmos e Hadoop - todas tendo espaço notável na visualização de rede . Estas são as habilidades são usadas principalmente para aproveitar os dados para o desenvolvimento de sistemas.

Provavelmente não existe um profissional especialista em todas essas habilidades, mas sim e um ou duas delas. Esta é, portanto, uma visão holística das características representadas dentro de uma equipe típica de cientistas de dados.

E você, chegou a alguma outra conclusão a partir do estudo de Ferris Jumah? Divida com a gente!

O poder dos Sistemas de Apoio à Decisão (SAD)

Também chamados de Decision Suport System (DSS), os Sistemas de Apoio à Decisão (SAD) se utilizam de uma série de conceitos, técnicas e ferramentas para transformar dados em informações úteis para auxiliar a tomada de decisões. Para a elaboração de um sistema deste tipo, normalmente muitos profissionais são envolvidos, principalmente nas áreas da Tecnologia da Informação e Comunicação (TIC) e de Negócios e, especificamente, nas áreas de Business Intelligence (BI), Business Analytics (BA), Data Mining, Machine Learning, Estatística, Banco de Dados, Infraestrutura de Software, Inteligência Competitiva, Marketing, Engenharia e Gestão do Conhecimento, entre outras. A interação de distintos perfis de profissionais garante, além da performance e segurança, que os pontos importantes para a instituição (Indicadores Chave - KPI) sejam definidos pelas áreas que têm o devido conhecimento, maximizando o sucesso dos projetos.

Cubo Analítico

Com todos os Indicadores Chave (KPI) definidos, todas as regras de negócio documentadas e a origem de todos os dados conhecida, se inicia o desenvolvimento do SAD. A primeira etapa consiste em ler os dados de todas as fontes definidas no projeto, integrando-os em um grande armazém de dados, o Data Warehouse (DW).

A partir daí vem a grande sacada do Business Intelligence: são criados os Cubos Analíticos, também chamados de Cubos Multidimensionais, um para cada fato a ser analisado e sem limite de quantidade de Dimensões.

Um único cubo deve ser capaz de oferecer, com muita agilidade, todas as informações que um gestor necessita sobre o fato que o cubo analisa. #Todas.

O exemplo ao lado é uma representação gráfica (gif) de um cubo de Movimentações Financeiras composto por 3 dimensões:

  • Tipo de Movimentação Financeira (o que);
  • Data (quando) e
  • Localidade (onde)

Cada uma das dimensões pode ser utilizada para filtrar os dados e selecionar apenas o período desejado. A porção em vermelho corresponde a seleção feita e no último quadro do gif percebemos o quadrado que indica a intersecção de todos os filtros, ou seja, a resposta desejada.

Filtros aplicados: Tipo de movimentação = Vendas, Data = Ano de 2017, Localidade = Estado de São Paulo.

Painéis Interativos

Agora que o cubo analítico é capaz de dar todas as respostas necessárias ao gestor, a próxima etapa é criar painéis interativos (dashboards) que permitam ao próprio usuário refinar suas consultas, simplesmente selecionando por exemplo o Ano e o Mês, sempre com a possibilidade de filtrar ainda mais os dados, clicando nos gráficos (de barras, pizza, etc.) e obtendo respostas precisas e praticamente automáticas, pois todas as técnicas e ferramentas utilizadas permitem que estes dados sejam pré-computados e de fácil acesso. Tendências e desvios do padrão nos dados da instituiçao são facilmente encontrados, visualmente, de forma clara e intuitiva, conforme alguns exemplos abaixo:

Caso Toyota

No final dos anos 90, a empresa enfrentou grandes problemas em sua cadeia de operações. O custo de armazenamento de carros se elevou e ela não estava mais conseguindo fornecer o produto a tempo para seus clientes. Utilizava computadores que geravam uma quantidade enorme de dados e relatórios que não eram utilizados estrategicamente porque nem sempre eram exatos e muitas vezes eram fornecidos tarde demais - o que atrasava a tomada de decisões.

Uma nova CEO foi contratada. Ela identificou algumas soluções: primeiro, a necessidade de um Data Warehouse - um repositório central de dados, organizado e de fácil acesso. Segundo, a necessidade de implementação de ferramentas de software para efetuar a manipulação desses dados. O novo sistema implantado infelizmente não funcionou de maneira correta: a entrada de dados históricos incluiam anos de erros humanos que não foram detectados, dados duplicados, inconsistentes e falta de importantes informações. Tudo isso gerou análises e conclusões precipitadas sobre o funcionamento da distribuidora.

Apenas em 1999 a empresa resolveu implantar uma plataforma de Business Intelligence. Em questão de dias o sistema apresentou bons resultados. Por exemplo, descobriram que a empresa era cobrada duas vezes por um envio especial por trem (um erro de US$ 800.000). Entre 2001 e 2005, o volume de carros negociados aumentou em 40%, o tempo de trânsito foi reduzido em 5%. Esses e vários outros  benefícios ajudaram a Toyota a alcançar as maiores margens de lucro no mercado automotivo desde 2003, e estão aumentando consistentemente a cada ano desde então. Além disso, um estudo realizado pela IDC Inc. em 2011, indicou que a instituição alcançou, naquele ano, um retorno de pelo menos 506% sobre o investimento em BI. Fonte

Pirâmede da Inteligencia

Esse é apenas um dos inúmeros casos que ilustram a eficiência dessas soluções capazes de integrar e interpretar Dados, transformando-os, de alguma forma, em Informação relevante ao seu negócio, possibilitando, com a devida análise, a criação de Conhecimento. Através da utilização e da gestão deste conhecimento nasce a Inteligência.

Conclusão

Mais de 15 anos passaram desde que a Toyota adotou o BI. Atualmente, gera-se mais de 2.5 quintilhões de bytes de dados diariamente no mundo, sendo que 90% dos existentes hoje foram criados nos últimos 2 anos. A tendência é que esse número cresça de uma forma cada vez mais rápida. 

Uma Solução de Apoio à Decisão não precisa custar milhões de dólares nem exigir a venda casada de equipamentos, treinamentos, consultorias e serviços. Pelo contrário, com software livre e com o respaldo de uma consultoria especializada pode-se atingir resultados excelentes e sustentáveis utilizando o equipamento já existente, com qualquer sistema operacional do mercado, podendo ser acessado desde celulares e computadores até mesmo em grandes painéis televisores. Isto tudo com toda a segurança e liberdade de quem tem todo o código fonte em seu poder.

E você, o que vai fazer com os seus dados?

Pentaho Day 2015: Um evento dedicado à troca de ideias sobre desenvolvimento Open Source e Pentaho. 

 

A Comunidade Pentaho, qual a e-Setorial está inserida, vem se reunindo desde 2008 para trocar experiências, com o intuíto de fortalecer o grupo. Afinal, precisamos realizar um trabalho excelente para que sejamos reconhecidos como fortes e capazes de realizar grandes feitos com desenvolvimento Open Source. E nada como uma boa troca de ideias e conhecimentos para a obtenção de insights.

No último final de semana, nos dias 15 e 16 de maio, estivemos em Curitiba (PR) para participar do Pentaho Day 2015. Profissionais da área da tecnologia vieram de diversas áreas do Brasil e do mundo. Em média 500 participantes fizeram o maior Pentaho Day da história do evento. 

A organização foi algo que chamou atenção logo de início: desde os e-mails com lembretes antes do evento, o credenciamento divido por ordem alfabética, a divisão das atrações por iniciante/avançado, a estrutura dos auditórios e salas de aula da Universidade Positivo.

Leonardo Matt (Assespro-Paraná), Lincoln Paulo Martins Moreira (Sucesu-Pr), Marcio Junior Vieira (Ambiente Livre Tecnologia), Christian Capelini (Universidade Positivo) e Pedro Alves (Pentaho) abriram o evento com uma breve introdução antes de iniciarem as atrações efetivamente. Nomes como Caio Moreno, Marcio Junior Vieira e Marcello Pontes foram responsáveis pela transmissão de conteúdos para os participantes, através de paletras, mini-cursos e apresentações de cases.

Palestrantes_Pentahoday_2015

(palestrantes Pentaho Day 2015)

Temas específicos foram abordados: Pentaho Data Integration, Modelagem de Dados, CGG & Pentaho Reports, Dashboards Ctools, plug-ins, Amazon Redshift, entre outros. Também foram pincelados o funcionamento de tecnologias complementares.

Além disso por diversos momentos o networking foi facilitado, tanto durante os coffees e quanto durante o jantar de confraternização ao final do primeiro dia de evento.

(coffee break)

(jantar pós primeiro dia de evento) 

E pelo visto, não fomos os únicos animados.

A união do grupo é visível. Temos um objetivo em comum: antes de concorrentes, somos responsáveis pelo fortalecimento Comunidade Pentaho e Open Source. Encontros como esse são muito importantes, mais do que apenas transmissão de conhecimento: o networking e a troca de ideias podem ser a porta de entrada para grandes inovações, tanto para empresas quanto para a sociedade.

(foto oficial do evento/fonte: facebook Pentaho Brasil)

Serviços

Em busca da informação gerencial estratégica, reunimos as técnicas mais modernas de software, processos e pessoas especializadas para conceber soluções completas de acordo com a sua necessidade. O objetivo é fazer você concentrar seus esforços naquilo que importa: o seu produto ou serviço!

A e-Setorial disponibiliza uma completa gama de serviços voltados para:

Soluções de Apoio à Decisão

A especialidade da e-Setorial é transformar dados em informações úteis para auxiliar a tomada de decisões, utilizando software livre para criar soluções de alto desempenho e tecnologia de ponta, sem custos de licença.

Estudamos e mapeamos todos os processos envolvidos, entregando soluções completas de acordo com a sua necessidade. Inclusive os requisitos de segurança e registro dos sistemas de gestão ISO 9001, 14001 e 18001.

A partir da integração de dados oriundos de diversas fontes, é possível organizá-los, categorizá-los e filtrá-los em uma única plataforma, assegurando a confiabilidade da decisão tomada.

Também chamados de Decision Suport System (DSS), os Sistemas de Apoio à Decisão (SAD) se utilizam de uma série de conceitos, técnicas e ferramentas para transformar dados em informações úteis para auxiliar a tomada de decisões. Aqui na e-Setorial gostamos de chamar o resultado do nosso trabalho de Soluções de Apoio à Decisão devido ao carater definitivo, eficaz e eficiente que atingem nas instituições onde atuamos.

TabletPara a elaboração de um sistema deste tipo, normalmente muitos profissionais são envolvidos, principalmente nas áreas da Tecnologia da Informação e Comunicação (TIC) e de Negócios e, especificamente, nas áreas de Business Intelligence (BI), Business Analytics (BA), Data Mining, Machine Learning, Estatística, Banco de Dados, Infraestrutura de Software, Inteligência Competitiva, Marketing, Engenharia e Gestão do Conhecimento, entre outras.

A interação de distintos perfis de profissionais garante, além da performance e segurança, que os pontos importantes para a instituição (Indicadores Chave - KPI) sejam definidos pelas áreas que têm o devido conhecimento, maximizando o sucesso dos projetos.


Workflow SAD

  1. Fontes: extração de dados de qualquer origem.
  2. Coletor: responsável pela coleta dos dados.
  3. Transformação: limpa, desnormaliza e pré-calcula os dados antes de serem carregados ao data warehouse. Assim, as análises são otimizadas - possuindo dados mais fáceis, limpos e consistentes.
  4. Data Warehouse: bancos de dados analíticos.
  5. Cache em memória: as métricas mais utilizadas são lidas e calculadas com antecedência a fim de assegurar uma performance otimizada.
  6. Camada de metadados: capacidade de alteração nas nomenclaturas dos dados, de forma a facilitar a compreensão da equipe tomadora de decisões.
  7. Visualização: depois de processados, os dados estão prontos para serem consumidos. Oferecemos ferramentas visuais intuitivas que permitem a análise e compartilhamento das informações com sua equipe em toda a rede.
  8. Insights inteligentes para melhorar seus resultados.

Vantagens

  • Painéis interativos, com informações concisas.
  • Confiabilidade nas informações.
  • Percepções oportunas, precisas, valiosas e práticas.
  • Integração de dados de diversas fontes em um único armazém de dados.
  • Todos os dados são atualizados diariamente.
  • Agilidade no processo de tomada de decisões.
  • Simplificação de processos e redução de custos.
  • Entenda quem são seus melhores clientes, funcionários e produtos.
  • Informação detalhada e de fácil acesso.
  • Possibilidade de integração com softwares pré-existentes.

Cubo Analítico

Com todos os Indicadores Chave (KPI) definidos, todas as regras de negócio documentadas e a origem de todos os dados conhecida, se inicia o desenvolvimento do SAD. A primeira etapa consiste em ler os dados de todas as fontes definidas no projeto, integrando-os em um grande armazém de dados, o Data Warehouse (DW). Nestas etapas contemplamos os itens 1 a 4 do workflow.

A partir daí vem a grande sacada do Business Intelligence: são criados os Cubos Analíticos, também chamados de Cubos Multidimensionais, um para cada fato a ser analisado e sem limite de quantidade de Dimensões.

Um único cubo deve ser capaz de oferecer, com muita agilidade, todas as informações que um gestor necessita sobre o fato que o cubo analisa. #Todas.

Cubo Analítico

O exemplo ao lado é uma representação gráfica (gif) de um cubo de Movimentações Financeiras composto por apenas 3 dimensões:

  • Tipo de Movimentação Financeira (o que);
  • Data (quando);
  • Localidade (onde).

Cada uma das dimensões pode ser utilizada para filtrar os dados e selecionar apenas o período desejado. A porção em vermelho corresponde a seleção feita e no último quadro do gif percebemos o quadrado que indica a intersecção de todos os filtros, ou seja, a resposta desejada.


Filtros aplicados:
  • Tipo de Movimentação = Vendas;
  • Data = Ano de 2017;
  • Localidade = Estado de São Paulo.

Painéis Interativos

Agora que o cubo analítico é capaz de dar todas as respostas necessárias ao gestor, a próxima etapa é criar painéis interativos (dashboards) que permitam ao próprio usuário refinar suas consultas, simplesmente selecionando por exemplo o Ano e o Mês, sempre com a possibilidade de filtrar ainda mais os dados, clicando nos gráficos (de barras, pizza, etc.) e obtendo respostas precisas e praticamente automáticas, pois todas as técnicas e ferramentas utilizadas permitem que estes dados sejam pré-computados e de fácil acesso.

Tendências e desvios do padrão nos dados da instituiçao são facilmente encontrados, visualmente, de forma clara e intuitiva, conforme exemplos de dashboards abaixo, alguns da e-Setorial e outros da Pentaho:

Conclusão

"Uma Solução de Apoio à Decisão não precisa custar milhões de dólares tampouco exigir a venda casada de equipamentos, treinamentos, consultorias e serviços. Pelo contrário, com software livre pode-se atingir resultados excelentes e sustentáveis utilizando o equipamento já existente, com qualquer sistema operacional do mercado, podendo ser acessado desde celulares e computadores até mesmo em grandes painéis televisores. Isso tudo com toda a segurança e liberdade de quem tem todo o código fonte em seu poder."

E você? Vai tomar melhores decisões e se destacar da concorrência?
Tome decisões inteligentes.





Go open source



Um balanço na árvore

Poucos empresários sabem que existem outras opções disponíveis no mercado e por isso se sentem obrigados a gastar quantias absurdas com softwares obsoletos, mal escritos e pouco funcionais, que necessitam de licenças periódicas, hardwares incrivelmente potentes, além é claro, dos consultores mais caros do planeta.

Este cenário existe ainda hoje com empresas adotando seus softwares de ERP (Planejamento de Recursos Empresariais), CRM (Gestão de Relacionamento com o Cliente) e, claro, com soluções de BI-Business Intelligence (Inteligência de Negócios).

Verdadeiras fortunas são investidas e na maioria das vezes sem que sejam atingidos os objetivos propostos para o projeto. Normalmente estas soluções se limitam a fazer o mínimo necessário, cumprindo apenas com a parte transacional, por exemplo, emitindo uma nota fiscal, mas pecando com a parte analítica, por exemplo, com a falta de um painel interativo que informe em um único local, de forma visualmente clara e agradável, os totais de vendas de cada grupo de produtos, por filiais, ao longo do tempo.

Um balanço na árvore - Figura clássica para quem é da área da TI, mas, infelizmente, pouco conhecida por empresários.

Deslize para o lado para ver o conteúdo completo

Crie uma Solução de Apoio à Decisão sob medida para o seu negócio e aumente a lucratividade sem desperdiçar um Real em licenças de uso.
#OpenSource #Agile #ROI #Clássico


entre em contato