O Garimpo da Informação (datamining)

O trabalho dos especialistas que analisam a avalanche de dados gerados pelas empresas atrai o interesse de companhias como a IBM e a EMC, para transformá-los em negócios.

Nos dias atuais, em plena era da informação, os computadores permitem às corporações, universidades e aos governos gerar e armazenar uma quantidade inimaginável de dados. Trata-se, sem dúvida, de uma conquista formidável, mas é preciso dizer também que isso trouxe um problema. O mundo está imerso em um volume tão grande de números, textos, relatórios, fotos e vídeos que é cada vez mais difícil extrair algum tipo de informação útil desse oceano digital. É nesse contexto de excesso de informação que surge um novo tipo de profissional no mercado de tecnologia. Trata-se do cientista de dados. Sua função é, em meio a essa montanha de dados, garimpar aqueles que podem ser úteis para gerar receita. A tendência começou nos Estados Unidos, onde empresas como Google, Facebook e PayPal publicaram anúncios como vagas para cientistas de dados

datamining

Mário Faria, da Boavista: "É preciso colocar inteligência nas informações para que tenham valor".

A novidade não tardou a chegar ao Brasil. No fim do ano passado, a Boavista Serviços Financeiros decidiu contratar um profissional para cuidar das suas informações. O escolhido foi Mário Faria, ex-diretor da IBM, que hoje possui até mesmo o cargo de Chief Data Officer, ou executivo-chefe de dados da Boavista. No cargo, ele se ocupa do fluxo de informações como um todo. “Sou responsável pela coleta e por garantir a qualidade dos dados”, afirma Faria. “É preciso colocar alguma inteligência nas informações para que elas tenham valor.” O trabalho de Faria não é simples. Ele estima, por exemplo, que tenha de lidar diariamente com dez mil fontes distintas de dados. Uma de suas funções mais complexas, no entanto, é integrar áreas distintas da empresa, como marketing e operações, de forma que as informações produzidas em cada uma delas possam ser utilizadas em conjunto

Isso significa organizar o trabalho de 130 pessoas. “Muitas dessas áreas ficavam dispersas na companhia”, afirma o executivo. Apesar das dificuldades, os resultados já aparecem. Por meio do cruzamento de diferentes bases de dados, ele criou produtos para a Boavista, como um serviço antifraude que evita golpes com CPFs de pessoas falecidas, algo muito comum no varejo. Diante dessa nova realidade, o que é preciso para ser um cientista de dados? Segundo o brasileiro Pedro Desouza, que exerce essa função na empresa de tecnologia EMC, nos EUA, é primordial ser um especialista em matemática e estatística. “Ser PhD ou ter doutorado em ciências da computação ou engenharia é um requisito básico”, afirma. 

Escrever um comentário (0 Comentários)

Uma das maiores apostas da IBM em 100 anos: ela vai dizer tudo o que você compra

Novos sistemas da companhia, lançados globalmente hoje, ajudarão as empresas a gerar informação qualificadas

IBM quer deixar os bancos de dados mais úteis para as empresas (foto: shutterstock)

Um consumidor norte-americano reclamou com a empresa Catalina Marketing por receber uma ação promocional com cupons de descontos para produtos infantis. Por que ele receberia esse tipo de promoção se ele não tinha filhos pequenos, apenas uma filha adolescente? Para a sua surpresa, a empresa não estava errada. A sua filha estava grávida e ele ainda não sabia. A companhia de marketing "descobriu" a gravidez da garota antes de seu próprio pai, simplesmente porque ela havia comprado um produto para bebê dias antes em um supermercado.  

Situações como essas devem ficar cada vez mais comuns quando as empresas passarem a investir mais em análises avançadas de bancos de dados. Com o intuito de gerar esse tipo de informação qualificada, a IBM anuncia globalmente nesta terça-feira (09/10), o lançamento de três sistemas de big data (análise de grandes dados), o PureData System for Transactions, o PureData System for Analytics e o PureData System for Operational Analytics.

Os lançamentos fazem parte da família PureSystems, maior investimento do ano da companhia e um dos maiores em 100 anos de história. A IBM investiu US$ 2 bilhões em pesquisa e desenvolvimento para colocar todos os sistemas no mercado mundial. Além desses três sistemas, foram lançados, em abril, o PureFlex (combina computação, armazenamento, virtualização e gerenciamento em um único sistema de infraestrutura) e o PureApplication (soluções para computação em nuvem). A família PureSystem ainda contará com mais sistemas, mas a companhia não especificou quantos

Conheça os sistemas

O PureData System for Transactions será útil para e-commerce e análises de informações em tempo real. “Se um consumidor estiver na boca do caixa, a empresa consegue saber na hora se ele é usuário de lente de contato e oferecer uma promoção”, afirmou Marcos Panichi, executivo de Information Management da IBM Brasil, em entrevista exclusiva à NEGÓCIOS. “A empresa não poderia oferecer esse cupom se ela não tivesse essa análise de dados rápida”, completou.

Escrever um comentário (0 Comentários)

Walmart aumenta vendas com busca semântica

Gigante do varejo registrou crescimento de 10% a 15% no número de clientes que completaram uma compra online depois de procurarem um produto

A Walmart  trabalha com um novo motor de busca baseado na tecnologia de busca semântica. Segundo a gigante do varejo americano, essa nova busca não ajuda os usuários a encontrarem os artigos desejados no seu site, como também proporciona resultados com base em prováveis interesses e intenções.

Como muitas empresas com plataforma online a Walmart a busca como um elemento fundamental para estimular as vendas online. A eBay, por exemplo, anunciou uma atualização da sua ferramenta de buscas para Novembro. A tecnologia foi denominada como Cassini, e deverá substituir a tecnologia Voyager usada desde o início de 2000.

Desenvolvida em 10 meses por uma pequena equipa do @WalmartLabs, centro de tecnologia e investigação do retalhista, a nova ferramenta de busca chama-se Polaris. Baseia-se no projeto Social Genome do laboratório que utiliza dados públicos na Internet, dados proprietários, e mídias sociais, para identificar entidades e relacionamentos interessantes – e adicioná-los para a Social Genome.

O centro foi criado após a aquisição da Kosmix, de Mountain View, Califórnia. A Kosmix desenvolveu uma plataforma de tecnologia de mídia social capaz de filtrar e organizar o conteúdo em redes sociais de uma forma relevante para os usuários.

O motor de busca usa algoritmos como a compreensão de consulta e a extração de sinônimos para descobrir intenções do utilizador na obtenção de resultados. Como resultado, se um usuário digita a palavra “denim”, ele disponibiliza resultados para “jeans”, enquanto “pastilhas de cloro” resultados relacionados com equipamento de piscinasegundo os exemplos fornecidos pela empresa.

Quando um usuário digita a palavra “mobiliário”, ele recebe uma página com múltiplas opções para o quintal. Juntamente parece um banner mostrando artigos à venda e em promoção, para ajudar os clientes a descobrirem artigos que não tenham considerado.

O site da Walmart onde a nova busca esteve em uso nos últimos meses registou uma aumento de 10% a 15 % no número de clientes que completam uma compra depois de procurar por um produto usando o Polaris – de acordo com a empresa. A varejista planeja lançar a tecnologia, que também pode ser usada para pesquisas em mobilidade, nos seus site internacionais de comércio eletrônico nos próximos meses.

Desde 2008,  o grupo Walmart tem uma loja virtual no Brasil. E desde 2009, a rede tem investido muito nas redes sociais  _ Orkut e Twitter, inicialmente, e desde 2011, no Facebook _  e no próprio blog.

idgnow.uol.com.br

Escrever um comentário (0 Comentários)

Empresas estão acumulando grandes volumes de dados sem transformá-los em receita, aponta relatório

Estudo indica que as empresas podem estar perdendo, em média, 14% do aumento do faturamento ao ano por não tirarem o máximo proveito das informações de negócios

A Oracle divulgou os resultados do seu relatório "From Overload to Impact: An Industry Scorecard on Big Data Business Challenges", que entrevistou 333 executivos de alto nível de empresas americanas e canadenses de 11 setores, para identificar os pontos relevantes em relação ao gerenciamento do enorme volume de dados das organizações e como estão usando essas informações para impulsionar os lucros e o crescimento.

Principais descobertas

O enorme fluxo de dados está aqui: 94% dos executivos de alto nível afirmam que suas organizações coletam e administram um volume maior de informações se comparado com o período de dois anos atrás, com um aumento médio de 86%. Os entrevistados identificam que as áreas de informações sobre os clientes (48%), operações (34%), vendas e marketing (33%) geram o maior volume de dados com crescimento exponencial.

Espaço para aperfeiçoamento: os executivos destacam que não estão preparados para lidar com esse crescente volume de dados. Entre eles, 29% classificaram a própria empresa com "D" ou "F" em termos de capacidade de gerenciar o enorme fluxo de dados, enquanto 93% acreditam que estão perdendo oportunidades de receitarepresentando, em média, 14% do faturamento –, porque não conseguem tirar o máximo proveito das informações coletadas. Na média, as organizações do setor privado, com faturamento de US$ 1 bilhão ou mais, dizem que perdem aproximadamente 13% da receita anual por não otimizar o uso dessas informações. Ou seja, empresas com faturamento de US$ 1 bilhão perdem US$ 130 milhões ao ano. Somente 8% dos executivos classificaram que a sua própria empresa com a nota "A" em relação ao uso adequado e ágil dos dados.

Os gestores não têm ou não conseguem obter as informações necessárias em tempo hábil: os entrevistados afirmam que se sentem frustrados em relação aos sistemas de coleta e distribuição de dados das suas empresas. Com mais exatidão, 38% apontam que não possuem os sistemas adequados para reunir as informações necessárias; 36% não podem conceder a seus gerentes de negócios acesso a informações pertinentes e acabam dependendo das equipes de TI para compilar e analisar as informações. Já 29% identificam que utilizam sistemas que não foram desenvolvidos para atender às necessidades específicas do setor em que atuam.

Escrever um comentário (0 Comentários)

Facebook and Pentaho Data Integration

Social Networking Data 123

FacebookThe data stored within Twitter and Facebook can provide critical metrics around content. By analyzing trends within user growth and demographics as well as consumption and creation of content, owners and developers are better equipped to improve their business with Facebook and Twitter. Social networking data can already be viewed and analyzed utilizing existing tools such as Facebook Insights or even purchasable third party software packages created specifically for this purpose.

Pentaho Data Integration in its traditional sense is an ETL tool that can be used to extract and extrapolate data from these services and merge or consolidate it with other relative company data. However, it can also be used to automatically push information about a company’s product or service to social network platforms. You see this in action today if you have ever used Facebook and “liked” something a company had to offer. At regular intervals, you will sometimes note unsolicited product offers and advertisements posted to your wall from those companies.

Application Programming Interface

Interacting with these systems is made possible because they provide an API. To keep it simple, a developer can write a program to run on one machine which communicates with the social networking system on another machine. The API can leverage a 3GL such as Java or JavaScript or even simpler, RESTful services. At times, software developers/vendors will write connectors in the native API that can be distributed and used in many software applications. These connectors can offer a quicker and easier approach than writing code alone. It may be possible within the next release of Pentaho Data Integration, that an out of the box Facebook and/or Twitter transformation step is developed – but until then the RESTful APIs provided work just fine with the simple HTTP POST step. The HTTP POST step allows quick access to social graph data as well as the ability to push content to many applications, including Facebook and Twitter.

The Facebook Graph API

Both Facebook and Twitter provide a number of APIs, one worth mentioning is the Facebook Graph API which is a RESTful service that returns a JSON response. Simply stated an HTTP request can initiate a connection with the FB systems and publish / return data that can then be parsed with a programming language or even better yet – without programming using Pentaho Data Integration and its JSON input step. Check out the new Graph API Explorer here: http://developers.facebook.com/blog/post/517/. The Graph API Explorer makes it easy to get started with the Graph API and test the API as you program against it and build your app.

Since the Facebook Graph API provides both data access and publish capabilities across a number of objects (photos, events, statuses, people pages) supported in the Facebook Social graph, you can leverage both automated push and pull capabilities.

If you are interested in seeing this in action, take a look at this tutorial to get you started.

Publishing content to a Facebook Wall Using Pentaho Data Integration

The following is an example of a reference implementation to walk you through the steps needed in order to have Pentaho Data Integration automatically post content to a Facebook Wall.

It is broken down into the following steps:

  1. Create a new Facebook Account
  2. Create a new unique Facebook user name
  3. Create a new Facebook application
  4. Obtain permanent OAUTH access token
  5. Create PDI transformation

Step 1: Create a new Facebook account

Escrever um comentário (0 Comentários)

Banco de Dados Colunar

banco de dados orientado a coluna não é um conceito novo. 

Como funcionaVejamos, como exemplo, a tabela abaixo:

Pois bem, em um banco de dados relacional “orientado a linhas”, todos os dados são armazenados em uma linha, após o último elemento desta linha vem o primeiro elemento da linha seguinte:

2152, Eduardo, “R Estela, 222″, SP; 3421, Mariana, “R Gov Pedro, 34″, CE; …

Se estes dados estivessem armazenados em um “orientado a colunas”, teríamos a informação da mesma coluna armazenada em sequencia, com o final de uma coluna seguida do primeiro elemento da coluna seguinte. Parece complicado, mas não é, veja:

2152, 3421, 2156; Eduardo, Mariana, Ricardo; “R Estela, 222″, “R Gov Pedro, 34″, “R Jaguare. 45 ap.61″; SP,…

Claro que todos os bancos de dados tem seus mecanismos para ganhar performance, mas não vamos tratar deste assunto aqui.

Dependendo da forma como o dado é recuperado, o banco de dados “orientado a colunas” é mais eficiente. Veja uma tabela onde um é melhor que outro:

Como podemos ver cada situação exige uma abordagem diferente.

O Caso do Yahoo!

O Yahoo! tem um case interessante de utilização de “column-oriented database”, como nos conta este post da ComputerWorld. Segundo o autor, o Yahoo! tem o datawarehouse mais rápido utilizando a tecnologia de bancos de dados “orientado a colunas”.

São mais de 2 petabytes de dados e, segundo o VP Waqar Hasan, irá crescer várias dezenas até o final de 2009. A empresa utiliza o SybaseIQ.

 

 

Até tu Google?

Claro que o onipresente Google não poderia ficar de fora. Não encontrando nenhuma solução que tivesse uma performance exigida pelos seus clientes, o gigante de buscas construiu seu próprio banco de dados, chamado pelo sugestivo nome de BigTable.

BigTable foi construido utilizando um file system também do Google, o Google File System (GFS). YouTube, Google Earth, Blogger, Orkut, Google Maps etc são usuários deste banco de dados.

BigTable é considerado um DBMS extremamente rápido e, sim, várias características de bancos de dados “orientado a colunas”. Na verdade possui características de bancos de dados tradicionais também (”orientado a linhas”). Foi projetado para ter vários petabytes e ser distribuido através de centenas e milhares de máquinas.

infoblogs.com.br/

Sugestões e-Setorial

MonetDB

http://www.monetdb.org/Home

InfiniDB, engine para o MySQL

http://infinidb.org/

Escrever um comentário (0 Comentários)