Big Data by Luis Campos

Big Data é um tema quente para este ano, e que está a borbulhar de todos os lados.

Neste post, Luis Campos, gentilmente cedeu alguns minutos e respondeu a algumas questões, ainda para mais, ele que foi recentemente nomeado para o Board Big Data EMEA.

M04M: Qual o seu grande desafio para o ano de 2012?

Luis: Como Arquitecto de Engineered Systems para o mercado da Europa, Médio Oriente e África, diria que o meu grande objectivo é de que cada vez mais empresas simplifiquem o seu IT. Acredito vivamente que aquelas que o fizerem estarão na primeira linha de inovação e mais preparadas para competir. Tenho falado com CIOs e Gestores de todas as regiões e o desafio é comum: agilizar o IT para poder acompanhar a transformação constante no negócio.
M04M: A Oracle também já possui o appliance com o “Big Data”, e sabemos que podemos integrar com o Exadata, mas tirando o Exadata, qual o grande diferencial deste Appliance?

Luis: Big Data é um desses desafios que tenho estado a ajudar muitas empresas a enfrentar. Trata-se não só de Volume, mas também de Variedade. Dados cuja estrutura é muito rudimentar, ou que nem sequer possuem estrutura. Vindos de sensores, redes sociais, registos de navegação deixados na rede, operações com dispositivos móveis, ou até mesmo registos de localização geoespacial em tempo real. Estes dados possuem pouco valor per se. Se eu perder 10 minutos de registos de navegação no meu website por parte de utilizadores não-registados isso não vai afectar a minha analise e estudo sobre o comportamento deles. O ultimo “V” que define Big Data para além do Volume, Variedade e baixo Valor é a Velocidade. A velocidade não só de processamento destes dados mas também de toda a analise e cruzamento que pode ser necessário fazer para poder tomar uma acção, uma decisão no momento certo. Se eu identifico os clientes que entram na minha loja por bluetooth ou códigos QR, vou querer enviar-lhes um SMS/mensagem de texto para alertar para uma promoção destinada ao seu segmento, antes que o cliente saia da loja. O processamento desta informação não estruturada tipicamente vai percorrer um caminho de redução de dados para que possa ser “misturada” com os dados vindos das fontes transacionais e então possa ser analisada globalmente. A redução de dados (MapReduce) pode ser feita com base em ficheiros ou pares de chave-valor (KV). Se eu comprar ao Twitter toda a informação de uma determinada hashtag, essa informação virá em ficheiros de xml. Mas se eu recolher informação diretamente de equipamentos de monitorização térmica, posso colocar essa informacao numa tabela de hash com uma chave (Key) e um valor (value), aquilo que tipicamente é um repositório de bases de dados NoSQL (Not Only SQL). Agora para processar os ficheiros vou precisar de muitos computadores pequenos e eles vão precisar de partilhar o mesmo sistema de ficheiros (distributed file system: DFS). Para processar os dados na base de dados KV vou precisar de um motor NoSQL que execute também num enorme cluster de pequenos servidores. Processar significa reduzir os dados a algo com mais sentido e mais manuseável.

A plataforma open-source onde eu executo os meus programas de redução de dados, que neste momento é mais usada e mais madura, chama-se Hadoop, que traz precisamente um DFS proprio (HDFS). Traz também um motor NoSQL chamado HBase, mas aqui a Oracle já se adiantou e escreveu o próprio motor com capacidades mais robustas que as dos motores open-source. Para facilitar a entrada das empresas no mundo do processamento de Big Data a Oracle criou uma appliance que traz este software todo pré-instalado (e algum mais que não referi), em unidades de 18 maquinas com 24 cores cada uma, discos de 3TB tudo ligado por rede infiniband. É isto uma plataforma Big Data? Não! A Big Data Appliance (BDA) é apenas um terço! Depois de adquiridos e reduzidos os dados não estruturados, a BDA vai comunicar com a Exadata através de conectores especiais (Big Data Connectors) de modo a cruzar dados transacionais com o resultado do processamento de dados não-transacionais.
A Exadata será então o repositório de todos os dados que obedeçam a um esquema, a um modelo de dados. Claro que o terço que falta será a parte de analise e visualização e essa e’ efectuada pelos motores multi-dimensionais presentes dentro do terceiro Engineered System chamado Exalytics. Acredito que ter uma BDA, uma Exadata e uma Exalytics todas ligadas por uma rede infiniband, fazem desta uma plataforma Big Data sem paralelo.
M04M: Na sua opinião, quais os grandes desafios para as empresas que vão ou que estão implementar esta tecnologia este ano?

Luis: O grande desafio será, primeiro encontrar os parceiros ideais quer a nível tecnológico, quer a nível de conhecimentos e arquitectura. Depois será criar um ambiente de “sandboxing” ou seja investigação de como é que este tsunami de dados podem trazer proveito à organização. Estamos a falar de verdadeira ciência! Pois é. Se você quer aconselhar os seus filhos a seguir uma profissão de futuro, diga-lhes para seguir uma especialização em estatística matemática, pois essas pessoas andam a ser procuradas como água no deserto. E finalmente, as organizações que melhor operacionalizarem estes novos processos, serão aquelas que vão vencer.

M04M: Agora que que pertence ao Board EMEA da tecnologia Big Data, quais são os grandes objetivos para a expansão desta tecnologia e disseminação deste conhecimento?

Luis: Tenho vivido praticamente em aviões e hotéis, porque de repente todos os CIOs começaram a questionar os seus responsáveis sobre como melhor usar estas tecnologias. É a histeria total. No momento que escrevo esta resposta estou a voar por cima de África, vindo da Cidade do Cabo de onde vim de falar com os CIOs de algumas das empresas de retalho mais poderosas de toda a África. Tenho já marcados keynotes por toda a Europa, e em breve irei a Israel falar sobre estes temas com clientes, parceiros, grupos de utilizadores e imprensa.
Por incrível que pareça, as pessoas mais avançadas nesta área são os profissionais de marketing com quem falo e que parecem já nascer com esta visão de que as organizações devem ter esta sensibilidade 360 graus em todos os vetores da sociedade moderna. O meu objectivo é precisamente ajudar todas estas organizações a criar arquitecturas de gestão de informação que lhes irão permitir num futuro próximo processar Big Data. Outro dos objectivos tem sido o de evangelizador não só externamente como também internamente na Oracle.
M04M: Uma mensagem que gostarias de deixar aos Administradores de Bases de Dados:

Luis: “Adapt or die”

Obrigado Luis, não só pelo tempo, mais principalmente, pelo grande conteúdo nas respostas 😉

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

w

Conectando a %s