Quero trabalhar com Big Data, como faço?

Quero trabalhar com Big Data

como faço para começar?

Fala galera, nestas últimas semanas mais algumas pessoas me disseram que querem trabalhar com Big Data e tem duvidas de como fazem para aprender mais aqui no Brasil. Bom, venho estudando e lendo sobre Big Data desde antes de entrar no time de especialistas da Microsoft em 2012, e continuo estudando esta área no Portal Minha Vida desde que saí da Microsoft. Contudo posso dizer que consigo ter uma visão um pouco mais ampla do assunto hoje, do que quando ví o Hadoop no Keynote do SQL PASS Summit 2011 em Seattle/WA.

Em primeiro lugar tive sorte, e somado com um pouco de interesse pessoal, acompanhei diversos eventos relacionados à Big Data dos principais players globais do mercado. Pude fazer isso tanto presencialmente quanto online, fosse no Brasil ou lá fora.

Infelizmente no Brasil a maioria dos eventos sobre esta ciência ainda apresentam soluções para se trabalhar quase que exclusivamente com Social Media. Fica a impressão que Big Data se aplica somente à esta área e isso é uma grande falácia! Ignorar a aplicação em outros segmentos como Saúde, Transporte, Financeiro, Educação é manter uma visão rasa e superficial sobre o assunto. Inclusive falei sobre isso no evento de lançamento do SQL Server 2014, na Microsoft, e você pode ver os slides abaixo:

 

Tecnologias para se trabalhar com Big Data

Uma coisa importante é entender o funcionamento e aplicabilidade desta tecnologia para seu cenário. Nem sempre uma solução implementada para um concorrente da sua empresa será aplicada fielmente à sua. Por outro lado, o entendimento do propósito é bem importante, e você pode usar a solução da concorrência para lhe ajudar com exemplos desta visão.

As técnicas que serão usadas para processar os dados, cruzar as informações, e analisar os resultados devem ser exploradas e ver o que melhor se aplica à sua necessidade. Por exemplo, usar o Hadoop com Hive e Pig pode resolver um problema. Contudo, em uma outra necessidade, pode-se adicionar o Mahout para trabalhar com aprendizado de máquina. Uma outra solução seria utilizar o Prediction IO ou até o Azure Machine Learning (quando for lançado, no próximo mês). As análises podem ser feitas, acima de tudo, no Excel pela facilidade que os usuários possuem em operá-lo. Mas também pode ser necessário ir para uma plataforma mais especializada para Data Science como o MatLab ou então para foco nos profissionais de estatística como o R. Enfim, cada aplicação deve ser entendida como um cenário novo, completo e complexo, e sua resolução precisa ser entendida como tal.

Um panorama mais amplo de Big Data

Caso queira ver um pouco o cenário sobre ferramentas Open Source para se trabalhar com Hadoop, assista esse vídeo sobre conceitos e ferramentas:

Outra necessidade que é bastante buscada para os profissionais que trabalham ou querem trabalhar com Big Data é o que os americanos chamam de Data Scientist. Este é o profissional que conseguirá analisar os dados estruturados e não estruturados, através de modelos estatísticos e matemáticos, para separar o “sinal” (informação útil) do “ruído” (informação desnecessária, ou sujeira). Este profissional é o novo talismã das empresas que querem minerar grandes volumes de dados.

Para se aprofundar nestes assuntos, existem alguns cursos online, de universidades e institutos renomados ao redor do mundo, que podem lhe dar mais uma base sólida e detalhada sobre este novo paradigma (várias pessoas usam esse termo, achei válido usar aqui também. rss) da área de exploração de dados. Veja uma lista de alguns deles:

Alguns cursos extras sobre Big Data

A Caixa de Ferramentas do Cientista de Dados: https://www.coursera.org/course/datascitoolbox

Inteligência Web e Big Data: https://www.coursera.org/course/bigdata

Conceitos chaves da Análise de Dados: https://www.coursera.org/course/datan

Gerenciamento de Dados para Pesquisa Clínica: https://www.coursera.org/course/datamanagement

Análise de Dados: https://www.coursera.org/course/dataanalysis

Estatística. Compreendendo os Dados: https://www.coursera.org/course/introstats

Análise Exploratória de Dados: https://www.coursera.org/course/exdata

Obtenção Limpeza de Dados: https://www.coursera.org/course/getdata

Métodos computacionais para Análise de Dados: https://www.coursera.org/course/compmethods

Caso tenham alguma dúvida, ou sugestão sobre o assunto, fique a vontade para comentar aqui no blog…

Por fim, se você tem a pergunta “Quero trabalhar com Big Data”, segue as dicas aqui. Desejo bons estudos e análises!!!

Sobre Diego Nogare 344 Artigos
Diego Nogare é Gerente Técnico de Engenharia de Machine Learning no Itaú-Unibanco. Também é professor em programas de pós graduação no Mackenzie e na FIAP, em São Paulo. Foi nomeado como Microsoft MVP por 11 anos seguidos, e hoje faz parte do programa Microsoft Regional Director.