Instalando o R e o RStudio para começar a trabalhar com Data Science

Fala galera, uma das ferramentas [free] mais interessantes e usadas por cientistas de dados é o R. Esta poderosa linguagem de programação criada na década de 70 é usada até hoje por matemáticos, estatísticos e cientistas ao redor do mundo. Com alguns poucos passos você consegue instalar o Framework R e o Rstudio em sua máquina e conseguirá usar todo o potencial de análise e exploração de dados existente nos pacotes criados por desenvolvedores até os dias de hoje.

A primeira coisa a se fazer é acessar o CRAN [The Comprehensive R Archive Network] pra fazer o download do Framework R para seu sistema operacional. Vou fazer pra Windows que é o que uso, mas existe também pra Mac OS ou distribuições Linux. Para isso, acesse o link https://cran.r-project.org/ e procure a área pra download.

Você será encaminhado para a página de download para Windows. Se quiser acessar diretamente, use o link https://cran.r-project.org/bin/windows/base/

A versão pra Windows tem por volta de 64MB… Depois de baixar é só instalar, pode usar as configurações padrão sem problema.

Após a instalação do framework, uma IDE é fornecida mas ela é bem menos interessante de se trabalhar do que o R Studio. Vamos fazer o download e instalação do RStudio para ter produtividade com a ferramenta. Para baixar o RStudio, acesse o link: https://www.rstudio.com/products/rstudio/ e procure o download para desktop [que também é free]. Ao clicar para fazer download da versão Desktop, você será redirecionado para uma nova página, que pode ser acessada diretamente em https://www.rstudio.com/products/rstudio/download/

Após fazer o download, abra e siga as intruções padrão do wizard de instalação. Dentro de instantes o RStudio estará disponível para uso.

Abra a instalação e divirta-se com as possibilidades de análise e exploração de dados!

0  

The Developers Conference 2015 – Trilha de Banco de Dados

Fala galera, dia 21/07 rolou em São Paulo a trilha de Banco de Dados do TDC – The Developers Conference – edição 2015 em São Paulo. Nesta trilha me juntei ao Marcus Vinicius Bittencourt (twitter|blog) como coordenadores pra fazer esta parte do evento acontecer. Acompanhe aqui todas as palestras da trilha de Banco de Dados do TDC 2015!

Depois de analisar as diversas palestras submetidas, foi difícil definir quais seriam as 7 palestras que entrariam na grade do evento. Bom, pra dar um gostinho do que rolou nesta trilha do evento, vejam as palestras:


 

10:10 às 11:00 | A “Metamorfose Ambulante” do Postgres – Fábio Telles Rodriguez (twitter|blog)

De “Sistema Gerenciador de Banco de Dados Relacional” até “Plataforma de Persistência Aberta”, ou algo parecido. Acompanhe como as coisas evoluíram de 1970 para cá e fizeram do Postgres uma das mais flexíveis e confiáveis plataformas para persistência de dados, passando pelos bancos “Orientados a Objeto” e pelo NoSQL.


11:10 às 12:00 | O problema não é no banco de dados – Marcos Freccia (twitter|blog)

Nessa sessão junte-se ao MVP em SQL Server Marcos Freccia e vamos debater maneiras de mostrar que o problema não está no banco de dados. Vamos criar baselines e reports utilizando apenas o Database Engine, SSIS e SSRS. Ferramentas essas que você ja paga quando licencia o seu banco de dados.


13:10 às 14:00 | Quer ser um excelente DBA? Pergunte-me como – Vitor Tadeu Fava (twitter|blog)

Nesta seção discutiremos quais as características um excelente administrador de banco de dados necessita no mundo corporativo atual e como adquirir e desenvolver estas habilidades.


14:10 às 15:00 | Novidades do Universo MySQL – Airton Lastori (twitter|blog)

Os engenheiros da Oracle andam ocupados: o MySQL 5.7 já está em estágio de Release Candidate e muitas novidades. Nesta apresentação abordaremos as novidades desta versão e também algumas melhorias do MySQL Cluster, detalhando os novos recursos como: interfaces NoSQL, Memcached API, JSON e HTTP, mais operações online, melhorias de desempenho no InnoDB e Otimizador, replicação multi-source entre outras.


15:40 às 16:30 | Como lidar com dados temporais e intervalos com a linguagem SQL – Mauro Pichiliani (twitter|blog)

A manipulação de dados por meio de intervalos de datas é uma das poucas tarefas na qual a linguagem SQL não é muito útil. O motivo é operações como intersecção , precedência, combinação e operações relacionadas a intervalos de datas requerem a construções de instruções SQL muito complexas e com pouca manutenabilidade. Esta palestra vai apresentar os principais problemas relacionados à pesquisas por intervalos de data e explicar porquê a linguagem SQL não é adequada para lidar com eles. Em seguida a palestra vai se conentrar nas soluções existentes, incluindo as extensões da linguagem SQL para manipulação de data, interfaces para ferramentas OLAP e ferramentas específicas para pesquisas por intervalo.


16:40 às 17:30 | As boas praticas de programação para SQL Server – Marcelo Fernandes (twitter|blog)

Será apresentando as boas praticas de programação de SQL visando o publico de developers, a apresentação seguirá o modelo onde é apresentando um proposta comum de solução e qual seria a maneira mais eficaz e performática para a solução. Será discutidos temas como Índices, Estatísticas, T-SQL, Planos de Execução e inmemory database.


17:40 às 18:30 | Super Hybrid – Murilo Miranda (twitter)

Esta sessão reúne todas as opções existentes, até então, que permitem a integração do SQL Server com o Azure.
Além da teoria, irei abordar e demonstrar esta soluções.


Espero que tenham gostado das palestras do evento, caso queira ver os vídeos, o TDC também oferece as gravações

Nos vemos novamente em 2016!

0  

Azure Machine Learning – Lendo um CSV com Azure Blob Storage – Parte 5

Fala galera, arrisco dizer que não existe aprendizado de máquinas sem dados para ensinar a máquina. A coleta ou geração dos dados pode ocorrer de algumas formas como por exemplo consumindo dados oriundos de sensores em pessoas ou veículos, telemetrias de máquinas em chão de fábrica, inseridos manualmente através de aplicativos ou até dados “fakes” gerados de forma automatizada com inteligência, entre outras… Qualquer forma dessas, entre muitas outras, é válida desde que os dados sejam úteis para o cenário que estamos desenvolvendo.

Usando o Azure Machine Learning é possível consumir dados de uma infinidade de origens, fazendo o upload da sua base de dados ou então lendo os dados de:

  • Web URL via HTTP
  • Hive Query
  • Azure SQL Database
  • Azure Table
  • Azure Blob Storage
  • Data Feed Provider

Neste post vou mostrar como ler os dados de um Azure Blob Storage. Para isso entendo que você já criou seu ambiente e está com o Azure Machine Learning rodando (caso ainda não tenha montado, veja como fazer aqui)…

Importante: O componente de Reader do Azure Machine Learning quando está lendo a origem do Azure Blog Storage faz a leitura de um container do mesmo storage que foi usado para criar o ambiente. Garanta isso!

Para fazer o acesso são necessários alguns dados que ficam nas configurações do storage, vá até o portal do Azure em seguida vá ao menu de storage e então selecione o seu armazenamento. Clique em Gerenciar Chaves de Acesso. Isso lhe abre

 

Uma nova janela se abre com a chave de acesso primária e secundária. Copie a primária que ela será usada em seguida, lá no Azure Machine Learning.

Ao abrir o StudioML , crie um novo experimento. Caso não saiba fazer isso, pode ser este post. Procure o componente Reader no menu da esquerda e arraste para o seu experimento. Ao clicar no componente, algumas opções se abrirão no menu da direita. Garanta que escolheu Azure Blob Storage na opção do Data source.

 

Com os dados do storage que você copiou lá do portal do Azure, preencha os campos Account name, Account Key e Path to Container. No meu caso, ficou assim:

  • Account Name: blognogareml
  • Account Key: A chave de acesso primária que copiei lá do storage
  • Path to Container: origemblog/dadosBrutos.csv

Reparem que o ícone de esclamação desapareceu… Isso significa que os dados fornecidos para o componente são semanticamente válidos. Lembrando que os dados devem ser preenchidos exatamente como são, respeitando o case sensitive (maiúsculas e minúsculas).

Para validar se os dados estão acessíveis, clique no ícode Run na barra inferior do StudioML e aguarde a execução do pacote. Após ficar com um check verde no componente, clique no botão de saída do componente e em seguida em View Results.

Se os dados forem lidos corretamente, você terá uma nova janela com alguns dados referentes ao seu dataset, como esta abaixo. Repare que no canto superior esquerdo a janela apresenta a quantidade de linhas (rows) e colunas (columns) que você tem no seu dataset.

 

Pronto, com isso você consegue acessar seu dataset através de um Azure Blob Storage. Divirta-se :)

0  

Aprendizado de Máquinas com Azure Machine Learning e R

Fala galera, na última sexta-feira (03/07) fiz uma apresentação de mais de 1h30 sobre Aprendizado de Máquinas com Azure Machine Learning e R. Nesta apresentação explico sobre o conceito de aprendizado supervisionado e não supervisionado, e também falo um pouco sobre a importancia de entender a matriz de confusão e seus elementos. Acompanhe abaixo o vídeo e os slides da apresentação.

Vídeo:

Slides:

Espero que esta pequena introdução ao Machine Learning abra a mente de todos para os benefícios do uso de inteligência artificial no desenvolvimento de software…

0  

Participação no Keynote do //Build/ Tour em São Paulo

Fala galera, dia 21/05/2014 aconteceu em São Paulo o evento //Build/ Tour que apresenta os lançamentos mais recentes de produtos Microsoft para desenvolvedores. Este evento vai rodar o mundo passando em diversas cidades, e tivemos a oportunidade de sediar em São Paulo o único evento do Brasil.

O Alexandre Tarifa (twitter|blog) e eu pudemos demonstrar rapidamente umas das tecnologias que estamos utilizando aqui no Dieta e Saúde que é o Azure Machine Learning para classificação de alimentos com base na informação nutricional. Veja o vídeo desta demonstração:

Aproveitamos que estavamos lá no Allianz Parque e fizemos dois Lives pro Codificando… Um sobre o evento em sí, e outro com o Claudenir Andrade sobre IoT – Internet of Things. Acompanhe os vídeos abaixo:

E este:

0