Mineração de dados e suas ramificações

Mineração de dados

Por onde começar a analisar os dados

para criar um caminho assertivo na tomada de decisão

Quem pretende começar a fazer uma análise em cima de dados, pode ter algumas dúvidas sobre onde começar, isso porque há muitos caminhos a seguir na mineração de dados e suas ramificações. Com estas áreas de estudos, é possível identificar o que fazem e como aplicar em seus projetos. Não existe inteligência artificial sem mineração de dados, e independente de qual linguagem de programação vai escolher para trabalhar, você precisará aprender a minerar os dados.

Mineração de Dados

Mineração de Dados faz parte de um processo mais amplo conhecido como descoberta de conhecimento em base de dados (Knowledge Discovery in Database – KDD). Esta terminologia é uma referência à mineração tradicional, onde minas são exploradas em busca de minérios ou pedras preciosas, e para encontrar cada um destes elementos são utilizadas ferramentas específicas. Por isso a referência à estas pedras preciosas na imagem de capa deste texto. Por exemplo, em mineração de dados pode-se criar um paralelo e dizer que as bases de dados são as minas, os minérios ou pedras preciosas são os conhecimentos extraídos dos dados e as ferramentas específicas são os algoritmos.

O processo de mineração de dados pode ser dividido em duas grandes vertentes. Em primeiro lugar a Análise Descritiva e em segundo a Análise Preditiva. A Análise Descritiva apresenta as características gerais dos dados, possibilitando que sejam encontrados padrões de comportamento e conhecimento que os usuários nem imaginavam que existiam. Por outro lado, na Análise Preditiva, são criados modelos formais que permitem estimar, classificar ou agrupar dados, a partir de determinados comportamentos que foram aprendidos e encontrados na Análise Descritiva.

Existem linhas de pesquisa que apontam a mineração de dados como uma vertente do Machine Learning. Ambos processos se preocupam em encontrar padrões comportamentais, técnicas e algoritmos também são comuns de se encontrar nas duas áreas. Na tentativa de diferenciar os dois, processos de Machine Learning possuem características de melhorias de desempenho e evolução dos reconhecimentos, enquanto a Mineração de Dados procura explicar os padrões utilizando técnicas de análise de dados descritiva.

Análise Descritiva – Análise exploratória descritiva

Durante o processo de descoberta do conhecimento é esperado que os resultados sejam facilmente entendidos, permitindo uma compreensão mais apropriada por quem está lendo. Por isso é bastante comum utilizar elementos gráficos para representar esses conhecimentos descobertos e seus padrões.

A análise exploratória permite descobrir padrões e comportamento nos dados, possibilitando um melhor entendimento da base de dados que se está trabalhando. Com esta técnica é possível investigar como está distribuída a frequência de ocorrência dos dados, entender as médias móveis além de calcular as medidas de posição relativa e absoluta. É comum encontrar uma combinação das descrições com representação visual, suportando uma análise gráfica dos dados.

Os gráficos permitem um acompanhamento e visualização das características e padrões encontrados nos dados. É comum criar histogramas, diagramas de caixas, diagrama de dispersão e gráfico de setores para descobrir o comportamento geral dos dados. Contudo também são utilizados para permitir a comparação entre o subconjunto real e os resultados da predição. Isso para medir a performance de desempenho do modelo preditivo.

Análise Descritiva – Descoberta de Padrões

Padrões são conhecimentos apresentados formalmente, e como são mais simples que os dados propriamente ditos, são apresentados através de uma linguagem formal. Se esse padrão possui uma forma que seja possível de um humano ler e interpretar, ele é considerado um padrão compreensível. Uma das linguagens formais para representar padrão amplamente utilizada é a linguagem de equações. Se deseja somar os valores de duas variáveis, é possível utilizar o símbolo de adição e quem for interpretar aquela equação sabe o que o padrão representa. É um padrão compreensível para nós, humanos. Contudo, nem todos os padrões matemáticos são

 

Análise Preditiva – Machine Learning

Nenhuma aprendizagem é imediata, seja ela biológica ou artificial. Contudo, como conhecimento adquirido é gradual, a evolução da aprendizagem depende de adaptação e interação com o ambiente da qual estão inseridos. Isso quer dizer que sistemas capazes de se adaptar, ou mudar seu comportamento, de forma automática ou através de exemplos, são considerados sistemas de Machine Learning.

O Machine Learning, como área de estudo, se preocupa com o desenvolvimento de métodos para suportar e melhorar o conhecimento ou desempenho de um agente inteligente. Esse melhoramento é esperado que aconteça ao longo do tempo, se adaptando às experiências vividas pelo agente no contexto inserido.

Em mineração de dados a aprendizagem se refere ao processo de treinamento do modelo preditivo. Mas sua construção ou ajuste, precisa se adaptar às regras pré-estabelecidas e se moldar de acordo com o comportamento dos dados ao longo do tempo, buscando melhorar seu resultado.

Paradigmas de Aprendizagem de Máquina

As formas de Aprendizagem de Máquina são definidas, principalmente, entre supervisionadas e não supervisionadas. Contudo, deixando de lado a complexidade destas diferenças, podemos separar as duas observando a existência de uma variável alvo. Isso porque, quando existe uma variável alvo definida e o modelo tem o objetivo de responder à essa variável, o paradigma de aprendizagem é chamado de supervisionado. Quando não existe, podemos chamá-lo de não supervisionado.

Uma condição imprescindível para esse processo de aprendizagem é que devem existir dados que expliquem a variável alvo. E a variável alvo deve conter os rótulos necessários para a resposta da formulação do problema.

Contudo, quando não há uma variável alvo, todos as outras variáveis que foram utilizadas para criarem o modelo são comparadas por similaridade ou distância, e são encontrados possíveis resultados. Existem situações nas quais os grupos de similaridades não representam o que é desejado encontrar para responder a formulação do problema. Esse comportamento é conhecido como não supervisionado.

 

Referências

Se quiser aprofundar seus estudos em mineração de dados e suas ramificações, os três livros que usei como referência para escrever este texto foram Introdução à mineração de dados: Conceitos básicos, algoritmos e aplicaçõesIntrodução à mineração de dados: com Aplicações em R. Estes dois de mineração de dados foram escritos por professores que me deram aulas durante o mestrado. E também o Data Science Para Negócios, que é outro livro importante da nossa área.

Sobre Diego Nogare 346 Artigos
Diego Nogare é Gerente Técnico de Engenharia de Machine Learning no Itaú-Unibanco. Também é professor em programas de pós graduação no Mackenzie e na FIAP, em São Paulo. Foi nomeado como Microsoft MVP por 11 anos seguidos, e hoje faz parte do programa Microsoft Regional Director.