Plataforma de BI dentro do SQL Server 2008

Fala galera, continuando com meus estudos sobre essa tecnologia nova (pra mim), ontem a noite fiquei um tempo com meu amigo Sergio Gonçalves, vulgo Ganso, falando sobre isso. Mais especificamente sobre BI no SQL Server 2000! Ele conhece o assunto já a alguns anos, e entre outras funções, é o responsável do BI de uma multinacional suíça. Bom, vamos aos termos e conceitos que conversei com ele.

Quando falamos em BI no SQL Server, estamos focando no Analysis Services, mesmo na versão 2000. Vou falar de mais alguns termos importantes pra gente aprender.

Modelo Dimensional: Quando estudamos SQL Server, aprendemos a criar tabelas com alguns níveis de normalização com o intuito de deixar nosso banco de dados sem informações redundantes e com menor quantidade de armazenamento, diminuindo quantidade de disco utilizado. Já com BI temos que pensar exatamente no contrário, em dados desnormalizados. Isso porque temos que colocar os dados em tabelas fatos e em dimensões!

Tabelas Fato: São os dados que extraímos do banco de dados, e agrupamos por assuntos específicos. Para ilustrar vamos imaginar um processo de venda de produto, vamos usar Livros (mas poderia ser qualquer coisa).

Essa representação mostra um diagrama de dados relacionais com as tabelas normalizadas e evitando redundância de dados. Quando vamos atuar com BI que precisamos criar as tabelas Fato, separamos esses dados pertinentes à informações agrupadas por categorias, por exemplo, Vendas e Clientes. Podem haver outras milhões de tabelas Fato, vai depender do que você precisar.

Na tabela de Fato_Venda, vou consultar todas as tabelas que eu preciso coletar informações e escrever nessa minha nova tabela. Ela pode estar em outro banco e até outro servidor, não importa, o que será importante são os dados que estarão agrupados pela categoria Vendas. Veja como poderia ser um exemplo de tabela Fato_Venda. Estas informações serão processadas e armazenadas nesta nova tabela criada, veja que algumas informações vem de origens diferentes, e outras são simplesmente calculadas para atender a necessidade da minha aplicação.

Dimensões: São tabelas com informações que complementam as tabelas Fatos e geram uma (ou várias) tabelas para armazenar esses novos dados redundantes. As dimensões nos possibilitam trabalhar com dados estatísticos de uma determinada informação que precisamos analisar. Seguindo nosso exemplo, Vendas de Livros, conseguimos atrelar dimensão(ões) à uma tabela fato de Livros para saber onde um determinado livro é mais vendido ou qual é o gênero que mais agrada uma certa faixa etária. Veja a imagem abaixo para exemplificar esse cenário:

Cubo: É um repositório onde todas as informações poderão ser acessadas de forma centralizada e direta. Nos cubos, o cliente já terá todas os dados consolidados e preparados para lhe entregar a informação quase que imediatamente. Entendendo o fato de que os KeyUsers (usuários chaves) de um sistema de BI são os gerentes e diretores de empresas, a informação para uma tomada de decisão deve ser apresentada bem rápida, auxiliando os usuários a fazerem o trabalho deles rapidamente! Os cubos podem ser representados assim:

Onde cada uma destas caixinhas que estão aparecendo pode ser uma Dimensão ou uma Fato. Um aplicativo muito utilizado para ler os dados destes cubos OLAP (On-line Analytical Processing) é o Microsoft Office Excel utilizando o recurso de PivotTable e agora também podendo utilizar o PowerPivot. Basicamente os dois recursos no excel fazem essa interface entre o cubo OLAP, mas o PowerPivot com o Excel 2010 ficou muito rápido de criar relatórios e de entregar a informação aos gerentes e diretores.

Estes são alguns conceitos importantes que precisamos saber quando vamos atuar com BI em algum projeto. Não vejo a hora de começar a colocar exemplos práticos para melhorar o entendimento destas teorias.

Diego Nogare

Inteligência Artificial & Machine Learning

Plataforma de BI dentro do SQL Server 2008 – prt 2