0

Saiba como explorar dados com o método CRISP-DM

Obter insights de grandes bases de dados tem se tornado uma árdua tarefa não somente pela imensa quantidade de informação mas também pela quantidade de dados não-estruturados produzidos atualmente. Por isso, há a necessidade de metodologias auxiliem na análise de dados e na busca por conhecimentos e interpretação de grandes bases de dados (sejam estruturados ou não-estruturados).

Um dos melhores e mais conhecidos modelos de exploração de dados é o CRISP-DM. Proposto inicialmente em 1996 CRISP-DM é o acrônimo para para Cross-Industry Standard Process for Data Mining.  Trata-se de um processo de mineração de dados que descreve as fases e o caminho a seguir quando estamos lidando com problemas relacionados à análise de dados.

Este processo é composto de seis fases principais. A sequência das fases não é rigorosa e muitas vezes é necessário realizar alternar entre diferentes fases até chegar ao objetivo final. O diagrama a seguir apresenta o processo como um todo. As setas no diagrama do processo indicam as dependências mais importantes e frequentes entre as fases. O círculo externo no diagrama simboliza a natureza cíclica da própria mineração de dados. Um processo de mineração de dados continua depois que uma solução foi implementada. As lições aprendidas durante o processo podem desencadear novas questões de negócios, muitas vezes mais aplicadas, e os processos subsequentes de mineração de dados se beneficiarão das experiências dos anteriores.

crispdm3

Business Understanding – Compreensão de Negócios

Esta fase inicial concentra-se em definir os objetivos e os requisitos do projeto e, em seguida, desenvolver um plano claro e objetivo das ações a serem tomadas.

Data Understanding – Compreensão dos dados

Aqui é feita a coleta inicial dos dados e a sua análise exploratória, com o objetivo de se familiarizar com os dados, identificar padrões e valores extremos. Nesta fase, muitos insights já podem ser descobertos, e novas hipóteses a serem testadas também podem ser definidas.

Data preparation -Preparação dos dados

A fase de preparação dos dados abrange todas as atividades para construir o conjunto de dados final a partir dos dados brutos iniciais. O conjunto final será aquele utilizado para desenvolvimento do seu modelo. Esta fase pode ser bastante massiva, pois as tarefas a serem realizadas incluem seleção de tabelas e variáveis, transformação e limpeza dos dados.

Modeling -Modelagem

Nesta fase, várias técnicas de modelagem são selecionadas e aplicadas, e seus parâmetros são calibrados para valores ótimos. Normalmente existem várias técnicas para o mesmo tipo de problema de mineração de dados. Algumas técnicas possuem requisitos específicos quanto ao formato dos dados, portanto, retornar à fase de preparação dos dados é frequentemente necessário.

Evaluation – Avaliação do modelo

Até aqui você construiu um ou mais modelos para os seus dados. Mas antes de prosseguir para a implementação final, é importante avaliar mais detalhadamente o modelo e revisar as etapas executadas, para garantir que ele atinja adequadamente os objetivos de negócios.

Deployment -Desenvolvimento

Ainda que o objetivo do modelo tenha sido alcançado e ele seja capaz de aumentar o conhecimento dos dados, o conhecimento adquirido precisará ser organizado e apresentado de uma maneira clara e útil ao cliente. Dependendo do caso, esta fase pode ser simples como escrever um relatório, ou complexa quanto utilizar o modelo criado para desenvolver todo um programa ou serviço. Em muitos casos, o cliente será o maior contribuinte desta etapa. Mesmo que o analista desenvolva o modelo, é o cliente quem deve entender as ações que deverão ser executadas para assim fazer uso do modelo criado.

O CRISP-DM combina produtividade, gerenciamento de projetos e plano de ações a serem tomadas. A atividade de mineração de dados é muitas vezes complexa, e se não houver um processo para esta atividade, ela pode se tornar caótica e até inviável. O CRISP-DM torna as coisas mais simples e ajuda a garantir que estamos fazendo as coisas certas nos momentos certos.

PRODUTOS

Aplicando o método de CRISP-DM, Big Data e Analytics, a UbiCity já desenvolveu 2 produtos, o UbiPlaces e o SIMB.

UbiPlaces: portal de anúncios imobiliários que gera leads enriquecidos e qualificados para as imobiliárias. Atualmente conta mais de 10 mil imóveis anunciados e mais de 60 imobiliárias parceiras.

SIMB: plataforma que transforma qualquer email em um perfil completo para subsidiar decisões estratégicas e geração de negócios.

Vamos seguir trabalhando e inovando para desenvolver produtos e soluções para melhorar e impactar a qualidade de vida das pessoas.

UbiCity Inteligência de Dados
www.ubicity.com.br

José Guilherme Lopes

Estatístico e analista programador em R. Entusiasta de Ciência da Computação, Startups, Tecnologia e Inovação. Cientista de Dados na UbiCity Inteligência de Dados.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *