logo

O que é CRISP em mineração de dados?

CRISP-DM significa o processo padrão intersetorial para mineração de dados. A metodologia CRISP-DM fornece uma abordagem estruturada para planejar um projeto de mineração de dados. É uma metodologia robusta e comprovada. Não reivindicamos qualquer propriedade sobre ele. Nós não inventamos isso. Somos um conversor de sua poderosa praticidade, flexibilidade e utilidade ao usar análises para resolver problemas de negócios. É o fio condutor que permeia quase todas as reuniões com clientes.

Este modelo é uma sequência idealizada de eventos. Na prática, muitas tarefas podem ser executadas em uma ordem diferente e muitas vezes será necessário voltar às tarefas anteriores e repetir determinadas ações. O modelo não tenta capturar todas as rotas possíveis através do processo de mineração de dados.

Como o CRISP ajuda?

O CRISP DM fornece um roteiro, fornece as melhores práticas e fornece estruturas para resultados melhores e mais rápidos no uso da mineração de dados, de modo que ajuda a empresa a seguir ao planejar e executar um projeto de mineração de dados.

Fases do CRISP-DM

CRISP-DM fornece uma visão geral do ciclo de vida da mineração de dados como um modelo de processo. O modelo de ciclo de vida compreende seis fases, com setas indicando as dependências mais importantes e frequentes entre as fases. A sequência das fases não é rígida. E a maioria dos projetos avança e retrocede entre as fases conforme necessário. O modelo CRISP-DM é flexível e pode ser facilmente customizado.

Por exemplo, se a sua organização pretende detectar lavagem de dinheiro, você provavelmente irá analisar grandes quantidades de dados sem um objetivo de modelagem específico. Em vez de modelagem, seu trabalho se concentrará na exploração e visualização de dados para descobrir padrões suspeitos em dados financeiros. O CRISP-DM permite criar um modelo de mineração de dados que atenda às suas necessidades.

Inclui descrições de fases típicas de um projeto, as tarefas envolvidas em cada fase e uma explicação das relações entre essas tarefas.

O que é CRISP em mineração de dados

Fase 1: Entendimento do Negócio

A primeira etapa do processo CRISP-DM é entender o que você deseja realizar do ponto de vista comercial. A sua organização pode ter objetivos e restrições concorrentes que devem ser devidamente equilibrados. Esta etapa do processo visa descobrir fatores importantes que influenciam o resultado do projeto. Negligenciar esta etapa pode significar muito esforço para produzir as respostas certas para as perguntas erradas.

Quais são os resultados desejados do projeto?

    Definir objetivos:Descreva seu objetivo principal de uma perspectiva de negócios. Também pode haver outras questões relacionadas que você gostaria de mencionar. Por exemplo, seu objetivo principal pode ser manter os clientes atuais, prevendo quando eles estarão propensos a migrar para um concorrente.Produzir plano de projeto:Descreva o plano para atingir as metas de mineração de dados e de negócios. O plano deve especificar as etapas a serem executadas durante o restante do projeto, incluindo a seleção inicial de ferramentas e técnicas.Critérios de sucesso empresarial:Aqui, você definirá os critérios que usará para determinar se o projeto foi bem-sucedido do ponto de vista comercial. Idealmente, estes devem ser específicos e mensuráveis, por exemplo, reduzindo a frequência do cliente a um determinado nível. Contudo, por vezes pode ser necessário ter critérios mais subjetivos, tais como fornecer informações úteis sobre as relações.

Avalie a situação atual

comando chown

Isso envolve uma investigação mais detalhada sobre os recursos, restrições, suposições e outros fatores que você precisará considerar ao determinar sua meta de análise de dados e plano de projeto.

    Inventário de recursos:Liste os recursos disponíveis para o projeto, incluindo:
    • Pessoal (especialistas em negócios, especialistas em dados, suporte técnico, especialistas em mineração de dados)
    • Dados (extrações fixas, acesso a dados ativos, armazenados ou operacionais)
    • Recursos de computação (plataformas de hardware)
    • Software (ferramentas de mineração de dados, outro software relevante)
    Requisitos, suposições e restrições:Liste todos os requisitos do projeto, incluindo o cronograma de conclusão, a compreensibilidade e a qualidade dos resultados exigidas e quaisquer preocupações de segurança de dados e questões legais. Certifique-se de que você tem permissão para usar os dados. Liste as suposições feitas pelo projeto. Estas podem ser suposições sobre os dados que podem ser verificadas durante a mineração de dados, mas também podem incluir suposições não verificáveis ​​sobre o negócio relacionado ao projeto. É importante listar estes últimos se afetarem a validade dos resultados. Liste as restrições do projeto. Estas podem ser restrições à disponibilidade de recursos, mas também podem incluir restrições tecnológicas, tais como o tamanho do conjunto de dados que é prático utilizar para modelação.Riscos e contingências:Liste os riscos ou eventos que podem atrasar o projeto ou causar seu fracasso. Liste os planos de contingência correspondentes, como quais ações você tomará se esses riscos ou eventos ocorrerem?Terminologia:Compile um glossário de terminologia relevante para o projeto. Isso geralmente terá dois componentes:
    • Um glossário de terminologia comercial relevante faz parte do entendimento comercial disponível para o projeto. A construção deste glossário é um exercício útil de “elicitação de conhecimento” e de educação.
    • Um glossário de terminologia de mineração de dados é ilustrado com exemplos relevantes para o problema de negócios.
    Custos e benefícios:Construa uma análise de custo-benefício para o projeto, que compare os custos do projeto com os benefícios potenciais para o negócio se for bem-sucedido. Esta comparação deve ser tão específica quanto possível. Por exemplo, deverá utilizar medidas financeiras numa situação comercial.

Determine as metas de mineração de dados

Uma meta de negócios declara objetivos na terminologia de negócios. Uma meta de mineração de dados declara os objetivos do projeto em termos técnicos. Por exemplo, a meta de negócios pode ser Aumentar as vendas por catálogo para clientes existentes. Um objetivo de mineração de dados pode ser prever quantos widgets um cliente comprará, considerando suas compras nos últimos três anos, informações demográficas (idade, salário, cidade, etc.) e o preço do item.

    Critérios de sucesso empresarial:Descreve os resultados pretendidos do projeto que permitem o alcance dos objetivos de negócios.Critérios de sucesso da mineração de dados:Ele define os critérios para um resultado de projeto bem-sucedido. Por exemplo, um certo nível de precisão preditiva ou um perfil de propensão a comprar com um determinado grau de “elevação”. Tal como acontece com os critérios de sucesso empresarial, pode ser necessário descrevê-los em termos subjetivos, caso em que a pessoa ou pessoas que fazem o julgamento subjetivo devem ser identificadas.

Produzir plano de projeto

Descreva o plano pretendido para atingir as metas de mineração de dados e de negócios. Seu plano deve especificar as etapas a serem executadas durante o restante do projeto, incluindo a seleção inicial de ferramentas e técnicas.

1. Plano do projeto: Liste as etapas a serem executadas no projeto, com duração, recursos necessários, entradas, saídas e dependências. Sempre que possível, tente tornar explícitas as iterações em grande escala no processo de mineração de dados, por exemplo, repetições das fases de modelagem e avaliação.

Como parte do plano do projeto, é importante analisar as dependências entre cronogramas e riscos. Marque os resultados destas análises explicitamente no plano do projeto, de preferência com ações e recomendações caso os riscos se manifestem. Decida qual estratégia de avaliação será usada na fase de avaliação.

Seu plano de projeto será um documento dinâmico. No final de cada fase, você analisará o progresso e as conquistas e atualizará o plano do projeto de acordo. Pontos de revisão específicos para estas atualizações devem fazer parte do plano do projeto.

operadores javascript

2. Avaliação inicial de ferramentas e técnicas: No final da primeira fase, deverá realizar uma avaliação inicial das ferramentas e técnicas. Por exemplo, você seleciona uma ferramenta de mineração de dados que oferece suporte a vários métodos para diferentes estágios do processo. É importante avaliar ferramentas e técnicas no início do processo, uma vez que a seleção de ferramentas e técnicas pode influenciar todo o projeto.

Fase 2: Compreensão dos dados

A segunda fase do processo CRISP-DM exige que você adquira os dados listados nos recursos do projeto. Esta coleta inicial inclui o carregamento de dados, se necessário para a compreensão dos dados. Por exemplo, se você usa uma ferramenta específica para compreensão de dados, faz todo o sentido carregar seus dados nesta ferramenta. Se você adquirir diversas fontes de dados, precisará considerar como e quando irá integrá-las.

    Relatório inicial de coleta de dados:Liste as fontes de dados adquiridas, suas localizações, os métodos usados ​​para adquiri-los e quaisquer problemas encontrados. Registre os problemas encontrados e quaisquer soluções alcançadas. Isto ajudará na replicação futura deste projeto e na execução de projetos futuros semelhantes.

Descrever os dados

Examine as propriedades “brutas” ou “superficiais” dos dados adquiridos e relate os resultados.

    Relatório de descrição de dados:Descrever os dados que foram adquiridos, incluindo o seu formato, a sua quantidade, as identidades dos campos e quaisquer outras características da superfície que tenham sido descobertas. Avalie se os dados adquiridos atendem aos seus requisitos.

Explorar dados

Durante este estágio, você abordará questões de mineração de dados usando técnicas de consulta, visualização de dados e relatórios. Isso pode incluir:

remover cache npm
  • Distribuição dos principais atributos
  • Relacionamentos entre pares ou pequenos números de atributos
  • Resultados de agregações simples
  • Propriedades de subpopulações significativas
  • Análises estatísticas simples

Essas análises podem abordar diretamente seus objetivos de mineração de dados. Podem contribuir ou aperfeiçoar a descrição dos dados e os relatórios de qualidade e contribuir para a transformação e outras etapas de preparação dos dados necessárias para uma análise mais aprofundada.

    Relatório de exploração de dados:Descreva os resultados da sua exploração de dados, incluindo as primeiras descobertas ou hipóteses iniciais e seu impacto no restante do projeto. Se apropriado, você pode incluir gráficos aqui para indicar características dos dados que sugerem um exame mais aprofundado de subconjuntos de dados interessantes.

Verifique a qualidade dos dados

Examine a qualidade dos dados, abordando questões como:

  • Os dados estão completos ou cobrem todos os casos necessários?
  • Está correto ou contém erros e, se houver erros, quão comuns são?
  • Existem valores ausentes nos dados? Em caso afirmativo, como são representados, onde ocorrem e quão comuns são?

Relatório de qualidade de dados

Liste os resultados da verificação da qualidade dos dados. Se existirem problemas de qualidade, sugira possíveis soluções. As soluções para problemas de qualidade de dados geralmente dependem muito dos dados e do conhecimento do negócio.

Fase 3: Preparação de Dados

Nesta fase do projeto, você decide quais dados usará para análise. Os critérios que você pode usar para tomar essa decisão incluem a relevância dos dados para suas metas de mineração de dados, a qualidade dos dados e restrições técnicas, como limites no volume de dados ou nos tipos de dados.

    A justificativa para inclusão/exclusão:Liste os dados a serem incluídos/excluídos e os motivos dessas decisões.

Limpe seus dados

Esta tarefa envolve elevar a qualidade dos dados ao nível exigido pelas técnicas de análise selecionadas. Isto pode envolver a seleção de subconjuntos limpos de dados, a inserção de padrões adequados ou técnicas mais ambiciosas, como a estimativa de dados faltantes por meio de modelagem.

    Relatório de limpeza de dados:Descreva quais decisões e ações você tomou para resolver problemas de qualidade de dados. Considere quaisquer transformações de dados feitas para fins de limpeza e seu possível impacto nos resultados da análise.

Construir dados necessários

Esta tarefa inclui operações construtivas de preparação de dados, como produção de atributos derivados, novos registros inteiros ou valores transformados para atributos existentes.

    Atributos derivados:Estes são novos atributos construídos a partir de um ou mais atributos existentes no mesmo registro. Por exemplo, você pode usar as variáveis ​​de comprimento e largura para calcular uma nova variável de área.Registros gerados:Aqui você descreve a criação de quaisquer registros completamente novos. Por exemplo, talvez seja necessário criar registros para clientes que não compraram durante o ano anterior. Não havia razão para ter tais registros nos dados brutos. Ainda assim, pode fazer sentido representar que clientes específicos não fizeram compras explicitamente para fins de modelagem.

Integrar dados

Esses métodos combinam informações de vários bancos de dados, tabelas ou registros para criar novos registros ou valores.

    Dados mesclados:Mesclar tabelas refere-se à união de duas ou mais tabelas com informações diferentes sobre os mesmos objetos. Por exemplo, uma cadeia de varejo pode ter uma tabela com informações sobre as características gerais de cada loja (por exemplo, espaço físico, tipo de shopping), outra tabela com dados resumidos de vendas (por exemplo, lucro, variação percentual nas vendas em relação ao ano anterior) e outro com informações sobre a demografia do entorno. Cada uma dessas tabelas contém um registro para cada loja. Essas tabelas podem ser mescladas em uma nova tabela com um registro para cada loja, combinando campos das tabelas de origem.Agregações:Agregações são operações nas quais novos valores são calculados resumindo informações de vários registros ou tabelas. Por exemplo, converter uma tabela de compras de clientes onde há um registro para cada compra em uma nova tabela e um registro para cada cliente, com campos como número de compras, valor médio de compra, porcentagem de pedidos cobrados no cartão de crédito, porcentagem de itens em promoção etc.

Fase 4: Modelagem

Selecione a técnica de modelagem: Como primeira etapa, você selecionará a técnica básica de modelagem que usará. Embora você já possa ter selecionado uma ferramenta durante a fase de compreensão do negócio, nesta fase você selecionará a técnica de modelagem específica, por exemplo. construção de árvore de decisão com C5.0 ou geração de rede neural com retropropagação. Se forem aplicadas múltiplas técnicas, execute esta tarefa separadamente para cada técnica.

    Técnica de modelagem:Documente a técnica básica de modelagem que será usada.Suposições de modelagem:Muitas técnicas de modelagem fazem suposições específicas sobre os dados, por exemplo, que todos os atributos têm distribuições uniformes, nenhum valor faltante é permitido, o atributo de classe deve ser simbólico, etc. Registre quaisquer suposições feitas.

Gerar design de teste

idade de mia khalifa

Antes de construir um modelo, é necessário gerar um procedimento ou mecanismo para testar a qualidade e a validade do modelo. Por exemplo, em tarefas supervisionadas de mineração de dados, como classificação, é comum usar taxas de erro como medidas de qualidade para modelos de mineração de dados. Portanto, normalmente você separa o conjunto de dados em conjuntos de treinamento e de teste, constrói o modelo no conjunto de treinamento e estima sua qualidade no conjunto de teste separado.

    Projeto de teste:Descreva o plano pretendido para treinamento, teste e avaliação dos modelos. Um componente principal do plano é determinar como dividir o conjunto de dados disponível em conjuntos de dados de treinamento, teste e validação.

Modelo de construção

Execute a ferramenta de modelagem no conjunto de dados preparado para criar um ou mais modelos.

    Configurações de parâmetros:Com qualquer ferramenta de modelagem, geralmente há um grande número de parâmetros que podem ser ajustados. Liste os parâmetros, seus valores e a justificativa para selecionar as configurações dos parâmetros.Modelos:Estes são os modelos produzidos pela ferramenta de modelagem, não um relatório sobre os modelos.Descrições do modelo:Descreva os modelos resultantes, relate a interpretação dos modelos e documente quaisquer dificuldades encontradas com seus significados.

Avaliar modelo

Interprete os modelos de acordo com seu conhecimento do domínio, critérios de sucesso da mineração de dados e design de teste desejado. Julgue o sucesso da aplicação de técnicas de modelagem e descoberta e, posteriormente, entre em contato com analistas de negócios e especialistas de domínio para discutir os resultados da mineração de dados no contexto de negócios. Esta tarefa considera apenas modelos, enquanto a fase de avaliação também considera todos os outros resultados produzidos durante o projeto.

Nesta fase, você deve classificar os modelos e avaliá-los de acordo com os critérios de avaliação. Você deve considerar os objetivos de negócios e os critérios de sucesso tanto quanto possível aqui. Na maioria dos projetos de mineração de dados, uma única técnica é aplicada mais de uma vez e os resultados da mineração de dados são gerados com diversas técnicas diferentes.

    Avaliação do modelo:Resume os resultados desta tarefa, liste as qualidades dos modelos gerados (por exemplo, em termos de precisão) e classifique suas qualidades entre si.Configurações de parâmetros revisadas:De acordo com a avaliação do modelo, revise-os e ajuste-os para a próxima execução de modelagem. Repita a construção e avaliação do modelo até acreditar firmemente que encontrou o(s) melhor(es) modelo(s). Documente todas essas revisões e avaliações.

Fase 5: Avaliação

Avalie seus resultados: As etapas anteriores de avaliação trataram de fatores como a precisão e generalidade do modelo. Durante esta etapa, você avaliará até que ponto o modelo atende aos seus objetivos de negócios e procurará determinar se há algum motivo comercial para que esse modelo seja deficiente. Outra opção é testar o modelo em aplicações de teste na aplicação real, se as restrições de tempo e orçamento permitirem. A fase de avaliação também envolve a avaliação de quaisquer outros resultados de mineração de dados gerados. Os resultados da mineração de dados envolvem modelos que estão necessariamente relacionados aos objetivos de negócios originais e todas as outras descobertas que não estão necessariamente relacionadas aos objetivos de negócios originais, mas também podem revelar desafios, informações ou dicas adicionais para direções futuras.

    Avaliação dos resultados da mineração de dados:Resuma os resultados da avaliação em critérios de sucesso empresarial, incluindo uma declaração final sobre se o projeto já atende aos objetivos comerciais iniciais.Modelos aprovados:Depois de avaliar os modelos de acordo com os critérios de sucesso do negócio, os modelos gerados que atendem aos critérios selecionados tornam-se os modelos aprovados.

Processo de revisão

Neste ponto, os modelos resultantes parecem ser satisfatórios e satisfazer as necessidades do negócio. Agora é apropriado que você faça uma revisão mais completa do envolvimento da mineração de dados para determinar se há um fator ou tarefa importante que de alguma forma foi negligenciado. Esta revisão também cobre questões de garantia de qualidade. Por exemplo: construímos o modelo corretamente? Utilizamos apenas os atributos que temos permissão para usar e que estão disponíveis para análises futuras?

    Revisão do processo:Resuma a revisão do processo e destaque as atividades que foram perdidas e aquelas que deveriam ser repetidas.

Determine os próximos passos

Agora você decide como proceder dependendo dos resultados da avaliação e da revisão do processo. Você conclui este projeto e segue para a implantação, inicia novas iterações ou configura novos projetos de mineração de dados? Você também deve fazer um balanço dos recursos e orçamento restantes, o que pode influenciar suas decisões.

    Lista de ações possíveis:Liste as possíveis ações futuras e as razões a favor e contra cada opção.Decisão:Descreva a decisão sobre como proceder, juntamente com a justificativa.

Fase 6: Implantação

Planejar a implantação: no estágio de implantação, você pegará os resultados da avaliação e determinará uma estratégia para sua implantação. Se um procedimento geral tiver sido identificado para criar o(s) modelo(s) relevante(s), esse procedimento será documentado aqui para implantação posterior. Faz sentido considerar as formas e meios de implantação durante a fase de entendimento do negócio porque a implantação é crucial para o sucesso do projeto. É aqui que a análise preditiva ajuda a melhorar o lado operacional do seu negócio.

    Plano de preparação:Resuma sua estratégia de implantação, incluindo as etapas necessárias e como executá-las.

Planeje monitoramento e manutenção

O monitoramento e a manutenção são questões importantes se o resultado da mineração de dados se tornar parte do dia a dia dos negócios e de seu ambiente. A preparação cuidadosa de uma estratégia de manutenção ajuda a evitar períodos desnecessariamente longos de utilização incorreta dos resultados da mineração de dados. O projeto precisa de um plano de processo de monitoramento detalhado para monitorar a implantação do(s) resultado(s) da mineração de dados. Este plano leva em consideração o tipo específico de implantação.

    Plano de monitoramento e manutenção:Resuma a estratégia de monitoramento e manutenção, incluindo as etapas necessárias e como executá-las.

Produzir relatório final

Ao final do projeto, você escreverá um relatório final. Dependendo do plano de implantação, este relatório pode ser apenas um resumo do projeto e das suas experiências (se ainda não tiverem sido documentadas como uma atividade em curso), ou pode ser uma apresentação final e abrangente do resultado da mineração de dados.

    Relatório final:Este é o relatório final escrito do trabalho de mineração de dados. Inclui todas as entregas anteriores, resumindo e organizando os resultados.Apresentação final:Muitas vezes haverá uma reunião após o projeto em que os resultados serão apresentados ao cliente.

Revisar projeto

mockito sempre que

Avalie o que deu certo e errado, o que foi bem feito e o que precisa ser melhorado.

    Documentação de experiência:Resuma experiências importantes adquiridas durante o projeto. Por exemplo, esta documentação pode incluir quaisquer armadilhas encontradas, abordagens enganosas ou dicas para selecionar as técnicas de mineração de dados mais adequadas em situações semelhantes. Em projetos ideais, a documentação da experiência também abrange quaisquer relatórios que os membros individuais do projeto tenham escrito durante as fases anteriores do projeto.