CRISP-DM significa o processo padrão intersetorial para mineração de dados. A metodologia CRISP-DM fornece uma abordagem estruturada para planejar um projeto de mineração de dados. É uma metodologia robusta e comprovada. Não reivindicamos qualquer propriedade sobre ele. Nós não inventamos isso. Somos um conversor de sua poderosa praticidade, flexibilidade e utilidade ao usar análises para resolver problemas de negócios. É o fio condutor que permeia quase todas as reuniões com clientes.
Este modelo é uma sequência idealizada de eventos. Na prática, muitas tarefas podem ser executadas em uma ordem diferente e muitas vezes será necessário voltar às tarefas anteriores e repetir determinadas ações. O modelo não tenta capturar todas as rotas possíveis através do processo de mineração de dados.
Como o CRISP ajuda?
O CRISP DM fornece um roteiro, fornece as melhores práticas e fornece estruturas para resultados melhores e mais rápidos no uso da mineração de dados, de modo que ajuda a empresa a seguir ao planejar e executar um projeto de mineração de dados.
Fases do CRISP-DM
CRISP-DM fornece uma visão geral do ciclo de vida da mineração de dados como um modelo de processo. O modelo de ciclo de vida compreende seis fases, com setas indicando as dependências mais importantes e frequentes entre as fases. A sequência das fases não é rígida. E a maioria dos projetos avança e retrocede entre as fases conforme necessário. O modelo CRISP-DM é flexível e pode ser facilmente customizado.
Por exemplo, se a sua organização pretende detectar lavagem de dinheiro, você provavelmente irá analisar grandes quantidades de dados sem um objetivo de modelagem específico. Em vez de modelagem, seu trabalho se concentrará na exploração e visualização de dados para descobrir padrões suspeitos em dados financeiros. O CRISP-DM permite criar um modelo de mineração de dados que atenda às suas necessidades.
Inclui descrições de fases típicas de um projeto, as tarefas envolvidas em cada fase e uma explicação das relações entre essas tarefas.
Fase 1: Entendimento do Negócio
A primeira etapa do processo CRISP-DM é entender o que você deseja realizar do ponto de vista comercial. A sua organização pode ter objetivos e restrições concorrentes que devem ser devidamente equilibrados. Esta etapa do processo visa descobrir fatores importantes que influenciam o resultado do projeto. Negligenciar esta etapa pode significar muito esforço para produzir as respostas certas para as perguntas erradas.
Quais são os resultados desejados do projeto?
Avalie a situação atual
comando chown
Isso envolve uma investigação mais detalhada sobre os recursos, restrições, suposições e outros fatores que você precisará considerar ao determinar sua meta de análise de dados e plano de projeto.
- Pessoal (especialistas em negócios, especialistas em dados, suporte técnico, especialistas em mineração de dados)
- Dados (extrações fixas, acesso a dados ativos, armazenados ou operacionais)
- Recursos de computação (plataformas de hardware)
- Software (ferramentas de mineração de dados, outro software relevante)
- Um glossário de terminologia comercial relevante faz parte do entendimento comercial disponível para o projeto. A construção deste glossário é um exercício útil de “elicitação de conhecimento” e de educação.
- Um glossário de terminologia de mineração de dados é ilustrado com exemplos relevantes para o problema de negócios.
Determine as metas de mineração de dados
Uma meta de negócios declara objetivos na terminologia de negócios. Uma meta de mineração de dados declara os objetivos do projeto em termos técnicos. Por exemplo, a meta de negócios pode ser Aumentar as vendas por catálogo para clientes existentes. Um objetivo de mineração de dados pode ser prever quantos widgets um cliente comprará, considerando suas compras nos últimos três anos, informações demográficas (idade, salário, cidade, etc.) e o preço do item.
Produzir plano de projeto
Descreva o plano pretendido para atingir as metas de mineração de dados e de negócios. Seu plano deve especificar as etapas a serem executadas durante o restante do projeto, incluindo a seleção inicial de ferramentas e técnicas.
1. Plano do projeto: Liste as etapas a serem executadas no projeto, com duração, recursos necessários, entradas, saídas e dependências. Sempre que possível, tente tornar explícitas as iterações em grande escala no processo de mineração de dados, por exemplo, repetições das fases de modelagem e avaliação.
Como parte do plano do projeto, é importante analisar as dependências entre cronogramas e riscos. Marque os resultados destas análises explicitamente no plano do projeto, de preferência com ações e recomendações caso os riscos se manifestem. Decida qual estratégia de avaliação será usada na fase de avaliação.
Seu plano de projeto será um documento dinâmico. No final de cada fase, você analisará o progresso e as conquistas e atualizará o plano do projeto de acordo. Pontos de revisão específicos para estas atualizações devem fazer parte do plano do projeto.
operadores javascript
2. Avaliação inicial de ferramentas e técnicas: No final da primeira fase, deverá realizar uma avaliação inicial das ferramentas e técnicas. Por exemplo, você seleciona uma ferramenta de mineração de dados que oferece suporte a vários métodos para diferentes estágios do processo. É importante avaliar ferramentas e técnicas no início do processo, uma vez que a seleção de ferramentas e técnicas pode influenciar todo o projeto.
Fase 2: Compreensão dos dados
A segunda fase do processo CRISP-DM exige que você adquira os dados listados nos recursos do projeto. Esta coleta inicial inclui o carregamento de dados, se necessário para a compreensão dos dados. Por exemplo, se você usa uma ferramenta específica para compreensão de dados, faz todo o sentido carregar seus dados nesta ferramenta. Se você adquirir diversas fontes de dados, precisará considerar como e quando irá integrá-las.
Descrever os dados
Examine as propriedades “brutas” ou “superficiais” dos dados adquiridos e relate os resultados.
Explorar dados
Durante este estágio, você abordará questões de mineração de dados usando técnicas de consulta, visualização de dados e relatórios. Isso pode incluir:
remover cache npm
- Distribuição dos principais atributos
- Relacionamentos entre pares ou pequenos números de atributos
- Resultados de agregações simples
- Propriedades de subpopulações significativas
- Análises estatísticas simples
Essas análises podem abordar diretamente seus objetivos de mineração de dados. Podem contribuir ou aperfeiçoar a descrição dos dados e os relatórios de qualidade e contribuir para a transformação e outras etapas de preparação dos dados necessárias para uma análise mais aprofundada.
Verifique a qualidade dos dados
Examine a qualidade dos dados, abordando questões como:
- Os dados estão completos ou cobrem todos os casos necessários?
- Está correto ou contém erros e, se houver erros, quão comuns são?
- Existem valores ausentes nos dados? Em caso afirmativo, como são representados, onde ocorrem e quão comuns são?
Relatório de qualidade de dados
Liste os resultados da verificação da qualidade dos dados. Se existirem problemas de qualidade, sugira possíveis soluções. As soluções para problemas de qualidade de dados geralmente dependem muito dos dados e do conhecimento do negócio.
Fase 3: Preparação de Dados
Nesta fase do projeto, você decide quais dados usará para análise. Os critérios que você pode usar para tomar essa decisão incluem a relevância dos dados para suas metas de mineração de dados, a qualidade dos dados e restrições técnicas, como limites no volume de dados ou nos tipos de dados.
Limpe seus dados
Esta tarefa envolve elevar a qualidade dos dados ao nível exigido pelas técnicas de análise selecionadas. Isto pode envolver a seleção de subconjuntos limpos de dados, a inserção de padrões adequados ou técnicas mais ambiciosas, como a estimativa de dados faltantes por meio de modelagem.
Construir dados necessários
Esta tarefa inclui operações construtivas de preparação de dados, como produção de atributos derivados, novos registros inteiros ou valores transformados para atributos existentes.
Integrar dados
Esses métodos combinam informações de vários bancos de dados, tabelas ou registros para criar novos registros ou valores.
Fase 4: Modelagem
Selecione a técnica de modelagem: Como primeira etapa, você selecionará a técnica básica de modelagem que usará. Embora você já possa ter selecionado uma ferramenta durante a fase de compreensão do negócio, nesta fase você selecionará a técnica de modelagem específica, por exemplo. construção de árvore de decisão com C5.0 ou geração de rede neural com retropropagação. Se forem aplicadas múltiplas técnicas, execute esta tarefa separadamente para cada técnica.
Gerar design de teste
idade de mia khalifa
Antes de construir um modelo, é necessário gerar um procedimento ou mecanismo para testar a qualidade e a validade do modelo. Por exemplo, em tarefas supervisionadas de mineração de dados, como classificação, é comum usar taxas de erro como medidas de qualidade para modelos de mineração de dados. Portanto, normalmente você separa o conjunto de dados em conjuntos de treinamento e de teste, constrói o modelo no conjunto de treinamento e estima sua qualidade no conjunto de teste separado.
Modelo de construção
Execute a ferramenta de modelagem no conjunto de dados preparado para criar um ou mais modelos.
Avaliar modelo
Interprete os modelos de acordo com seu conhecimento do domínio, critérios de sucesso da mineração de dados e design de teste desejado. Julgue o sucesso da aplicação de técnicas de modelagem e descoberta e, posteriormente, entre em contato com analistas de negócios e especialistas de domínio para discutir os resultados da mineração de dados no contexto de negócios. Esta tarefa considera apenas modelos, enquanto a fase de avaliação também considera todos os outros resultados produzidos durante o projeto.
Nesta fase, você deve classificar os modelos e avaliá-los de acordo com os critérios de avaliação. Você deve considerar os objetivos de negócios e os critérios de sucesso tanto quanto possível aqui. Na maioria dos projetos de mineração de dados, uma única técnica é aplicada mais de uma vez e os resultados da mineração de dados são gerados com diversas técnicas diferentes.
Fase 5: Avaliação
Avalie seus resultados: As etapas anteriores de avaliação trataram de fatores como a precisão e generalidade do modelo. Durante esta etapa, você avaliará até que ponto o modelo atende aos seus objetivos de negócios e procurará determinar se há algum motivo comercial para que esse modelo seja deficiente. Outra opção é testar o modelo em aplicações de teste na aplicação real, se as restrições de tempo e orçamento permitirem. A fase de avaliação também envolve a avaliação de quaisquer outros resultados de mineração de dados gerados. Os resultados da mineração de dados envolvem modelos que estão necessariamente relacionados aos objetivos de negócios originais e todas as outras descobertas que não estão necessariamente relacionadas aos objetivos de negócios originais, mas também podem revelar desafios, informações ou dicas adicionais para direções futuras.
Processo de revisão
Neste ponto, os modelos resultantes parecem ser satisfatórios e satisfazer as necessidades do negócio. Agora é apropriado que você faça uma revisão mais completa do envolvimento da mineração de dados para determinar se há um fator ou tarefa importante que de alguma forma foi negligenciado. Esta revisão também cobre questões de garantia de qualidade. Por exemplo: construímos o modelo corretamente? Utilizamos apenas os atributos que temos permissão para usar e que estão disponíveis para análises futuras?
Determine os próximos passos
Agora você decide como proceder dependendo dos resultados da avaliação e da revisão do processo. Você conclui este projeto e segue para a implantação, inicia novas iterações ou configura novos projetos de mineração de dados? Você também deve fazer um balanço dos recursos e orçamento restantes, o que pode influenciar suas decisões.
Fase 6: Implantação
Planejar a implantação: no estágio de implantação, você pegará os resultados da avaliação e determinará uma estratégia para sua implantação. Se um procedimento geral tiver sido identificado para criar o(s) modelo(s) relevante(s), esse procedimento será documentado aqui para implantação posterior. Faz sentido considerar as formas e meios de implantação durante a fase de entendimento do negócio porque a implantação é crucial para o sucesso do projeto. É aqui que a análise preditiva ajuda a melhorar o lado operacional do seu negócio.
Planeje monitoramento e manutenção
O monitoramento e a manutenção são questões importantes se o resultado da mineração de dados se tornar parte do dia a dia dos negócios e de seu ambiente. A preparação cuidadosa de uma estratégia de manutenção ajuda a evitar períodos desnecessariamente longos de utilização incorreta dos resultados da mineração de dados. O projeto precisa de um plano de processo de monitoramento detalhado para monitorar a implantação do(s) resultado(s) da mineração de dados. Este plano leva em consideração o tipo específico de implantação.
Produzir relatório final
Ao final do projeto, você escreverá um relatório final. Dependendo do plano de implantação, este relatório pode ser apenas um resumo do projeto e das suas experiências (se ainda não tiverem sido documentadas como uma atividade em curso), ou pode ser uma apresentação final e abrangente do resultado da mineração de dados.
Revisar projeto
mockito sempre que
Avalie o que deu certo e errado, o que foi bem feito e o que precisa ser melhorado.