logo

Algoritmo A priori

Algoritmo a priori refere-se ao algoritmo usado para calcular as regras de associação entre objetos. Significa como dois ou mais objetos estão relacionados entre si. Em outras palavras, podemos dizer que o algoritmo a priori é uma regra de associação inclinada que analisa se as pessoas que compraram o produto A também compraram o produto B.

O objetivo principal do algoritmo a priori é criar a regra de associação entre diferentes objetos. A regra de associação descreve como dois ou mais objetos estão relacionados entre si. O algoritmo a priori também é chamado de mineração frequente de padrões. Geralmente, você opera o algoritmo Apriori em um banco de dados que consiste em um grande número de transações. Vamos entender o algoritmo a priori com a ajuda de um exemplo; suponha que você vá ao Big Bazar e compre produtos diferentes. Ajuda os clientes a comprar seus produtos com facilidade e aumenta o desempenho de vendas do Big Bazar. Neste tutorial, discutiremos o algoritmo a priori com exemplos.

inteiro para string java

Introdução

Tomamos um exemplo para entender melhor o conceito. Você deve ter notado que o vendedor da pizzaria faz uma combinação de pizza, refrigerante e pãozinho. Ele também oferece desconto aos clientes que adquirirem esses combos. Você já pensou por que ele faz isso? Ele acha que os clientes que compram pizza também compram refrigerantes e torradas. Porém, ao fazer combos, ele facilita para os clientes. Ao mesmo tempo, ele também aumenta seu desempenho em vendas.

Da mesma forma, você vai ao Big Bazar e encontrará biscoitos, batatas fritas e chocolate embalados juntos. Mostra que o lojista deixa confortável para os clientes comprarem esses produtos no mesmo local.

Os dois exemplos acima são os melhores exemplos de Regras de Associação em

  • Apoiar
  • Confiança
  • Elevador
  • Vamos dar um exemplo para entender esse conceito.

    Já discutimos acima; você precisa de um banco de dados enorme contendo um grande número de transações. Suponha que você tenha transações de 4.000 clientes em um Big Bazar. Você deve calcular o Suporte, a Confiança e a Elevação para dois produtos, e você pode dizer Biscoitos e Chocolate. Isso ocorre porque os clientes frequentemente compram esses dois itens juntos.

    De 4.000 transações, 400 contêm biscoitos, enquanto 600 contêm chocolate, e essas 600 transações incluem 200 que incluem biscoitos e chocolates. Usando esses dados, descobriremos o apoio, a confiança e a elevação.

    Apoiar

    Suporte refere-se à popularidade padrão de qualquer produto. Você encontra o suporte como um quociente da divisão do número de transações que compõem aquele produto pelo número total de transações. Portanto, obtemos

    Suporte (Biscoitos) = (Transações relativas a biscoitos) / (Total de transações)

    = 400/4000 = 10 por cento.

    Confiança

    A confiança refere-se à possibilidade de os clientes comprarem biscoitos e chocolates juntos. Portanto, você precisa dividir o número de transações que incluem biscoitos e chocolates pelo número total de transações para obter confiança.

    Por isso,

    Confiança = (Transações relativas a Biscoitos e Chocolate) / (Total de Transações envolvendo Biscoitos)

    = 200/400

    = 50 por cento.

    Isso significa que 50% dos clientes que compraram biscoitos também compraram chocolates.

    Elevador

    Considere o exemplo acima; lift refere-se ao aumento na proporção de venda de chocolates quando você vende biscoitos. As equações matemáticas de sustentação são fornecidas abaixo.

    Elevador = (Confiança (Biscoitos - chocolates)/ (Apoio (Biscoitos)

    = 50/10 = 5

    jogo pombo android

    Isso significa que a probabilidade de as pessoas comprarem biscoitos e chocolates juntos é cinco vezes maior do que comprarem apenas os biscoitos. Se o valor do aumento for inferior a um, é improvável que as pessoas comprem os dois itens juntos. Quanto maior o valor, melhor é a combinação.

    Como funciona o Algoritmo Apriori na Mineração de Dados?

    Vamos entender esse algoritmo com a ajuda de um exemplo

    Considere um cenário de Grande Bazar onde o conjunto de produtos é P = {Arroz, Legumes, Óleo, Leite, Maçã}. A base de dados é composta por seis transações onde 1 representa a presença do produto e 0 representa a ausência do produto.

    ID da transação Arroz Pulso Leite Azeite Maçã
    t1 1 1 1 0 0
    t2 0 1 1 1 0
    t3 0 0 0 1 1
    t4 1 1 0 1 0
    t5 1 1 1 0 1
    t6 1 1 1 1 1

    O Algoritmo Apriori faz as suposições fornecidas

    • Todos os subconjuntos de um conjunto de itens frequentes devem ser frequentes.
    • Os subconjuntos de um conjunto de itens pouco frequentes devem ser pouco frequentes.
    • Fixe um nível de suporte limite. No nosso caso, fixamos em 50%.

    Passo 1

    Faça uma tabela de frequência de todos os produtos que aparecem em todas as transações. Agora, reduza a tabela de frequência para adicionar apenas os produtos com um nível de suporte limite superior a 50%. Encontramos a tabela de frequência dada.

    produtos Frequência (Número de transações)
    Arroz (R) 4
    Pulso (P) 5
    Óleo (O) 4
    Leite(M) 4

    A tabela acima indicava os produtos frequentemente adquiridos pelos clientes.

    Passo 2

    Crie pares de produtos como RP, RO, RM, PO, PM, OM. Você obterá a tabela de frequência fornecida.

    Conjunto de itens Frequência (Número de transações)
    PR 4
    RO 3
    RM 2
    DEPOIS 4
    PM 3
    SOBRE 2

    etapa 3

    Implementar o mesmo limite de suporte de 50 por cento e considerar os produtos que são superiores a 50 por cento. No nosso caso, é mais de 3

    Assim, obtemos RP, RO, PO e PM

    Passo 4

    Agora procure um conjunto de três produtos que os clientes compram juntos. Obtemos a combinação dada.

    1. RP e RO dão RPO
    2. PO e PM dão POM

    Etapa 5

    Calcule a frequência dos dois conjuntos de itens e você obterá a tabela de frequência fornecida.

    Conjunto de itens Frequência (Número de transações)
    RPO 4
    POM 3

    Se você implementar a suposição de limite, poderá descobrir que o conjunto de três produtos dos clientes é RPO.

    Consideramos um exemplo fácil para discutir o algoritmo a priori na mineração de dados. Na realidade, você encontra milhares dessas combinações.

    Como melhorar a eficiência do Algoritmo Apriori?

    Existem vários métodos usados ​​para a eficiência do algoritmo Apriori

    Contagem de conjuntos de itens baseada em hash

    Na contagem de conjuntos de itens com base em hash, você precisa excluir o conjunto de itens k cuja contagem de bucket de hash equivalente é menor que o limite é um conjunto de itens pouco frequente.

    Redução de transações

    Na redução de transações, uma transação que não envolve nenhum conjunto de itens X frequente torna-se sem valor nas varreduras subsequentes.

    Algoritmo Apriori em mineração de dados

    Já discutimos um exemplo de algoritmo a priori relacionado à geração frequente de conjuntos de itens. O algoritmo a priori tem muitas aplicações em mineração de dados.

    Os principais requisitos para encontrar as regras de associação na mineração de dados são fornecidos abaixo.

    Use força bruta

    Analise todas as regras e encontre os níveis de suporte e confiança para cada regra individual. Depois, elimine os valores inferiores aos limites de suporte e níveis de confiança.

    As abordagens em duas etapas

    A abordagem em duas etapas é uma opção melhor para encontrar as regras de associação do que o método da Força Bruta.

    15 de 100,00

    Passo 1

    Neste artigo, já discutimos como criar a tabela de frequência e calcular conjuntos de itens com um valor de suporte maior do que o suporte limite.

    Passo 2

    Para criar regras de associação, você precisa usar uma partição binária dos conjuntos de itens frequentes. Você precisa escolher aqueles com os maiores níveis de confiança.

    No exemplo acima, você pode ver que a combinação RPO era o conjunto de itens frequente. Agora descobrimos todas as regras usando RPO.

    RP-O, RO-P, PO-R, O-RP, P-RO, R-PO

    Você pode ver que existem seis combinações diferentes. Portanto, se você tiver n elementos, haverá 2n- 2 regras de associação candidata.

    Vantagens do algoritmo a priori

    • É usado para calcular grandes conjuntos de itens.
    • Simples de entender e aplicar.

    Desvantagens dos algoritmos a priori

    • O algoritmo a priori é um método caro para encontrar suporte, pois o cálculo precisa passar por todo o banco de dados.
    • Às vezes, você precisa de um grande número de regras candidatas, tornando-se computacionalmente mais caro.