logo

Algoritmo de classificação em aprendizado de máquina

Como sabemos, o algoritmo de Aprendizado de Máquina Supervisionado pode ser amplamente classificado em Algoritmos de Regressão e Classificação. Nos algoritmos de regressão, previmos a saída para valores contínuos, mas para prever os valores categóricos, precisamos de algoritmos de classificação.

Qual é o algoritmo de classificação?

O algoritmo de classificação é uma técnica de aprendizagem supervisionada usada para identificar a categoria de novas observações com base em dados de treinamento. Na Classificação, um programa aprende com um determinado conjunto de dados ou observações e, em seguida, classifica a nova observação em várias classes ou grupos. Como, Sim ou Não, 0 ou 1, Spam ou Não Spam, gato ou cachorro, etc. As classes podem ser chamadas como alvos/rótulos ou categorias.

substitua tudo

Ao contrário da regressão, a variável de saída da Classificação é uma categoria, não um valor, como 'Verde ou Azul', 'fruta ou animal', etc. Como o algoritmo de Classificação é uma técnica de aprendizagem supervisionada, portanto, são necessários dados de entrada rotulados, que significa que contém entrada com a saída correspondente.

No algoritmo de classificação, uma função de saída discreta (y) é mapeada para uma variável de entrada (x).

 y=f(x), where y = categorical output 

O melhor exemplo de algoritmo de classificação de ML é Detector de spam de e-mail .

O principal objetivo do algoritmo de classificação é identificar a categoria de um determinado conjunto de dados, e esses algoritmos são usados ​​principalmente para prever a saída dos dados categóricos.

Os algoritmos de classificação podem ser melhor compreendidos usando o diagrama abaixo. No diagrama abaixo, existem duas classes, classe A e classe B. Essas classes possuem recursos semelhantes entre si e diferentes de outras classes.

Algoritmo de classificação em aprendizado de máquina

O algoritmo que implementa a classificação em um conjunto de dados é conhecido como classificador. Existem dois tipos de classificações:

    Classificador Binário:Se o problema de classificação tiver apenas dois resultados possíveis, ele será chamado de Classificador Binário.
    Exemplos: SIM ou NÃO, MASCULINO ou FEMININO, SPAM ou NÃO SPAM, GATO ou CÃO, etc.Classificador multiclasse:Se um problema de classificação tiver mais de dois resultados, ele será chamado de Classificador Multiclasse.
    Exemplo: Classificações dos tipos de culturas, Classificação dos tipos de música.

Alunos em problemas de classificação:

Nos problemas de classificação, existem dois tipos de alunos:

    Alunos preguiçosos:O Lazy Learner primeiro armazena o conjunto de dados de treinamento e espera até receber o conjunto de dados de teste. No caso do aluno preguiçoso, a classificação é feita com base nos dados mais relacionados armazenados no conjunto de dados de treinamento. Leva menos tempo de treinamento, mas mais tempo para previsões.
    Exemplo: Algoritmo K-NN, raciocínio baseado em casosAlunos ansiosos:Eager Learners desenvolvem um modelo de classificação baseado em um conjunto de dados de treinamento antes de receber um conjunto de dados de teste. Ao contrário dos alunos preguiçosos, o Eager Learner leva mais tempo aprendendo e menos tempo prevendo. Exemplo: Árvores de Decisão, Na�ve Bayes, ANN.

Tipos de algoritmos de classificação de ML:

Os algoritmos de classificação podem ser divididos principalmente em duas categorias:

    Modelos Lineares
    • Regressão Logística
    • Máquinas de vetores de suporte
    Modelos Não Lineares
    • K-vizinhos mais próximos
    • Núcleo SVM
    • Na�ve Bayes
    • Classificação da árvore de decisão
    • Classificação Florestal Aleatória

Nota: Aprenderemos os algoritmos acima em capítulos posteriores.

Avaliando um modelo de classificação:

Uma vez concluído nosso modelo, é necessário avaliar seu desempenho; ou é um modelo de classificação ou regressão. Portanto, para avaliar um modelo de Classificação, temos as seguintes formas:

1. Perda de log ou perda de entropia cruzada:

  • É utilizado para avaliar o desempenho de um classificador, cuja saída é um valor de probabilidade entre 0 e 1.
  • Para um bom modelo de classificação binária, o valor da perda de log deve estar próximo de 0.
  • O valor da perda logarítmica aumenta se o valor previsto se desviar do valor real.
  • A menor perda logarítmica representa a maior precisão do modelo.
  • Para classificação binária, a entropia cruzada pode ser calculada como:
 ?(ylog(p)+(1?y)log(1?p)) 

Onde y = produção real, p = produção prevista.

atalhos de teclado linux

2. Matriz de confusão:

  • A matriz de confusão nos fornece uma matriz/tabela como saída e descreve o desempenho do modelo.
  • Também é conhecida como matriz de erro.
  • A matriz consiste no resultado das previsões de forma resumida, que possui um número total de previsões corretas e incorretas. A matriz se parece com a tabela abaixo:
Positivo Real Negativo real
Previsto Positivo Verdadeiro Positivo Falso positivo
Negativo previsto Falso negativo Verdadeiro negativo
Algoritmo de classificação em aprendizado de máquina

3. Curva AUC-ROC:

  • Curva ROC significa Curva de características operacionais do receptor e AUC significa Área sob a curva .
  • É um gráfico que mostra o desempenho do modelo de classificação em diferentes limites.
  • Para visualizar o desempenho do modelo de classificação multiclasse, utilizamos a Curva AUC-ROC.
  • A curva ROC é traçada com TPR e FPR, onde TPR (Taxa de Positivo Verdadeiro) no eixo Y e FPR (Taxa de Falso Positivo) no eixo X.

Casos de uso de algoritmos de classificação

Algoritmos de classificação podem ser usados ​​em diferentes lugares. Abaixo estão alguns casos de uso populares de algoritmos de classificação:

  • Detecção de spam de e-mail
  • Reconhecimento de fala
  • Identificações de células tumorais cancerígenas.
  • Classificação de Drogas
  • Identificação Biométrica, etc.