logo

Índice de Gini em aprendizado de máquina

Introdução

O aprendizado de máquina reformou a maneira como processamos e examinamos os dados, e os algoritmos de árvore de decisão são uma decisão famosa para tarefas de classificação e regressão. O Índice de Gini, também chamado de Impureza de Gini ou Coeficiente de Gini, é uma medida de impureza significativa utilizada em algoritmos de árvore de decisão. Neste artigo, investigaremos exaustivamente a ideia do Índice de Gini, sua fórmula numérica e suas aplicações em aprendizado de máquina. Da mesma forma, compararemos o Índice de Gini e outras medidas de impureza, falaremos sobre suas limitações e vantagens e inspecionaremos análises contextuais de suas aplicações no mundo real. Por fim, apresentaremos os rumos futuros para pesquisas por aqui.

O que é o Índice de Gini?

O Índice de Gini é uma proporção de impureza ou desigualdade em ambientes estatísticos e monetários. No aprendizado de máquina, é utilizado como medida de impureza em algoritmos de árvore de decisão para tarefas de classificação. O Índice de Gini mede a probabilidade de um teste escolhido ao acaso ser classificado incorretamente por um algoritmo de árvore de decisão, e seu valor varia de 0 (perfeitamente puro) a 1 (perfeitamente impuro).

Fórmula do Índice de Gini

O Índice de Gini é uma proporção da impureza ou desigualdade de uma circulação, regularmente utilizada como medida de impureza em algoritmos de árvore de decisão. No que diz respeito às árvores de decisão, o Índice de Gini é utilizado para determinar o melhor recurso para dividir os dados em cada nó da árvore.

A fórmula do Índice de Gini é a seguinte:

Índice de Gini em aprendizado de máquina

onde pi é a probabilidade de uma coisa ter um lugar em uma classe específica.

Por exemplo, devemos considerar um problema de classificação binária com duas classes An e B. Na hipótese remota de que a probabilidade da classe An seja p e a probabilidade da classe B seja (1-p), então o Índice de Gini pode ser calculado como :

O valor do Índice de Gini vai de 0,0 a 0,5 para problemas de classificação binária, onde 0,0 demonstra um nó perfeitamente puro (todos os exemplos têm lugar em uma classe semelhante) e 0,5 mostra um nó perfeitamente impuro (os testes são distribuídos igualmente pelas duas classes ).

Usando o Índice de Gini em Problemas de Classificação

O Índice de Gini é geralmente utilizado como medida de impureza em algoritmos de árvore de decisão para problemas de classificação. Nas árvores de decisão, cada nó endereça um elemento, e o objetivo é dividir os dados em subconjuntos que sejam essencialmente tão puros quanto se poderia esperar. A medida de impureza (como o Índice de Gini) é utilizada para decidir a melhor divisão em cada nó.

Para ilustrar isso, devemos considerar um exemplo de árvore de decisão para um problema de classificação binária. A árvore possui dois elementos: idade e renda, e o objetivo é prever a probabilidade de um indivíduo comprar um item. A árvore é construída utilizando o Índice de Gini como medida de impureza.

No nó raiz, o Índice de Gini é calculado tendo em vista a probabilidade dos exemplos terem lugar na classe 0 ou classe 1. O nó é dividido em função da componente que resulta na diminuição mais elevada do Índice de Gini. Este ciclo é repetido recursivamente para cada subconjunto até que uma medida de parada seja alcançada.

Árvores de decisão

Uma árvore de decisão é um algoritmo de aprendizado de máquina bem conhecido, utilizado para tarefas de classificação e regressão. Um modelo é trabalhado dividindo recursivamente o conjunto de dados em subconjuntos mais modestos à luz dos valores dos destaques de informação, determinados a limitar a impureza dos subconjuntos subsequentes.

Em cada nó da árvore, é tomada uma decisão tendo em conta os valores de um dos destaques de informação, com o objetivo final de que os subconjuntos subsequentes sejam basicamente tão puros quanto se poderia esperar. A pureza de um subconjunto é regularmente estimada por uma medida de impureza, por exemplo, o Índice de Gini ou a entropia.

O algoritmo de árvore de decisão pode ser utilizado para tarefas de classificação binária e multiclasse, bem como para tarefas de regressão. Em tarefas de classificação binária, a árvore de decisão divide o conjunto de dados em dois subconjuntos de acordo com o valor de um recurso binário, como sim ou não. Em tarefas de classificação multiclasse, a árvore de decisão divide o conjunto de dados em vários subconjuntos de acordo com os valores de um recurso direto, como vermelho, verde ou azul.

Índice de Gini versus outras medidas de impureza

Além do Índice de Gini, existem outras medidas de impureza que normalmente são utilizadas em algoritmos de árvore de decisão, por exemplo, entropia e ganho de informação.

Entropia:

No aprendizado de máquina, a entropia é uma proporção da irregularidade ou vulnerabilidade em um conjunto de dados. Geralmente é utilizado como medida de impureza em algoritmos de árvore de decisão, juntamente com o Índice de Gini.

Nos algoritmos de árvore de decisão, a entropia é utilizada para decidir o melhor componente para dividir os dados em cada nó da árvore. O objetivo é encontrar o elemento que resulta na maior diminuição da entropia, que se relaciona com o componente que fornece mais informações sobre a questão de classificação.

Índice de Gini em aprendizado de máquina

Embora a entropia e o Índice de Gini sejam normalmente utilizados como medidas de impureza em algoritmos de árvore de decisão, eles têm várias propriedades. A entropia é mais delicada à circulação de nomes de classes e em geral produzirá árvores mais ajustadas, enquanto o Índice de Gini é menos sensível à apropriação de marcas de classe e em geral criará árvores mais limitadas com menos divisões. A decisão da medida de impureza depende do problema específico e dos atributos dos dados.

Ganho de informação:

O ganho de informação é uma ação usada para avaliar a natureza de uma divisão durante a construção de uma árvore de decisão. O objetivo de uma árvore de decisão é dividir os dados em subconjuntos que sejam basicamente tão homogêneos quanto possível quanto para a variável objetivo, de modo que a árvore subsequente possa ser utilizada para fazer expectativas exatas sobre novos dados. O ganho de informação mede a diminuição da entropia ou impureza obtida por uma divisão. O recurso com o ganho de informação mais notável é escolhido como o melhor recurso para dividir em cada nó da árvore de decisão.

O ganho de informação é uma medida normalmente envolvida para avaliar a natureza das divisões nas árvores de decisão, mas não é aquela em que devemos nos concentrar. Diferentes medidas, por exemplo, o índice de Gini ou a taxa de classificação incorreta, também podem ser utilizadas. A decisão da base de divisão depende do problema principal e dos atributos do conjunto de dados utilizado.

Exemplo de índice de Gini

Deveríamos considerar um problema de classificação binária onde temos um conjunto de dados de 10 exemplos com duas classes: ‘Positivo’ e ‘Negativo’. Dos 10 exemplos, 6 estão na classe 'Positivo' e 4 estão na classe 'Negativo'.

Para calcular o Índice de Gini do conjunto de dados, calculamos inicialmente a probabilidade de cada classe:

p_1 = 6/10 = 0,6 (Positivo)

p_2 = 4/10 = 0,4 (Negativo)

Então, nesse ponto, utilizamos a fórmula do Índice de Gini para calcular a impureza do conjunto de dados:

Gini(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0,6 ^ 2 + 0,4 ^ 2)

= 0,48

Portanto, o Índice de Gini do conjunto de dados é 0,48.

Atualmente, suponha que precisamos dividir o conjunto de dados em um elemento 'X' que possui dois valores potenciais: 'A' e 'B'. Dividimos o conjunto de dados em dois subconjuntos de acordo com o componente:

Subconjunto 1 (X = A): 4 positivos, 1 negativo

Subconjunto 2 (X = B): 2 positivos, 3 negativos

Para calcular a diminuição do Índice de Gini para esta divisão, calculamos inicialmente o Índice de Gini de cada subconjunto:

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Em seguida, utilizamos a fórmula de ganho de informação para calcular a diminuição do Índice de Gini:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Portanto, o ganho de informação (ou seja, diminuição no Índice de Gini) para dividir o conjunto de dados no destaque 'X' é de 0,08.

Para esta situação, caso calculemos o ganho de informação para todos os elementos e escolhamos aquele com o ganho de informação mais notável, esse componente seria escolhido como o melhor componente para dividir no nó raiz da árvore de decisão.

Vantagens:

O índice de Gini é uma medida amplamente envolvida para avaliar a natureza das divisões nas árvores de decisão e goza de algumas vantagens sobre diferentes medidas, por exemplo, entropia ou taxa de classificação incorreta. Aqui estão algumas das principais vantagens de usar o índice de Gini:

Java 8

Computacionalmente eficiente: O índice de Gini é uma medida menos complexa e computacionalmente mais rápida em comparação com outras medidas, por exemplo, a entropia, que envolve o cálculo de logaritmos.

Interpretação intuitiva: O índice de Gini é simples e fácil de interpretar. Ele mede a probabilidade de um exemplo escolhido ao acaso de um conjunto ser classificado incorretamente no caso de ter sido marcado ao acaso de acordo com a classe de transporte no conjunto.

Bom para classificação binária: O índice de Gini é especialmente poderoso para problemas de classificação binária, onde a variável objetivo possui apenas duas classes. Nesses casos, sabe-se que o índice de Gini é mais estável do que outras medidas.

Robusto ao desequilíbrio de classe: O índice de Gini é menos sensível ao desequilíbrio de classe em comparação com outras medidas, por exemplo, precisão ou taxa de classificação incorreta. Isto ocorre porque o índice de Gini depende da extensão geral dos exemplos em cada classe, em oposição aos números absolutos.

Menos propenso a overfitting: O índice de Gini criará, em geral, árvores de decisão mais modestas em comparação com diferentes medidas, o que o torna menos propenso a sobreajustamento. Isto porque o índice de Gini irá, em geral, favorecer características que constituem parcelas mais modestas dos dados, o que diminui as possibilidades de sobreajuste.

Desvantagens:

Embora o índice de Gini tenha alguns benefícios como medida de divisão para árvores de decisão, ele também apresenta algumas desvantagens. Aqui estão algumas das principais desvantagens de usar o índice de Gini:

Preconceito para recursos com muitas categorias: O índice de Gini, em geral, se inclinará para recursos com muitas categorias ou valores, pois podem fazer mais divisões e parcelas dos dados. Isso pode levar a um overfitting e a uma árvore de decisão mais complicada.

Não é bom para variáveis ​​contínuas: O índice de Gini não é apropriado para variáveis ​​contínuas, pois requer a discretização da variável em categorias ou categorias, o que pode provocar perda de informações e diminuição da exatidão.

Ignora interações de recursos: O índice de Gini apenas pensa na força presciente individual de cada recurso e ignora as interações entre os recursos. Isso pode gerar divisões ruins e previsões menos exatas.

Não é ideal para alguns conjuntos de dados: às vezes, o índice de Gini pode não ser a medida ideal para avaliar a natureza das divisões numa árvore de decisão. Por exemplo, no caso de a variável objetiva ser excepcionalmente inclinada ou desequilibrada, medidas diferentes, por exemplo, ganho de informação ou proporção de ganho, podem ser mais adequadas.

Propenso a preconceitos na presença de valores ausentes: O índice de Gini pode ser tendencioso na presença de valores omissos, pois em geral tenderá para características com menos valores omissos, independentemente de não serem os mais informativos.

Aplicações do Índice de Gini no mundo real

O Índice de Gini tem sido utilizado em diferentes aplicações em aprendizado de máquina, por exemplo, localização de extorsão, pontuação de crédito e divisão de clientes. Por exemplo, na descoberta de extorsão, o Índice de Gini pode ser utilizado para distinguir designs na troca de dados e reconhecer formas bizarras de comportamento. Na pontuação de crédito, o Índice de Gini pode ser utilizado para prever a probabilidade de inadimplência tendo em vista variáveis ​​como renda, relação entre dívida pendente e pagamento líquido e registro de reembolso do empréstimo. Na divisão de clientes, o Índice de Gini pode ser utilizado para agrupar os clientes de acordo com seu comportamento e inclinações.

Pesquisa futura

Apesar de seu uso ilimitado em algoritmos de árvores de decisão, ainda há espaço para pesquisas sobre o Índice de Gini. Uma área de investigação é o avanço de novas medidas de impureza que possam abordar as limitações do Índice de Gini, como a sua inclinação para factores com muitos níveis. Mais uma área de pesquisa é a simplificação de algoritmos de árvores de decisão utilizando o Índice de Gini, por exemplo, a utilização de técnicas de outfit para trabalhar a precisão das árvores de decisão.

Conclusão

O Índice de Gini é uma medida de impureza significativa utilizada em algoritmos de árvore de decisão para tarefas de classificação. Ele mede a probabilidade de um teste escolhido aleatoriamente ser classificado incorretamente por um algoritmo de árvore de decisão e seu valor vai de 0 (perfeitamente puro) a 1 (perfeitamente impuro). O Índice de Gini é simples e eficiente, computacionalmente produtivo e poderoso para exceções. Ele tem sido utilizado em diferentes aplicações em aprendizado de máquina, por exemplo, descoberta de declarações falsas, pontuação de crédito e divisão de clientes. Embora o Índice de Gini tenha algumas limitações, ainda há espaço para pesquisas sobre sua melhoria e melhoria de novas medidas de impureza.