logo

Clustering hierárquico em mineração de dados

Clustering hierárquico refere-se a um procedimento de aprendizagem não supervisionado que determina clusters sucessivos com base em clusters previamente definidos. Funciona agrupando dados em uma árvore de clusters. Estatísticas de cluster hierárquico tratando cada ponto de dados como um cluster individual. O endpoint refere-se a um conjunto diferente de clusters, onde cada cluster é diferente do outro cluster e os objetos dentro de cada cluster são iguais entre si.

palíndromo em java

Existem dois tipos de cluster hierárquico

  • Clustering Hierárquico Aglomerativo
  • Clustering Divisivo

Clustering hierárquico aglomerativo

O clustering aglomerativo é um dos tipos mais comuns de clustering hierárquico usado para agrupar objetos semelhantes em clusters. O agrupamento aglomerativo também é conhecido como AGNES (agglomerative nesting). No clustering aglomerativo, cada ponto de dados atua como um cluster individual e em cada etapa, os objetos de dados são agrupados em um método bottom-up. Inicialmente, cada objeto de dados está em seu cluster. A cada iteração, os clusters são combinados com diferentes clusters até que um cluster seja formado.

Algoritmo de cluster hierárquico aglomerativo

  1. Determine a semelhança entre os indivíduos e todos os outros clusters. (Encontrar matriz de proximidade).
  2. Considere cada ponto de dados como um cluster individual.
  3. Combine clusters semelhantes.
  4. Recalcular a matriz de proximidade para cada cluster.
  5. Repita a etapa 3 e a etapa 4 até obter um único cluster.

Vamos entender esse conceito com a ajuda da representação gráfica por meio de um dendograma.

Com a ajuda de determinada demonstração, podemos entender como funciona o algoritmo real. Aqui nenhum cálculo foi feito abaixo de toda a proximidade entre os clusters ser assumida.

Suponhamos que temos seis pontos de dados diferentes P, Q, R, S, T, V.

fatiamento de array java
Clustering hierárquico em mineração de dados

Passo 1:

Considere cada alfabeto (P, Q, R, S, T, V) como um cluster individual e encontre a distância entre o cluster individual e todos os outros clusters.

instancia de

Passo 2:

Agora, mescle os clusters comparáveis ​​em um único cluster. Digamos que o cluster Q e o cluster R sejam semelhantes entre si para que possamos mesclá-los na segunda etapa. Finalmente, obtemos os clusters [(P), (QR), (ST), (V)]

Etapa 3:

Aqui, recalculamos a proximidade de acordo com o algoritmo e combinamos os dois clusters mais próximos [(ST), (V)] para formar novos clusters como [(P), (QR), (STV)]

Passo 4:

string de acréscimo java

Repita o mesmo processo. Os clusters STV e PQ são comparáveis ​​e combinados para formar um novo cluster. Agora temos [(P), (QQRSTV)].

Etapa 5:

Finalmente, os dois clusters restantes são mesclados para formar um único cluster [(PQRSTV)]

Clustering hierárquico divisivo

O clustering hierárquico divisivo é exatamente o oposto do clustering hierárquico aglomerativo. No cluster hierárquico divisivo, todos os pontos de dados são considerados um cluster individual e, em cada iteração, os pontos de dados que não são semelhantes são separados do cluster. Os pontos de dados separados são tratados como um cluster individual. Finalmente, ficamos com N clusters.

Clustering hierárquico em mineração de dados

Vantagens do cluster hierárquico

  • É simples de implementar e oferece o melhor resultado em alguns casos.
  • É fácil e resulta em uma hierarquia, uma estrutura que contém mais informações.
  • Não é necessário pré-especificar o número de clusters.

Desvantagens do cluster hierárquico

  • Ele quebra os grandes clusters.
  • É difícil manusear clusters de tamanhos diferentes e formas convexas.
  • É sensível a ruídos e valores discrepantes.
  • O algoritmo nunca pode ser alterado ou excluído depois de feito anteriormente.