También es conocida como la técnica de agrupamiento, permite segmentar el conjunto de datos en grupos que presentan dos características indispensables: que los elementos de un grupo presenten alta similitud entre ellos y muchas diferencias con los elementos de otros grupos, según medidas de atracción y repulsión que dependen del método utilizado [21], el cual subdivide ésta técnica en métodos numérico, conceptual y probabilístico, como ejemplos respectivos de algoritmos desarrollados en dichos métodos tenemos los siguientes: k-medias, Cobweb, EM [9].
Por ejemplo, los animales que presenten las características: presencia de pelo, reproducción vivípara y lactancia, serán segmentados en un grupo diferencial de otro que tenga como atributos: presencia de plumas, reproducción ovípara, no lactante, ya que la medida de su similitud intragrupo y diferencias extragrupo es alta.
Esta técnica es empleada en muchas y diversas áreas, sin embargo ha tenido gran importancia en la bioinformática, especialmente la enfocada a la genética con el proyecto GENOME [21] [22] analizando las interacciones de los genes y su repercusión en posibles enfermedades.
Es uno de los algoritmos más conocidos de agrupamiento, sigue una forma fácil y simple para dividir una base de datos en k grupos fijados a priori definiendo k centroides, uno para cada grupo, posteriormente toma cada punto de la base de datos y lo sitúa en la clase del centroide más cercano. La formación de los grupos (clúster) se basa en un criterio de cercanía. El criterio de cercanía generalmente se define como una función de distancia, entre las que se destacan la euclidiana (más utilizada), Manhattan y Minkowski, que son las que utiliza la herramienta.
El proceso se repite hasta que ya no es posible generar cambios en los grupos de un paso al siguiente.
Es un método que descompone de forma jerárquica un conjunto de datos, creando un dendrograma o árbol que divide la base de datos recursivamente en conjuntos cada vez más pequeños, tratando de minimizar la distancia total entre los registros y sus conglomerados, El algoritmo realiza dos pasos independientes: primero, ordena los registros de entrada en un árbol de característica de conglomerado de modo que los registros similares pasan a formar parte de los nodos del mismo árbol; a continuación, agrupa las hojas de este árbol en la memoria para generar el resultado de conglomerado definitivo
Es un algoritmo de clúster particional, evoluciona a partir de los algoritmos PAM Y CLARA, éste algoritmo no realiza particiones geométricas para identificar centroides, si no que selecciona un elemento representativo del grupo denominado medoide. A partir de los medoides se asigna cada objeto al clúster representado por el medoide más cercano y se computa la función de calidad como la media de las distancias de cada objeto a su medoide correspondiente del clúster.