ISSN: 0976-4860
Mamta Mittal, R.K.Sharma, V.P.Singh
La minería de datos es un proceso de extracción de información oculta interesada de grandes bases de datos. Se puede aplicar en muchas bases de datos, pero el tipo de patrones que se encuentran se especifica mediante varias técnicas de minería de datos. La agrupación en clústeres es una de las técnicas de minería de datos que divide la base de datos en clústeres, de modo que los objetos de datos en los mismos clústeres son similares y los objetos de datos que pertenecen a diferentes clústeres son diferentes. Los investigadores han desarrollado muchos algoritmos para el agrupamiento, pero este documento se centra en una técnica bien conocida basada en particiones, es decir, k-means con técnica de agrupamiento basada en umbral. El algoritmo k-means divide la base de datos en k grupos, donde k es el parámetro definido por el usuario, además de esto, es sensible a los valores atípicos y la selección inicial de semillas. La agrupación en clústeres basada en umbrales es otro método que genera los clústeres automáticamente en función del valor del umbral. Para evaluar la calidad del agrupamiento obtenido con ambas técnicas, se han aplicado varias medidas de validez e índices de validez sobre datos sintéticos. Mediante la experimentación y las comparaciones de los resultados de la agrupación, se ha observado que las agrupaciones obtenidas con la técnica basada en el umbral están más separadas y compactas, lo que indica una buena agrupación.