ISSN: 2165- 7866
Abdalla Bala y Alain Abran
Los repositorios multiorganizacionales, en particular aquellos basados en contribuciones voluntarias de datos como el repositorio del International Software Benchmarking Standards Group (ISBSG), pueden perder una gran cantidad de valores para muchos de sus campos de datos, además de incluir algunos valores atípicos. Este documento sugiere una serie de problemas de calidad de datos asociados con el repositorio ISBSG que pueden comprometer los resultados para los usuarios que lo explotan con fines de evaluación comparativa o para construir modelos de estimación. Proponemos una serie de criterios y técnicas para el preprocesamiento de los datos con el fin de mejorar la calidad de las muestras identificadas para un análisis estadístico detallado y presentamos una estrategia de imputación múltiple (MI) para tratar conjuntos de datos con valores faltantes.