ISSN: 2090-4924
Tianyi Yang y Anne Hee Hiong Ngu
Hadoop es una de las plataformas informáticas de propósito general más populares para el procesamiento distribuido de macrodatos. HDFS es la implementación de un sistema de archivos distribuido por Hadoop para poder almacenar una gran cantidad de datos de manera confiable y servir el componente de procesamiento de datos por Hadoop al mismo tiempo. MapReduce es el principal motor de procesamiento de Hadoop. En este estudio, implementamos HDFS y MapReduce para un conocido árbol de decisiones de algoritmos de aprendizaje de manera escalable para problemas de entrada de gran tamaño. Se evalúa el rendimiento computacional con el número de nodos y el tamaño del problema.