ISSN: 2376-130X
Jon Ander Gómez Adrián
La mayoría de las técnicas de Inteligencia Artificial, en particular las pertenecientes al aprendizaje automático, necesitan la mayor cantidad de datos posible para obtener modelos más robustos y precisos entrenados mediante algoritmos que utilizan muestras de datos para ajustar los parámetros del modelo. Como ejemplo, un modelo basado en redes neuronales profundas tiene millones de parámetros (nombrados como pesos) cuyos valores son actualizados progresivamente por el algoritmo Error-Backpropagation que visita iterativamente todas las muestras del conjunto de datos de entrenamiento. El Sr. Cukier explicó que los investigadores de la Universidad de Stanford usaron miles de muestras de células mamarias cancerosas y las pacientes’ tasas de supervivencia para entrenar un modelo de aprendizaje automático y definió la función objetivo del algoritmo de aprendizaje para identificar patrones en los atributos de los datos de entrada que mejor se correlacionan con el objetivo de predecir si una biopsia determinada será gravemente cancerosa. El modelo de aprendizaje automático obtenido identificó once atributos que mejor predicen que una biopsia es altamente cancerosa. Lo que sorprendió a los investigadores fue que solo ocho de los once atributos eran previamente conocidos por los médicos y estudiados en la literatura médica. Como los investigadores de Stanford incluyeron en el experimento todos los atributos de los datos de entrada, sin indicar al algoritmo de aprendizaje cuáles usar, el resultado fue que tres de los atributos (o indicadores) encontrados por el algoritmo de aprendizaje automático no fueron considerados relevantes por médicos. comunidad; los patólogos nunca centraron su atención en tales indicadores. Como comentó el Sr. Cuckier, el aprendizaje automático funciona porque el algoritmo de aprendizaje se alimenta con una gran cantidad de datos: mucha más información de la que cualquier ser humano podría digerir en su vida y administrar en cualquier momento