ISSN: 2153-0637
Alex V Vasenkov
Esta charla se centrará en Big Data para investigación y desarrollo (I+D). Hay varias definiciones de Big Data que crean confusión sobre este tema. Hay aún más confusión sobre Big Data sintético que puede definirse como una colección de artículos de investigación, tesis doctorales, patentes, informes de prueba e informes de descripción de productos. Dichos datos tienen atributos emergentes como alto volumen, alta velocidad, alta variedad y veracidad que dificultan el análisis de datos sintéticos. Existe una necesidad emergente de un marco que pueda integrar de forma sinérgica la búsqueda o la recuperación de información (IR) con la extracción de información (IE). La búsqueda de texto tradicional basada en IR se puede utilizar para una exploración rápida de grandes colecciones de datos sintéticos. Sin embargo, este enfoque es incapaz de encontrar conceptos específicos de I+D en tales colecciones y establecer conexiones entre estos conceptos. Además, los modelos IR carecen de la capacidad de aprender conceptos y relaciones entre los conceptos. Por el contrario, los modelos de IE son demasiado específicos y, por lo general, requieren personalización para un dominio de interés. Se presentará un marco novedoso y se mostrará su viabilidad para extraer datos sintéticos. Se descubrió que era posible automatizar parcial o totalmente el análisis de datos sintéticos para encontrar información etiquetada y conceptos de conexión. El presente marco puede ayudar a las personas a identificar soluciones no obvias a problemas de I+D, servir como insumo para la innovación o categorizar el estado de la técnica relevante para un concepto tecnológico o una solicitud de patente en cuestión.