ISSN: 2157-7048
Wael Mohamed Shaher Yafooz
El concepto de gestión de datos es la práctica de almacenar, validar y procesar los datos necesarios para la accesibilidad y fiabilidad de los datos para sus usuarios. Las fuentes de datos se encuentran en la web y los servicios sociales, IoT, detección, transacciones de cualquier organización en línea, máquinas, etc. Estas enormes cantidades de datos se pueden encontrar en los servidores estructurados, no estructurados y semiestructurados. Además, estos datos se almacenan en pocas categorías, como gráficos, documentos, valores clave y columnas. El propósito de la gestión de datos no es un objetivo en sí mismo, sino la clave para la innovación y el descubrimiento de conocimientos y para la integración y reutilización después del proceso de publicación de datos. Muchas organizaciones y agencias gubernamentales están comenzando a requerir planes y gestión de datos para varios experimentos. Más allá de la recopilación de datos y el archivo, incluye ‘cuidados a largo plazo’ eso es valiosos activos digitales. Las organizaciones recopilan datos no estructurados de fuentes internas (p. ej., datos de sensores) y fuentes externas (p. ej., redes sociales). Por lo tanto, a partir de la aparición de tecnologías de gestión de datos y análisis, las organizaciones pudieron procesar datos en sus procesos comerciales e innovadores. Una de las técnicas es la tecnología de reconocimiento facial que permite adquirir inteligencia sobre el tráfico de la tienda, la composición de los clientes y los patrones de movimiento de la tienda. Esta información es invaluable para aprovechar las decisiones de promoción de productos, personal y ubicación. De hecho, los sistemas de gestión de datos tradicionales asumiendo por consulta de un usuario, que éste tiene suficiente conocimiento del esquema, contenido y significado, y seguro de la consulta que desea plantear, a partir de entonces, el sistema intenta producir resultados completos y correctos. Para manejar los datos de los sensores en aplicaciones de monitoreo estructural, los sistemas tradicionales de administración de bases de datos relacionales (RDBMS) emplean, sin embargo, pocos esfuerzos dedicados a la administración de datos para cuestiones fundamentales. Para almacenar, administrar y recuperar datos a gran escala, Apache H-Base, Apache Cassandra y MongoDB, conocidas como herramientas de base de datos NoSQL (no solo SQL), se han diseñado para manejar datos no estructurados. Los sistemas de base de datos NoSQL son importantes en lugar de RDBMS por su flexibilidad y escalabilidad. Para el manejo y la gestión de los datos de la red de sensores, Apache Cassandra mostró un mejor rendimiento de escalabilidad a partir de datos masivos de IoT, que es el sistema NoSQL. Apache Cassandra también es compatible con la gestión y el procesamiento de datos a gran escala. En esta charla, se hablará sobre la importancia de la gestión de datos y las técnicas que ayudan en la extracción de datos y descubren el conocimiento de una gran cantidad de datos.