Revista internacional de minería de datos biomédicos

Revista internacional de minería de datos biomédicos
Acceso abierto

ISSN: 2090-4924

abstracto

How to Make Big Data Analytics More Interactive?

Dominik Slezak

Las aplicaciones de big data necesitan métodos escalables para la exploración de datos y el descubrimiento de conocimientos. Las soluciones de las tareas fundamentales de KDD que funcionan bien para casos más estándar, requieren ser revisadas para fuentes de datos realmente grandes y complejas. Con una complejidad creciente de los problemas computacionales correspondientes, también existe una necesidad creciente de interactuar con los expertos del dominio, para especificar mejor los objetivos de exploración que pueden reducirse en función de los resultados obtenidos hasta el momento. En ese sentido, hay una investigación en curso sobre cómo descomponer los flujos de trabajo de la minería de datos complejos.procesos en piezas más pequeñas cuyos resultados pueden ser consultados iterativamente por los usuarios. En esta charla, informamos algunos ejemplos de técnicas de selección de características destinadas al análisis de conjuntos de datos de alta dimensión y discutimos cómo la interacción del usuario puede ayudar a mejorarlos. También nos referimos a uno de nuestros proyectos recientes sobre la gestión de riesgos en las minas de carbón para ilustrar cómo los algoritmos modernos de selección de características ayudan a los usuarios finales a trabajar con sistemas de exploración de big data.

El concepto de big data existe desde hace años; la mayoría de las organizaciones ahora entienden que si capturan todos los datos que se transmiten a sus negocios, pueden aplicar análisis y obtener un valor significativo de ellos. Pero incluso en la década de 1950, décadas antes de que alguien pronunciara el término "grandes datos", las empresas usaban análisis básicos (esencialmente, números en una hoja de cálculo que se examinaban manualmente) para descubrir información y tendencias. 

Sin embargo, los nuevos beneficios que trae el análisis de big data son la velocidad y la eficiencia. Mientras que hace unos años una empresa habría recopilado información, ejecutado análisis y desenterrado información que podría usarse para decisiones futuras, hoy esa empresa puede identificar información para decisiones inmediatas. La capacidad de trabajar más rápido y mantenerse ágil brinda a las organizaciones una ventaja competitiva que antes no tenían.

El análisis de big data ayuda a las organizaciones a aprovechar sus datos y usarlos para identificar nuevas oportunidades. Eso, a su vez, conduce a movimientos comerciales más inteligentes , operaciones más eficientes, mayores ganancias y clientes más satisfechos. En su informe Big Data in Big Companies, el director de investigación del IIA, Tom Davenport, entrevistó a más de 50 empresas para comprender cómo utilizan los grandes datos. Descubrió que obtenían valor de las siguientes maneras:

Reducción de costos.  Las tecnologías de big data como Hadoop y el análisis basado en la nube brindan importantes ventajas de costos cuando se trata de almacenar grandes cantidades de datos, además de que pueden identificar formas más eficientes de hacer negocios.

Toma de decisiones más rápida y mejor.  Con la velocidad de Hadoop y el análisis en memoria, combinado con la capacidad de analizar nuevas fuentes de datos, las empresas pueden analizar la información de inmediato y tomar decisiones basadas en lo que han aprendido. Nuevos productos y servicios.  Con la capacidad de medir las necesidades y la satisfacción de los clientes a través del análisis viene el poder de darles a los clientes lo que quieren. Davenport señala que con el análisis de big data, más empresas están creando nuevos productos para satisfacer las necesidades de los clientes.

El aprendizaje automático, un subconjunto específico de IA que entrena a una máquina para que aprenda, hace posible producir de forma rápida y automática modelos que pueden analizar datos más grandes y complejos y ofrecer resultados más rápidos y precisos, incluso a gran escala. Y al construir modelos precisos, una organización tiene una mejor oportunidad de identificar oportunidades rentables o evitar riesgos desconocidos.

Los datos deben ser de alta calidad y estar bien administrados antes de que puedan analizarse de manera confiable. Dado que los datos entran y salen constantemente de una organización, es importante establecer procesos repetibles para crear y mantener estándares para la calidad de los datos. Una vez que los datos son confiables, las organizaciones deben establecer un programa maestro de administración de datos que ponga a toda la empresa en sintonía.

La tecnología de minería de datos lo ayuda a examinar grandes cantidades de datos para descubrir patrones en los datos, y esta información se puede usar para análisis adicionales que ayuden a responder preguntas comerciales complejas. Con el software de minería de datos , puede analizar todo el ruido caótico y repetitivo de los datos, identificar qué es relevante, usar esa información para evaluar los resultados probables y luego acelerar el ritmo de toma de decisiones informadas.

Hadoop, un marco de software de código abierto, puede almacenar grandes cantidades de datos y ejecutar aplicaciones en grupos de hardware básico. Se ha convertido en una tecnología clave para hacer negocios debido al aumento constante de volúmenes y variedades de datos, y su modelo de computación distribuida procesa big data rápidamente. Un beneficio adicional es que el marco de código abierto de Hadoop es gratuito y utiliza hardware básico para almacenar grandes cantidades de datos.

Al analizar los datos de la memoria del sistema (en lugar de la unidad de disco duro), puede obtener información inmediata de sus datos y actuar en consecuencia rápidamente. Esta tecnología es capaz de eliminar la preparación de datos y las latencias de procesamiento analítico para probar nuevos escenarios y crear modelos; no solo es una manera fácil para que las organizaciones se mantengan ágiles y tomen mejores decisiones comerciales , sino que también les permite ejecutar escenarios de análisis iterativos e interactivos.

La tecnología de análisis predictivo utiliza datos, algoritmos estadísticos y técnicas de aprendizaje automático para identificar la probabilidad de resultados futuros en función de los datos históricos. Se trata de proporcionar una mejor evaluación de lo que sucederá en el futuro, para que las organizaciones puedan sentirse más seguras de que están tomando la mejor decisión comercial posible . Algunas de las aplicaciones más comunes del análisis predictivo incluyen detección de fraude, riesgo, operaciones y marketing. Con la tecnología de minería de texto, puede analizar datos de texto de la web, campos de comentarios, libros y otras fuentes basadas en texto para descubrir información que no había notado antes. La minería de texto utiliza el aprendizaje automáticoo tecnología de procesamiento de lenguaje natural para analizar documentos (correos electrónicos, blogs, fuentes de Twitter, encuestas, inteligencia competitiva y más) para ayudarlo a analizar grandes cantidades de información y descubrir nuevos temas y relaciones de términos.

Big Data Analytics lleva esto un paso más allá, ya que la tecnología puede acceder a una variedad de conjuntos de datos estructurados y no estructurados (como el comportamiento del usuario o las imágenes). Las herramientas de análisis de Big Data pueden reunir estos datos con la información histórica para determinar cuál es la probabilidad de que suceda un evento en función de experiencias pasadas.

Las aplicaciones de big data necesitan técnicas adaptables para la investigación y divulgación de información. Los arreglos de asignaciones KDD cruciales que funcionan bien para casos cada vez más estándar, deben revisarse para fuentes de información realmente inmensas y complejas. Con una creciente imprevisibilidad de los problemas computacionales relacionados, también existe una creciente necesidad de interactuar con los especialistas espaciales, para determinar más fácilmente la investigación.objetivos que pueden verse limitados en función de los resultados obtenidos hasta este punto. Con respecto a eso, hay una exploración continua sobre el método más competente para desintegrar los procesos de trabajo de formas complejas de extracción de información en piezas más pequeñas cuyos resultados pueden ser leídos iterativamente por los clientes. En esta discusión, informamos algunos ejemplos de estrategias de selección de puntos destacados centradas en el examen de índices informativos de alta dimensión y hablamos sobre cómo la cooperación del cliente puede ayudar a mejorarlos. También aludimos a uno de nuestros proyectos en curso sobre el riesgo de los ejecutivos en pozos de minas de carbón para representar cómo los cálculos actuales de determinación de componentes ayudan a los clientes finales a trabajar con marcos de investigación de datos enormes.

La idea de una gran cantidad de información ha existido durante un período de tiempo considerable; La mayoría de las asociaciones ahora entienden que si captan toda la información que fluye en sus organizaciones, pueden aplicar la investigación y obtener un incentivo notable de ella. En cualquier caso, incluso durante la década de 1950, décadas antes de que alguien expresara la expresión "gran información", las organizaciones utilizaban la investigación fundamental (básicamente números en una hoja de cálculo que se analizaban físicamente) para revelar fragmentos de conocimiento y patrones.

Las nuevas ventajas que trae la investigación de big data, sin embargo, son la velocidad y la efectividad. Mientras que hace un par de años una empresa habría acumulado datos, realizado investigaciones y descubierto datos que podrían utilizarse para futuras decisiones, hoy esa empresa puede distinguir experiencias para opciones garantizadas. La capacidad de trabajar más rápido, y permanecer coordinados, le da a las asociaciones una gran ventaja que antes no tenían.

Una enorme investigación de información ayuda a las asociaciones a manejar su información y utilizarla para reconocer nuevas oportunidades. Eso, por lo tanto, genera movimientos comerciales más brillantes , tareas cada vez más competentes, mayores beneficios y clientes más felices. En su informe Big Data in Big Companies, el director de investigación del IIA, Tom Davenport, habló con más de 50 organizaciones para ver cómo utilizaban la gran cantidad de información. Descubrió que tenían un incentivo en los modales que lo acompañaban:

1. Disminución de costos. Los grandes avances en la información, como Hadoop y el análisis basado en la nube, brindan puntos de interés de costos críticos cuando se trata de guardar una gran cantidad de información, además de que pueden reconocer formas cada vez más competentes de trabajar juntos.

2. Más rápido, mejor dinámica. Con la velocidad de Hadoop y el examen en memoria, junto con la capacidad de desglosar nuevas fuentes de información, las organizaciones pueden investigar los datos rápidamente y tomar decisiones en función de lo que hayan descubierto.

3. Novedades y administraciones. Con la capacidad de verificar las necesidades del cliente y el cumplimiento a través del examen viene la habilidad de darles a los clientes lo que necesitan. Davenport llama la atención sobre el hecho de que con una enorme investigación de datos, más organizaciones están creando nuevos elementos para abordar los problemas de los clientes.

La IA, un subconjunto específico de la IA que prepara a una máquina para aprender, hace que sea posible producir de forma rápida y natural modelos que pueden desglosar información cada vez más compleja y transmitir resultados más rápidos y precisos, incluso para un alcance enorme. Además, al construir modelos exactos, una asociación tiene una posibilidad superior de reconocer oportunidades lucrativas o mantener una distancia estratégica de peligros oscuros.

Los datos deben ser de alto calibre y estar muy representados antes de que tiendan a desglosarse de manera confiable. Con la transmisión continua de información a través de una asociación, es esencial establecer procedimientos repetibles para fabricar y mantener pautas para la calidad de la información. Cuando la información es sólida, las asociaciones deben establecer un programa de la junta de información as que tenga todo el esfuerzo en el mismo lugar.

La innovación de la minería de datos hace que analice una gran cantidad de información para encontrar diseños en la información, y estos datos se pueden utilizar para investigaciones adicionales que ayuden a responder preguntas comerciales complejas . Con la programación de minería de datos, puede filtrar todo el clamor turbulento y tedioso de la información, identificar lo que es importante, utilizar esos datos para evaluar los resultados probables y luego acelerar el ritmo de tomar decisiones informadas.

Hadoop, un sistema de programación de código abierto, puede almacenar mucha información y ejecutar aplicaciones en muchos equipos de productos. Se ha convertido en una innovación clave para trabajar juntos debido al aumento constante de los volúmenes y variedades de información, y su modelo de cálculo transmitido procesa una gran cantidad de información rápidamente. Una ventaja adicional es que la estructura de código abierto de Hadoop es gratuita y utiliza equipos de software para almacenar grandes cantidades de información.

Al desglosar los datos de la memoria del sistema (en lugar de su disco duro), puede obtener rápidamente fragmentos de datos de sus datos y realizar un seguimiento de ellos rápidamente. Esta innovación puede expulsar la preparación de información y las latencias de preparación sistemática para probar nuevas situaciones y hacer modelos; no es solo un camino simple para que las asociaciones se mantengan coordinadas y tomen mejores decisiones comerciales , sino que también les permite ejecutar situaciones de análisis iterativas e intuitivas.

La innovación de investigación profética utiliza información, cálculos fácticos y métodos de inteligencia artificial para reconocer la probabilidad de resultados futuros que dependen de información verificable. Se trata de dar una mejor evaluación de lo que sucederá más adelante, para que las asociaciones puedan sentirse cada vez más seguras de que se están decidiendo por la opción comercial más ideal . Probablemente, los usos más ampliamente reconocidos del examen profético incluyen identificación de extorsión, peligro, tareas y publicidad.

Con la innovación de minería de texto, puede examinar información de texto de la web, campos de comentarios, libros y otras fuentes basadas en contenido para revelar fragmentos de conocimiento que no había visto antes. La minería de texto utiliza inteligencia artificial o tecnología de preparación de lenguaje normal para buscar en informes (mensajes, revistas web, canales de Twitter, estudios, conocimientos serios y el cielo es el límite a partir de ahí) para ayudarlo a investigar una gran cantidad de datos y encontrar nuevos temas y términos. conexiones

Big Data Analytics hace que esto sea un paso más allá, ya que la innovación puede llegar a una variedad de conjuntos de datos organizados y no estructurados (por ejemplo, la conducta o las imágenes del cliente). Grandes dispositivos de análisis de datos pueden combinar estos datos con los datos registrados para determinar cuál es la probabilidad de que suceda un evento en función de encuentros anteriores.

Top