Revista de Proteómica y Bioinformática

Revista de Proteómica y Bioinformática
Acceso abierto

ISSN: 0974-276X

abstracto

SasCsvToolkit: una versátil aplicación de envío de trabajos "Bag-of-Tasks" paralela en plataformas heterogéneas y homogéneas para el análisis de Big Data, como la informática biomédica.

Abhishek Narain Singh*

Antecedentes: La necesidad del análisis de Big Data requiere ser capaz de procesar grandes datos que se mantienen ajustados para uso de empresas. Hace muy poco tiempo que la necesidad de big data ha llamado la atención de las empresas de bajo presupuesto. grupos y académicos que normalmente no tienen dinero ni recursos para comprar costosas licencias de análisis de big data plataformas como SAS. Las empresas continúan trabajando en el formato de datos SAS en gran parte debido a problemas sistémicos. historia organizacional y que los códigos anteriores se han construido sobre ellos. Los proveedores de datos continúan proporcionando así datos en formatos SAS. Ha surgido una necesidad aguda y repentina debido a que esta brecha de datos está en formato SAS y los codificadores no Tener experiencia en SAS o experiencia en capacitación como las fuerzas económicas e inerciales que actúan de haber dado forma a estos dos clases de personas han sido diferentes.

Métodos: Analizamos las diferencias y, por lo tanto, la necesidad de SasCsvToolkit, que ayuda a generar un archivo CSV para un Datos de formato SAS para que el científico de datos pueda hacer uso de sus habilidades en otras herramientas que pueden procesar CSV como R, SPSS o incluso Microsoft Excel. Al mismo tiempo, también proporciona conversión de archivos CSV a formato SAS. Aparte a partir de esto, un programador de base de datos SAS siempre tiene dificultades para encontrar el método correcto para realizar una búsqueda exacta en la base de datos. coincidencia, coincidencia de subcadena, excepto condición, filtros, valores únicos, uniones de tablas y minería de datos para los que la caja de herramientas también proporciona scripts de plantilla para modificar y usar desde la línea de comandos.

Resultados: El conjunto de herramientas se implementó en la plataforma de programación SLURM como un algoritmo de `bolsa de tareas` para paralelo y flujo de trabajo distribuido a través de la versión en serie también se ha incorporado.

Conclusión: En la era de Big Data, donde hay demasiados formatos de archivo, software y análisis cada entorno tiene su propia semántica para tratar con tipos de archivos específicos, SasCsvToolkit encontrará sus funciones muy útil para un ingeniero de datos.

Top