ISSN: 0974-276X
Ahmad Barghash, Taner Arslan y Volkhard Helms
Los conjuntos de datos de expresión y metilación son técnicas genómicas estándar y se implementa un número cada vez mayor de métodos computacionales para ayudar a analizar la enorme y compleja cantidad de datos generados. Dichos conjuntos de datos generados a menudo contienen una fracción considerable de valores atípicos que provocan resultados engañosos en el análisis posterior. Aquí, presentamos un enfoque integral para detectar valores atípicos de muestras y genes en conjuntos de datos de expresión o metilación. Los algoritmos centrales detectaron la mayoría de los valores atípicos que introdujimos artificialmente. Los valores atípicos de la muestra detectados por el agrupamiento jerárquico se validan mediante el coeficiente de Silhouette. A nivel de genes, los algoritmos GESD, Boxplot y MAD detectaron con una medida f de al menos el 83 % de los genes atípicos simulados en distribuciones sin intersección. Este enfoque combinado detectó muchos valores atípicos en conjuntos de datos disponibles públicamente de los portales TCGA y GEO. Con frecuencia, algunos genes funcionalmente similares marcados como atípicos resultaron tener observaciones atípicas en muestras comunes. Como tales casos pueden ser de especial interés, se etiquetan para futuras investigaciones. Los conjuntos de datos de expresión y metilación del ADN deben verificarse claramente en busca de puntos atípicos antes de continuar con cualquier análisis adicional. Sugerimos que ya 2 observaciones atípicas son suficientes para etiquetar un gen atípico, ya que son suficientes para arruinar una coexpresión perfecta. Además, los valores atípicos también pueden contener información útil y, por lo tanto, los valores atípicos funcionalmente similares deben etiquetarse para una mayor investigación. El software presentado está disponible gratuitamente a través de github