Los científicos del Centro de Astrobiología y del Centro Nacional de Biotecnología en España, han desarrollado un nuevo algoritmo que permite filtrar, con mucha precisión, las secuencias erróneas en estudios de secuenciación masiva de ácidos nucleicos.
Cuando los errores alcanzan, al menos, el 3% en toda una secuencia leída, que se suponía de una misma especie, aparecen lo que el investigador principal, Fernando Puente Sánchez, llama “especies fantasmas”. Por lo que, se produce una sobreestimación muy acusada de la diversidad microbiana presente en la muestra.
El algoritmo PBF está diseñado para que sea fácil de integrar en los protocolos de análisis de datos ya existentes.
El algoritmo PBF (Poisson Binomial Filtering), minimiza el problema en las lecturas de nucleótidos mediante el cálculo de la distribución de probabilidad de errores de una secuencia a partir de sus parámetros de calidad.
Con la secuenciación conseguimos leer la información contenida en las moléculas de ADN o ARN, es decir, se obtiene la lista de bases (adenina, citosina, guanina, timina/uracilo) que compone el segmento leído. Gracias a esto, se pueden producir millones de lecturas en poco tiempo y por un bajo coste, lo cual ha supuesto una revolución en diversos campos de la biología. Sin embargo, algunas de estas lecturas pueden contener errores de secuenciación que comprometerían los resultados obtenidos en estas plataformas, lo cual llevaría a interpretaciones imprecisas.
Cuando los errores alcanzan, al menos, el 3% en toda una secuencia leída, que se suponía de una misma especie, aparecen lo que el investigador principal, Fernando Puente Sánchez, llama “especies fantasmas”. Por lo que, se produce una sobreestimación muy acusada de la diversidad microbiana presente en la muestra.
El algoritmo PBF descarta sustancialmente menos lecturas que sus predecesores, pero produce representaciones más fidedignas de la verdadera diversidad microbiana presente en las muestras estudiadas. Además, el algoritmo produce resultados óptimos para todas las plataformas de secuenciación existentes y requiere de poca potencia de cálculo, siendo posible ejecutarlo en ordenadores de sobremesa, incluso sobre conjuntos de datos de gran tamaño.
Comentarios
Publicar un comentario
Gracias por comentar. Te rogamos que seas preciso y educado en tus comentarios.