Investigadores de la Universidad Brown han desarrollado un nuevo método para examinar datos genómicos en busca de variantes genéticas que hayan ayudado a las poblaciones a adaptarse a su entorno. La técnica, denominada SWIF(r), podría ser útil para reconstruir la historia evolutiva de los pueblos de todo el mundo y arrojar luz sobre las raíces evolutivas de determinadas enfermedades y afecciones médicas.
SWIF(r) reúne varias pruebas estadísticas diferentes en un único marco de aprendizaje automático. Ese marco se puede utilizar para analizar datos genómicos de múltiples individuos y calcular las probabilidades de que las mutaciones individuales o las regiones de un genoma sean adaptativas.
“Estas técnicas estadísticas individuales son útiles, pero ninguna de ellas es especialmente eficaz por sí sola”, afirma Lauren Alpert Sugden, investigadora posdoctoral de Brown que dirigió el desarrollo de la técnica. “El método que hemos desarrollado combina esas técnicas de forma cuidadosa y produce un resultado fácil de interpretar”.”
Alpert Sugden trabaja en el laboratorio de Sohini Ramachandran, profesora asociada y directora del Centro de Biología Molecular Computacional de Brown. Los investigadores describen su trabajo en la revista Nature Communications.
La gran mayoría de las mutaciones que se producen habitualmente en los genomas de los seres humanos y otros animales son neutras, lo que significa que ni ayudan ni perjudican la supervivencia de un individuo. Pero de vez en cuando la naturaleza da con una mutación beneficiosa, que ayuda a la supervivencia o al éxito reproductivo de un organismo. Estas mutaciones adaptativas pueden propagarse rápidamente (desde el punto de vista evolutivo) a través de una población en generaciones posteriores, un proceso conocido como barrido selectivo, que es un aspecto importante del análisis de datos genómicos.
SWIF(r) busca las señales estadísticas de barridos selectivos en conjuntos de datos genómicos. Para ello, utiliza el aprendizaje automático y una combinación de cuatro pruebas estadísticas establecidas que miden diferentes señales de adaptación. Una de las pruebas comprueba si una mutación concreta aparece en una población con más frecuencia que en otras poblaciones. Otras miden la variación genética en una región del genoma, partiendo de la idea de que una selección fuerte tendería a reducir la variabilidad.
Esta no es la primera técnica que reúne múltiples pruebas en un marco compuesto. Pero parte de la novedad de SWIF(r) es que controla las correlaciones que surgen entre esas pruebas, lo que puede alterar los resultados. El acrónimo SWIF(r) significa “SWeep Inference Framework (control de correlación)”, siendo la “r” minúscula la notación matemática para la correlación.
Según los investigadores, SWIF(r) presenta varias ventajas con respecto a otras técnicas compuestas. Mientras que la mayoría de las técnicas solo identifican regiones del genoma que probablemente contengan mutaciones adaptativas, SWIF(r) también puede identificar las mutaciones concretas en sí mismas. Y mientras que otras técnicas ofrecen resultados que pueden ser difíciles de interpretar, SWIF(r) ofrece una probabilidad sencilla de que una mutación individual o una región del genoma sea adaptativa.
Para demostrar que la técnica funciona, los investigadores la validaron en un conjunto de datos simulados en el que se incluyeron mutaciones adaptativas conocidas, así como mutaciones adaptativas canónicas que se han identificado en genomas humanos a través de múltiples experimentos moleculares. Se demostró que SWIF(r) superaba tanto a las técnicas estadísticas individuales como a otras técnicas compuestas en la selección de esas mutaciones adaptativas, al tiempo que producía una menor tasa de falsos positivos.
Tras demostrar que SWIF(r) funciona, los investigadores lo utilizaron en datos genómicos reales del pueblo Khomani San, un grupo de cazadores-recolectores que vive en el sur de África.
“Los khomani san tienen la mayor diversidad genética de cualquier población viva”, afirmó Alpert Sugden, “lo cual es interesante desde nuestra perspectiva, ya que existe una gran oportunidad para que surjan mutaciones adaptativas”.”
Entre otros hallazgos, SWIF(r) identificó varias mutaciones adaptativas en un conjunto de genes responsables del almacenamiento de energía y grasa. Esto es interesante desde la perspectiva de lo que se conoce como la hipótesis del “gen ahorrador”, afirman los investigadores.
La hipótesis sugiere que, dado que los cazadores-recolectores suelen tener un suministro de alimentos irregular, es probable que tengan una predisposición genética a almacenar energía en forma de grasa. Sin embargo, esos genes podrían ser un inconveniente en las sociedades agrícolas, donde el suministro de alimentos tiende a ser más constante, lo que podría contribuir a la obesidad y a complicaciones como la diabetes tipo 2. Una investigación más profunda de las funciones de los genes adaptativos identificados por SWIF(r) podría ser útil para seguir explorando la idea del gen ahorrador y avanzar en el análisis de datos genómicos.
Ramachandran afirma que la forma en que utilizaron SWIF(r) en los datos de los khomani san es instructiva para saber cómo se podría utilizar esta técnica en el futuro. Los investigadores afirman que no partieron de la idea de que encontrarían adaptaciones en los genes relacionados con el metabolismo, sino que estas simplemente surgieron de los datos a medida que se analizaban. Según Ramachandran, esto contrasta con la forma en que se lleva a cabo actualmente este tipo de investigaciones.
“La forma en que estudiamos la adaptación genética actualmente consiste en empezar por observar un rasgo o fenotipo concreto y, a continuación, trabajar hacia atrás para identificar los genes y mutaciones asociados”, explicó. “Este nuevo enfoque utiliza el aprendizaje automático basado en datos para empezar por el genoma, buscando señales de adaptación que luego podamos seguir estudiando. Por lo tanto, creemos que es una forma de generar hipótesis nuevas e interesantes que poner a prueba”.”
Los investigadores han convertido el código SWIF® en código abierto y esperan que otros grupos de investigación lo utilicen para explorar datos genómicos de poblaciones de todo el mundo.
Otros autores del artículo fueron Elizabeth G. Atkinson, Annie P. Fischer, Stephen Rong y Brenna M. Henn. La investigación contó con el apoyo de subvenciones de los Institutos Nacionales de Salud (R01GM118652, P20GM109035, K12-GM-102778), la Fundación Nacional para la Ciencia (DBI-1452622, DBI-1452622), Pew Charitable Trusts y la Fundación de Investigación Alfred P. Sloan, lo que contribuyó a los avances en el análisis de datos genómicos.


