HeritaGen: Ultrasecuenciación y supercomputación para la unificación del patrimonio genealógico y genético extremeño. Aplicación al estudio de enfermedades hereditarias.
- José Luis González Sánchez (Investigador principal). Fundación COMPUTAEX.
- Silvia Romero Chala. Hospital San Pedro de Alcántara.
- Jonathan Gómez Raja. Fundesalud.
- José Antonio García Trujillo. Hospital San Pedro de Alcántara.
- Felipe Lemus Prieto. Fundación COMPUTAEX.
- Alfonso López Rourich. Fundación COMPUTAEX.
Se estima que aproximadamente 1 de cada 200 nacimientos pueden verse afectados por las 6.000 enfermedades monogénicas conocidas. Establecer la patogenicidad de las mutaciones detectadas mediante técnicas de secuenciación masiva o ultrasecuenciación (NGS, NextGeneration Sequencing) en la secuencia de los genes implicados será de vital importancia para el desarrollo de terapias enmarcadas en el concepto Precision Medicine.
No obstante, la falta de acceso a información sobre esas variaciones hace que su patogenicidad se desconozca (VUS, V ariant of Uncertain Significance ). El porcentaje de VUS puede ser reducido accediendo a la mayor cantidad de información sobre el gen relacionado con la enfermedad investigada, donde cobran especial importancia las variaciones encontradas en el mismo. El principal problema es que la información se encuentra dispersa, lo cual dificulta el acceso a la misma y supone un gasto económico y un aumento de la dificultad procesando la información.
Una de esas fuentes de información es la genealógica, la cual resulta de gran utilidad en el estudio de la incidencia de enfermedades hereditarias en el seno de una familia, en consultas de consejo genético. No obstante, el patrimonio documental de las poblaciones se puede encontrar también disperso o bajo acceso limitado o nulo, por lo que la información genealógica se limita a la proporcionada por pacientes cuando solicitan una consulta.
El objetivo del proyecto es estudiar los beneficios de la unificación de fuentes de información heterogéneas al estudio de enfermedades hereditarias (específicamente el patrimonio genealógico e información genética), lo que servirá para reducir la ratio de variables de significado incierto detectadas en estudios de secuenciación masiva. Para ello, se propone enfocar el estudio a un conjunto de personas de una población relevante desde el punto de vista genético, para secuenciar su genoma (concretamente los genes asociados a la enfermedad elegida) y unificarlo con su información genealógica.
Para gestionar y analizar la información, así como para extraer conocimiento de la misma, se plantea el uso de recursos de supercomputación en combinación con ténicas de big data. Así, mediante técnicas de HPC (High Performance Computing ), se procesarán los datos y secuencias genéticas en el menor tiempo posible, garantizando a su vez el almacenamiento, la seguridad y la alta disponibilidad de la información con la que se trabaja.
Por otra parte, se tendrá en cuenta el uso de formatos estandarizados de información, así como los aspectos éticos derivados de la realización de tratamientos relacionados con la salud.
La información de alto nivel generada seguirá la filosofía opendata, cumpliendo siempre con la legislación vigente en materia de seguridad y protección de la información. Así mismo, los datos se pondrán a disposición de los usuarios a través de servicios desplegados mediante el paradigma del cloud computing.
- Proyecto cofinanciado por la Junta de Extremadura y el Fondo Europeo de Desarrollo Regional (FEDER) de Extremadura al 80 %, dentro del Objetivo Temático 01 “Refuerzo de la investigación, el desarrollo tecnológico y la innovación”, a través de la convocatoria de ayudas destinadas a la realización de proyectos de investigación, orientados hacia las áreas estratégicas de la economía regional contempladas en el V Plan Regional de I+D+i (2014-2017), en los centros públicos de I+D+i de la Comunidad Autónoma de Extremadura, al amparo del Decreto 68/2016 de 6 de junio.