Herramientas de soft computing para la comparación de estructuras de proteínas

  1. González González, Juan Ramón
Dirigida por:
  1. David Alejandro Pelta Mochcovsky Director/a
  2. José Marcos Moreno Vega Director

Universidad de defensa: Universidad de Granada

Fecha de defensa: 27 de marzo de 2008

Tribunal:
  1. José Luis Verdegay Galdeano Presidente/a
  2. Armando Blanco Morón Secretario/a
  3. José Manuel Cadenas Figueredo Vocal
  4. María Belén Melián Batista Vocal
  5. José Andrés Moreno Pérez Vocal

Tipo: Tesis

Resumen

La comparación de estructuras de proteínas es uno de los principales problemas que se abordan en el área de la Bioinformática, y su importancia radica en que las proteínas son moléculas de máxima importancia para la vida, que participan en casi todos los procesos biológicos y desempeñan multitud de importantes funciones, Se sabe, como principio fundamental de toda la ciencia Proteómica, que la función de una proteína viene determinada por su estructura tridimensional, con lo cual, la comparación de dichas estructuras es importante para tareas que van desde inferir la función de una proteína nueva en base a las similaridades con proteínas de función conocida hasta otras tan importantes como los protocolos de diseño de nuevos medicamentos. Dentro de este marco, el objetivo de la tesis fue realizar contribuciones al campo de la comparación de estructuras de proteínas haciendo uso de técnicas propias de la Soft Computing y de los Sistemas de Ayuda a la Decisión (SAD). La tesis comienza con una introducción a Bioinformática, Soft Computing y SAD, y continúa con el cumplimiento de los objetivos desde varios puntos de vista. En primer lugar, se ha desarrollado un esqueleto genérico y dinámico para la creación de SADs basados en optimización, llamado SiGMA, que se usó como base para la construcción de un SAD para el problema de comparación de estructuras de proteínas (SiGMAProt). SiGMAProt incorpora toda la funcionalidad de SiGMA y una visualización de resultados avanzada que muestra gráficamente las zonas de similaridad entre las proteínas comparadas según los resultados proporcionados por los distintos métodos de comparación, y que ha sido utilizado de forma extensiva para realizar todos los experimentos de la tesis. SiGMA, en general, supone una poderosa herramienta de apoyo para el desarrollo de experimentos computacionales en éste y otros campos. En segundo lugar, se presenta un nuevo algoritmo de búsqueda por entornos variables multiarranque (MSVNS) que realiza la comparación de proteínas mediante el modelo de la máxima superposición de mapas de contacto (Max-CMO). MaxCMO es un problema complejo, de tipo NP-completo, y se ha comprobado que MSVNS es capaz de obtener resultados próximos a los valores óptimos con una cantidad de recursos mucho menor, siendo la mejor heurística actual para este modelo. Además, dado que lo más importante en la comparación de estructuras de proteínas es el significado o la relevancia biológica de los resultados, el análisis de MSVNS en la tesis se extiende a este ámbito mediante diversos experimentos para evaluar MSVNS en su capacidad para clasificar proteínas correctamente. Se muestra que el algoritmo es capaz de detectar distintos niveles de similaridad, acordes con las bases de datos de referencia CATH y SCOP, y que compite favorablemente con los métodos preexistentes más importantes. Por último, se ha profundizado en dos líneas de investigación para la comparación de estructuras de proteínas mediante mapas de contacto difusos. La primera línea muestra cómo la medida universal de similaridad (USM), utilizada anteriormente sólo sobre mapas de contacto estándar, puede dar resultados biológicamente relevantes al aplicarse sobre mapas de contacto difusos, que, además, son mejores que los obtenibles mediante mapas de contacto estándar. En la segunda línea se aplica MSVNS sobre el modelo generalizado de máxima superposición de mapas de contacto difusos (GMax-FCMO), consiguiéndose buenos resultados en términos biológicos, y se realiza, además, un análisis de la relación entre la comparación de mapas de contacto estándar frente a los difusos, dándose unos primeros criterios de cuándo es preferible utilizar unos sobre los otros. La tesis concluye con las conclusiones de todos los puntos anteriores, el planteamiento de las líneas de trabajo futuro y la bibliografía utilizada como base para el desarrollo del trabajo.