Reconocimiento gestual mediante técnicas avanzadas de visión por computador

  1. Jesús Miguel Torres Jorge
Supervised by:
  1. José Demetrio Piñeiro Vera Director

Defence university: Universidad de La Laguna

Year of defence: 2009

Committee:
  1. Lorenzo Moreno Ruiz Chair
  2. Leopoldo Acosta Sánchez Secretary
  3. Domingo Benítez Díaz Committee member
  4. J. R. Llata Committee member
  5. Matilde Santos Peñas Committee member
Department:
  1. Ingeniería Informática y de Sistemas

Type: Thesis

Abstract

El objetivo principal de este trabajo es contribuir con técnicas y estrategias al problema del reconocimiento gestual mediante visión por computador, Éste es un problema extremadamente complejo de resolver en toda su generalidad, representando esta memoria un paso más hacia ese objetivo final, en la citada línea de investigación. Por ello, hay que entenderla como una foto que refleja el estado del trabajo realizado en un momento puntual de un camino mucho más largo y difícil. El estudio se ha centrado particularmente en la identificación de la postura de la mano. Este problema ha sido elegido por su complejidad y por la importancia y aplicabilidad inmediata de su solución para el desarrollo de interfaces hombre-máquina. A pesar de ello, hay que destacar que las técnicas desarrolladas en este trabajo son totalmente generales (con la excepción de una parte dedicada específicamente al modelado de la mano) siendo aplicables a la reconstrucción 3D a partir de imágenes de cualquier tipo de objetos, tanto articulados como deformables. Como primera aproximación, se analizó la familia de técnicas de reconstrucción 3D más prometedora, los métodos de factorización. Estos métodos recuperan la forma y el movimiento a partir de características identificadas a lo largo de una secuencia de imágenes. Entre ellos existe un gran número de versiones adaptadas para funcionar con diferentes tipos de objetos, siendo un campo de investigación en expansión en los últimos años. Para su análisis, se elaboró un sistema de seguimiento de características en tiempo real con el objetivo de proporcionar los datos que necesitan estos algoritmos. La creación de un modelo foto-realista cinemático de la mano fue otro de los objetivos. Las restricciones en las posturas de la mano humana fueron incorporadas al modelo, reflejando la realidad anatómica. Ese modelo simplifica el montaje experimental necesario y posibilita incorporar la dependencia entre los parámetros de la postura y la apariencia de la mano, sin necesidad de engorrosos y caros sistemas de sensores por hardware. Los métodos basados en kernel proyectan los datos de un espacio de entrada en otro espacio de mayor dimensión, a través de una transformación no lineal. La idea es que esta transformación haga que las relaciones entre las observaciones sean lineales en el nuevo espacio, aunque en el espacio de entrada no lo fuesen. Estos métodos se proponen como posible solución para el problema del reconocimiento gestual debido a las siguientes propiedades: mapean los datos en nuevos espacios donde se destacan las características deseables para la discriminación de diferentes posturas, permiten (en algunos casos) reducir la dimensión del problema original y son robustos a perturbaciones como oclusiones y ruido. La forma de aplicar estos métodos al reconocimiento gestual es o bien buscando identificar configuraciones de puntos similares en el nuevo espacio o comparando directamente los subespacios generados por cada conjunto de ejemplos similares. Para ello, se considera la totalidad del conjunto de puntos de una mano en una imagen o se caracteriza independientemente cada segmento rígido que la compone.