Laboratorio de Automatización, Robótica y Visión por Computador (ARVC)

Técnicas de descripción de la apariencia global de escenas: Aplicación a la creación de mapas y localización de robots móviles
Dr. Luis Payá Castelló

En los últimos años, las aplicaciones de los robots móviles han aumentado considerablemente y podemos encontrarlos en muy diversos ámbitos. Para que un robot móvil sea plenamente funcional y pueda realizar una tarea en un entorno desconocido, de forma autónoma, es fundamental que sea capaz de construir una representación interna de dicho entorno. Dicha representación debe serle útil para estimar su posición y orientación y para calcular la trayectoria que debe seguir para llegar al punto destino, así como la acción de control con que debe alimentar a los actuadores en cada instante para seguir fielmente dicha trayectoria.

Para realizar estas tareas, podemos dotar a los robots de diferentes sensores que les permitan extraer la información necesaria del entorno. En esta tesis usaremos sensores de visión omnidireccional, debido a la gran cantidad de información que suministran respecto a su relativamente bajo coste. La construcción de mapas y localización utilizando visión omnidireccional es un campo de estudio en el que se centran actualmente numerosas investigaciones. Sin embargo, no se ha llegado a soluciones cerradas que resuelvan estos problemas de manera robusta en entornos extensos en los que el robot debe desenvolverse en plazos de tiempo muy largos, con cambios muy relevantes en el aspecto de las escenas capturadas.

Existen diferentes métodos que permiten extraer de las escenas la información necesaria para crear un mapa o modelo del entorno y que el robot se localice en el mismo. El primero de ellos está basado en la extracción de puntos o regiones características de las imágenes y su descripción mediante un método robusto ante cambios de perspectiva. Estos métodos de extracción y descripción de puntos han alcanzado una relativa madurez y han conducido a algoritmos de creación de mapas y localización bien conocidos hoy día. Sin embargo, presentan inconvenientes como un coste computacional elevado cuando se trabaja con mapas extensos, una robustez relativamente baja ante cambios en el entorno y la imposibilidad de extraer características distintivas de ciertos entornos poco estructurados. El segundo método consiste en trabajar con la información de cada escena de manera conjunta, sin extraer características locales. Se trata de construir un único descriptor por escena que recoja su información global. Es un enfoque más reciente, que conduce a algoritmos conceptualmente más sencillos. Sin embargo, existen numerosos aspectos en cuanto a su aplicación a la creación de mapas y localización que deben ser investigados con profundidad. Las aportaciones más relevantes de la presente Tesis Doctoral se centran en este ámbito de estudio.

A la hora de diseñar un sistema para construcción de mapas y localización, podemos optar bien por resolver el problema de forma métrica o bien de forma topológica. Un mapa métrico contiene información de la posición de ciertas características del entorno respecto de un sistema de referencia, con una determinada incertidumbre asociada. En este caso, el robot será capaz de estimar su posición con precisión geométrica respecto dicho sistema de referencia. Las técnicas basadas en la extracción de puntos característicos, combinadas con algoritmos probabilísticos permiten crear mapas de este tipo. Por su parte, los mapas topológicos son una representación del mundo que contiene únicamente varias localizaciones y las relaciones de conectividad entre ellas. Este tipo de mapas son un mecanismo eficiente para que el robot se localice con precisión habitualmente suficiente y planifique sus trayectorias. Las técnicas basadas en la apariencia global de las escenas nos ofrecen una alternativa para implementar este tipo de representaciones topológicas. A lo largo del documento se mostrará cómo los descriptores de apariencia visual global permiten realizar este tipo de representaciones naturales. Varias de las aportaciones de esta Tesis Doctoral se encuadrarán en estos ámbitos. Se estudiarán los métodos existentes para descripción global de escenas y se adaptarán para resolver los problemas de creación de mapas y localización; se propondrán nuevos métodos de descripción computacionalmente eficientes y se estudiará su robustez ante eventos como oclusiones parciales de las escenas, ruido, cambios de iluminación y otros cambios en la apariencia del entorno.

También se estudiará el tipo de información a almacenar en los mapas y las relaciones entre las localizaciones almacenadas para crear mapas jerárquicos funcionales. Finalmente, se implementarán algoritmos para la estimación de la posición y orientación del robot haciendo uso de estos mapas. Todos los algoritmos desarrollados se han experimentado con diversas bases de datos de imágenes, tanto propias como capturadas por terceros, con información heterogénea, tomadas por sistemas omnidireccionales con distinta geometría y capturadas en diversos momentos del día y del año, para reflejar la variabilidad de la información visual en aplicaciones reales.