Reconocimiento de lugares en entornos de exterior e interior mediante técnicas de aprendizaje profundo e información multisensorial
Dr. Juan José Cabrera Mora

Esta tesis aborda el problema del reconocimiento de lugares en robótica móvil, una tarea fundamental para la localización, la navegación autónoma y el mapeo en entornos complejos y cambiantes. Se propone un enfoque integral que explora y desarrolla métodos robustos y eficientes basados en diferentes modalidades sensoriales: cámaras omnidireccionales, LiDAR, pseudo-LiDAR y reconocimiento cruzado entre cámaras y LiDAR.
 
En primer lugar, se estudian técnicas de reconocimiento visual de lugares utilizando imágenes panorámicas capturadas por cámaras omnidireccionales. Se presentan y analizan dos enfoques: un método jerárquico basado en la clasificación de estancias y una posterior estimación fina de la posición, y un método global basado en redes neuronales siamesas y aprendizaje por contraste. Se demuestra la importancia de técnicas de aumento de datos específicas para imágenes panorámicas, mejorando la robustez ante variaciones de iluminación en condiciones reales de operación.
 
Posteriormente, se introduce MinkUNeXt, una nueva arquitectura de red neuronal basada en convoluciones 3D dispersas, optimizada para el reconocimiento de lugares a partir de nubes de puntos LiDAR. Esta arquitectura, junto con el bloque residual MinkNeXt 3D, establece un nuevo hito en el estado del arte, y han sido validados en conjuntos de datos de referencia como Oxford RobotCar e In-house.
 
La tesis explora también el uso de enfoques pseudo-LiDAR, generando nubes de puntos sintéticas a partir de imágenes panorámicas mediante estimadores de profundidad avanzados. Se propone la técnica de aumento de datos Distilled Depth Variations para simular las inexactitudes en las estimaciones de profundidad al combinar diferentes estimadores para generar los datos de entrenamiento del modelo de reconocimiento de lugares. De este modo, el modelo es más robusto ante las inconsistencias de profundidad debidas a los cambios de iluminación. Los resultados muestran que es posible alcanzar un reconocimiento robusto utilizando únicamente información visual, reduciendo costes y complejidad sensorial.
 
Finalmente, se aborda el reconocimiento de lugares entre diferentes modalidades de sensor, proponiendo CrossPlace, un método que transforma tanto las imágenes 360º capturadas por cámaras omnidireccionales fisheye como las lecturas LiDAR al espacio común de la intensidad, la profundidad y la información semántica. Esto permite el uso de una única arquitectura de red para ambas modalidades de sensor, evitando la recaptura de bases de datos y facilitando la interoperabilidad entre plataformas robóticas heterogéneas. Los experimentos en el conjunto KITTI-360 demuestran que el enfoque propuesto supera a los métodos existentes tanto en escenarios urbanos como de autovía.
 
En conjunto, la tesis contribuye con nuevas arquitecturas, técnicas de aumento de datos y estrategias de fusión sensorial, estableciendo nuevas referencias en el reconocimiento de lugares y abriendo líneas de investigación para sistemas robóticos con mayor autonomía, flexibilidad y adaptabilidad a entornos reales.