La cantidad de información digital disponible en la red ha crecido de forma exponencial en los últimos años. Por consiguiente, uno de los problemas más graves en este contexto es la búsqueda semántica de información. Actualmente existen soluciones para buscar de forma rápida y cómoda datos de texto, pero este problema dista mucho de estar resuelto para los datos de carácter audiovisual.
El grupo AIWELL desarrolla algoritmos de visión por computador y de inteligencia artificial para la extracción de información presente en imágenes estáticas o vídeos. Concretamente, trabajamos en:
Este grupo de investigación UOC forma parte del grupo de investigación SGR "Artificial Intelligence for Human Well-being - Complex Systems at IN3”, con referencia "2021 SGR 01367".
Reconocimiento de objetos
El reconocimiento de objetos en imágenes aún es uno de los temas de investigación más importantes en la visión artificial. A partir de un vídeo o una imagen, el objetivo del reconocimiento de objetos es reconocer y localizar todos los objetos.
En los últimos años, este ámbito ha experimentado una importante mejora de ejecución con el uso de Deep Neural Networks 1 y grandes bancos de datos como ImageNet 2. A pesar de los esfuerzos de investigación, el reconocimiento de objetos es un problema pendiente de solucionar. En los métodos que operan en tiempo real (como Deformable Parts Models 3), la precisión de detección es baja, mientras que los métodos que muestran un rendimiento más alto no pueden operar en tiempo real.
Actualmente, incluso los mejores algoritmos para el reconocimiento de objetos aún están muy lejos de poder equipararse a la capacidad humana. En esta línea de investigación nos centramos en la mejora de los sistemas actuales, tanto en términos de precisión como de velocidad.
Comprensión de escenarios
La comprensión de escenarios visuales complejos es una de las tareas distintivas de la visión artificial. A partir de un vídeo o una foto, el objetivo de la comprensión de escenarios es construir una representación del contenido de una foto (es decir, qué objetos aparecen en la foto; cómo están relacionados; si en la foto hay personas, qué acciones llevan a cabo; qué lugar aparece en la foto, etc.).
Con la aparición de bases de datos a gran escala como ImageNet y Places, y el reciente éxito de técnicas de aprendizaje automático como Deep Neural Networks, la comprensión de escenarios ha experimentado un gran avance. Este avance ha hecho posible construir sistemas de visión capaces de tratar algunas de las tareas mencionadas antes.
Esta línea de investigación se lleva a cabo en colaboración con el grupo de visión artificial del Instituto Tecnológico de Massachusetts. Nuestro objetivo es mejorar los algoritmos existentes para la comprensión de escenarios y definir nuevos problemas que se puedan resolver mediante avances recientes en redes neurales y aprendizaje automático.
Reconocimiento de expresiones faciales
Las expresiones faciales son una fuente muy importante de información para el desarrollo de nuevas tecnologías. Como seres humanos, utilizamos nuestras caras para comunicar nuestras emociones, y los psicólogos han estudiado las emociones en las caras desde la publicación de los primeros trabajos de Charles Darwin. Uno de los modelos de emoción más exitosos es el sistema Facial Action Coding System (FACS) 2, en el que un conjunto particular de unidades de acción (movimientos musculares faciales) actúa como los componentes de seis emociones básicas (felicidad, sorpresa, miedo, angustia, asco y tristeza).
La comprensión automática de esta lengua universal (muy parecida en todas las culturas) es una de las áreas de investigación más importantes en la visión artificial. Tiene aplicaciones en muchos campos, como el diseño de interfaces de usuario inteligentes, la interacción entre humanos y ordenadores, el diagnóstico de trastornos e incluso en el campo de la publicidad reactiva. En esta línea de investigación proponemos diseñar y aplicar algoritmos de última generación supervisados para detectar y clasificar emociones y unidades de acción.
Sin embargo, hay un abanico mucho mayor de emociones que este conjunto básico. Con una precisión superior a la que da la simple suposición, podemos predecir, entre otras cosas, los resultados de una negociación, las preferencias de los usuarios en decisiones binarias y la percepción de engaño. En esta línea de investigación colaboramos con el Social Perception Lab de la Universidad de Princeton (http://tlab.princeton.edu/) para aplicar algoritmos automatizados a datos reales de laboratorios de psicología.
Recuperación de la postura humana y análisis del comportamiento
El reconocimiento de la acción o el gesto humanos es un área de investigación exigente que trata los problemas de reconocimiento de personas en imágenes, la detección y descripción de partes del cuerpo, la deducción de la configuración espacial y el reconocimiento de acciones y gestos de imágenes o secuencias de imágenes, incluidos los datos multimodales. Debido al amplio espacio de parámetro de postura inherente a las configuraciones humanas, la recuperación de la postura corporal es un problema difícil que implica tratar con varias distorsiones, incluidos los cambios en la iluminación, oclusiones parciales, cambios de los puntos de vista, deformaciones rígidas y elásticas, y variabilidad entre las clases y dentro de las clases, para mencionar unas cuantas. Incluso con el alto grado de dificultad del problema, las técnicas de visión artificial modernas y las nuevas tendencias merecen más atención, y se esperan resultados prometedores en los próximos años.
Además, recientemente se han definido varias subáreas, como la computación afectiva, el procesamiento de señales sociales, el análisis del comportamiento humano y la robótica social. Las aplicaciones potenciales de esta área de investigación compensarán los esfuerzos que conlleva: producción de TV, ocio doméstico (análisis de contenidos multimedia), objetivos de enseñanza, investigación de sociología, vigilancia y seguridad, mejora de la calidad de vida mediante la monitorización o la asistencia artificial automática, etc.
Visión y cognición artificiales
Se ha observado un enorme progreso en la visión artificial en los últimos cuatro años, principalmente debido a la aparición de grandes bancos de datos de imágenes etiquetadas como ImageNet 1 y Plazas [2], y el éxito de algoritmos de aprendizaje profundo cuando se prueban con esta gran cantidad de datos. Desde este punto de inflexión, el rendimiento de muchas aplicaciones de visión artificial ha mejorado, como es el caso del reconocimiento de escenarios, la detección y el reconocimiento de objetos, la incorporación de leyendas en imágenes, etc.
Sin embargo, a pesar de este gran progreso, todavía hay tareas muy difíciles de solucionar para una máquina, como la pregunta-respuesta de imágenes, o la descripción detallada del contenido de una imagen. La cuestión es que podemos llevar a cabo tareas fácilmente no solo por nuestra capacidad de detectar y reconocer objetos y lugares, sino por nuestra capacidad de razonar sobre lo que vemos. Para ser capaz de razonar sobre algo, es necesaria la cognición. Hoy día, los ordenadores no pueden hacer razonamientos sobre información visual porque los sistemas de visión informáticos no incluyen cognición artificial. Uno de los obstáculos principales a la hora de desarrollar sistemas cognitivos para la visión artificial fue la falta de datos para utilizar. Sin embargo, el trabajo reciente de Visual Genome 4 presenta el primer conjunto de datos que permite el modelado de este tipo de sistemas y abre una puerta a nuevos objetivos de investigación.
Esta línea de investigación tiene como objetivo explorar de qué manera se puede aportar cognición en sistemas de visión, para crear algoritmos que puedan razonar sobre información visual.
Visión artificial e inteligencia artificial (IA) emocional
En los últimos años se ha observado un interés creciente, tanto dentro del mundo académico como dentro de la industria de la visión artificial, en sistemas para entender la forma en que la gente siente y cómo la información visual afecta a nuestro humor y a nuestras emociones. La línea de investigación de la visión artificial y la IA emocional se centra en crear sistemas para la comprensión de imágenes que incluyen aspectos de inteligencia emocional en el proceso de interpretación de la información visual. Estos sistemas tienen muchas aplicaciones. Por ejemplo, se pueden aplicar en el cuidado y la asistencia a las personas, en la educación en línea y en la interacción entre humanos y ordenadores.
En esta línea de investigación trabajamos con técnicas de aprendizaje profundo avanzadas. La línea de investigación combina diversas cuestiones de visión artificial, como el análisis facial, el análisis de la postura y el gesto, el reconocimiento de acciones, el reconocimiento de escenarios, la detección de objetos y el reconocimiento de atributos de objetos/escenarios, para extraer información de alto nivel a partir de imágenes y vídeos.
Algoritmos de aprendizaje profundo
El reconocimiento de objetos en imágenes es uno de los temas de investigación más importantes en visión computacional. A partir de una imagen o un video, el objetivo del reconocimiento de objetos es reconocer y localizar todos los objetos. En los últimos años, este tema ha experimentado un fuerte crecimiento en su rendimiento, mediante el uso de redes neuronales profundas (Deep Neural Networks) y grandes conjuntos de datos como ImageNet.
Recientemente, los algoritmos de extremo a extremo han revolucionado muchas áreas de investigación, como la visión artificial, el procesamiento del lenguaje natural, los juegos y la robótica. Las técnicas de aprendizaje profundo alcanzaron los niveles más altos de éxito en muchas de estas tareas, dada su increíble capacidad de modelar tanto las características o filtros como la norma de clasificación.
Los algoritmos desarrollados en esta línea de investigación se centrarán en ampliar las arquitecturas de aprendizaje profundo y mejorar sus capacidades de aprendizaje, en términos de extracción de características invariables (rotación, traducción, deformación, escalamiento), eficiencia computacional y paralelización, acelerando los tiempos de aprendizaje en red y conectando las imágenes a las secuencias.
Estos algoritmos se aplicarán a problemas reales de visión artificial en el campo de la neurociencia, en colaboración con el Instituto de Neurociencia de Princeton. Los algoritmos tratan la detección y el seguimiento de roedores en vídeos de baja resolución, la segmentación de la imagen y detección de extremidades, la estimación de movimiento de bigotes y la segmentación de imagen con calcio de actividad de redes neurales en roedores.