AIWELL

Artificial Intelligence for Human Well-being

Investigador principal:
Lapedriza Garcia, Àgata
Àmbit:
Tecnologies de la informació i la comunicació
Àmbit d'especialització:
Tecnologies de la informació i la comunicació, Salut digital
Centre d’adscripció:
eHealth Center
Codis UNESCO:
120304, 120302, 120317, 120320, 120601
Col·labora amb:
e-Health Center
ODS:
3 - Salut i benestar
9 - Indústria, innovació i infraestructures
14 - Vida submarina
14 - Vida submarina
  • Algoritmes intel·ligents
  • Visió per computador
  • Aprenentatge profund, deep learning
  • Computació afectiva

La quantitat d'informació digital disponible a la xarxa ha crescut de forma exponencial els darrers anys. Com a conseqüència, un dels problemes més greus dins d'aquest context és la cerca semàntica d'informació. Actualment existeixen solucions per a cercar de forma ràpida i còmoda dades de text, però aquest problema està molt lluny de ser resolt per a les dades de caràcter audiovisual. 

El grup AIWELL desenvolupa algorismes de visió per ordinador i d’intel•ligència artificial per a l’extracció d’informació present en imatges estàtiques o vídeos. Concretament, treballem en:

  • Algorismes de reconeixement automàtic d’objectes en imatges naturals, per a la seva posterior classificació i ús en entorns espontanis, i la seva interpretació cognitiva.
  • Algorismes de reconeixement d’emocions, de gestos i llenguatge no verbal, usant imatges i vídeos de persones, per a construir interfícies amigables d’interacció home-màquina i analitzar les interaccions socials entre persones.
  • Aplicacions de la visió a l’automatització de processos que requereixen intel•ligència artificial avançada.

Aquest grup de recerca UOC forma part del grup de recerca SGR "Artificial Intelligence for Human Well-being - Complex Systems at IN3”, amb referència "2021 SGR 01367".

 

Reconeixement d’objectes

El reconeixement d’objectes en imatges encara és un dels temes de recerca més importants en la visió artificial. A partir d’un vídeo o una imatge, l’objectiu del reconeixement d’objectes és reconèixer i localitzar tots els objectes.

 

En els últims anys, aquest àmbit ha experimentat una important millora d’execució amb l’ús de Deep Neural Networks 1 i grans bancs de dades com ImageNet 2. Malgrat els esforços de recerca, el reconeixement d’objectes és un problema pendent de solucionar. En els mètodes que operen a temps real (com ara Deformable Parts Models 3), la precisió de detecció és baixa, mentre que els mètodes que mostren un rendiment més alt no poden operar a temps real. Actualment, fins i tot els millors algorismes per al reconeixement d’objectes encara són molt lluny de poder equiparar-se a la capacitat humana. En aquesta línia de recerca ens centrem en la millora dels sistemes actuals, tant en termes de precisió com de velocitat.

9 - Indústria, innovació i infraestructures 14 - Vida submarina

Comprensió d’escenaris

La comprensió d’escenaris visuals complexos és una de les tasques distintives de la visió artificial. A partir d’un vídeo o una foto, l’objectiu de la comprensió d’escenaris és construir una representació del contingut d’una foto (és a dir, quins objectes apareixen a la foto; com estan relacionats; si a la foto hi ha persones, quines accions duen a terme; quin lloc apareix a la foto, etc.).

 

Amb l’aparició de bases de dades a gran escala com ImageNet  i Places, i el recent èxit de tècniques d’aprenentatge automàtic com Deep Neural Networks, la comprensió d’escenaris ha experimentat un gran avenç. Aquest avenç ha fet possible construir sistemes de visió capaços de tractar algunes de les tasques esmentades abans.

 

Aquesta línia de recerca es duu a terme en col·laboració amb el grup de visió artificial de l’Institut Tecnològic de Massachusetts. El nostre objectiu és millorar els algorismes existents per a la comprensió d’escenaris i definir nous problemes que es puguin resoldre mitjançant avenços recents en xarxes neurals i aprenentatge automàtic.

9 - Indústria, innovació i infraestructures 14 - Vida submarina

Reconeixement d’expressions facials

Les expressions facials són una font molt important d’informació per al desenvolupament de noves tecnologies. Com a éssers humans, fem servir les nostres cares per a comunicar les nostres emocions, i els psicòlegs han estudiat les emocions en les cares des de la publicació dels primers treballs de Charles Darwin. Un dels models d’emoció més reeixits és el Facial Action Coding System (FACS) 2, en què un conjunt particular d’unitats d’acció (moviments musculars facials) actua com els components de sis emocions bàsiques (felicitat, sorpresa, por, angoixa, fàstic i tristesa).

 

La comprensió automàtica d’aquesta llengua universal (molt semblant en totes les cultures) és una de les àrees de recerca més importants en la visió artificial. Té aplicacions en molts camps, com ara el disseny d’interfícies d’usuari intel·ligents, la interacció entre humans i ordinadors, la diagnosi de trastorns i fins i tot en el camp de la publicitat reactiva. En aquesta línia de recerca proposem dissenyar i aplicar algorismes d’última generació supervisats per a detectar i classificar emocions i unitats d’acció.

 

No obstant això, hi ha un ventall molt més gran d’emocions que aquest conjunt bàsic. Amb una precisió superior a la que dona la simple suposició, podem predir, entre altres coses, els resultats d’una negociació, les preferències dels usuaris en decisions binàries i la percepció d’engany. En aquesta línia de recerca col·laborem amb el Social Perception Lab de la Universitat de Princeton (http://tlab.princeton.edu/) per a aplicar algorismes automatitzats a dades reals de laboratoris de psicologia.

3 - Salut i benestar 9 - Indústria, innovació i infraestructures

Recuperació de la postura humana i anàlisi del comportament

El reconeixement de l’acció o el gest humans és una àrea de recerca exigent que tracta els problemes de reconeixement de persones en imatges, la detecció i descripció de parts del cos, la deducció de la configuració espacial i el reconeixement d’accions i gestos d’imatges o seqüències d’imatges, incloses les dades multimodals. A causa de l’ampli espai de paràmetre de postura inherent a les configuracions humanes, la recuperació de la postura corporal és un problema difícil que implica tractar amb diverses distorsions, inclosos els canvis en la il·luminació, oclusions parcials, canvis del punts de vista, deformacions rígides i elàstiques, i variabilitat entre les classes i dins de les classes, per a esmentar-ne unes quantes. Fins i tot amb l’alt grau de dificultat del problema, les tècniques de visió artificial modernes i les noves tendències mereixen més atenció, i s’esperen resultats prometedors en els propers anys.

 

A més, recentment s’han definit diverses subàrees, com la computació afectiva, el processament de senyals socials, l’anàlisi del comportament humà i la robòtica social. Les aplicacions potencials d’aquesta àrea de recerca compensaran els esforços que comporta: producció de TV, oci domèstic (anàlisi de continguts multimèdia), objectius d’ensenyament, recerca de sociologia, vigilància i seguretat, millora de la qualitat de vida mitjançant el monitoratge o l’assistència artificial automàtica, etc.

3 - Salut i benestar 9 - Indústria, innovació i infraestructures

Visió i cognició artificials

S’ha observat un enorme progrés en la visió artificial en els últims quatre anys, principalment a causa de l’aparició de grans bancs de dades d’imatges etiquetades, com ara ImageNet 1 i Places [2], i l’èxit d’algorismes d’aprenentatge profund quan es proven amb aquesta gran quantitat de dades. Des d’aquest punt d’inflexió, el rendiment de moltes aplicacions de visió artificial ha millorat, com és el cas del reconeixement d’escenaris, la detecció i el reconeixement d’objectes, la incorporació de llegendes en imatges, etc.

Tanmateix, malgrat aquest gran progrés, encara hi ha tasques molt difícils de solucionar per a una màquina, com ara la pregunta-resposta d’imatges, o la descripció detallada del contingut d’una imatge. La qüestió és que podem dur a terme tasques fàcilment no solament per la nostra capacitat de detectar i reconèixer objectes i llocs, sinó per la nostra capacitat de raonar sobre el que veiem. Per a ser capaç de raonar sobre alguna cosa, cal cognició. Avui dia, els ordinadors no poden fer raonaments sobre informació visual perquè els sistemes de visió informàtics no inclouen cognició artificial. Un dels obstacles principals a l’hora de desenvolupar sistemes cognitius per a la visió artificial va ser la manca de dades per a utilitzar. No obstant això, el treball recent de Visual Genome 4 presenta el primer conjunt de dades que permet el modelatge d’aquest tipus de sistemes i obre una porta a nous objectius de recerca.

Aquesta línia de recerca té per objectiu explorar de quina manera es pot aportar cognició en sistemes de visió, per a crear algorismes que puguin raonar sobre informació visual.

3 - Salut i benestar 9 - Indústria, innovació i infraestructures

Visió artificial i intel·ligència artificial (IA) emocional

En els últims anys s’ha observat un interès creixent, tant dins del món acadèmic com dins de la indústria de la visió artificial, en sistemes per a entendre la manera com la gent sent i com la informació visual afecta el nostre humor i les nostres emocions. La línia de recerca de la visió artificial i la IA emocional se centra a crear sistemes per a la comprensió d’imatges que inclouen aspectes d’intel·ligència emocional en el procés d’interpretació de la informació visual. Aquests sistemes tenen moltes aplicacions. Per exemple, es poden aplicar en la cura i l’assistència a les persones, en l’educació en línia i en la interacció entre humans i ordinadors.

 

En aquesta línia de recerca treballem amb tècniques d’aprenentatge profund avançades. La línia de recerca combina diverses qüestions de visió artificial, com l’anàlisi facial, l’anàlisi de la postura i el gest, el reconeixement d’accions, el reconeixement d’escenaris, la detecció d’objectes i el reconeixement d’atributs d’objectes/escenaris, per a extreure informació d’alt nivell a partir d’imatges i vídeos.

3 - Salut i benestar 9 - Indústria, innovació i infraestructures

Algorismes d’aprenentatge profund

El reconeixement d'objectes en imatges és un dels temes de recerca més importants en visió computacional. A partir d'una imatge o un vídeo, l'objectiu del reconeixement d'objectes és reconèixer i localitzar tots els objectes. En els últims anys, aquest tema ha experimentat un fort creixement en el seu rendiment, mitjançant l'ús de xarxes neuronals profundes (Deep Neural Networks) i grans conjunts de dades com ImageNet.

 

En els últims anys, els algorismes d’extrem a extrem han revolucionat moltes àrees de recerca, com ara la visió artificial, el processament del llenguatge natural, els jocs i la robòtica. Les tècniques d’aprenentatge profund van assolir els nivells més alts d’èxit en moltes d’aquestes tasques, atesa la seva increïble capacitat de modelar tant les característiques o filtres com la norma de classificació.

 

Els algorismes desenvolupats en aquesta línia de recerca se centraran a ampliar les arquitectures d’aprenentatge profund i a millorar les seves capacitats d’aprenentatge, en termes d’extracció de característiques invariables (rotació, traducció, deformació, escalament), eficiència computacional i paral·lelització, accelerant els temps d’aprenentatge en xarxa i connectant les imatges a les seqüències.

 

Aquests algorismes s’aplicaran a problemes reals de visió artificial en el camp de la neurociència, en col·laboració amb l’Institut de Neurociència de Princeton. Els algorismes tracten la detecció i el seguiment de rosegadors en vídeos de baixa resolució, la segmentació de la imatge i detecció d’extremitats, l’estimació de moviment de bigotis i la segmentació d’imatge amb calci d’activitat de xarxes neurals en rosegadors.