Progrès récents de la recherche sur la vision et le langage, un sous-domaine de l’intelligence artificielle qui permet d’étudier les tâches multimodales à l’intersection de la vision par ordinateur et du traitement du langage naturel.