Progrès récents de la recherche sur la vision et le langage, un sous-domaine de l?intelligence artificielle qui permet d?étudier les tâches multimodales à l?intersection de la vision par ordinateur et du traitement du langage naturel.